GitHub 一周热点汇总第19期(2024/04/14-04/20) ,最强的开源大模型又换人了,小羊驼Llama3一经发布热度绝对的第一,来一起看看这周的内容吧。
#1 Llama3
- 项目名称:Llama3 - 大语言模型
- GitHub 链接:github.com/meta-llama/...
- 上周 Star 数:5300+
前几天李彦宏说开源大模型会越来越落后,但是开源圈可不这么想,4月19日Meta 官宣发布了其最先进开源大型语言模型的下一代产品------Llama 3, 最强开源大模型的称号又要换人了,而这一次可以说是王者归来。
Llama 3 在 24K GPU 集群上,使用了 15T 的数据训练,提供了 8 B和 70 B的预训练和指令微调版本。Meta 官方表示,Llama3 是目前 8B 和 70B 参数尺度下最好的模型。
目前已经给出了Llama3与 Claude Sonnet、Mistral Medium 和 GPT-3.5 的对比, Llama 3 有着更好的表现。
同时我们也在 Meta 官方博客中看到,Meta 还在训练一款超过 4000 亿参数的版本,直接赶超 Claude 3。
最后整体总结下 Llama 3 的主要亮点:
- 基于超过 15T token 训练,相当于 Llama 2 数据集的 7 倍还多;
- 支持 8K 长文本,改进的 tokenizer 具有 128K token 的词汇量,可实现更好的性能;
- 在大量重要中均具有最先进性能基准
- 新能力范畴,包括增强的推理和代码能力;
- 训练效率比 Llama 2 高 3 倍;
- 带有 Llama Guard 2、Code Shield 和 CyberSec Eval 2 的新版信任和安全工具。
从开源项目的角度,Llama3发布后就快速上升,而且接下来这个速度应该会保持一段时间。
#2 coding-interview-university
- 项目名称:coding-interview-university - 程序员学习计划
- GitHub 链接:github.com/jwasham/cod...
- 上周 Star 数:6500+
本项目是一个成为软件工程师的完整计算机科学学习计划,而最大的亮点就是作者本人经过学习,最终成功的被亚马逊聘请为软件工程师,所以这算是一份成功的经验了。作者应该算是非常励志的故事,他每天学习6-8个小时,坚持数月,这对于一般人来说很难得。虽然你可能不需要像作者一样学习,但不管怎样,你需要的一切都在这里。
通过本项目的学习,也有一个非常清晰目标,就是可以符合科技巨头的面试标准,比如谷歌,亚马逊等。
下面是一些目录的内容,可以先看一下大概的情况。
项目在开始学习之前说了3点需要的基础:
- 一点写代码的基础
- 耐心
- 时间
我觉得尤其后面俩个,是最终成功必备的内容。
#3 llm.c
- 项目名称:llm.c - 手搓大模型
- GitHub 链接:github.com/karpathy/ll...
- 上周 Star 数:2700 +
本项目给我们展示了大神级的"手搓"能力,仓库的核心是一个用C语言编写的LLM训练框架,它利用了CUDA技术来实现GPU加速,从而大幅提升训练速度。这个仓库不仅包含了训练流程的核心代码,还提供了数据预处理的脚本和参考实现,使得从数据准备到模型训练的整个过程都变得简洁高效。
这个项目允许用户在没有PyTorch和cPython的情况下,仅使用纯C语言来训练大型语言模型(LLM)。llm.c项目的特点是代码量少(,编译和运行速度快,且能够精确匹配PyTorch的参考实现。
Karpathy选择GPT-2作为起点,因为它是LLM的鼻祖,是第一次将LLM技术栈以现代形式组合在一起,并且提供了模型权重。他的这项工作不仅减少了对庞大依赖库的需求,而且为LLM的训练提供了一种更轻量化和高效的方法。这对于希望在资源受限的环境中进行LLM训练的开发者和研究者来说,是一个非常有价值的贡献。
目前,项目正在进行新的内容:
- 进一步优化 CUDA 实现以匹配/超过 PyTorch 速度
- 将精度从 fp32 降低到混合精度训练
- 添加多 GPU 训练,从 DDP 开始
- 重现 GPT-2 训练运行(添加数据、评估)
- 更现代的建筑,Llama 2、Gemma、Mistral 等。
#4 drawdb
- 项目名称:drawdb - 数据库设计器
- GitHub 链接:github.com/drawdb-io/d...
- 上周 Star 数:1700+
DrawDB是一款多功能且用户友好的在线工具,允许用户轻松设计数据库实体关系。通过简单直观的界面,DrawDB使用户能够创建图表、导出SQL脚本、自定义编辑环境,而无需创建账户。
DrawDB通过提供数据库模式中实体关系的视觉表现,简化了数据库设计过程。用户可以轻松创建表格、定义列、建立关系,并且仅需点击几下就可以生成SQL脚本。该工具直观的界面适合初学者和经验丰富的数据库设计师,提供了一个设计复杂数据库结构的流畅体验。
DrawDB的能力包括:
- 导出:导出 DDL 脚本以在数据库上运行,或将图表导出为 JSON 或图像。
- 导入:导入 DDL 脚本或要生成的 JSON 文件或图表。
- 可定制的工作空间:自定义 UI 以适合您的喜好。选择视图中所需的组件。
- 键盘快捷键:使用键盘快捷键加快开发速度。
- 模板:从预先构建的模板开始。快速开始或获得设计灵感。
- 问题检测:检测并解决图中的错误,以确保脚本正确。
- 强大的编辑器:撤消、重做、复制、粘贴、复制等。添加表格、主题区域和注释。
- 关系数据库:我们支持 5 种关系数据库 - MySQL、PostgreSQL、SQLite、MariaDB、SQL Server。
- 对象关系数据库:为对象关系数据库添加自定义类型,或创建自定义 JSON 方案和别名类型。
- 演示模式:在团队会议和讨论期间在大屏幕上展示您的图表。
- 追踪全部:跟踪任务并在完成后将其标记为已完成。
#5 dify
- 项目名称: ragflow - LLM 应用开发平台
- GitHub 链接:github.com/langgenius/...
- 上周 Star 数:1400+
Dify 是一个开源 LLM 应用程序开发平台。 Dify 的直观界面结合了 AI 工作流程、RAG 管道、代理功能、模型管理、可观察性功能等,让您快速从原型转向生产。
Dify 是一个开源大语言模型 (LLM) 应用程序开发平台。它结合了后端即服务和 LLMOps 的概念,使开发人员能够快速构建生产级的生成式 AI 应用程序。即使非技术人员也可以参与人工智能应用的定义和数据操作。
通过集成构建LLM应用所需的关键技术栈,包括对数百种模型的支持、直观的Prompt编排界面、高质量的RAG引擎和灵活的Agent框架,同时提供一组易于使用的接口和API ,Dify 为开发人员节省了大量重新发明轮子的时间,让他们能够专注于创新和业务需求。
对比LangChain,Dify提供了更适合生产的、完整的解决方案------将Dify视为具有精细工程设计和软件测试的脚手架系统。以下是一个直观的能力对比:
使用 Dify 需要保证最低的配置,请确保您的机器满足以下最低系统要求:
- CPU >= 2 Core
- RAM >= 4GB
如果你正在考虑开发LLM的应用程序,那么可以来看看Dify。