AI大模型日报#0409:Llama 3下周发布、特斯联20亿融资、Karpathy新项目

导读: 欢迎阅读《AI大模型日报》,内容基于Python爬虫和LLM自动生成。目前采用"文心一言"生成了每条资讯的摘要。

标题: 120亿Stable LM 2上线即开源!2万亿token训练,碾压Llama 2 70B

摘要: Stable LM 2 12B参数版本发布,性能更强,包含基础模型和指令微调模型,训练于七种多语言和2万亿Token数据集上。在基准测试中赶超Llama 2 70B等开源模型,兼顾性能、效率、内存和速度。虽然目前支持4K上下文窗口,但Stability AI将很快推出更长版本。Stable LM 2 12B是一个高效开源模型,专为处理多语言任务设计。
网址: 120亿Stable LM 2上线即开源!2万亿token训练,碾压Llama 2 70B|基准测试|模型|训练_新浪新闻

标题: AI大模型搜索之战开启,胜出黑马竟是ta?

摘要: 要点提炼: ChatGPT等AI工具的免注册使用引发了关于AI取代搜索引擎的讨论。互联网可能正进入Gen AI时代,AI工具正在改变我们查询和消费信息的方式。然而,AI要取代搜索引擎,需确保信息来源的相关性和可信度,以及时效性。文章提出通过实测PK来比较AI大模型和搜索引擎在各项任务上的表现,首先考核的就是时效性。
网址: AI大模型搜索之战开启,胜出黑马竟是ta?|模型|搜索引擎|谷歌_新浪新闻

标题: OpenAI创始大神手搓千行C代码训练GPT,附PyTorch迁移教程

摘要: OpenAI大神卡帕西用纯C语言手写了千行代码来训练GPT模型,发布了几小时内就获得2.3k星。该项目可立即编译运行,与PyTorch完全兼容,并提供了从PyTorch迁移到C的教程。卡帕西使用了GPT-2作为示例,但该项目也适用于Llama 2和Gemma等大模型。他手动实现了每个层的前向/反向传播,该项目在C/CUDA上训练LLM的速度接近PyTorch,通过使用SIMD指令加速了CPU版本。
网址: OpenAI创始大神手搓千行C代码训练GPT,附PyTorch迁移教程 | 量子位

标题: 特斯联完成20亿元D轮融资,推领域大模型,促AGI落地
摘要: 特斯联完成20亿D轮融资,由国内外知名投资机构和产业基金共同领投,多家新老股东跟投。资金将用于多模态能力的大模型在多场景应用、智算基础设施建设和技术壁垒构建。特斯联提出"大模型+系统"产业落地路径,通过领域模型和场景定义系统融合多模态数据和知识,实现大模型在场景中快速落地。此举有助于特斯联在AIoT领域形成产业化、集群化效应,提升国际竞争力。
网址: 特斯联完成20亿元D轮融资,推领域大模型,促AGI落地 | 机器之心

标题: Meta 下周发布 Llama3 两个版本!
摘要: Meta计划下周推出Llama 3的两个小版本,作为今年夏天推出的最大版本的先行者。这两个模型虽不是多模态,但更便宜、运行更快,对移动设备上构建AI软件的开发者有价值。Llama 3旨在与OpenAI的GPT-4竞争,最大版本将能理解和生成文本和图像。此前,Meta发布了三个版本的Llama 2,最大版本拥有700亿个参数。
网址: Meta 下周发布 Llama3 两个版本!|meta|应用程序|插件功能|算法_手机网易网

相关推荐
Juicedata7 分钟前
JuiceFS v1.3-Beta2:集成 Apache Ranger,实现更精细化的权限控制
运维·人工智能·ai
Work(沉淀版)2 小时前
DAY 40
人工智能·深度学习·机器学习
蓦然回首却已人去楼空3 小时前
Build a Large Language Model (From Scratch) 序章
人工智能·语言模型·自然语言处理
CM莫问3 小时前
<论文>(微软)WINA:用于加速大语言模型推理的权重感知神经元激活
人工智能·算法·语言模型·自然语言处理·大模型·推理加速
拾忆-eleven3 小时前
NLP学习路线图(二十六):自注意力机制
人工智能·深度学习
MYH5164 小时前
在NLP文本处理中,将字符映射到阿拉伯数字(构建词汇表vocab)的核心目的和意义
人工智能·深度学习·自然语言处理
要努力啊啊啊4 小时前
KV Cache:大语言模型推理加速的核心机制详解
人工智能·语言模型·自然语言处理
mzlogin6 小时前
DIY|Mac 搭建 ESP-IDF 开发环境及编译小智 AI
人工智能
归去_来兮6 小时前
知识图谱技术概述
大数据·人工智能·知识图谱
就是有点傻6 小时前
VM图像处理之图像二值化
图像处理·人工智能·计算机视觉