大模型Weekly 03|OpenAI o3发布;DeepSeek-V3上线即开源!

大模型Weekly 03|OpenAI o3发布;DeepSeek-V3上线即开源!DeepSeek-V3上线即开源;OpenAI 发布高级推理模型 o3https://mp.weixin.qq.com/s/9qU_zzIv9ibFdJZ5cTocOw?token=47960959&lang=zh_CN

青稞·大模型Weekly」,持续跟踪工业界和学术界 AI 大模型产品每周的最新进展和创新应用。

国产DeepSeek-V3首个版本上线并同步开源

首位全职提示词工程师出新题,DeepSeek V3完全答对

DeepSeek发布6710亿参数模型DeepSeek-V3首个版本并同步开源,在多项评测集上超越了阿里Qwen2.5-72B、Meta的Llama-3.1-405B等其他开源模型,并逼近GPT-4o、Claude-3.5-Sonnet等顶尖闭源模型。DeepSeek-V3在Aider多语言测试排行榜中,以48.4分排名第二,仅次于OpenAI o1的61分。而在LiveBench的测评中,DeepSeek v3是最强的开源大语言模型,并在非推理模型中,排名第二。

详细地址:https://huggingface.co/deepseek-ai/DeepSeek-V3-Base/tree/main

IBM推出开源大型语言模型Granite3.1

能处理最多128,000个令牌。

IBM开源大语言模型 Granite 3.1版本现已发布,新版本的模型经过重新设计,采用了更加密集的架构,经12种语言116种编程语言数据集训练 ,处理12万亿令牌。开发者可通过Hugging Face访问,助力各行业数字化转型,推动AI技术发展。更新意味着Granite在处理复杂文本和任务时的能力得到增强,Granite 3.1包括8B和2B两款不同规模的模型,均可以检测到代理工作流程中可能出现的幻觉,为函数调用提供与 RAG 相同的责任和信任,未来几个月,IBM 将继续发布 Granite 3 系列的更新模型和功能,计划于 2025 年第一季度发布新的多模式功能。

详情链接:https://huggingface.co/collections/ibm-granite/granite-31-language-models-6751dbbf2f3389bec5c6f02d

OpenAI 发布高级推理模型 o3

计划明年初发布o3系列,先面向安全研究人员开放预览。

12月21日,OpenAI发布迄今最强推理模型o3,共有o3和精简版o3-mini两个版本。o3在软件工程测试中准确率比o1高近47%,竞赛数学测评的准确率比o1高15%,人类博士专家级生化物测试中准确率比o1高近13%,AGI相关测试中,o3最佳成绩87.5,超过人类水平门槛85,显示迈向类人智能取得突破,对比之下,GPT-3的评测结果为0%,GPT-4o为5%,而o3一举将成绩提升到87.5%,o3的最佳成绩超过了标志着达到人类水平的门槛85%。

OpenAI计划明年初发布o3系列模型,安全研究人员可以注册访问o3 和 o3-mini的预览。

详情链接:https://openai.com/index/early-access-for-safety-testing/#how-to-apply

百川智能发布全链路领域增强大模型Baichuan4-Finance

显著提高了金融场景的整体可用性

百川智能于2024年12月23日正式发布全链路领域增强大模型Baichuan4-Finance。该模型通过高质量金融数据集和行业首创的领域自约束训练方案,实现了金融能力和通用能力的同步提升,显著提高了金融场景的整体可用性。

Baichuan4-Finance在多个评测体系中表现优异,在银行、保险、基金、证券等多个资格认证领域的准确率均突破了95%,整体准确率93.62%,领先GPT-4o和XuanYuan3-70B-Chat,超出GPT-4o近20%。

详情链接:https://platform.baichuan-ai.com/finPage

阶跃星辰发布图像生成模型Step-1X-Medium

针对东方人物形象进行深度优化,能够更好地捕捉国风人物神韵

12月26日阶跃星辰官方推出 Step-1X-Medium 增强 AI 模型,显著提升生成速度、理解能力、细节质感以及创作功能,目标成为创作者的得力助手,全新升级的 Step-1X-Medium 能够更好地理解用户输入的指令,生成更契合指令描述的图像作品。针对东方人物形象进行了深度优化,能够更好地捕捉国风人物神韵,同时,Step-1X-Medium 推出了"垫图"功能,创作者只需上传一张基础图片,模型就可以快速理解画面结构和风格,在原图的创意基础上根据指令进行细节增强、风格转化或进行局部精修的操作。

详情链接:https://platform.stepfun.com/

阿里通义千问Qwen团队宣布推出 QVQ-72B-Preview开源视觉推理模型

模型专注增强视觉推理

12 月 25 日,阿里通义千问 Qwen 团队宣布基于 Qwen2-VL-72B 构建,推出 QVQ-72B-Preview 开源视觉推理模型,能够像物理学大师一样,面对复杂的物理问题,沉着冷静地通过逻辑推理找到解决方案。测试结果显示,QVQ-72B-Preview 在 MMMU 基准测试中取得了 70.3 的分数,显著超越了 Qwen2-VL-72B-Instruct。

此外,在MathVista.MathVision.OlympiadBench三个专注于数学和科学问题的基准测试中,该模型表现出色,有效缩小了与领先的最先进的 o1 模型之间的差距。但存在语言混合、递归推理、安全伦理等问题,无法完全替代Qwen2-VL-72B。

详情链接:https://huggingface.co/spaces/Qwen/QVQ-72B-preview

腾讯研究推出新型翻译模型 DRT-o1

重塑文学文本翻译

12月26日,腾讯研究院推出了一款新型AI模型------DRT-o1系列,该模型采用长思维链(CoT)技术,旨在提高文学作品的翻译质量,特别是在处理比喻和隐喻等修辞手法方面。研究团队从古腾堡计划中筛选出400本英文公共领域书籍,提取了577600个句子,并从中挑选出63000个包含明喻和隐喻的句子,用于训练DRT-o1模型。

DRT-o1模型采用了一种创新的多智能体框架,包括翻译员、顾问和评估员三个角色。这一框架通过关键词翻译、初步翻译和翻译精炼循环三个步骤,不断提升翻译质量。最终的翻译结果由GPT-4o进行润色,确保流畅性和可读性。DRT-o1系列包括DRT-o1-7B和DRT-o1-14B两个版本,实验结果显示,这两个版本在翻译质量上均有显著提升。

详情链接:https://github.com/krystalan/DRT-o1

智谱AI旗下GLM-PC基座模型CogAgent-9B已开源

让 AI 智能体"看懂"屏幕

智谱技术团12月26日发宣布开源 GLM-PC 的基座模型 CogAgent-9B-20241220,基于 GLM-4V-9B 训练,专用于智能体(Agent)任务。该模型仅需屏幕截图作为输入(无需 HTML 等文本表征),便能根据用户指定的任意任务,结合历史操作,预测下一步的 GUI 操作。 得益于屏幕截图和 GUI 操作的普适性,CogAgent 可广泛应用于各类基于 GUI 交互的场景,如个人电脑、手机、车机设备等。

GitHub仓库:https://github.com/THUDM/CogAgent
HuggingFace模型库:https://huggingface.co/THUDM/cogagent-9b-20241220
相关推荐
kris00093 分钟前
人工智能知识分享第三天-机器学习中交叉验证和网格搜索
人工智能·深度学习·机器学习
当交通遇上机器学习11 分钟前
超越局部损失函数的预测-优化方法
人工智能·机器学习
因_果_律26 分钟前
AWS re:Invent 2024 - Dr. Werner Vogels 主题演讲
人工智能·科技·云计算·aws·亚马逊云科技·re invent
视觉人机器视觉1 小时前
halcon中的BLOB与灰度直方图的分析与理解
人工智能·深度学习·算法·计算机视觉·c#·自动化
CM莫问1 小时前
神经网络的初始化方式都有哪些?
人工智能·python·深度学习·神经网络·算法·torch·权重初始化
阿正的梦工坊1 小时前
PyTorch 自动混合精度AMP Grad Scaler 源码解析:_unscale_grads_ 与 unscale_ 函数
人工智能·pytorch·python
编码小哥1 小时前
OpenCV调整图像亮度和对比度
人工智能·opencv·计算机视觉
前网易架构师-高司机2 小时前
铁路轨道缺陷数据集,4278张原始图片,支持YOLO,PASICAL VOC XML,COCO JSON格式的标注,可识别是否有裂缝,和间隙缺陷
xml·人工智能·yolo
WBingJ3 小时前
机器学习基础-卷积的计算
人工智能·深度学习·机器学习
好评笔记3 小时前
多模态论文笔记——CogVLM和CogVLM2
论文阅读·人工智能·深度学习·机器学习·aigc·transformer·cogvlm