大模型Weekly 03｜OpenAI o3发布；DeepSeek-V3上线即开源！

大模型Weekly 03｜OpenAI o3发布；DeepSeek-V3上线即开源！DeepSeek-V3上线即开源；OpenAI 发布高级推理模型 o3https://mp.weixin.qq.com/s/9qU_zzIv9ibFdJZ5cTocOw?token=47960959&lang=zh_CN

「青稞·大模型Weekly」，持续跟踪工业界和学术界 AI 大模型产品每周的最新进展和创新应用。

国产DeepSeek-V3首个版本上线并同步开源

首位全职提示词工程师出新题，DeepSeek V3完全答对

DeepSeek发布6710亿参数模型DeepSeek-V3首个版本并同步开源,在多项评测集上超越了阿里Qwen2.5-72B、Meta的Llama-3.1-405B等其他开源模型，并逼近GPT-4o、Claude-3.5-Sonnet等顶尖闭源模型。DeepSeek-V3在Aider多语言测试排行榜中，以48.4分排名第二，仅次于OpenAI o1的61分。而在LiveBench的测评中，DeepSeek v3是最强的开源大语言模型，并在非推理模型中，排名第二。

复制代码

详细地址:https://huggingface.co/deepseek-ai/DeepSeek-V3-Base/tree/main

IBM推出开源大型语言模型Granite3.1

能处理最多128，000个令牌。

IBM开源大语言模型 Granite 3.1版本现已发布,新版本的模型经过重新设计,采用了更加密集的架构，经12种语言 和116种编程语言数据集训练 ，处理12万亿令牌。开发者可通过Hugging Face访问，助力各行业数字化转型，推动AI技术发展。更新意味着Granite在处理复杂文本和任务时的能力得到增强,Granite 3.1包括8B和2B两款不同规模的模型，均可以检测到代理工作流程中可能出现的幻觉，为函数调用提供与 RAG 相同的责任和信任,未来几个月,IBM 将继续发布 Granite 3 系列的更新模型和功能,计划于 2025 年第一季度发布新的多模式功能。

复制代码

详情链接:https://huggingface.co/collections/ibm-granite/granite-31-language-models-6751dbbf2f3389bec5c6f02d

OpenAI 发布高级推理模型 o3

计划明年初发布o3系列，先面向安全研究人员开放预览。

12月21日,OpenAI发布迄今最强推理模型o3,共有o3和精简版o3-mini两个版本。o3在软件工程测试中准确率比o1高近47%，竞赛数学测评的准确率比o1高15%，人类博士专家级生化物测试中准确率比o1高近13%,AGI相关测试中，o3最佳成绩87.5，超过人类水平门槛85，显示迈向类人智能取得突破,对比之下，GPT-3的评测结果为0%，GPT-4o为5%，而o3一举将成绩提升到87.5%，o3的最佳成绩超过了标志着达到人类水平的门槛85%。

OpenAI计划明年初发布o3系列模型，安全研究人员可以注册访问o3 和 o3-mini的预览。

复制代码

详情链接:https://openai.com/index/early-access-for-safety-testing/#how-to-apply

百川智能发布全链路领域增强大模型Baichuan4-Finance

显著提高了金融场景的整体可用性

百川智能于2024年12月23日正式发布全链路领域增强大模型Baichuan4-Finance。该模型通过高质量金融数据集和行业首创的领域自约束训练方案，实现了金融能力和通用能力的同步提升，显著提高了金融场景的整体可用性。

Baichuan4-Finance在多个评测体系中表现优异，在银行、保险、基金、证券等多个资格认证领域的准确率均突破了95%，整体准确率93.62%，领先GPT-4o和XuanYuan3-70B-Chat，超出GPT-4o近20%。

复制代码

详情链接:https://platform.baichuan-ai.com/finPage

阶跃星辰发布图像生成模型Step-1X-Medium

针对东方人物形象进行深度优化，能够更好地捕捉国风人物神韵

12月26日阶跃星辰官方推出 Step-1X-Medium 增强 AI 模型，显著提升生成速度、理解能力、细节质感以及创作功能，目标成为创作者的得力助手,全新升级的 Step-1X-Medium 能够更好地理解用户输入的指令，生成更契合指令描述的图像作品。针对东方人物形象进行了深度优化，能够更好地捕捉国风人物神韵,同时，Step-1X-Medium 推出了"垫图"功能，创作者只需上传一张基础图片，模型就可以快速理解画面结构和风格，在原图的创意基础上根据指令进行细节增强、风格转化或进行局部精修的操作。

复制代码

详情链接:https://platform.stepfun.com/

阿里通义千问Qwen团队宣布推出 QVQ-72B-Preview开源视觉推理模型

模型专注增强视觉推理

12 月 25 日,阿里通义千问 Qwen 团队宣布基于 Qwen2-VL-72B 构建，推出 QVQ-72B-Preview 开源视觉推理模型，能够像物理学大师一样，面对复杂的物理问题，沉着冷静地通过逻辑推理找到解决方案。测试结果显示，QVQ-72B-Preview 在 MMMU 基准测试中取得了 70.3 的分数，显著超越了 Qwen2-VL-72B-Instruct。

此外，在MathVista.MathVision.OlympiadBench三个专注于数学和科学问题的基准测试中，该模型表现出色，有效缩小了与领先的最先进的 o1 模型之间的差距。但存在语言混合、递归推理、安全伦理等问题，无法完全替代Qwen2-VL-72B。

复制代码

详情链接:https://huggingface.co/spaces/Qwen/QVQ-72B-preview

腾讯研究推出新型翻译模型 DRT-o1

重塑文学文本翻译

12月26日，腾讯研究院推出了一款新型AI模型------DRT-o1系列，该模型采用长思维链(CoT)技术，旨在提高文学作品的翻译质量，特别是在处理比喻和隐喻等修辞手法方面。研究团队从古腾堡计划中筛选出400本英文公共领域书籍，提取了577600个句子，并从中挑选出63000个包含明喻和隐喻的句子，用于训练DRT-o1模型。

DRT-o1模型采用了一种创新的多智能体框架，包括翻译员、顾问和评估员三个角色。这一框架通过关键词翻译、初步翻译和翻译精炼循环三个步骤，不断提升翻译质量。最终的翻译结果由GPT-4o进行润色，确保流畅性和可读性。DRT-o1系列包括DRT-o1-7B和DRT-o1-14B两个版本，实验结果显示，这两个版本在翻译质量上均有显著提升。

复制代码

详情链接:https://github.com/krystalan/DRT-o1

智谱AI旗下GLM-PC基座模型CogAgent-9B已开源

让 AI 智能体"看懂"屏幕

智谱技术团12月26日发宣布开源 GLM-PC 的基座模型 CogAgent-9B-20241220，基于 GLM-4V-9B 训练，专用于智能体（Agent）任务。该模型仅需屏幕截图作为输入（无需 HTML 等文本表征），便能根据用户指定的任意任务，结合历史操作，预测下一步的 GUI 操作。得益于屏幕截图和 GUI 操作的普适性，CogAgent 可广泛应用于各类基于 GUI 交互的场景，如个人电脑、手机、车机设备等。

复制代码

GitHub仓库：https://github.com/THUDM/CogAgent
HuggingFace模型库：https://huggingface.co/THUDM/cogagent-9b-20241220