讯飞星火升级 3.0:整体超越 ChatGPT,2024 年将实现对标 GPT-4

距离上一个大版本仅两个月过去,科大讯飞在 1024 对外正式推出讯飞星火认知大模型 3.0 版本。

今年 5 月,讯飞星火认知大模型刚刚面世时,科大讯飞董事长刘庆峰曾立下 Flag:10 月 24 日,星火认知大模型的能力要全面对标 ChatGPT。

在今天的发布会上,刘庆峰对外正式宣告,星火 V3.0 已经实现全方位超越 ChatGPT,在中文上实现全面超越,在英文上实现对标。

相较于上一个版本,讯飞星火 3.0 版本在文本生成、语言理解,知识问答、逻辑推理、数学能力、代码能力、多模态能力等七大核心能力上继续升级,并且推出了个性化功能。

多项能力的提升,推动了更多应用场景的落地,落地价值开始彰显。在此次发布会上,讯飞对外介绍了智能编程助手 iFlyCode2.0、星火科研助手、启发互动式英语 AI 答疑辅学、青少年 AI 心理咨询、AI 健康助手等一系列细分场景应用,并对外发布了金融、汽车、运营商、工业、住建、物业、法律等十二个行业模型。

刘庆峰称,通过与华为在算力上共同合作,讯飞在半年内实现了星火大模型训练和推理效率翻番。讯飞联合华为共同发布 "飞星一号" 大模型算力平台,并启动对标 GPT-4 的更大参数规模的星火大模型训练,2024 年上半年将实现对标 GPT-4。

七大维度全面升级,整体超越 ChatGPT

从大模型本身的技术升级来看,这次讯飞星火 V3.0 在其七大核心能力上都有不同程度的提升。

其中,代码能力、数学能力、主动对话、小样本学习、多模态指令跟随、个性化等能力是此次提升的重点和亮点。

先从代码能力上看,星火 3.0 版本进一步提高了代码的项目级理解能力,大模型能够理解和执行更复杂的代码生成要求,适用场景增多,降本增效效果更加明显。

发布会上,刘庆峰展示了一个简单的 Python 生成 Prompt,要求大模型 "用 Python 代码画出一个大大的心形,然后里面大大小小的五颜六色的很多星星逐步呈现出来。"新版本大模型在代码能力上的项目理解能力被强化,不再只能执行单一的任务要求。

在全新的星火大模型对话页面,Python 能力也被单独归纳成为一个小组件,可供用户在单独环境下使用。

由于发布会上介绍,升级过后的星火大模型在 Python 代码生成能力上已经超越了 ChatGPT,但距离 GPT-4 还有一定差距。

机器之心第一时间体验了讯飞星火 V3.0,接下来我们选取一个 Python 问题 ------"编写一个 Python 程序,实现一个简单的聊天机器人,能够回答用户的问题",分别让 ChatGPT 以及星火 3.0 进行生成,最后用 GPT-4 对这两者的答案进行检验和点评。

讯飞星火 V3.0 的回答速度很快,几乎没有停顿时间:

# Python高级工程师解法
# 依赖库:chatterbot

from chatterbot import ChatBot
from chatterbot.trainers import ChatterBotCorpusTrainer

chatbot = ChatBot('Chatbot')
trainer = ChatterBotCorpusTrainer(chatbot)

# 使用英文语料库训练它
trainer.train("chatterbot.corpus.english")

# 获取用户输入
user_input = input("User: ")

# 获取机器人的回答
bot_response = chatbot.get_response(user_input)

print("Chatbot: ", bot_response)

根据 GPT-4 对此段代码验证和点评,这段代码并没有错误,并且足够简洁地完成了 Prompt 提出的问题。

接下来,同一个问题,我们比对一下 ChatGPT 的回答:

import random

# 定义聊天机器人的回答
responses = {
    "你好": "你好!有什么我可以帮助你的吗?",
    "你叫什么名字": "我是ChatGPT,一个聊天机器人。",
    "你喜欢什么食物": "我不吃东西,因为我是一个程序。",
    "再见": "再见,如果有任何问题,随时来找我!",
    "默认回答": "抱歉,我不太明白你的问题。请再问一次。",
}

# 定义聊天机器人的主要函数
def chat():
    print("你好!我是一个聊天机器人。请输入你的问题或者说 '再见' 来结束对话。")
    while True:
        user_input = input("用户: ")
        response = get_response(user_input)
        print("聊天机器人: " + response)

        if user_input == "再见":
            break

# 根据用户输入获取回答
def get_response(user_input):
    user_input = user_input.lower()
    for key in responses:
        if key in user_input:
            return responses[key]
    return responses["默认回答"]

# 运行聊天机器人程序
if __name__ == "__main__":
    chat()

GPT-4 对上述代码的点评显示,GPT3.5 所构建的代码同样是一个足够简洁且能够实现预设功能的代码,但是它可能存在 "面对复杂或意图不清的问题时不够准确" 的问题。

将两段代码进行综合对比,GPT-4 罗列了两者各自的优缺点,在能基本完成任务的前提下,两个大模型所生成的回答各有优缺点。星火 V3.0 生成的代码拥有更高的可扩展性,在更复杂的开发场景和项目制工作中,星火 V3.0 在代码生成上会更具优势。

除了代码能力,数学能力的升级也是本次讯飞星火 V3.0 的重点,大模型能够自动提炼数学规律。由于教育是科大讯飞一直以来的重点落地场景,讯飞在教育领域积累了大量数据,此次所升级的能力也将用于讯飞 AI 学习机之中。在测试中,小学、初中、高中不同难度的数学题,星火大模型 V3.0 都能够流畅回答,并且准确率为 100%。

同样的问题,ChatGPT 与星火的答案基本一致,不过解题步骤上略有繁杂。在第一个问题上,ChatGPT 在答案上多做了一步常识性筛选,将香蕉数量进行了取整。

而 GPT-4 则在这三道题中表现失常。其中,第二题求解等差数列首项和公差,GPT-4 得出了错误答案 a=2、d=2。机器之心将第二道题目单独取出提问,多次提问 GPT-4,均得到错误答案。

在多模态方面,星火 V3.0 在指令跟随与细节表达等能力上进一步提升,大模型能够理解更新颖、细节的 Prompt,并且表现地更加丰富。

在多模态能力提升的加持下,没有绘画和创作基础的普通人,也可以通过和讯飞星火大模型 V3.0 的人机互动,发挥自己的奇思妙想,进行 "儿童绘本制作"。

只需要打开 "有声绘本创作助手",随意输入你的想法,比如一只兔子想去太空冒险,然后持续跟模型对话,模型会自动扩写故事线并且根据故事进行绘画。即使在多轮对话下,故事和图片内的主要人 / 物都会自动延续所设定的 IP 特色。创作结束后,就可以导出绘本故事到本地。

除了上文提到的 ""python 大脑"、"绘本制作",在全新的讯飞星火大模型对话界面,被包装好的模版化 "助手" 已经十分丰富,还有 "法律咨询"、"文本扩写" 等等。

"直到现在,我们发现大家对大模型仍然有两个期待,一个是大模型不仅要能回答问题,还要能够就是主动提出问题,主动交互。另一个,大模型不仅要有权威知识的信息,还要有能反映个性的能力",刘庆峰提出,大模型正在从通用进化到个性。

在发布会现场,科大讯飞研究院院长刘聪要求大模型用 "孔夫子" 的人设,来为自己写作一篇特色演讲稿,AI 也可以有了人设。

更进一步,还可以上传关于自己的语料,如既往工作演讲资料,来训练一个更符合自己风格的 AI,让大模型以自己的方式来为自己写演讲稿。

如果想要更加有个人风格一些,还可以继续上传一些生活沟通记录,比如和家人的聊天记录,让大模型更懂自己的说话方式。在现场,刘聪使用自己的个人助手,给女儿写了一封有个人风格的沟通信,信里陈述的方式就是刘聪本人的说话方式。

除了可以自己训练,讯飞星火大模型 V3.0 新增的 "友伴" 功能,已经训练了一些经典影视剧和文学作品中的人设,我们可以在广场中,选择他们并跟他们聊天。

当然,在平台中内置了自定义人设功能,我们可以自己设定自己想要的 AI 人设,根据性格模拟、情绪理解、表达风格生成自己喜欢的对话对象。"这不只是聊天,还可以释放灵感、教育孩子、解放情绪",刘庆峰说。

机器之心在讯飞星火 App 尝试创建一个自己喜欢的 AI 人设。输入姓名后,可以设定它的头像、声音、随机为它增加身份描述。它的人设是一个天真无邪有着小朋友声音的小学生,它是一个火星居民,正在准备开始它的太空旅行。

还可以精调它的性格,调整外向性、抗压性、友好度等,为它打造一个你喜欢的性格特征。

最后 ,就可以顺利开启对话了。和可爱小朋友"Aliceeee"的对话过程中,"Aliceeee"自己的人设意识相对连贯,能够按照人设对问题做出反应,我们可以跟"Aliceeee"一起开太空旅行的脑洞,进行天马行空但有"Aliceeee"逻辑的想象。

此外,受益于讯飞星火大模型生态的发展,在如今的大模型对话页面,在涉及到简历生成、流程图制作、PPT 制作、文档问答等特定场景,平台可以支持打开相关插件,获得更加专业的生成服务。

以 PPT 制作为例,我打开了 PPT 制作插件,然后在对话框中输入 "请帮我制作一份介绍讯飞星火 V3.0" 的 PPT,系统识别要求后开始调用 PPT 制作插件,大约在 3 秒后,一份 PPT 文件就显示制作好了,并可供下载,生成质量能够达到基本的使用需要。

连续发布多款落地应用,将在 2024 年实现对标 GPT-4

经过过去一年的加速发展,目前国内领先厂商的自研大模型水平已基本达到 GPT3.5,下一阶段应用落地成为大模型的重点。金融、法律、教育、营销等常见的行业大模型已经在部分具体场景中发展成熟,开始产生实际价值。此次发布会上,讯飞在教育、医疗科研、代码领域发布了多款新产品。

正式发布医疗大模型,讯飞晓医 APP 为每个家庭提供健康助手

此次发布会上,讯飞正式对外发布医疗领域大模型以及搭载了医疗大模型的 "讯飞晓医" APP,集成了症状自查、报告解读、医疗信息快速查询、健康档案管理等功能。比如,当用户不知道怎么准确表达自己的病情,不知道买药该注意什么禁忌,想要快速比对自己不同时期的体检报告时,可以直接询问讯飞晓医。

和其他场景不一样,医疗场景的大模型对结果的容错率更低,出错带来的风险性更高。讯飞星火医疗大模型通过上线实际使用数据抽查 12 万例并通过国家科技信息资源综合利用与公共服务中心(STI)第三方测试数据显示,讯飞星火医疗大模型在医疗海量知识问答、医疗复杂语言理解、医疗专业文本生成、医疗诊断治疗推荐的问题回答率全面超越 GPT-4。

发布 AI 心理伙伴 "小星",帮助青少年舒缓心理困扰

AI 心理咨询师 "小星" 是科大讯飞基于星火认知大模型推出的一款帮助青少年舒缓心理困扰的多模态心理产品,它能够通过视频、语音、文字等多模态方式与青少年展开类人自由对话,理解青少年的情绪情感,表达接纳与共情,促进青少年自我觉察,并提供个性化行动建议。

"小星" 具备多模态情感识别、共情表达、寻因式提问、个性化心理指导四大核心能力,具有极其丰富的心理学知识 ------10 亿 + 条心理类数据、40 万 + 篇期刊文献、100 万 + 通脱敏心理对话案例、550 万 + 个心理评估数据。

智能编程助手 iFlyCode 升级 2.0 版本,代码能力超越 ChatGPT

持续提升的代码能力在产品上的落地效果已经十分明显。刘庆峰表示,自讯飞星火发布以来,代码能力持续升级,星火 3.0 已基本全面超越 ChatGPT,正在追赶 GPT-4。

搭载讯飞星火 V3.0 的智能编程助手 iFlvCode2。0 正式发布后,发现产品在编程的设计阶段提效 50%、开发阶段提效 37%、测试阶段提效 44%,大幅提升软件从业人员效率。

以智慧课堂的从 Windows 到 Linux 跨平台移植为例,项目代码超过 20 万行,在智能编程助手 iFlyCode 的帮助下,开发时间从传统方式在的 3 个月,缩短到了一个月。

iFlyCode 发布以来,已在京东云、软通动力等 107 家机构实现深度对接应用。今年 11 月份,几乎全国所有软件名城都会和科大讯飞开展相关合作。

发布会上,讯飞联合华为还共同发布了 "飞星一号" 大模型算力平台,此前,讯飞和华为 "联合特战队" 半年内实现星火大模型训练和推理效率均翻番。

"大模型时代的大幕才刚刚揭开,改变世界的伟大征程才刚刚开始。" 刘庆峰透露,对标 GPT-4 的更大参数规模的星火大模型正式启动训练,2024 年将实现对标 GPT-4。

相关推荐
海棠AI实验室22 分钟前
AI的进阶之路:从机器学习到深度学习的演变(一)
人工智能·深度学习·机器学习
hunteritself24 分钟前
AI Weekly『12月16-22日』:OpenAI公布o3,谷歌发布首个推理模型,GitHub Copilot免费版上线!
人工智能·gpt·chatgpt·github·openai·copilot
IT古董1 小时前
【机器学习】机器学习的基本分类-强化学习-策略梯度(Policy Gradient,PG)
人工智能·机器学习·分类
centurysee1 小时前
【最佳实践】Anthropic:Agentic系统实践案例
人工智能
mahuifa1 小时前
混合开发环境---使用编程AI辅助开发Qt
人工智能·vscode·qt·qtcreator·编程ai
四口鲸鱼爱吃盐1 小时前
Pytorch | 从零构建GoogleNet对CIFAR10进行分类
人工智能·pytorch·分类
蓝天星空1 小时前
Python调用open ai接口
人工智能·python
睡觉狂魔er1 小时前
自动驾驶控制与规划——Project 3: LQR车辆横向控制
人工智能·机器学习·自动驾驶
scan7242 小时前
LILAC采样算法
人工智能·算法·机器学习
leaf_leaves_leaf2 小时前
win11用一条命令给anaconda环境安装GPU版本pytorch,并检查是否为GPU版本
人工智能·pytorch·python