对比使用DeepSeek与文新一言,了解DeepSeek的关键技术论文

DeepSeek是国内大模型技术的新秀,最近也在业界和媒体界火爆出圈,所以想学习一下其技术。

大模型时代,学习知识,当然首先想到利用大模型,由于在过去一年,对DeepSeek使用不多,所以想和文新一言(4.0 Turbo)对比使用。

通过对比,针对同一个问题"DeepSeek发扬开源文化,将核心技术都以论文形式发表,关键的技术论文都有哪些?",文心一言效果明显好很多,但是这可能和DeepSeek的"联网搜索暂不可用"有关系。

以下是使用结果
文新一言问答结果:



DeepSeek问答结果:



对以上回答结果进行核实

文新一言回答的四篇论文均为真实论文,结果正确,且按照时间排序,体验较好

DeepSeek回答的结果中

《DeepSeek-MoE: Towards Ultimate Specialization in Mixture-of-Experts Language Models》是正确的

其他几篇论文,通过搜索引擎,均未搜索到相应的地址,应为虚幻回答

《DeepSeek-Long: Advancing LLMs' Context Window to 128K through Positional Interpolation and Attention Optimization》

《DeepSeek-R1: Retrieval-Augmented LLM with Real-Time Knowledge Update》

《DeepSeek-Math: Improving Mathematical Reasoning in LLMs via Symbolic Supervision》

相关推荐
大模型之路2 天前
大模型(LLM)工程师实战之路(含学习路线图、书籍、课程等免费资料推荐)
人工智能·大模型·llm
zaim12 天前
计算机的错误计算(二百二十五)
人工智能·ai·大模型·llm·错误·error·误差
振华OPPO2 天前
DeepSeek大模型技术解析:从架构到应用的全面探索
深度学习·神经网络·大模型·deepseek
Always_Shine4 天前
llama-2-7b权重文件转hf格式及模型使用
深度学习·神经网络·自然语言处理·大模型·llama2
蛐蛐蛐4 天前
在Ubuntu上用Llama Factory命令行微调Qwen2.5的简单过程
人工智能·大模型·llama
好评笔记4 天前
多模态论文笔记——TECO
论文阅读·人工智能·深度学习·机器学习·面试·大模型·aigc
好评笔记5 天前
多模态论文笔记——VDT
论文阅读·深度学习·机器学习·大模型·aigc·transformer·面试八股
微学AI5 天前
GPU算力平台|在GPU算力平台部署可图大模型Kolors的应用实战教程
人工智能·大模型·llm·gpu算力
木亦汐丫6 天前
大模型从零开始——提示工程 Prompt
大模型·prompt·cot·思维链·上下文学习·icl·post-training