对比使用DeepSeek与文新一言,了解DeepSeek的关键技术论文

DeepSeek是国内大模型技术的新秀,最近也在业界和媒体界火爆出圈,所以想学习一下其技术。

大模型时代,学习知识,当然首先想到利用大模型,由于在过去一年,对DeepSeek使用不多,所以想和文新一言(4.0 Turbo)对比使用。

通过对比,针对同一个问题"DeepSeek发扬开源文化,将核心技术都以论文形式发表,关键的技术论文都有哪些?",文心一言效果明显好很多,但是这可能和DeepSeek的"联网搜索暂不可用"有关系。

以下是使用结果
文新一言问答结果:



DeepSeek问答结果:



对以上回答结果进行核实

文新一言回答的四篇论文均为真实论文,结果正确,且按照时间排序,体验较好

DeepSeek回答的结果中

《DeepSeek-MoE: Towards Ultimate Specialization in Mixture-of-Experts Language Models》是正确的

其他几篇论文,通过搜索引擎,均未搜索到相应的地址,应为虚幻回答

《DeepSeek-Long: Advancing LLMs' Context Window to 128K through Positional Interpolation and Attention Optimization》

《DeepSeek-R1: Retrieval-Augmented LLM with Real-Time Knowledge Update》

《DeepSeek-Math: Improving Mathematical Reasoning in LLMs via Symbolic Supervision》

相关推荐
远上寒山11 小时前
FlashAttention 原理与工程实践:从 IO-aware 到 H100 上的 1 PFLOPs/s
大模型·注意力机制·flash_attention·online softmax·shared memory
有点不太正常14 小时前
Differentially Private Synthetic Text Generation for RAG——论文阅读
论文阅读·大模型·llm·rag
山顶夕景15 小时前
【LLM】大模型vibe coding(cursor、copilot、comate)
大模型·copilot·coding·vibe coding·代码模型
杀生丸学AI18 小时前
【三维重建】即插即用的3DGS的PDE优化:高质量渲染和重建
人工智能·3d·大模型·aigc·3dgs·高斯泼溅·空间智能
想躺平的咸鱼干1 天前
远程MCP的调用和阿里云生态的知识库和工作流的使用
阿里云·大模型·云计算·idea·格式化输出·mcp
haogexiaole1 天前
什么是语言模型
大模型
泥烟2 天前
使用Milvus和DeepSeek构建RAG demo
大模型·milvus·deepseek
CoderJia程序员甲2 天前
GitHub 热榜项目 - 日榜(2025-10-09)
ai·开源·大模型·github·ai教程
Wild_Pointer.2 天前
面向Qt/C++开发工程师的Ai提示词(附Trae示例)
人工智能·ai·大模型
喜欢吃豆2 天前
从潜在空间到实际应用:Embedding模型架构与训练范式的综合解析
python·自然语言处理·架构·大模型·微调·embedding