语言模型

装不满的克莱因瓶2 小时前
网络·人工智能·python·深度学习·语言模型·自然语言处理
自然语言处理发展历史——从规则系统到大语言模型的演进之路目录一、前言二、NLP发展的整体阶段三、第一阶段:规则驱动时代(1950s-1990s)(一)核心思想
装不满的克莱因瓶4 小时前
人工智能·python·深度学习·算法·机器学习·语言模型·自然语言处理
RLHF中的PPO算法——大语言模型对齐优化的核心引擎目录一、前言二、RLHF中的PPO位置(一)整体流程(二)直观理解三、什么是PPO(一)一句话理解(二)核心目标
AndrewHZ5 小时前
人工智能·深度学习·语言模型·开源·llm·transformer·基座模型
【LLM技术全景】开源大模型生态:如何选择适合你的基座模型?摘要:本文是《LLM技术全景:从Token到部署》系列第六篇。随着LLaMA开源引爆生态,现在已有数十个开源大模型可供选择。但"选择困难症"也随之而来:LLaMA、ChatGLM、Qwen、DeepSeek、Mistral……到底哪个更适合我的项目?本期将系统对比主流开源模型的技术特点、中文能力、部署成本,并提供一套"模型选择决策树",帮助开发者在2026年做出最合适的技术选型。
网安蟹佬霸8 小时前
语言模型·回归·开源
Google开源DiffusionGemma:26B MoE扩散语言模型,放弃自回归实现4倍推理加速2026年6月11日,Google正式发布实验性开源模型DiffusionGemma,以Apache 2.0许可证开放。这是一款基于文本扩散(Text Diffusion)机制构建的大语言模型,采用26B参数的MoE(Mixture of Experts,混合专家)架构,推理时仅激活约3.8B参数。与传统自回归(Autoregressive)大语言模型逐token顺序生成的方式不同,DiffusionGemma通过并行去噪的方式输出文本,每次前向传播可并行生成256个token。在单张NVIDIA H10
半亩码田8 小时前
人工智能·语言模型·ai编程
小米MiMo Code深度解析:基于OpenCode的长程编程Agent,三项Benchmark超越Claude Code小米MiMo团队发布了MiMo Code——一款基于OpenCode构建的终端编程Agent,MIT开源,限时免费,三项Benchmark全面超越Claude Code + Claude Sonnet 4.6。本文深度解析其技术架构、核心能力和评测数据。
我认不到你8 小时前
java·开发语言·人工智能·深度学习·ai·语言模型·开源
【开源、教程】RAG全流程实现(java+完整代码):第二弹本教程的环境基于 jdk8 + langchain4j 0.35教程源码放在这里了:worenbudaoni/rag-study-helper: 一个学习检索增强生成的全流程助手
kaico20189 小时前
语言模型
【无标题】大语言模型(Large Language Model, LLM)是基于Transformer架构、在海量文本数据上预训练的超大规模语言模型,具备理解和生成自然语言的能力。
器灵科技10 小时前
大数据·人工智能·gpt·阿里云·ai·语言模型
DeepSeek V4 Pro宣称:超GPT-5.5+永久降价75%5月下旬,DeepSeek放出了一个消息:V4-Pro API永久降价75%,输入价格从12元/百万Tokens直降到3元,输出从24元降到6元。缓存命中场景的调用价格更是降至0.025元/百万Tokens,降幅高达97.5%。
我认不到你10 小时前
java·开发语言·人工智能·深度学习·ai·语言模型·开源
【开源、教程】RAG全流程实现(java+完整代码):第一弹本教程的环境基于 jdk8 + langchain4j 0.35教程源码放在这里了: worenbudaoni/rag-study-helper: 一个学习检索增强生成的全流程助手
羊羊小栈10 小时前
人工智能·语言模型·自然语言处理·毕业设计·neo4j·大作业
基于GraphRAG的地质矿产知识管理系统(Neo4j_大语言模型)b站演示视频与部署教程视频(点击这里) https://www.bilibili.com/video/BV1EXEi6EEZB/?share_source=copy_web&vd_source=31c839f46a9a845dd6dd641cbd5c2ac1
Kobebryant-Manba11 小时前
人工智能·学习·语言模型
学习语言模型unigram-bigram-trigram 因为人只能根据已发生的事去推测未来,用频率去代替概率一元语法即朴素贝叶斯假设,这里马尔科夫假设(参考前面文章)就是假设现在x受到前面几个影响,三元语法就是受到前面两个
谷歌玩家1 天前
语言模型
如何让大模型稳定输出JSON格式数据
清辞8531 天前
大数据·人工智能·学习·语言模型
Coze从入门到实战---第一、二章什么是AI Agent?AI Agent是能够感知环境、自主决策、使用工具完成任务的智能体Agent和大模型的区别是什么?
Samooyou1 天前
人工智能·python·ai·语言模型
大模型微调(Fine Tuning)传统函数与大模型的本质对比:普通函数: f(x) = y (给定输入 x,通过固定数学规则,算出确定的输出 y)
东方佑1 天前
人工智能·语言模型·自然语言处理
分形递归状态机 (FRSM) 实验报告-或将实现llm无限上下文分形递归状态机 (Fractal Recursive State Machine, FRSM) 是一种新型自回归语言模型架构,其核心原理是:
MartinYeung51 天前
人工智能·学习·语言模型
[论文学习]透过增强式 Few-Shot Learning 实现高效 PII 从大型语言模型中提取大型语言模型(LLMs)在训练时大量摄取网路资料,其中包含大量个人识别资讯(PII),如姓名、电子邮件、电话号码、职业等。这些 PII 可能来自公开来源、资料外洩或未经同意的收集,导致模型「记住」并能在提示下重现敏感资料,带来严重隐私风险(例如 spear-phishing、骚扰或身分盗用)。
仙女修炼史1 天前
人工智能·语言模型·自然语言处理
初代词向量:A Neural Probabilistic Language Model不要把词看成离散符号,而是映射到一个连续向量里,例如cat -> [0.2, 0.1, 0.01,…] m是向量的维度,相似的词应该有相似向。可以这样理解,每个词都有自己的向量,词与词之间的相似性,在向量空间中,以距离近的形式表现出来。
AndrewHZ2 天前
人工智能·gpt·深度学习·语言模型·llm·openai·规模定律
【LLM技术全景】规模定律与模型演进:为什么模型越大越强?摘要:本文是《LLM技术全景:从Token到部署》系列第五篇。大语言模型最令人震撼的现象之一是"规模定律"(Scaling Law)——模型性能随参数量、数据量、计算量的增加而可预测地提升。本期将深入解析Scaling Law的数学原理(Kaplan定律、Chinchilla定律)、模型演进的关键里程碑(BERT→GPT→LLaMA),以及为什么"大力出奇迹"在Transformer架构下依然有效。
醒醒该学习了!2 天前
人工智能·语言模型·自然语言处理
大语言模型(理论篇)人类输入的是自然语言,模型真正处理的是数字。文本进入大模型通常经历以下步骤:这条链路里最重要的认识是:大模型并不是“直接读汉字或英文单词”,而是先把文本转换成可计算的数字表示,再进行预测和生成。