技术栈
语言模型
装不满的克莱因瓶
2 小时前
网络
·
人工智能
·
python
·
深度学习
·
语言模型
·
自然语言处理
自然语言处理发展历史——从规则系统到大语言模型的演进之路
目录一、前言二、NLP发展的整体阶段三、第一阶段:规则驱动时代(1950s-1990s)(一)核心思想
装不满的克莱因瓶
4 小时前
人工智能
·
python
·
深度学习
·
算法
·
机器学习
·
语言模型
·
自然语言处理
RLHF中的PPO算法——大语言模型对齐优化的核心引擎
目录一、前言二、RLHF中的PPO位置(一)整体流程(二)直观理解三、什么是PPO(一)一句话理解(二)核心目标
AndrewHZ
5 小时前
人工智能
·
深度学习
·
语言模型
·
开源
·
llm
·
transformer
·
基座模型
【LLM技术全景】开源大模型生态:如何选择适合你的基座模型?
摘要:本文是《LLM技术全景:从Token到部署》系列第六篇。随着LLaMA开源引爆生态,现在已有数十个开源大模型可供选择。但"选择困难症"也随之而来:LLaMA、ChatGLM、Qwen、DeepSeek、Mistral……到底哪个更适合我的项目?本期将系统对比主流开源模型的技术特点、中文能力、部署成本,并提供一套"模型选择决策树",帮助开发者在2026年做出最合适的技术选型。
网安蟹佬霸
8 小时前
语言模型
·
回归
·
开源
Google开源DiffusionGemma:26B MoE扩散语言模型,放弃自回归实现4倍推理加速
2026年6月11日,Google正式发布实验性开源模型DiffusionGemma,以Apache 2.0许可证开放。这是一款基于文本扩散(Text Diffusion)机制构建的大语言模型,采用26B参数的MoE(Mixture of Experts,混合专家)架构,推理时仅激活约3.8B参数。与传统自回归(Autoregressive)大语言模型逐token顺序生成的方式不同,DiffusionGemma通过并行去噪的方式输出文本,每次前向传播可并行生成256个token。在单张NVIDIA H10
半亩码田
8 小时前
人工智能
·
语言模型
·
ai编程
小米MiMo Code深度解析:基于OpenCode的长程编程Agent,三项Benchmark超越Claude Code
小米MiMo团队发布了MiMo Code——一款基于OpenCode构建的终端编程Agent,MIT开源,限时免费,三项Benchmark全面超越Claude Code + Claude Sonnet 4.6。本文深度解析其技术架构、核心能力和评测数据。
我认不到你
8 小时前
java
·
开发语言
·
人工智能
·
深度学习
·
ai
·
语言模型
·
开源
【开源、教程】RAG全流程实现(java+完整代码):第二弹
本教程的环境基于 jdk8 + langchain4j 0.35教程源码放在这里了:worenbudaoni/rag-study-helper: 一个学习检索增强生成的全流程助手
kaico2018
9 小时前
语言模型
【无标题】
大语言模型(Large Language Model, LLM)是基于Transformer架构、在海量文本数据上预训练的超大规模语言模型,具备理解和生成自然语言的能力。
器灵科技
10 小时前
大数据
·
人工智能
·
gpt
·
阿里云
·
ai
·
语言模型
DeepSeek V4 Pro宣称:超GPT-5.5+永久降价75%
5月下旬,DeepSeek放出了一个消息:V4-Pro API永久降价75%,输入价格从12元/百万Tokens直降到3元,输出从24元降到6元。缓存命中场景的调用价格更是降至0.025元/百万Tokens,降幅高达97.5%。
我认不到你
10 小时前
java
·
开发语言
·
人工智能
·
深度学习
·
ai
·
语言模型
·
开源
【开源、教程】RAG全流程实现(java+完整代码):第一弹
本教程的环境基于 jdk8 + langchain4j 0.35教程源码放在这里了: worenbudaoni/rag-study-helper: 一个学习检索增强生成的全流程助手
羊羊小栈
10 小时前
人工智能
·
语言模型
·
自然语言处理
·
毕业设计
·
neo4j
·
大作业
基于GraphRAG的地质矿产知识管理系统(Neo4j_大语言模型)
b站演示视频与部署教程视频(点击这里) https://www.bilibili.com/video/BV1EXEi6EEZB/?share_source=copy_web&vd_source=31c839f46a9a845dd6dd641cbd5c2ac1
Kobebryant-Manba
11 小时前
人工智能
·
学习
·
语言模型
学习语言模型
unigram-bigram-trigram 因为人只能根据已发生的事去推测未来,用频率去代替概率一元语法即朴素贝叶斯假设,这里马尔科夫假设(参考前面文章)就是假设现在x受到前面几个影响,三元语法就是受到前面两个
谷歌玩家
1 天前
语言模型
如何让大模型稳定输出JSON格式数据
清辞853
1 天前
大数据
·
人工智能
·
学习
·
语言模型
Coze从入门到实战---第一、二章
什么是AI Agent?AI Agent是能够感知环境、自主决策、使用工具完成任务的智能体Agent和大模型的区别是什么?
Samooyou
1 天前
人工智能
·
python
·
ai
·
语言模型
大模型微调(Fine Tuning)
传统函数与大模型的本质对比:普通函数: f(x) = y (给定输入 x,通过固定数学规则,算出确定的输出 y)
东方佑
1 天前
人工智能
·
语言模型
·
自然语言处理
分形递归状态机 (FRSM) 实验报告-或将实现llm无限上下文
分形递归状态机 (Fractal Recursive State Machine, FRSM) 是一种新型自回归语言模型架构,其核心原理是:
MartinYeung5
1 天前
人工智能
·
学习
·
语言模型
[论文学习]透过增强式 Few-Shot Learning 实现高效 PII 从大型语言模型中提取
大型语言模型(LLMs)在训练时大量摄取网路资料,其中包含大量个人识别资讯(PII),如姓名、电子邮件、电话号码、职业等。这些 PII 可能来自公开来源、资料外洩或未经同意的收集,导致模型「记住」并能在提示下重现敏感资料,带来严重隐私风险(例如 spear-phishing、骚扰或身分盗用)。
仙女修炼史
1 天前
人工智能
·
语言模型
·
自然语言处理
初代词向量:A Neural Probabilistic Language Model
不要把词看成离散符号,而是映射到一个连续向量里,例如cat -> [0.2, 0.1, 0.01,…] m是向量的维度,相似的词应该有相似向。可以这样理解,每个词都有自己的向量,词与词之间的相似性,在向量空间中,以距离近的形式表现出来。
AndrewHZ
2 天前
人工智能
·
gpt
·
深度学习
·
语言模型
·
llm
·
openai
·
规模定律
【LLM技术全景】规模定律与模型演进:为什么模型越大越强?
摘要:本文是《LLM技术全景:从Token到部署》系列第五篇。大语言模型最令人震撼的现象之一是"规模定律"(Scaling Law)——模型性能随参数量、数据量、计算量的增加而可预测地提升。本期将深入解析Scaling Law的数学原理(Kaplan定律、Chinchilla定律)、模型演进的关键里程碑(BERT→GPT→LLaMA),以及为什么"大力出奇迹"在Transformer架构下依然有效。
醒醒该学习了!
2 天前
人工智能
·
语言模型
·
自然语言处理
大语言模型(理论篇)
人类输入的是自然语言,模型真正处理的是数字。文本进入大模型通常经历以下步骤:这条链路里最重要的认识是:大模型并不是“直接读汉字或英文单词”,而是先把文本转换成可计算的数字表示,再进行预测和生成。