语言模型

AI技术控13 分钟前
人工智能·python·语言模型·自然语言处理·nlp
ReAct 论文解读:大模型 Agent 如何通过“推理 + 行动”完成复杂任务《ReAct: Synergizing Reasoning and Acting in Language Models》是 ICLR 2023 的一篇经典论文,也是理解大模型 Agent、工具调用、RAG 和外部环境交互时绕不开的一篇工作。
逆境不可逃1 天前
人工智能·语言模型·自然语言处理
Hello-Agents 第一部分总结:从智能体概念到大语言模型基础作者:逆境不可逃技术永无止境希望我的内容可以帮助到你!!!!!大家吼 ! 我是逆境不可逃 今天给大家带来文章《Hello-Agents 第一部分总结:从智能体概念到大语言模型基础》.
测试员周周1 天前
服务器·数据库·人工智能·python·测试工具·语言模型·appium
【Appium 系列】第09节-数据驱动测试 — YAML 数据 + parametrize对应代码:core/data_driver.py(206行)、testcases/data/login_users.yaml、testcases/yaml/login_test_cases.yaml
摆摊的豆丁1 天前
语言模型
2.对1文档中的内容做展开补充在 Claude Code 语境里,harness 可以理解为“把模型变成可用工程代理的外部运行框架/脚手架/控制层”。
AI技术控1 天前
人工智能·python·深度学习·语言模型·自然语言处理·prompt
Prompt Engineering 在企业大模型应用中的实践:从提示词模板到可控输出在大模型应用开发中,Prompt Engineering 是最容易被低估、也最容易被误解的部分。很多人认为提示词只是“把问题问清楚一点”,或者在系统提示词里写几句“你是一个专业助手”。这种方式做 Demo 可能够用,但一旦进入企业级场景,问题就会集中暴露:
耕烟煮云1 天前
人工智能·语言模型·自然语言处理
一篇文章讲清大语言模型发展史2017年的某个夏天,Google内部一群搞翻译的工程师,发了一篇论文。标题很狂,叫《Attention Is All You Need》。意思很明确:我们把RNN彻底扔了,只用注意力机制,翻译效果反而更好。
硅谷秋水1 天前
人工智能·科技·机器学习·语言模型·软件工程
ARIS:基于对抗性多智体协作的自主研究26年5月来自上海交大和上海创智学院的论文“ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration”。
翼达口香糖1 天前
大数据·人工智能·深度学习·语言模型·数据分析·边缘计算
当大模型吃掉你的App,从高德开放平台看AI服务重构作为一个还在习惯用手机软件的老用户,最近有幸参加了一下高德开放平台的Al产品发布会。这场高德AI发布会给我提了个醒,大模型真正的商业化拐点,可能不在模型本身,而在它如何吃掉我们手机里的一个个App。当MCP协议让AI能实时调用地图、天气、打车服务时,"打开软件"这个动作本身,就开始变得不那么频繁了。 其实从24年上旬之前,SaaS(软件即服务)这个模式思维其实还挺流行的。具体来说,比如生活中在手机上安装一个地图软件,然后用这个地图软件上提供的服务,比如说导航、路线规划、交通情况查询这些服务。那个时候其实C
阿正的梦工坊1 天前
人工智能·语言模型·自然语言处理
ALiBi:让大语言模型“免训练“外推到更长序列的位置编码方法Transformer 的自注意力机制本身是排列不变的——它不知道 token 的顺序。因此我们需要某种方式告诉模型"谁在前、谁在后",这就是位置编码(Positional Encoding)。
摆摊的豆丁2 天前
语言模型
3. 创始人手册:打造 AI 原生初创公司The founder’s playbook: Building an AI-native startup https://claude.com/blog/the-founders-playbook
Heartache Doctor2 天前
论文阅读·笔记·语言模型
[论文阅读笔记] A Survey on Multimodal Large Language Models使用LLM辅助的multimodal工作的架构特点以及运用。1. Modality Encoder:使用pre-aligned encoder将其他模态和LLM tokens对齐。
tzc_fly2 天前
人工智能·语言模型·自然语言处理
LLaDA2.0:块扩散语言模型这是一篇非常具有突破性的自然语言处理(NLP)领域的大模型论文。这篇由蚂蚁集团(Ant Group)领衔撰写的论文《LLaDA2.0: Scaling Up Diffusion Language Models to 100B》,标志着离散扩散语言模型(Discrete Diffusion LLMs, dLLMs)首次成功扩展到了千亿(100B)参数规模。
k09332 天前
人工智能·语言模型·自然语言处理
免费大语言模型API平台汇总指南(2026年最新)官网:https://open.bigmodel.cn/免费额度:代表模型:优点:缺点:适用场景:中文内容处理、代码生成、Agent工作流
knight_9___2 天前
人工智能·python·语言模型·面试·大模型·agent
大模型project面试3大模型训练我理解是分三个阶段,每个阶段解决不同层次的问题。我用一个类比来记忆:预训练就像一个人从小到大读了海量的书,积累了语言能力和世界知识,训练目标就是「预测下一个词」,简单但威力巨大;SFT 是给这个博学的人做面试培训,让他学会把知识转化成有问有答的对话形式,而不是一直续写文章;对齐阶段是给他做职业素养培训,用 RLHF 或 DPO 让他的回答方式更符合人类偏好、更安全。三个阶段缺一不可,预训练决定能力天花板,SFT 给格式,对齐给价值观,这是目前所有主流大模型训练的基本框架。
瑞行AI2 天前
算法·语言模型
一套数据格式框架搞定大模型微调和对齐训练做大模型微调与对齐训练(下述统一称为“大模型后训练”)时,五花八门的数据格式常常让人眼花缭乱、适配成本居高不下。本文要介绍的后训练数据格式框架,能轻量化适配不同任务的训练样本结构。
kobesdu2 天前
人工智能·语言模型·机器人
大语言模型与ROS集成的自然语言机器人控制:开源框架与应用实例一句话概述:通过大语言模型与机器人操作系统的深度集成,用户可以使用自然语言指令驱动机器人完成复杂任务,无需编写代码。
前端小超人rui2 天前
ai·语言模型·大模型·ai编程·deepseek
Deepseek 的创新及计算速度快和成本低的原因
victory04312 天前
人工智能·语言模型·自然语言处理
DeepSeek-R1:通过强化学习激励大语言模型的推理能力 技术报告中文翻译DeepSeek-AI research@deepseek.com我们介绍第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一个在没有以监督微调(SFT)作为预备步骤的情况下,通过大规模强化学习(RL)训练得到的模型,展现出了卓越的推理能力。通过 RL,DeepSeek-R1-Zero 自然涌现出许多强大且有趣的推理行为。然而,它也面临可读性差、语言混杂等挑战。为了解决这些问题并进一步提升推理性能,我们引入了 DeepSeek-R1,该模型在
前端小超人rui2 天前
ai·语言模型·大模型调用
dashscope 介绍及使用(调用阿里云 AI 大模型的核心工具)dashscope 就是阿里云百炼大模型的 Python 工具包 让你的 Python 代码能直 接调用 通义千问、DeepSeek 等 AI 大模型 pip install dashscope -i https://pypi.tuna.tsinghua.edu.cn/simple
财经资讯数据_灵砚智能3 天前
大数据·人工智能·python·信息可视化·语言模型·自然语言处理
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年5月13日关于本文:这是一篇Python自动化数据采集与NLP分析的技术实践笔记。 使用的技术栈包括:Python爬虫、jieba/SnowNLP情感分析、TF-IDF关键词提取、LDA主题模型、Matplotlib数据可视化。 本文由脚本自动生成,仅记录技术实现过程,所有数据来源于公开渠道。 基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-凌晨)