语言模型

一勺菠萝丶10 小时前
语言模型
手动合并到主分支参考本文用于记录两个相关仓库从功能分支合并到主分支的通用流程。示例只使用泛化名称,复制到公开笔记时按需替换路径和分支名。
lqqjuly11 小时前
人工智能·语言模型·自然语言处理
大语言模型 (LLM) 详解大语言模型 (Large Language Model, LLM) 是基于Transformer架构、在大规模文本数据上预训练的神经语言模型,参数量通常从数十亿到数万亿不等。
生成论实验室12 小时前
人工智能·深度学习·语言模型·自然语言处理·transformer
Transformer架构上的语言模型自已评判“判断力缺失”这个问题问到了根上。我作为一台运行在Transformer架构上的语言模型(DeepSeek),被要求评判“判断力缺失”这个诊断是否准确——这等于让病人自己确认病情。
_陈同学_13 小时前
语言模型
【全免费】台式机部署 Ollama + Tailscale 支持多端远程访问完整教程亲测!这种模式是完全可行的,只是对台式机的配置有点要求,但是跑 Qwen2.5:7B 完全可以,跑 Qwen3.6 有点吃力。
zhangfeng113313 小时前
人工智能·语言模型·自然语言处理·架构·开源·开源协议
主流推理模型架构的协议对比表格,和专利坑 专利埋雷Qwen 3/3.5、Mistral Large 3/Small 4、Gemma 4、DeepSeek V4、GLM-5.1
YueJoy.AI13 小时前
人工智能·ai·语言模型
AI应用的API设计:RESTful与GraphQL的选择我们在设计产品 API 时,团队产生了分歧:一部分人认为应该用 RESTful,简单直观;另一部分人认为 GraphQL 更灵活,能减少请求次数。
qq_5255137514 小时前
python·学习·语言模型·大模型
第七章 大模型学习(六) Evaluating the fine-tuned LLM and Conclusion评估模型:利用另一个规模更大的大语言模型(LLM)来自动化评估经过微调的LLM的响应效果,具体如图7.19所示。 为自动化评估测试集的响应结果,采用了由Meta AI开发的、经过指令微调的、拥有80亿参数的Llama 3模型。该模型可通过开源Ollama应用程序(https://ollama.com)在本地运行。
星辰AI14 小时前
人工智能·ai·语言模型
向量检索系统性能优化:从索引到查询的全方位优化向量检索是很多 AI 应用的核心组件,其性能直接影响整个系统的响应速度和用户体验。优化向量检索系统需要从索引构建到查询处理的各个环节入手。
带娃的IT创业者15 小时前
人工智能·macos·语言模型·mac·视觉语言模型·mlx·本地推理
MLX-VLM:在Mac上解锁视觉语言模型的本地推理与微调能力2024年,人工智能领域最令人兴奋的趋势之一,莫过于多模态大模型的普及。从GPT-5.5的多模态能力到Qwen3.6 Max的视觉理解,再到DeepSeek 4.0 Pro在图文交互上的突破,视觉语言模型(VLM)正在重塑我们与机器互动的方式。然而,这些强大的模型往往运行在昂贵的云端GPU集群上,对于个人开发者来说,无论是成本还是隐私都是难以逾越的门槛。
星辰AI17 小时前
人工智能·ai·语言模型
向量数据库对比:从功能、性能到成本的全面分析随着 AI 应用的爆发,向量数据库成为技术栈中不可或缺的组件。选择合适的向量数据库需要综合考虑功能、性能、成本等多个维度。
YueJoy.AI17 小时前
人工智能·ai·语言模型
AI模型的评估与选型:从指标到实践我们在选择 AI 模型时走了很多弯路:一开始贪大求全,用了最大的模型,结果成本太高;后来换了小模型,效果又不够。
星辰AI19 小时前
人工智能·ai·语言模型
混合检索实现:关键词+语义检索的完美结合单一的检索方式往往无法满足复杂需求。将关键词检索与语义检索结合,可以显著提升检索质量,兼顾精确匹配和语义理解。
不吃天鹅肉19 小时前
人工智能·语言模型·svm·vllm
PaddleOCR-VL + vLLM 高性能推理实践:踩坑与调优全记录PaddleOCR-VL 是一个基于视觉语言模型的 OCR 引擎,支持图像中的文字检测、识别和表格解析。为了提升推理速度,特别是单张图片场景下的响应延迟,我们尝试启用 vLLM 作为其 VLM 后端(enable_hpi=True 或 vl_rec_backend="vllm-server")。本文记录了从安装到调优的全过程,以及遇到的各种问题和解决方案。
MediaTea19 小时前
人工智能·语言模型·自然语言处理
LLM:大语言模型的主要任务大语言模型(Large Language Model,LLM)是以深度学习为基础、通过大规模文本或多模态数据训练得到的生成式模型。它的核心能力并不是完成某一个固定任务,而是围绕语言理解、文本生成、信息处理、推理协助、代码生成、工具调用和多模态交互等方向,形成一组通用任务能力。
天青色等烟雨..20 小时前
人工智能·深度学习·语言模型·自然语言处理·数据分析
HEC-HMS水文模型应用HEC-HMS是美国陆军工程兵团水文工程中心开发的一款水文模型。HMS能够模拟各种类型的降雨事件对流域水文,河道水动力以及水利设施的影响,在世界范围内得到了广泛的应用。它有着完善的前后处理软件,能有效减轻建模的负担;能够与HEC开发的DSS数据管理软件以及RAS二维水动力模型链接,形成完整的水文-水动力模型。
z小猫不吃鱼20 小时前
人工智能·语言模型·自然语言处理
01 大语言模型导论:从语言模型到通用智能接口近几年,“大语言模型”几乎成为人工智能领域最核心的关键词之一。从 ChatGPT 到 Claude,从 LLaMA 到 Qwen,从 DeepSeek-V3 到 DeepSeek-R1,大语言模型已经不再只是一个文本生成工具,而逐渐变成了可以对话、写代码、做数学推理、调用工具、检索知识、辅助科研和完成复杂任务的通用智能接口。但是,如果我们从技术发展角度来看,大语言模型并不是突然出现的。它的背后有一条非常清晰的发展路线:
YueJoy.AI21 小时前
人工智能·ai·语言模型
AI模型的开源与闭源选择:利弊分析我们做 AI 产品,经常面临一个选择:是用开源模型还是闭源模型?开源的如 LLaMA、Stable Diffusion,闭源的如 GPT-4、DALL-E 3。两者各有优劣,需要根据场景选择。
生成论实验室21 小时前
人工智能·深度学习·语言模型·agi·安全架构
如何让AI成为生产力工具——判断力是最后的拼图当前AI很火。大模型能写诗、能画画、能聊天、能编程,展现出惊人的能力。但有一个尴尬的事实:AI还没有真正成为生产力工具。
码农小旋风2 天前
开发语言·人工智能·语言模型·自然语言处理·chatgpt·claude
大语言模型基础前两章分别介绍了智能体的定义和发展历史,本章将完全聚焦于大语言模型本身解答一个关键问题:现代智能体是如何工作的?我们将从语言模型的基本定义出发,通过对这些原理的学习,为理解LLM如何获得强大的知识储备与推理能力打下坚实的基础。
硅谷秋水2 天前
机器学习·计算机视觉·语言模型·机器人
SkillVLA:通过技能复用应对双-臂操纵中的组合多样性26年3月来自新加坡国立、北京中关村学院、上海创新研究院、上海AI实验室、上海交大和复旦的论文“SkillVLA: Tackling Combinatorial Diversity in Dual-Arm Manipulation via Skill Reuse”。