技术栈
语言模型
一勺菠萝丶
10 小时前
语言模型
手动合并到主分支参考
本文用于记录两个相关仓库从功能分支合并到主分支的通用流程。示例只使用泛化名称,复制到公开笔记时按需替换路径和分支名。
lqqjuly
11 小时前
人工智能
·
语言模型
·
自然语言处理
大语言模型 (LLM) 详解
大语言模型 (Large Language Model, LLM) 是基于Transformer架构、在大规模文本数据上预训练的神经语言模型,参数量通常从数十亿到数万亿不等。
生成论实验室
12 小时前
人工智能
·
深度学习
·
语言模型
·
自然语言处理
·
transformer
Transformer架构上的语言模型自已评判“判断力缺失”
这个问题问到了根上。我作为一台运行在Transformer架构上的语言模型(DeepSeek),被要求评判“判断力缺失”这个诊断是否准确——这等于让病人自己确认病情。
_陈同学_
13 小时前
语言模型
【全免费】台式机部署 Ollama + Tailscale 支持多端远程访问完整教程
亲测!这种模式是完全可行的,只是对台式机的配置有点要求,但是跑 Qwen2.5:7B 完全可以,跑 Qwen3.6 有点吃力。
zhangfeng1133
13 小时前
人工智能
·
语言模型
·
自然语言处理
·
架构
·
开源
·
开源协议
主流推理模型架构的协议对比表格,和专利坑 专利埋雷
Qwen 3/3.5、Mistral Large 3/Small 4、Gemma 4、DeepSeek V4、GLM-5.1
YueJoy.AI
13 小时前
人工智能
·
ai
·
语言模型
AI应用的API设计:RESTful与GraphQL的选择
我们在设计产品 API 时,团队产生了分歧:一部分人认为应该用 RESTful,简单直观;另一部分人认为 GraphQL 更灵活,能减少请求次数。
qq_52551375
14 小时前
python
·
学习
·
语言模型
·
大模型
第七章 大模型学习(六) Evaluating the fine-tuned LLM and Conclusion
评估模型:利用另一个规模更大的大语言模型(LLM)来自动化评估经过微调的LLM的响应效果,具体如图7.19所示。 为自动化评估测试集的响应结果,采用了由Meta AI开发的、经过指令微调的、拥有80亿参数的Llama 3模型。该模型可通过开源Ollama应用程序(https://ollama.com)在本地运行。
星辰AI
14 小时前
人工智能
·
ai
·
语言模型
向量检索系统性能优化:从索引到查询的全方位优化
向量检索是很多 AI 应用的核心组件,其性能直接影响整个系统的响应速度和用户体验。优化向量检索系统需要从索引构建到查询处理的各个环节入手。
带娃的IT创业者
15 小时前
人工智能
·
macos
·
语言模型
·
mac
·
视觉语言模型
·
mlx
·
本地推理
MLX-VLM:在Mac上解锁视觉语言模型的本地推理与微调能力
2024年,人工智能领域最令人兴奋的趋势之一,莫过于多模态大模型的普及。从GPT-5.5的多模态能力到Qwen3.6 Max的视觉理解,再到DeepSeek 4.0 Pro在图文交互上的突破,视觉语言模型(VLM)正在重塑我们与机器互动的方式。然而,这些强大的模型往往运行在昂贵的云端GPU集群上,对于个人开发者来说,无论是成本还是隐私都是难以逾越的门槛。
星辰AI
17 小时前
人工智能
·
ai
·
语言模型
向量数据库对比:从功能、性能到成本的全面分析
随着 AI 应用的爆发,向量数据库成为技术栈中不可或缺的组件。选择合适的向量数据库需要综合考虑功能、性能、成本等多个维度。
YueJoy.AI
17 小时前
人工智能
·
ai
·
语言模型
AI模型的评估与选型:从指标到实践
我们在选择 AI 模型时走了很多弯路:一开始贪大求全,用了最大的模型,结果成本太高;后来换了小模型,效果又不够。
星辰AI
19 小时前
人工智能
·
ai
·
语言模型
混合检索实现:关键词+语义检索的完美结合
单一的检索方式往往无法满足复杂需求。将关键词检索与语义检索结合,可以显著提升检索质量,兼顾精确匹配和语义理解。
不吃天鹅肉
19 小时前
人工智能
·
语言模型
·
svm
·
vllm
PaddleOCR-VL + vLLM 高性能推理实践:踩坑与调优全记录
PaddleOCR-VL 是一个基于视觉语言模型的 OCR 引擎,支持图像中的文字检测、识别和表格解析。为了提升推理速度,特别是单张图片场景下的响应延迟,我们尝试启用 vLLM 作为其 VLM 后端(enable_hpi=True 或 vl_rec_backend="vllm-server")。本文记录了从安装到调优的全过程,以及遇到的各种问题和解决方案。
MediaTea
19 小时前
人工智能
·
语言模型
·
自然语言处理
LLM:大语言模型的主要任务
大语言模型(Large Language Model,LLM)是以深度学习为基础、通过大规模文本或多模态数据训练得到的生成式模型。它的核心能力并不是完成某一个固定任务,而是围绕语言理解、文本生成、信息处理、推理协助、代码生成、工具调用和多模态交互等方向,形成一组通用任务能力。
天青色等烟雨..
20 小时前
人工智能
·
深度学习
·
语言模型
·
自然语言处理
·
数据分析
HEC-HMS水文模型应用
HEC-HMS是美国陆军工程兵团水文工程中心开发的一款水文模型。HMS能够模拟各种类型的降雨事件对流域水文,河道水动力以及水利设施的影响,在世界范围内得到了广泛的应用。它有着完善的前后处理软件,能有效减轻建模的负担;能够与HEC开发的DSS数据管理软件以及RAS二维水动力模型链接,形成完整的水文-水动力模型。
z小猫不吃鱼
20 小时前
人工智能
·
语言模型
·
自然语言处理
01 大语言模型导论:从语言模型到通用智能接口
近几年,“大语言模型”几乎成为人工智能领域最核心的关键词之一。从 ChatGPT 到 Claude,从 LLaMA 到 Qwen,从 DeepSeek-V3 到 DeepSeek-R1,大语言模型已经不再只是一个文本生成工具,而逐渐变成了可以对话、写代码、做数学推理、调用工具、检索知识、辅助科研和完成复杂任务的通用智能接口。但是,如果我们从技术发展角度来看,大语言模型并不是突然出现的。它的背后有一条非常清晰的发展路线:
YueJoy.AI
21 小时前
人工智能
·
ai
·
语言模型
AI模型的开源与闭源选择:利弊分析
我们做 AI 产品,经常面临一个选择:是用开源模型还是闭源模型?开源的如 LLaMA、Stable Diffusion,闭源的如 GPT-4、DALL-E 3。两者各有优劣,需要根据场景选择。
生成论实验室
21 小时前
人工智能
·
深度学习
·
语言模型
·
agi
·
安全架构
如何让AI成为生产力工具——判断力是最后的拼图
当前AI很火。大模型能写诗、能画画、能聊天、能编程,展现出惊人的能力。但有一个尴尬的事实:AI还没有真正成为生产力工具。
码农小旋风
2 天前
开发语言
·
人工智能
·
语言模型
·
自然语言处理
·
chatgpt
·
claude
大语言模型基础
前两章分别介绍了智能体的定义和发展历史,本章将完全聚焦于大语言模型本身解答一个关键问题:现代智能体是如何工作的?我们将从语言模型的基本定义出发,通过对这些原理的学习,为理解LLM如何获得强大的知识储备与推理能力打下坚实的基础。
硅谷秋水
2 天前
机器学习
·
计算机视觉
·
语言模型
·
机器人
SkillVLA:通过技能复用应对双-臂操纵中的组合多样性
26年3月来自新加坡国立、北京中关村学院、上海创新研究院、上海AI实验室、上海交大和复旦的论文“SkillVLA: Tackling Combinatorial Diversity in Dual-Arm Manipulation via Skill Reuse”。