语言模型

来自于狂人28 分钟前
人工智能·算法·语言模型·自然语言处理
第5章 记忆管理——让Agent记住事情第4章我们给Agent加上了工具调用能力。它现在能查数据库、查天气、计算数字了。但你用着用着会发现一个尴尬的问题:这Agent怎么聊着聊着就忘了事呢?
皮皮蟹虾饺1 小时前
人工智能·语言模型·自然语言处理
MiniMind:从零训练大语言模型全流程实战指南大语言模型(Large Language Model, LLM)的出现,引发了全球范围内对 AI 的空前关注。无论是 ChatGPT、DeepSeek 还是 Qwen,都以惊艳的效果让人真切感受到这场技术浪潮的冲击力。然而,动辄数百亿参数的模型规模,使得它们对个人设备而言不仅难以训练,甚至连部署都显得遥不可及。
ai_coder_ai1 小时前
运维·语言模型·自动化
在自动化脚本中如何调用大语言模型?在自动化技术与人工智能深度融合的当下,单纯的流程化自动化脚本已难以应对复杂的交互、问答、内容生成等场景。将大语言模型能力嵌入自动化脚本,能够让传统自动化工具拥有语义理解、智能应答、内容创作、问题分析等高级能力,极大拓展自动化脚本的应用边界。本文从技术原理、前期准备、接口详解、实操案例、参数调优与应用拓展等维度,详细讲解在冰狐智能辅助自动化脚本中对接大语言模型的完整流程,帮助开发者和脚本使用者顺利实现自动化与 AI 能力的结合。
皮皮蟹虾饺3 小时前
人工智能·语言模型·自然语言处理
MiniMind 预训练详解:从零训练一个 64M 参数的语言模型📌 本文亮点:深入解析 MiniMind 预训练的每一步细节——模型架构、数据准备、训练脚本、超参配置、Loss 曲线与训练指标,帮你真正理解 LLM 预训练的全过程!
带娃的IT创业者3 小时前
人工智能·macos·语言模型·视觉语言模型·apple silicon·mlx·mac本地推理
深度解析:当 MLX 遇上视觉语言模型,Mac 本地推理的新范式在当今的人工智能开发领域,"本地化"与"隐私优先"正逐渐成为继云端大模型之后的下一个战场。对于长期身处 Apple 生态的开发者而言,Apple Silicon 芯片的强大算力往往在日常开发中被低估。直到最近,一个名为 mlx-vlm 的项目在技术社区引发了热烈讨论,它不仅展示了在 Mac 上运行视觉语言模型的可能性,更以极高的效率和易用性,为中级开发者提供了一个探索多模态 AI 的绝佳入口。这不仅仅是一个工具的发布,更标志着个人计算机正在从单纯的代码编辑器转变为强大的 AI 工作站。
羊羊小栈4 小时前
前端·人工智能·语言模型·自然语言处理·毕业设计·大作业
基于混合检索RAG的食品生产质量问答系统(BGE_BM25_大语言模型)b站演示视频与部署教程视频(点击这里) https://www.bilibili.com/video/BV1phJs6oEB4/?share_source=copy_web&vd_source=31c839f46a9a845dd6dd641cbd5c2ac1
毒爪的小新13 小时前
linux·人工智能·ai·语言模型·vllm
Linux 环境极速部署 vLLM:从零搭建生产级大模型推理服务vLLM 是一个开源的、高性能的大语言模型推理与服务框架,吞吐量可达传统方案的8-20倍。GPU:NVIDIA 显卡(推荐 RTX 3090/4060/4090 或 A100/H100)
如此这般英俊17 小时前
人工智能·python·语言模型
手搓Claude Code-第三章 permission第三章,shareAI讲述了给模型加权限的过程。完整代码见 https://github.com/shareAI-lab/learn-claude-code/blob/main/s03_permission/code.py   我们的任务是:   1,了解check_deny_list, check_rules, ask_user三道闸门组成的permission   2,滤清楚权限检查的逻辑
MartinYeung520 小时前
学习·安全·语言模型
[论文学习]大型语言模型(LLM)安全与隐私-基于善、恶、丑的深度分析A survey on large language model (LLM) security and privacy: The Good, The Bad, and The Ugly
walnut_oyb21 小时前
人工智能·语言模型·自然语言处理
CVPR 2026|VisRes Bench:视觉语言模型视觉推理能力评估视觉 - 语言模型在视觉问答、图像字幕等任务上已取得显著进展,但这类模型究竟是在执行真正的视觉推理,还是仅依赖语言先验完成任务,目前仍不明确。 针对这一问题,本文提出 VisRes Bench 基准,用于在无上下文语言监督的自然场景下研究视觉推理能力。基准按照三层复杂度分析模型行为,清晰揭示了模型在感知与关系视觉推理能力上的局限:
大模型任我行1 天前
人工智能·语言模型·自然语言处理·论文笔记
腾讯:原生多模态建模路线图📖标题:Toward Native Multimodal Modeling: A Roadmap 🌐来源:arXiv, 2605.25343v1
大模型任我行1 天前
人工智能·语言模型·embedding·论文笔记
谷歌:多模态嵌入Gemini Embedding 2📖标题:Gemini Embedding 2: A Native Multimodal Embedding Model from Gemini 🌐来源:arXiv, 2605.27295v1
东方佑1 天前
人工智能·语言模型·自然语言处理·开源
分形递归状态机 (FRSM) 实验报告-更新对比分形递归状态机 (Fractal Recursive State Machine, FRSM) 是一种新型自回归语言模型架构,其核心原理是:
txg6661 天前
人工智能·深度学习·安全·网络安全·语言模型
FuzzGPT:用大语言模型生成“极端边界程序”的深度学习框架 Fuzzing 新范式“ 随着 PyTorch、TensorFlow、JAX 等深度学习框架成为 AI 基础设施,其 API的稳定性与安全性正面临前所未有的挑战。然而,传统 Fuzzing技术在测试DL框架时逐渐暴露瓶颈:随机变异难以覆盖复杂API参数空间、手工规则难以构造“非直觉但合法”的极端输入、大量真实漏洞隐藏在 Edge Case(边界用法)中。
eric-sjq1 天前
人工智能·深度学习·语言模型·自然语言处理·架构
Xiaothink-T17-Tiny 模型深度解析:轻量级RNN架构的创新与实战评测ModelScope - 模型卡片⚠️ 由于模型架构特殊(GRU3 历史检索机制),目前不支持 ModelScope 调用,请使用 xiaothink ≥ 1.4.2 库加载。
承渊政道1 天前
人工智能·pytorch·深度学习·机器学习·语言模型·自然语言处理·pycharm
【从零开始大模型开发与微调:基于PyTorch与ChatGLM】(从环境搭建到第一个训练闭环:PyTorch2.0深度学习入门实战)大模型正在成为人工智能应用开发的核心基础能力.从智能问答、代码助手,到企业知识库、智能客服和垂直领域应用,越来越多的场景都离不开大模型的理解、生成与推理能力.对于开发者来说,仅仅会调用现成的大模型接口已经远远不够,理解大模型的开发流程、掌握微调方法,并能够亲手完成一个从环境搭建到训练验证的闭环,正在变成一项非常重要的工程能力.不过,对于刚开始接触大模型开发的同学来说,这条路往往并不轻松.PyTorch、Transformers、ChatGLM、显存配置、数据格式、模型加载、训练参数、微调策略……这些概念单
CJH(本人账号)1 天前
人工智能·安全·语言模型
上线仅72小时被强制下架:Claude Fable 5 的短命摘要:2026年6月9日,Anthropic 发布号称"地表最强商用AI"的 Claude Fable 5,仅3天后(6月12日)美国政府以"国家安全"为由强制全球下架。从发布到禁用,72小时内完成了一场完整的"神坛坠落"。本文从技术视角深度解读事件始末,分析对开发者生态的影响,以及背后的战略博弈。
MartinYeung52 天前
人工智能·学习·语言模型
[论文学习]CAMIA:基于上下文感知的成员资格推断攻击:针对预训练大型语言模型的深度分析CAMIA: Context-Aware Membership Inference Attack核心问题与动机
c7692 天前
论文阅读·人工智能·笔记·语言模型·论文笔记·提示工程
【文献笔记】Learn to Relax with LLMs: Solving COPs via Bidirectional CoevolutionLearn to Relax with Large Language Models: Solving Constraint Optimization Problems via Bidirectional Coevolution
明天好,会的2 天前
语言模型
grill-me我用 grill-me 整整一个月了。现在,我几乎在开始每一个任务之前,都会用grill-me给我把关,通过这个skill,让大模型了解我这个任务中,我没有说说清楚的细节。