语言模型

开维游戏引擎3 小时前
android·游戏·语言模型·游戏引擎·ai编程
AI自动生成游戏时,deepseek和mimo对比vscode+cline+skill自动生成游戏时,免费版本的deepseek和mimo生成游戏质量对比,以deepseek-v4-flash和xiaomi/mimo-v2.5为例。
文艺倾年9 小时前
人工智能·python·语言模型·自然语言处理·面试·职场和发展·大模型
【强化学习】强化学习基本概念,20W字总结(一)😊你好,我是小航,一个正在变秃、变强的文艺倾年。 🔔本文讲解【强化学习】强化学习基本概念,20W字总结(一),期待与你一同探索、学习、进步,一起卷起来叭!
MartinYeung510 小时前
人工智能·学习·语言模型
[论文学习]大型语言模型中个人可识别资讯(PII)的机器遗忘技术:UnlearnPII 基准与 PERMU_tok 方法的深度分析Machine Unlearning of Personally Identifiable Information in LLMs 核心问题与动机
生成论实验室10 小时前
人工智能·语言模型·机器人·自动驾驶·安全架构
认知芯片:让判断力在物理定律上运行——AI芯片的第三条路CPU、GPU、NPU,无论架构怎么变,本质都是同一件事:执行计算指令。它们比拼的是谁算得快、谁功耗低、谁晶体管密度高。摩尔定律、韬定律,都是围绕“计算”展开的。
黄狗操作员10 小时前
语言模型·云计算·运维开发·gpu算力
NCCL 2.29 官方文档参数解读Broadcast属于1对多的通信原语,一个数据发送者,多个数据接收者,可以在集群内把一个节点自身的数据广播到其他节点上。如下图所示,圈圈表示集群中的训练加速卡节点,相同的颜色的小方块则代表相同的数据。当主节点 0 执行Broadcast时,数据即从主节点0被广播至其他节点。
来自于狂人14 小时前
人工智能·算法·语言模型·自然语言处理
第5章 记忆管理——让Agent记住事情第4章我们给Agent加上了工具调用能力。它现在能查数据库、查天气、计算数字了。但你用着用着会发现一个尴尬的问题:这Agent怎么聊着聊着就忘了事呢?
皮皮蟹虾饺15 小时前
人工智能·语言模型·自然语言处理
MiniMind:从零训练大语言模型全流程实战指南大语言模型(Large Language Model, LLM)的出现,引发了全球范围内对 AI 的空前关注。无论是 ChatGPT、DeepSeek 还是 Qwen,都以惊艳的效果让人真切感受到这场技术浪潮的冲击力。然而,动辄数百亿参数的模型规模,使得它们对个人设备而言不仅难以训练,甚至连部署都显得遥不可及。
ai_coder_ai15 小时前
运维·语言模型·自动化
在自动化脚本中如何调用大语言模型?在自动化技术与人工智能深度融合的当下,单纯的流程化自动化脚本已难以应对复杂的交互、问答、内容生成等场景。将大语言模型能力嵌入自动化脚本,能够让传统自动化工具拥有语义理解、智能应答、内容创作、问题分析等高级能力,极大拓展自动化脚本的应用边界。本文从技术原理、前期准备、接口详解、实操案例、参数调优与应用拓展等维度,详细讲解在冰狐智能辅助自动化脚本中对接大语言模型的完整流程,帮助开发者和脚本使用者顺利实现自动化与 AI 能力的结合。
皮皮蟹虾饺17 小时前
人工智能·语言模型·自然语言处理
MiniMind 预训练详解:从零训练一个 64M 参数的语言模型📌 本文亮点:深入解析 MiniMind 预训练的每一步细节——模型架构、数据准备、训练脚本、超参配置、Loss 曲线与训练指标,帮你真正理解 LLM 预训练的全过程!
带娃的IT创业者17 小时前
人工智能·macos·语言模型·视觉语言模型·apple silicon·mlx·mac本地推理
深度解析:当 MLX 遇上视觉语言模型,Mac 本地推理的新范式在当今的人工智能开发领域,"本地化"与"隐私优先"正逐渐成为继云端大模型之后的下一个战场。对于长期身处 Apple 生态的开发者而言,Apple Silicon 芯片的强大算力往往在日常开发中被低估。直到最近,一个名为 mlx-vlm 的项目在技术社区引发了热烈讨论,它不仅展示了在 Mac 上运行视觉语言模型的可能性,更以极高的效率和易用性,为中级开发者提供了一个探索多模态 AI 的绝佳入口。这不仅仅是一个工具的发布,更标志着个人计算机正在从单纯的代码编辑器转变为强大的 AI 工作站。
羊羊小栈17 小时前
前端·人工智能·语言模型·自然语言处理·毕业设计·大作业
基于混合检索RAG的食品生产质量问答系统(BGE_BM25_大语言模型)b站演示视频与部署教程视频(点击这里) https://www.bilibili.com/video/BV1phJs6oEB4/?share_source=copy_web&vd_source=31c839f46a9a845dd6dd641cbd5c2ac1
毒爪的小新1 天前
linux·人工智能·ai·语言模型·vllm
Linux 环境极速部署 vLLM:从零搭建生产级大模型推理服务vLLM 是一个开源的、高性能的大语言模型推理与服务框架,吞吐量可达传统方案的8-20倍。GPU:NVIDIA 显卡(推荐 RTX 3090/4060/4090 或 A100/H100)
如此这般英俊1 天前
人工智能·python·语言模型
手搓Claude Code-第三章 permission第三章,shareAI讲述了给模型加权限的过程。完整代码见 https://github.com/shareAI-lab/learn-claude-code/blob/main/s03_permission/code.py   我们的任务是:   1,了解check_deny_list, check_rules, ask_user三道闸门组成的permission   2,滤清楚权限检查的逻辑
MartinYeung51 天前
学习·安全·语言模型
[论文学习]大型语言模型(LLM)安全与隐私-基于善、恶、丑的深度分析A survey on large language model (LLM) security and privacy: The Good, The Bad, and The Ugly
walnut_oyb1 天前
人工智能·语言模型·自然语言处理
CVPR 2026|VisRes Bench:视觉语言模型视觉推理能力评估视觉 - 语言模型在视觉问答、图像字幕等任务上已取得显著进展,但这类模型究竟是在执行真正的视觉推理,还是仅依赖语言先验完成任务,目前仍不明确。 针对这一问题,本文提出 VisRes Bench 基准,用于在无上下文语言监督的自然场景下研究视觉推理能力。基准按照三层复杂度分析模型行为,清晰揭示了模型在感知与关系视觉推理能力上的局限:
大模型任我行2 天前
人工智能·语言模型·自然语言处理·论文笔记
腾讯:原生多模态建模路线图📖标题:Toward Native Multimodal Modeling: A Roadmap 🌐来源:arXiv, 2605.25343v1
大模型任我行2 天前
人工智能·语言模型·embedding·论文笔记
谷歌:多模态嵌入Gemini Embedding 2📖标题:Gemini Embedding 2: A Native Multimodal Embedding Model from Gemini 🌐来源:arXiv, 2605.27295v1
东方佑2 天前
人工智能·语言模型·自然语言处理·开源
分形递归状态机 (FRSM) 实验报告-更新对比分形递归状态机 (Fractal Recursive State Machine, FRSM) 是一种新型自回归语言模型架构,其核心原理是:
txg6662 天前
人工智能·深度学习·安全·网络安全·语言模型
FuzzGPT:用大语言模型生成“极端边界程序”的深度学习框架 Fuzzing 新范式“ 随着 PyTorch、TensorFlow、JAX 等深度学习框架成为 AI 基础设施,其 API的稳定性与安全性正面临前所未有的挑战。然而,传统 Fuzzing技术在测试DL框架时逐渐暴露瓶颈:随机变异难以覆盖复杂API参数空间、手工规则难以构造“非直觉但合法”的极端输入、大量真实漏洞隐藏在 Edge Case(边界用法)中。
eric-sjq2 天前
人工智能·深度学习·语言模型·自然语言处理·架构
Xiaothink-T17-Tiny 模型深度解析:轻量级RNN架构的创新与实战评测ModelScope - 模型卡片⚠️ 由于模型架构特殊(GRU3 历史检索机制),目前不支持 ModelScope 调用,请使用 xiaothink ≥ 1.4.2 库加载。