语言模型

承渊政道38 分钟前
人工智能·pytorch·深度学习·机器学习·语言模型·自然语言处理·pycharm
【从零开始大模型开发与微调:基于PyTorch与ChatGLM】(从环境搭建到第一个训练闭环:PyTorch2.0深度学习入门实战)大模型正在成为人工智能应用开发的核心基础能力.从智能问答、代码助手,到企业知识库、智能客服和垂直领域应用,越来越多的场景都离不开大模型的理解、生成与推理能力.对于开发者来说,仅仅会调用现成的大模型接口已经远远不够,理解大模型的开发流程、掌握微调方法,并能够亲手完成一个从环境搭建到训练验证的闭环,正在变成一项非常重要的工程能力.不过,对于刚开始接触大模型开发的同学来说,这条路往往并不轻松.PyTorch、Transformers、ChatGLM、显存配置、数据格式、模型加载、训练参数、微调策略……这些概念单
CJH(本人账号)1 小时前
人工智能·安全·语言模型
上线仅72小时被强制下架:Claude Fable 5 的短命摘要:2026年6月9日,Anthropic 发布号称"地表最强商用AI"的 Claude Fable 5,仅3天后(6月12日)美国政府以"国家安全"为由强制全球下架。从发布到禁用,72小时内完成了一场完整的"神坛坠落"。本文从技术视角深度解读事件始末,分析对开发者生态的影响,以及背后的战略博弈。
MartinYeung519 小时前
人工智能·学习·语言模型
[论文学习]CAMIA:基于上下文感知的成员资格推断攻击:针对预训练大型语言模型的深度分析CAMIA: Context-Aware Membership Inference Attack核心问题与动机
c7691 天前
论文阅读·人工智能·笔记·语言模型·论文笔记·提示工程
【文献笔记】Learn to Relax with LLMs: Solving COPs via Bidirectional CoevolutionLearn to Relax with Large Language Models: Solving Constraint Optimization Problems via Bidirectional Coevolution
明天好,会的1 天前
语言模型
grill-me我用 grill-me 整整一个月了。现在,我几乎在开始每一个任务之前,都会用grill-me给我把关,通过这个skill,让大模型了解我这个任务中,我没有说说清楚的细节。
MartinYeung51 天前
人工智能·学习·语言模型
[论文学习]LoRA-Leak:针对 LoRA 微调语言模型的成员推断攻击深度分析与隐私风险评估LoRA-Leak: Membership Inference Attacks Against LoRA Fine-tuned Language Models
硅谷秋水1 天前
人工智能·机器学习·语言模型·中间件·机器人
物理人工智能的驾驭工程:机器人中间件是驾驭层26年6月来自韩国DGIST的论文“Harness Engineering for Physical AI: Robot Middleware Is the Harness Layer”。
必胜刻1 天前
人工智能·笔记·ai·语言模型·golang
Go项目实战:使用Ollama本地部署大模型实现AI智能笔记生成在当今AI技术快速发展的背景下,越来越多的应用开始集成大语言模型(LLM)能力。然而,依赖云端API不仅成本高昂,还存在数据隐私和网络延迟等问题。本文将分享一个实际项目经验——如何在Go后端项目中集成Ollama,实现本地大模型部署,用于课程音视频的智能笔记生成。
毒爪的小新1 天前
linux·ai·语言模型·chatgpt·openwebui
Open WebUI 从零到一:打造属于你的私人ChatGPT一句话定义:Open WebUI是一个开源的、可自托管的类ChatGPT网页界面,让你用浏览器就能和本地大模型流畅对话,同时完全掌控自己的数据。
DisonTangor2 天前
人工智能·语言模型·自然语言处理·开源·aigc·transformer
谷歌开源首个扩散大语言模型——DiffusionGemmaHugging Face | GitHub | 发布博客 | 文档 许可证: Apache 2.0 | 作者: Google DeepMind
我爱cope2 天前
人工智能·设计模式·语言模型·职场和发展
【Agent智能体26 | 多智能体-多智能体工作流】声明:本篇博客是以吴恩达的【Agent智能体】教程为基础,并对其中的内容做了笔记整理以及个人收获的总结。
装不满的克莱因瓶2 天前
网络·人工智能·python·深度学习·语言模型·自然语言处理
自然语言处理发展历史——从规则系统到大语言模型的演进之路目录一、前言二、NLP发展的整体阶段三、第一阶段:规则驱动时代(1950s-1990s)(一)核心思想
装不满的克莱因瓶2 天前
人工智能·python·深度学习·算法·机器学习·语言模型·自然语言处理
RLHF中的PPO算法——大语言模型对齐优化的核心引擎目录一、前言二、RLHF中的PPO位置(一)整体流程(二)直观理解三、什么是PPO(一)一句话理解(二)核心目标
AndrewHZ2 天前
人工智能·深度学习·语言模型·开源·llm·transformer·基座模型
【LLM技术全景】开源大模型生态:如何选择适合你的基座模型?摘要:本文是《LLM技术全景:从Token到部署》系列第六篇。随着LLaMA开源引爆生态,现在已有数十个开源大模型可供选择。但"选择困难症"也随之而来:LLaMA、ChatGLM、Qwen、DeepSeek、Mistral……到底哪个更适合我的项目?本期将系统对比主流开源模型的技术特点、中文能力、部署成本,并提供一套"模型选择决策树",帮助开发者在2026年做出最合适的技术选型。
网安蟹佬霸2 天前
语言模型·回归·开源
Google开源DiffusionGemma:26B MoE扩散语言模型,放弃自回归实现4倍推理加速2026年6月11日,Google正式发布实验性开源模型DiffusionGemma,以Apache 2.0许可证开放。这是一款基于文本扩散(Text Diffusion)机制构建的大语言模型,采用26B参数的MoE(Mixture of Experts,混合专家)架构,推理时仅激活约3.8B参数。与传统自回归(Autoregressive)大语言模型逐token顺序生成的方式不同,DiffusionGemma通过并行去噪的方式输出文本,每次前向传播可并行生成256个token。在单张NVIDIA H10
半亩码田2 天前
人工智能·语言模型·ai编程
小米MiMo Code深度解析:基于OpenCode的长程编程Agent,三项Benchmark超越Claude Code小米MiMo团队发布了MiMo Code——一款基于OpenCode构建的终端编程Agent,MIT开源,限时免费,三项Benchmark全面超越Claude Code + Claude Sonnet 4.6。本文深度解析其技术架构、核心能力和评测数据。
我认不到你2 天前
java·开发语言·人工智能·深度学习·ai·语言模型·开源
【开源、教程】RAG全流程实现(java+完整代码):第二弹本教程的环境基于 jdk8 + langchain4j 0.35教程源码放在这里了:worenbudaoni/rag-study-helper: 一个学习检索增强生成的全流程助手
kaico20182 天前
语言模型
【无标题】大语言模型(Large Language Model, LLM)是基于Transformer架构、在海量文本数据上预训练的超大规模语言模型,具备理解和生成自然语言的能力。
器灵科技2 天前
大数据·人工智能·gpt·阿里云·ai·语言模型
DeepSeek V4 Pro宣称:超GPT-5.5+永久降价75%5月下旬,DeepSeek放出了一个消息:V4-Pro API永久降价75%,输入价格从12元/百万Tokens直降到3元,输出从24元降到6元。缓存命中场景的调用价格更是降至0.025元/百万Tokens,降幅高达97.5%。