语言模型

毒爪的小新8 分钟前
linux·ai·语言模型·chatgpt·openwebui
Open WebUI 从零到一:打造属于你的私人ChatGPT一句话定义:Open WebUI是一个开源的、可自托管的类ChatGPT网页界面,让你用浏览器就能和本地大模型流畅对话,同时完全掌控自己的数据。
DisonTangor12 小时前
人工智能·语言模型·自然语言处理·开源·aigc·transformer
谷歌开源首个扩散大语言模型——DiffusionGemmaHugging Face | GitHub | 发布博客 | 文档 许可证: Apache 2.0 | 作者: Google DeepMind
我爱cope12 小时前
人工智能·设计模式·语言模型·职场和发展
【Agent智能体26 | 多智能体-多智能体工作流】声明:本篇博客是以吴恩达的【Agent智能体】教程为基础,并对其中的内容做了笔记整理以及个人收获的总结。
装不满的克莱因瓶15 小时前
网络·人工智能·python·深度学习·语言模型·自然语言处理
自然语言处理发展历史——从规则系统到大语言模型的演进之路目录一、前言二、NLP发展的整体阶段三、第一阶段:规则驱动时代(1950s-1990s)(一)核心思想
装不满的克莱因瓶17 小时前
人工智能·python·深度学习·算法·机器学习·语言模型·自然语言处理
RLHF中的PPO算法——大语言模型对齐优化的核心引擎目录一、前言二、RLHF中的PPO位置(一)整体流程(二)直观理解三、什么是PPO(一)一句话理解(二)核心目标
AndrewHZ18 小时前
人工智能·深度学习·语言模型·开源·llm·transformer·基座模型
【LLM技术全景】开源大模型生态:如何选择适合你的基座模型?摘要:本文是《LLM技术全景:从Token到部署》系列第六篇。随着LLaMA开源引爆生态,现在已有数十个开源大模型可供选择。但"选择困难症"也随之而来:LLaMA、ChatGLM、Qwen、DeepSeek、Mistral……到底哪个更适合我的项目?本期将系统对比主流开源模型的技术特点、中文能力、部署成本,并提供一套"模型选择决策树",帮助开发者在2026年做出最合适的技术选型。
网安蟹佬霸21 小时前
语言模型·回归·开源
Google开源DiffusionGemma:26B MoE扩散语言模型,放弃自回归实现4倍推理加速2026年6月11日,Google正式发布实验性开源模型DiffusionGemma,以Apache 2.0许可证开放。这是一款基于文本扩散(Text Diffusion)机制构建的大语言模型,采用26B参数的MoE(Mixture of Experts,混合专家)架构,推理时仅激活约3.8B参数。与传统自回归(Autoregressive)大语言模型逐token顺序生成的方式不同,DiffusionGemma通过并行去噪的方式输出文本,每次前向传播可并行生成256个token。在单张NVIDIA H10
半亩码田21 小时前
人工智能·语言模型·ai编程
小米MiMo Code深度解析:基于OpenCode的长程编程Agent,三项Benchmark超越Claude Code小米MiMo团队发布了MiMo Code——一款基于OpenCode构建的终端编程Agent,MIT开源,限时免费,三项Benchmark全面超越Claude Code + Claude Sonnet 4.6。本文深度解析其技术架构、核心能力和评测数据。
我认不到你21 小时前
java·开发语言·人工智能·深度学习·ai·语言模型·开源
【开源、教程】RAG全流程实现(java+完整代码):第二弹本教程的环境基于 jdk8 + langchain4j 0.35教程源码放在这里了:worenbudaoni/rag-study-helper: 一个学习检索增强生成的全流程助手
kaico20181 天前
语言模型
【无标题】大语言模型(Large Language Model, LLM)是基于Transformer架构、在海量文本数据上预训练的超大规模语言模型,具备理解和生成自然语言的能力。
器灵科技1 天前
大数据·人工智能·gpt·阿里云·ai·语言模型
DeepSeek V4 Pro宣称:超GPT-5.5+永久降价75%5月下旬,DeepSeek放出了一个消息:V4-Pro API永久降价75%,输入价格从12元/百万Tokens直降到3元,输出从24元降到6元。缓存命中场景的调用价格更是降至0.025元/百万Tokens,降幅高达97.5%。
我认不到你1 天前
java·开发语言·人工智能·深度学习·ai·语言模型·开源
【开源、教程】RAG全流程实现(java+完整代码):第一弹本教程的环境基于 jdk8 + langchain4j 0.35教程源码放在这里了: worenbudaoni/rag-study-helper: 一个学习检索增强生成的全流程助手
羊羊小栈1 天前
人工智能·语言模型·自然语言处理·毕业设计·neo4j·大作业
基于GraphRAG的地质矿产知识管理系统(Neo4j_大语言模型)b站演示视频与部署教程视频(点击这里) https://www.bilibili.com/video/BV1EXEi6EEZB/?share_source=copy_web&vd_source=31c839f46a9a845dd6dd641cbd5c2ac1
Kobebryant-Manba1 天前
人工智能·学习·语言模型
学习语言模型unigram-bigram-trigram 因为人只能根据已发生的事去推测未来,用频率去代替概率一元语法即朴素贝叶斯假设,这里马尔科夫假设(参考前面文章)就是假设现在x受到前面几个影响,三元语法就是受到前面两个
谷歌玩家2 天前
语言模型
如何让大模型稳定输出JSON格式数据
清辞8532 天前
大数据·人工智能·学习·语言模型
Coze从入门到实战---第一、二章什么是AI Agent?AI Agent是能够感知环境、自主决策、使用工具完成任务的智能体Agent和大模型的区别是什么?
Samooyou2 天前
人工智能·python·ai·语言模型
大模型微调(Fine Tuning)传统函数与大模型的本质对比:普通函数: f(x) = y (给定输入 x,通过固定数学规则,算出确定的输出 y)
东方佑2 天前
人工智能·语言模型·自然语言处理
分形递归状态机 (FRSM) 实验报告-或将实现llm无限上下文分形递归状态机 (Fractal Recursive State Machine, FRSM) 是一种新型自回归语言模型架构,其核心原理是:
MartinYeung52 天前
人工智能·学习·语言模型
[论文学习]透过增强式 Few-Shot Learning 实现高效 PII 从大型语言模型中提取大型语言模型(LLMs)在训练时大量摄取网路资料,其中包含大量个人识别资讯(PII),如姓名、电子邮件、电话号码、职业等。这些 PII 可能来自公开来源、资料外洩或未经同意的收集,导致模型「记住」并能在提示下重现敏感资料,带来严重隐私风险(例如 spear-phishing、骚扰或身分盗用)。