语言模型

阿杰学AI2 小时前
人工智能·ai·语言模型·自然语言处理·agent·多智能体协作·mas
AI核心知识75——大语言模型之MAS (简洁且通俗易懂版)多智能体协作 (Multi-Agent Systems,简称 MAS) 是目前 AI 应用架构的“版本答案” 。
AndrewHZ3 小时前
人工智能·算法·语言模型·大模型·llm·ai智能体
【AI黑话日日新】什么是AI智能体?本文将从定义、核心能力、技术架构、与传统AI的区别及应用场景,全面解析AI智能体,帮助开发者与技术爱好者理解这一AI领域的核心演进方向。
shangjian0076 小时前
人工智能·语言模型·自然语言处理
AI-大语言模型LLM-概念术语-Dropout为避免一学就会、一用就废,这里做下笔记Dropout 是一种在神经网络训练过程中使用的正则化技术,通过随机临时丢弃(禁用)一部分神经元来防止模型过拟合。
余俊晖6 小时前
人工智能·语言模型·自然语言处理
多模态视觉语言模型:Molmo2训练数据、训练配方如果想打造自己的VLM模型,不妨看看Molmo2,训练数据、训练配方均开源。最核心的还是这份开源数据。
阿杰学AI7 小时前
人工智能·ai·语言模型·自然语言处理·rag·检索增强生成·rag2.0
AI核心知识76——大语言模型之RAG 2.0(简洁且通俗易懂版)RAG 2.0 是对第一代检索增强生成(Retrieval-Augmented Generation, RAG)技术的重大升级,代表了从“拼凑式” 系统向“一体化端到端” 系统的进化。
shangjian0077 小时前
人工智能·语言模型·transformer
AI-大语言模型LLM-Transformer架构7-模型参数量计算为避免一学就会、一用就废,这里做下笔记给出HuggingFace上模型Langboat/bloom-1b4-zh的结构信息如下:
大模型任我行8 小时前
人工智能·语言模型·自然语言处理·论文笔记
上海AI Lab:构建诊断型Agent守门员📖标题:AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security 🌐来源:arXiv, 2601.18491v1
AndrewHZ8 小时前
语言模型·大模型·llm·claude code·skills
【AI黑话日日新】什么是skills?Claude Code 中的 Skills 是一套可定制化的扩展机制,本质是将专业知识、任务流程、可执行代码等打包成独立模块,供 Claude 根据上下文自动或手动调用,以完成特定专业任务。以下从核心定义、特性、结构、使用方式等方面详细介绍:
shangjian0078 小时前
人工智能·语言模型·自然语言处理
AI-大语言模型LLM-概念术语-Causal LM为避免一学就会、一用就废,这里做下笔记Causal LM,也称为自回归语言模型,是一种只关注单向上下文的语言模型。在预测下一个词时,它只能看到前面的词,不能看到后面的词。
shangjian0078 小时前
人工智能·语言模型·自然语言处理
AI-大语言模型LLM-模型微调2-BitFit微调为避免一学就会、一用就废,这里做下笔记
玄同7659 小时前
人工智能·语言模型·自然语言处理·中间件·langchain·agent·智能体
LangChain v1.0 中间件深度解析:从 Callback 到 Middleware 的演进【个人主页:玄同765】大语言模型(LLM)开发工程师|中国传媒大学·数字媒体技术(智能交互与游戏设计)
量子-Alex9 小时前
人工智能·语言模型·自然语言处理
【大模型技术报告】通义千问-VL:一款多功能视觉语言模型,支持理解、定位、文本识别等广泛任务Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond 通义千问-VL:一款多功能视觉语言模型,支持理解、定位、文本识别等广泛任务
学步_技术9 小时前
人工智能·深度学习·计算机视觉·语言模型
食品计算-Multimodal Food Learning🌟🌟 欢迎来到我的技术小筑,一个专为技术探索者打造的交流空间。在这里,我们不仅分享代码的智慧,还探讨技术的深度与广度。无论您是资深开发者还是技术新手,这里都有一片属于您的天空。让我们在知识的海洋中一起航行,共同成长,探索技术的无限可能。
shangjian0079 小时前
人工智能·语言模型·prompt
AI-大语言模型LLM-模型微调3-Prompt Tuning为避免一学就会、一用就废,这里做下笔记推理时,它将嵌入后的矩阵(矩阵每一行是一个输入词向量)和自身针对特定任务训练好的矩阵(矩阵每一行是一个Prompt词向量)拼接成新的矩阵,然后输出给下一层的Encoder/Decoder。
vlln19 小时前
人工智能·语言模型·自然语言处理
【论文速读】递归语言模型 (Recursive Language Models): 将上下文作为环境的推理范式论文标题: Recursive Language Models作者: Alex L. Zhang 1 {^1} 1, Tim Kraska 1 {^1} 1, Omar Khattab 1 {^1} 1 (MIT CSAIL)
玄同7651 天前
人工智能·语言模型·自然语言处理·langchain·nlp·agent·智能体
告别 AgentExecutor:LangChain v1.0+ Agent 模块深度迁移指南与实战全解析【个人主页:玄同765】大语言模型(LLM)开发工程师|中国传媒大学·数字媒体技术(智能交互与游戏设计)
阿杰学AI1 天前
人工智能·ai·语言模型·自然语言处理·aigc·agent·react范式
AI核心知识74——大语言模型之ReAct 范式(简洁且通俗易懂版)ReAct 范式 是 Reasoning(推理)+ Acting(行动)的缩写。它是目前构建 AI Agent(智能体) 最主流、最核心的模式。
2501_948120151 天前
人工智能·爬虫·语言模型
大语言模型与爬虫技术融合的智能数据采集系统随着信息技术的迅猛发展,互联网已成为人类获取知识、交流信息、开展业务的重要平台。大数据和人工智能技术的融合应用,为各行各业带来了前所未有的变革。在众多技术中,大语言模型和爬虫技术在数据采集与分析领域展现出巨大的潜力。
DisonTangor1 天前
人工智能·语言模型·自然语言处理·开源·aigc
美团龙猫开源LongCat-Flash-Lite我们推出LongCat-Flash-Lite——一款具备256k上下文窗口(通过YaRN方法实现)的非思考型混合专家模型(MoE),总参数量达685亿,其中激活参数量约30亿。该模型在LongCat-Flash架构基础上创新性地融合了N元嵌入表技术,不仅显著提升模型性能,更实现了推理速度的突破性进展。尽管为嵌入层分配了超过300亿参数,LongCat-Flash-Lite不仅超越了同等参数规模的MoE基线模型,更在智能体应用与代码生成领域展现出与同量级模型的卓越竞争力。
AI浩1 天前
人工智能·语言模型·自然语言处理
PaddleOCR-VL-1.5:迈向用于鲁棒真实场景文档解析的多任务9亿参数视觉语言模型程翠、孙挺、梁素银、高庭荃、张泽伦、刘嘉轩、王雪晴、周常达、刘鸿恩、林曼慧、张越、张玉波、刘毅、余殿海、马艳军