语言模型

lqqjuly9 小时前
语言模型
参数高效微调:从低秩理论到 LoRA 及其变体(2)Adapter(Houlsby et al., 2019)在 Transformer 层的两个位置插入小型模块:
程序员Aries9 小时前
人工智能·语言模型·langchain
LangChain 与大语言模型大语言模型(Large Language Model, LLM)是一类基于深度学习的自然语言处理模型,通过在海量文本数据上训练,能够理解和生成人类语言。
weixin_468466859 小时前
人工智能·python·深度学习·搜索引擎·ai·语言模型·自然语言处理
纳米 AI 搜索新手极速上手指南在日常开发和技术调研中,我们常常面临这样的困境:面对海量的互联网信息,传统搜索引擎返回的往往是成千上万个链接,我们需要花费大量时间逐个点击、筛选、阅读,才能拼凑出所需的答案。尤其是在处理复杂的行业分析、技术栈选型或是需要跨文档逻辑推理的任务时,这种“搜索 - 阅读 - 总结”的低效循环极大地拖慢了工作节奏。很多时候,我们真正需要的不是一个链接列表,而是一个经过整理、分析并直接给出结论的智能助手。
YueJoy.AI10 小时前
人工智能·ai·语言模型
AI应用的API安全:从认证到授权的完整指南我们的 API 曾经被恶意调用,导致服务不可用。后来我们建立了完整的 API 安全体系。今天,分享我们是如何保护 API 的。
YueJoy.AI11 小时前
人工智能·ai·语言模型
创业团队如何进行绩效管理我们早期没有绩效管理,大家干好干坏一个样。后来团队变大了,需要建立公平的评价体系。今天,分享我们是如何进行绩效管理的。
东方佑12 小时前
人工智能·语言模型·自然语言处理
波动力学语言模型(Wave Dynamics Language Model, WDLM)在波动力学中,波函数的演化遵循薛定谔方程: [ i\hbar\frac{\partial \psi}{\partial t} = \hat{H}\psi ]
硅谷秋水18 小时前
大数据·人工智能·深度学习·计算机视觉·语言模型·机器人
世界动作模型:具身智能的下一前沿26年5月来自复旦大学、上海AI实验室和新加坡国立的论文“World Action Models: The Next Frontier in Embodied AI”。
zhangfeng113318 小时前
人工智能·语言模型·自然语言处理·架构·开源协议
部署/推理大模型的程序架构(推理引擎/框架)及其开源协议以下是当前主流大模型推理框架的开源协议汇总:如果你需要,我可以针对某个具体框架深入分析其协议对商业场景的影响。
li星野19 小时前
人工智能·python·学习·语言模型·剪枝
LLMLingua:用小型模型“剪枝”大语言模型提示词,让长文本不再昂贵在 LLM 应用中,提示词(Prompt)常常携带大量冗余信息,导致 token 浪费、成本飙升。LLMLingua 提出了一种创新方法:用一个更小的模型(如 GPT‑2 或 LLaMA‑7B)来评估原始提示词中每个 token 的“信息熵”或“困惑度”,然后剔除那些对语义理解贡献最小的 token,从而实现高压缩率下的语义保留。本文从原理、代码实现到定量评估和面试问答,全面解析 LLMLingua 技术。
MRDONG120 小时前
人工智能·机器学习·语言模型
从机器学习到大语言模型:一文讲清 AI、Transformer、Embedding 和向量数据库人工智能(AI)的核心目标,是让计算机具备某种“看懂、听懂、判断、生成、决策”的能力。如果用传统编程解决问题,我们通常要先写好明确规则,再让程序严格执行。例如计算加班工资:
星辰AI21 小时前
人工智能·ai·语言模型
Function Calling 技术实现:让 AI 与世界交互Function Calling(函数调用)是现代 AI Agent 实现的关键技术。它让大模型能够生成结构化的函数调用指令,从而与外部系统交互、执行复杂任务。
Omics Pro21 小时前
大数据·数据库·人工智能·机器学习·语言模型·自然语言处理·r语言
基因泰克:检测级虚拟细胞基准!大语言模型+智能体机器学习与大规模生物数据的进展重新激发了构建虚拟细胞(预测细胞行为的计算模型,可加速生物学发现)的研究前景。该愿景的核心应用是体外表型筛选,即模型预测细胞扰动在未知生物场景下的效应,该任务融合异质文本输入与多样表型输出,高度适配大语言模型与智能体系统。但目前该任务缺乏标准化基准,现有研究仅聚焦分子层面读数,与真实药物研发流程中的表型终点脱节。本研究推出基于1,920个公开CRISPR筛选构建的表型筛选预测基准AssayBench,覆盖5大类细胞表型;将筛选预测任务定义为单筛选基因排序任务,提出调整型归一化
z小猫不吃鱼21 小时前
人工智能·深度学习·算法·机器学习·语言模型·自然语言处理·gpt-3
15 InstructGPT 论文精读:SFT + RLHF 如何让模型听懂指令?在前面的文章中,我们已经讲到了 GPT-1、GPT-2、GPT-3、In-Context Learning、Prompt Engineering 和 Scaling Law。
我爱cope21 小时前
人工智能·设计模式·语言模型·职场和发展
【Agent智能体12 | 反思设计模式-使用外部反馈】声明:本篇博客是以吴恩达的【Agent智能体】教程为基础,并对其中的内容做了笔记整理以及个人收获的总结。
有来有去95271 天前
人工智能·语言模型·gpu算力
【模型评测】SWE-bench Verified数据集-2-修复精度偏离可以直接修改 swebench.yaml 中的 system_template 和 instance_template。项目里已经提供了不同风格的配置供参考:
我爱cope1 天前
人工智能·设计模式·语言模型·职场和发展
【Agent智能体11 | 反思设计模式-评估反射的影响的方法】声明:本篇博客是以吴恩达的【Agent智能体】教程为基础,并对其中的内容做了笔记整理以及个人收获的总结。
MRDONG11 天前
深度学习·神经网络·语言模型
从深度学习到大语言模型:神经网络、CNN、RNN、Transformer、BERT、GPT、Embedding、向量数据库与 RAG很多同学第一次接触人工智能时,会先听到“机器学习”“深度学习”“大模型”“AIGC”“RAG”这些词。它们看起来像一堆新概念,其实是有清晰层次的。
有来有去95271 天前
人工智能·深度学习·语言模型
【模型评测】SWE-bench Verified数据集-1-配置评测任务安装后会得到两个 CLI 命令:mini(交互式)和 mini-extra(批量评测等工具)。跑 SWE-bench-verified 的核心命令是 mini-extra swebench:
如此这般英俊1 天前
数据结构·人工智能·语言模型·自然语言处理
手撕Claude Code—第一章 agent-loop这一章ShareAI讲述了一个harness运行的最小单元框架。 我们的任务是:捋清一个agent在执行一次任务时的清晰逻辑。 完整代码见:https://github.com/shareAI-lab/learn-claude-code/blob/main/s01_agent_loop/code.py
纤纡.2 天前
人工智能·阿里云·语言模型·云计算
阿里云 DSW 实战:从零完成 Qwen3-4B 大模型 LoRA 微调全流程很多人说大模型微调门槛高,尤其是在阿里云 DSW 这种云环境里,光是环境配置和网络问题就能劝退新手。我这次亲身体验了一遍,从模型下载、环境配置、训练启动到权重合并,踩了几乎所有新手会遇到的坑,也总结了一套能一次跑通的完整流程。