大语言模型

nju_spy9 小时前
人工智能·gpt·nlp·大语言模型·zero-shot·transformer架构·半监督训练
GPT 系列论文1-2 两阶段半监督 + zero-shot promptGPT,GPT-2,GPT-3 论文精读【论文精读】--B站GPT前三和 Transformer还有BERT 时间轴。
nju_spy3 天前
人工智能·pytorch·深度学习·大语言模型·梯度·梯度下降·反向传播
南京大学 LLM开发基础(一)前向反向传播搭建主要围绕深度学习中 前向反向传播的搭建原理。目录1. 大语言模型导言编码 + Attention + 基本组件
真智AI6 天前
大语言模型·技术趋势·开源ai·人工智能生态
开放式LLM的崛起:未来已至大型语言模型(LLM)的未来,不会仅由少数公司实验室来决定。它将由全球成千上万人的智慧塑造,他们在开放中不断迭代,无需等待会议室的批准,就能突破边界。开源运动已经证明,它不仅能与专有模式保持同步,甚至在某些领域已超越对手。Deepseek,就是一个鲜活的例子。
boonya9 天前
开源·大模型·llm·大语言模型
国内外开源大模型 LLM整理国内外开源大语言模型(LLM)的发展非常迅速,目前已经形成了一个百花齐放、各具特色的生态系统。下面我将从国外和国内两个维度,为您梳理一些具有代表性的开源大模型。
deephub11 天前
人工智能·深度学习·大语言模型·智能体
Memento:基于记忆无需微调即可让大语言模型智能体持续学习的框架大语言模型智能体(LLM Agent)是一类利用大语言模型通过交互、推理和决策来自主执行复杂任务的系统,通常具备访问外部工具、记忆系统或环境的能力。与被动响应单一提示的传统LLM不同,LLM智能体采用主动且迭代的运行模式,在明确目标的引导下执行任务。这类系统正被广泛部署为跨领域的自主问题解决器,OpenAI的Deep Research智能体便是典型代表。
runfarther15 天前
python·ai·大语言模型·数据库开发·milvus
Milvus 向量数据库开发实战指南Milvus向量数据库是什么?-CSDN博客高效的数据表示方式,使用位数组替代传统数据类型默认情况下,位值根据特定条件设置为 0 或 1
躺柒16 天前
人工智能·ai·语言模型·自然语言处理·大语言模型·大语言
读大语言模型08计算基础设施1.1. 人工智能专家系统在20世纪70年代风靡一时1.1.1. 基于规则的程序,目的是获取特定领域的专家知识
deephub17 天前
人工智能·深度学习·大语言模型·零样本学习·自博弈机制
R-Zero:通过自博弈机制让大语言模型无需外部数据实现自我进化训练R-Zero框架实现了大语言模型在无外部训练数据条件下的自主进化与推理能力提升。当前的LLM改进方法高度依赖大规模人工标注数据,这种范式虽然取得了显著成果但面临两个根本性限制:人类生成数据的有限性将导致训练瓶颈,以及人工数据的智能上界制约了模型超越人类能力的可能性。
HyperAI超神经17 天前
机器人·大语言模型·视觉语言模型·英伟达·physical ai·实时智能交互·gpu 架构
售价3499美元,英伟达Jetson Thor实现机器人与物理世界的实时智能交互黄仁勋曾公开表示,机器人是英伟达在人工智能之外的最大增长机会。在 2025 年 1 月初开幕的 CES 2025 上,老黄更是高喊「AI 的下一个前沿是物理」,就像当年押注 OpenAI 一般,他如今的选择是 Physical AI 引领的机器人赛道。
youcans_18 天前
人工智能·gpt·大语言模型·模型部署·webui
【AGI使用教程】GPT-OSS 本地部署(2)欢迎关注【AGI使用教程】 专栏 【AGI使用教程】GPT-OSS 本地部署(1) 【AGI使用教程】GPT-OSS 本地部署(2)
Struart_R23 天前
人工智能·深度学习·计算机视觉·3d·大语言模型·多模态
LLaVA-3D,Video-3D LLM,VG-LLM,SPAR论文解读目录一、LLaVA-3D1、概述2、方法3、训练过程4、实验二、Video-3D LLM1、概述2、方法
Struart_R1 个月前
计算机视觉·语言模型·transformer·大语言模型·vlm·视觉理解·空间推理
SpatialVLM和SpatialRGPT论文解读目录一、SpatialVLM1、概述2、方法3、实验二、SpatialRGPT1、概述2、方法3、训练方法
努力还债的学术吗喽1 个月前
gpt·大模型·llm·gpt-3·大语言模型·few-shot·zero-shot
2020 GPT3 原文 Language Models are Few-Shot Learners 精选注解本文为个人阅读GPT3,部分内容注解,由于GPT3原文篇幅较长,且GPT3无有效开源信息 这里就不再一一粘贴,仅对原文部分内容做注解,仅供参考 详情参考原文链接 原文链接:https://arxiv.org/pdf/2005.14165
HyperAI超神经1 个月前
llm·大语言模型·内存管理·vllm·推理加速·kv 缓存·中文文档
【vLLM 学习】Load Sharded StatevLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。
星夜Zn1 个月前
论文阅读·人工智能·大语言模型·nature·认知建模·统一认知模型
Nature论文-预测和捕捉人类认知的基础模型-用大模型模拟人类认知原文地址建立一个统一的认知理论一直是心理学的一个重要目标。建立这种理论的第一步是建立一个计算模型,可以预测人类在各种环境中的行为。在这里,我们介绍了Centaur,一个计算模型,可以预测和模拟人类的行为在任何实验表达的自然语言。我们通过在名为Psych-101的大规模数据集上微调最先进的语言模型来获得Centaur。Psych-101具有前所未有的规模,涵盖了超过60,000名参与者在160个实验中进行超过10,000,000次选择的试验数据。Centaur不仅比现有的认知模型更好地捕捉了被拒参与者的行为
嘿嘻哈呀1 个月前
大语言模型·分类问题·假新闻检测·可解释性决策
基于进化算法的假新闻检测优化框架(FDOF)这篇论文提出了一种名为基于进化算法的假新闻检测优化框架(FDOF),旨在通过优化提示(prompt)来提升大型语言模型(LLM)在假新闻检测任务中的性能和可解释性。
ModelWhale1 个月前
人工智能·大模型·大语言模型
“大模型”技术专栏 | 和鲸 AI Infra 架构总监朱天琦:大模型微调与蒸馏技术的全景分析与实践指南(上)编者按:人工智能正以前所未有的渗透力重塑生产与生活图景。作为国内领先的数据智能科技企业,和鲸科技自 2015 年成立以来,深耕人工智能与数据科学,历经十年发展,已在气象、教育、医疗、航空航天、金融、通信、能源、零售等领域,与众多高校、科研机构、企业等单位展开了深度合作。
星夜Zn1 个月前
论文阅读·人工智能·大语言模型·发展报告·ai社会影响
生成式人工智能展望报告-欧盟-04-社会影响与挑战原文地址本章探讨了GenAI的社会影响,强调了技能差距以及公民和劳动力对AI素养的需求。它讨论了数字公共领域和人工智能与环境问题的交叉点,以及媒体中的Gen AI及其发展的整体感知,公共话语和叙事。本章还讨论了人工智能系统中的儿童权利和性别偏见问题,以及产生虚假或误导性内容的可能性。GenAI政策分析的行为方法被提出作为应对隐私和数据保护挑战的一种手段。本章提出了一些关键问题,即如何确保包容性和道德的人工智能应用符合社会价值观。
CodeShare1 个月前
人工智能·大语言模型·医疗决策支持
自适应集群协作提升大语言模型医疗决策支持能力大语言模型(LLMs)的协作能力在自然语言处理系统中已被证明有效,对医疗健康领域发展具有重要潜力。然而,现有方法缺乏明确的组件选择规则,需依赖人工干预或临床特定验证。此外,当前架构严重依赖预定义的LLM集群,其中部分模型在医疗决策支持场景中表现不佳,导致协作失效。为此,提出一种自适应集群协作方法,结合自多样性和跨一致性最大化机制:
想去的远方2 个月前
llm·openai·大语言模型
OpenAI Python API 完全指南:从入门到实战OpenAI Python API 库为开发者提供了便捷访问 OpenAI 强大 AI 模型的能力。本文将详细介绍该库的各项功能,并通过代码示例展示如何使用。