大语言模型

lihuayong5 天前
人工智能·大语言模型·few-shot·zero-shot·one-shot
One-shot和Zero-shot的区别以及使用场景Zero-shot是模型在没有任务相关训练数据的情况下进行预测,依赖预训练知识。One-shot则是提供一个示例,帮助模型理解任务。两者的核心区别在于是否提供示例,以及模型如何利用这些信息。
小白跃升坊6 天前
ai·大语言模型·maxkb
【AI+教学】让课堂实时讲解语音知识库沉淀下来今天给大家分享一个教学的 AI 使用场景,主要用来解决课堂老师实时讲解的内容如何让学生快速了解学习。课堂上老师上完课后,课堂实时讲解的内容,部分与教材或者课件有偏差(临场发挥),希望通过AI小助手将这部分知识沉淀总结下来。方便学生了解回顾。
deephub7 天前
人工智能·深度学习·大语言模型·mcp
5个开源MCP服务器:扩展AI助手能力,高效处理日常工作AI大语言模型(如Claude、GPT)尽管强大,但其原生形态仅限于文本对话,无法直接与外部世界交互。这一局限严重制约了AI在实际应用场景中的价值发挥 - 无法主动获取实时数据、无法操作外部系统、无法访问用户私有资源。
RuizhiHe9 天前
人工智能·chatgpt·llm·大语言模型·deepseek·从零开始实现大语言模型
从零开始实现大语言模型(十六):加载开源大语言模型参数预训练大语言模型的难点不在于算法,而在于数据和算力,绝大多数企业和机构都没有预训练大语言模型的算力资源。在工业界的大语言模型应用实践中,通常会使用领域数据微调开源大语言模型参数,以构建领域大语言模型。
RuizhiHe9 天前
人工智能·chatgpt·llm·大语言模型·deepseek·从零开始实现大语言模型
从零开始实现大语言模型(十五):并行计算与分布式机器学习并行计算与分布式机器学习是一种使用多机多卡加速大规模深度神经网络训练过程,以减少训练时间的方法。在工业界的训练大语言模型实践中,通常会使用并行计算与分布式机器学习方法来减少训练大语言模型所需的钟表时间。
有梦想的攻城狮11 天前
人工智能·语言模型·自然语言处理·llm·大语言模型
大语言模型与多模态模型比较输入数据类型LLM:仅处理文本数据,例如文本分类、机器翻译、问答等任务,通过大规模语料库学习语言规律。
亚里随笔11 天前
人工智能·算法·llm·大语言模型
AlphaEvolve:LLM驱动的算法进化革命与科学发现新范式本文聚焦Google DeepMind最新发布的AlphaEvolve,探讨其如何通过LLM与进化算法的结合,在数学难题突破、计算基础设施优化等领域实现革命性进展。从48次乘法优化4×4矩阵相乘到数据中心资源利用率提升0.7%,揭示AI驱动科学发现的全新路径。
小白跃升坊14 天前
大语言模型·it运维·linux操作系统·max kb
【保姆级教程】:开源 Qwen3 本地化部署实操详细教程1、1Panel:现代化、开源Linux服务器管理面板 2、Ollama:开源大语言模型管理平台 3、MaxKB:强大易用的企业级 AI 助手
不是吧这都有重名15 天前
论文阅读·人工智能·算法·大语言模型
[论文阅读]Deeply-Supervised Nets我们提出的深度监督网络(DSN)方法在最小化分类误差的同时,使隐藏层的学习过程更加直接和透明。我们尝试通过研究深度网络中的新公式来提升分类性能。我们关注卷积神经网络(CNN)架构中的三个方面:(1)中间层对整体分类的透明性;(2)学习特征的区分性和鲁棒性,特别是在早期层;(3)由于梯度爆炸和梯度消失问题,训练效果的有效性。我们引入了“伴随目标”,除了输出层的整体目标外,还为每个隐藏层引入了独立的目标(这与逐层预训练策略不同)。我们扩展了随机梯度方法中的技术来分析我们的算法。我们方法的优势显而易见,实验结果
亚里随笔18 天前
人工智能·架构·大语言模型·rlhf·推理加速
StreamRL:弹性、可扩展、异构的RLHF架构大语言模型(LLMs)的强化学习(RL)训练正处于快速发展阶段,但现有架构存在诸多问题。本文介绍的StreamRL框架为解决这些难题而来,它通过独特设计提升了训练效率和资源利用率,在相关实验中表现优异,想知道它是如何做到的吗?快来一探究竟!
deephub25 天前
人工智能·pytorch·深度学习·缓存·大语言模型
加速LLM大模型推理,KV缓存技术详解与PyTorch实现随着大型语言模型(LLM)规模和复杂度的指数级增长,推理效率已成为人工智能领域亟待解决的关键挑战。当前,GPT-4、Claude 3和Llama 3等大模型虽然表现出强大的理解与生成能力,但其自回归解码过程中的计算冗余问题依然显著制约着实际应用场景中的响应速度和资源利用效率。
苹果二1 个月前
知识图谱·大语言模型
【学习资源】知识图谱与大语言模型融合知识图谱与大型语言模型结合参数知识和明确知识的可用性会带来一些机会和愿景。分享一些知识图谱和大语言模型融合的论文和文章、实践案例、关键技术和实用工具。
deephub1 个月前
人工智能·深度学习·大语言模型·rag·智能检索
SecMulti-RAG:兼顾数据安全与智能检索的多源RAG框架,为企业构建不泄密的智能搜索引擎本文深入剖析SecMulti-RAG框架,该框架通过集成内部文档库、预构建专家知识以及受控外部大语言模型,并结合保密性过滤机制,为企业提供了一种平衡信息准确性、完整性与数据安全性的RAG解决方案,同时有效控制部署成本。
cxr8281 个月前
人工智能·自动化·大语言模型·mcp
基于Playwright的浏览器自动化MCP服务github.com/executeautomation/mcp-playwright 是一个基于 Playwright(微软开源的跨浏览器自动化测试框架)的 Model Context Protocol (MCP) 服务,核心功能是将浏览器自动化能力集成到大语言模型(LLM)的工作流中,使LLM能够通过调用该服务实现对网页的自动化操作(如浏览、数据提取、表单提交、截图等)。其本质是在LLM与浏览器之间建立桥梁,让AI具备处理动态网页内容的能力。
维度攻城狮1 个月前
大语言模型·控制·ros2·moveit·deepseek·rviz2
通过DeepSeek大语言模型控制panda机械臂,听懂人话,拟人性回答。智能机械臂助手又进一步啦通过使用智能化的工作流控制系统来精确操控机械臂,不仅能够基于预设算法可靠地规划每个动作步骤的执行顺序和力度,确保作业流程的标准化和可重复性,还能通过模块化的程序设计思路灵活地在原有工作流中插入新的控制节点,这种可扩展的架构设计使得系统能够在不影响既有功能稳定性的前提下,便捷地集成诸如视觉识别、力反馈调节或协同作业等进阶功能模块,从而持续提升机械臂在复杂工业场景中的适应性和多功能性。
changzz20081 个月前
llm·大语言模型·minimind·低配置
低配置电脑预训练minimind的实践minimind是一个轻量级的LLM大语言模型,项目的初衷是拉低LLM的学习门槛,让每个人都能从理解每一行代码开始, 从零开始亲手训练一个极小的语言模型。对于很多初学者而言,电脑配置仅能够满足日常工作,为了学习大预言模型,特别是在入门和学习基本原理阶段,用低配置的电脑能不能进行minimind模型的预训练呢?答案是可以,下面笔者一步一步来展示预训练的过程。
cxr8281 个月前
人工智能·大语言模型·模型微调
微调灾情分析报告生成模型考虑到数据量(84篇报告)对于14B模型来说非常有限,直接进行传统微调会面临严重的过拟合问题。我们将采用 QLoRA (Quantized LoRA) 技术,它是一种高效的参数微调方法,允许在量化后的模型上进行 LoRA 微调,极大地降低了计算资源需求,并减轻了过拟合风险。同时,我们将构建代码,展示如何加载模型、准备数据(模拟真实场景下的数据格式)、进行微调、保存模型以及进行基本的测试和推理。
deephub1 个月前
人工智能·深度学习·大语言模型·聚类
CLIMB自举框架:基于语义聚类的迭代数据混合优化及其在LLM预训练中的应用尽管优化预训练数据混合对大型语言模型(LLM)的性能有显著影响,但确定最优数据配比仍然是一个亟待解决的挑战。为应对这一问题,英伟达提出了一种名为CLIMB(CLustering-based Iterative data Mixture Bootstrapping)的自动化框架,该框架能够在预训练环境中系统地发现、评估并优化数据混合策略。CLIMB通过在语义空间中嵌入并聚类大规模数据集,并结合小型代理模型与性能预测器,迭代搜索最优数据混合比例。
小白跃升坊1 个月前
ai·大语言模型·it运维·mcp·max kb
干货分享|智能问数方案及步骤详解DeepSeek-R1的发布掀起了AI智能变革的浪潮。在过去几个月里,MaxKB开源企业级AI助手已经帮助大量企业和组织快速落地了DeepSeek,让AI在不同的行业土壤中产生持续、可度量的业务价值。
C7211BA1 个月前
大语言模型·vllm
为什么vllm能够加快大模型推理速度?vLLM加速大模型推理的核心技术原理可分解为以下关键创新点:KV Cache分页机制‌ 将传统连续存储的KV Cache拆分为非连续内存页,类似操作系统内存分页管理,消除内存碎片并实现动态分配。13B模型单请求KV Cache从1.6GB降至可弹性扩展的块状存储 内存共享优化‌ 相同前缀的请求(如多用户问相似问题)可共享KV Cache内存页,降低重复计算