大语言模型

神奇的代码在哪里1 天前
人工智能·大语言模型·pyside6·讯飞星火spark·spark lite
基于【讯飞星火 Spark Lite】轻量级大语言模型的【PySide6应用】开发与实践背景:之前博主使用PySide6开发了一个刷题复习软件实用刷题复习软件【单机版】 | 使用PySide6自制刷题软件【源码+解析】| 支持自定义excel题库。当前AI大模型火爆,可以借助AI在刷题复习软件中加入AI分析作答功能,提升刷题体验,更好的理解题目背后的逻辑和原理,同时也可以了解一下当前AI开放平台的开发过程。进行了一系列搜索后,决定还是使用免费、比较权威一点的AI大模型平台讯飞星火来完成这项研究工作。这里先放结果测试图,大模型分析的答案还是挺厉害的。
镰刀韭菜4 天前
大语言模型·sas·3dsmiles-gpt·分子设计·基于序列的分子生成·基于骨架的分子生成·vina
【AI4S】3DSMILES-GPT:基于词元化语言模型的3D分子生成基于目标结构生成三维(3D)分子,是药物发现领域的一项前沿挑战。然而,目前许多现有方法往往会产生构型无效、不符合物理实际、药效不佳、合成难度大,且耗时较长的分子。为应对这些难题,我们提出了3DSMILES-GPT——一种完全由语言模型驱动的3D分子生成框架,该框架仅使用标记符进行操作。我们将二维(2D)和三维分子表示均视为语言表达形式,通过全维表示将其有机结合,并在包含数千万种类似药物分子的海量数据集上对模型进行预训练。这种纯标记符的方法使模型能够全面理解大规模分子的二维与三维特性。随后,我们利用蛋白质口
deephub4 天前
人工智能·深度学习·google·微调·大语言模型·jax
Google开源Tunix:JAX生态的LLM微调方案来了JAX生态这两年在LLM训练这块追赶得挺快。PyTorch虽然还是主流但JAX在并行计算、TPU加速和API组合性上确实有些独特的优势。Google今天放出了Tunix这个库,专门做LLM的后训练——微调、强化学习、知识蒸馏这些都能搞。
镰刀韭菜6 天前
llm·transformer·大语言模型·药物设计·分子发现·chemchat·smiles
【AI4S】大语言模型与化学的未来,以及整合外部工具和聊天机器人的潜力虽然近年来技术创新和变革日新月异,从根本上改变了我们对生物化学过程的认识,但化学领域仍花费大量时间和金钱——"10 年 "和 “3000 亿”——将新产品推向市场。这是由于实验室实验的高失败率、化学探索的广阔空间以及包括意外发现在内的强大运气成分。常见的情况是,设计一种分子,设计一条合成路线,并根据各种理论花费大量时间进行合成,却发现无法实现预期功能。然后,经过反复实验,可以说是机缘巧合的发现促成了新产品的诞生,如药品。
镰刀韭菜7 天前
大语言模型·ai4s·指令微调·chemllm·chemdata
【AI4S】ChemLLM:一种化学大型语言模型这篇文章主要介绍了大语言模型(LLMs)在近年来取得的迅速进展,并成功地应用于各个领域,包括自然语言处理、计算机视觉、自动驾驶和医学诊断等。由于它们令人印象深刻的理解和推理能力,它们在各种科学领域中显示出潜力。值得注意的是,LLMs已经被应用于与化学相关的任务,如分子性质预测、分子生成和实验协议设计等。这些工作展示了LLMs在为化学研究提供有洞察力的建议和解决方案方面的潜力。尽管之前已经尝试过将LLMs适应于各种化学下游任务,但这些LLMs并非专门针对化学而设计,它们对化学空间的理解不足,难以处理复杂的化
Bioinfo Guy7 天前
人工智能·大语言模型·多组学
Genome Med|RAG-HPO做表型注释:学习一下大语言模型怎么作为发文思路今天给大家介绍一篇做工具的文章,教大家怎么去模仿这种思路产出自己的文章,结合大语言模型去写工具也是可以出文章的,不论是集成化的docker本地部署,或者缩减点做个shiny,甚至是开放源代码都是可以的。
charieli-fh9 天前
人工智能·深度学习·大模型·大语言模型
LoRA 高效微调大语言模型全流程:从原理、实践到参数调优在大语言模型(LLM)的微调实践中,LoRA (Low-Rank Adaptation) 是解决高昂计算成本的核心技术。本文基于 Hugging Face 生态,提供了一套完整的 LoRA 微调 Seq2Seq 模型 (mt0-large) 的工作流。通过对比三组不同超参数配置的实验数据,文章重点分析了 目标模块 (target_modules) 和学习率 (learning_rate) 对模型推理质量的决定性影响,并给出了经过验证的优化配置。
测试者家园12 天前
javascript·自动化测试·人工智能·大语言模型·智能化测试·软件开发和测试·midscene
Midscene.js为什么能通过大语言模型成功定位页面元素Midscene.js 能够通过大语言模型(LLM)成功定位页面元素并生成XPath路径,主要归功于其多模态理解能力、对网页结构的智能解析,以及将自然语言指令与界面视觉信息相结合的处理方式。下面我来为你解释它的工作原理、关键技术和优势。
贾全13 天前
人工智能·负载均衡·大语言模型·路由·moe·多模态ai·门控
MoE 的“大脑”与“指挥官”:深入理解门控、路由与负载均衡在上一篇文章中,我们通过“专家委员会”的类比,对 Mixture of Experts (MoE) 建立了直观的认识。本文将深入 MoE 的技术心脏,详细拆解其三大核心机制:门控网络 (Gating Network)、路由算法 (Routing Algorithm) 和 负载均衡 (Load Balancing)。我们将从数学原理出发,逐步推导门控网络如何做出决策,探讨 Top-k 路由如何高效地分配任务,并解释为何负载均衡对于训练一个成功的 MoE 模型至关重要。最后,我们会通过一个 PyTorch 代
镰刀韭菜14 天前
人工智能·自然语言处理·大语言模型·强化学习·ppo·后训练·grpo
【大语言模型】大模型后训练入门指南这些能力有什么共同点呢?答案是:它们都是在后训练阶段(post-training) 中发展出来的。尽管后训练解锁的能力在几年前看起来几乎像魔法一样,但它获得的关注却远少于 Transformer 架构和预训练的基础内容。
水龙吟啸15 天前
人工智能·深度学习·自然语言处理·大语言模型
从零开始搭建深度学习大厦系列-4.Transformer生成式大语言模型最近在学习文本预处理(分词与词和位置嵌入)、自注意力机制(Self-Attention)、多头自注意力机制、Transformer Block和GPT-2、GPT-3的基本架构。
nju_spy25 天前
人工智能·gpt·nlp·大语言模型·zero-shot·transformer架构·半监督训练
GPT 系列论文1-2 两阶段半监督 + zero-shot promptGPT,GPT-2,GPT-3 论文精读【论文精读】--B站GPT前三和 Transformer还有BERT 时间轴。
nju_spy1 个月前
人工智能·pytorch·深度学习·大语言模型·梯度·梯度下降·反向传播
南京大学 LLM开发基础(一)前向反向传播搭建主要围绕深度学习中 前向反向传播的搭建原理。目录1. 大语言模型导言编码 + Attention + 基本组件
真智AI1 个月前
大语言模型·技术趋势·开源ai·人工智能生态
开放式LLM的崛起:未来已至大型语言模型(LLM)的未来,不会仅由少数公司实验室来决定。它将由全球成千上万人的智慧塑造,他们在开放中不断迭代,无需等待会议室的批准,就能突破边界。开源运动已经证明,它不仅能与专有模式保持同步,甚至在某些领域已超越对手。Deepseek,就是一个鲜活的例子。
boonya1 个月前
开源·大模型·llm·大语言模型
国内外开源大模型 LLM整理国内外开源大语言模型(LLM)的发展非常迅速,目前已经形成了一个百花齐放、各具特色的生态系统。下面我将从国外和国内两个维度,为您梳理一些具有代表性的开源大模型。
deephub1 个月前
人工智能·深度学习·大语言模型·智能体
Memento:基于记忆无需微调即可让大语言模型智能体持续学习的框架大语言模型智能体(LLM Agent)是一类利用大语言模型通过交互、推理和决策来自主执行复杂任务的系统,通常具备访问外部工具、记忆系统或环境的能力。与被动响应单一提示的传统LLM不同,LLM智能体采用主动且迭代的运行模式,在明确目标的引导下执行任务。这类系统正被广泛部署为跨领域的自主问题解决器,OpenAI的Deep Research智能体便是典型代表。
runfarther1 个月前
python·ai·大语言模型·数据库开发·milvus
Milvus 向量数据库开发实战指南Milvus向量数据库是什么?-CSDN博客高效的数据表示方式,使用位数组替代传统数据类型默认情况下,位值根据特定条件设置为 0 或 1
躺柒1 个月前
人工智能·ai·语言模型·自然语言处理·大语言模型·大语言
读大语言模型08计算基础设施1.1. 人工智能专家系统在20世纪70年代风靡一时1.1.1. 基于规则的程序,目的是获取特定领域的专家知识
deephub1 个月前
人工智能·深度学习·大语言模型·零样本学习·自博弈机制
R-Zero:通过自博弈机制让大语言模型无需外部数据实现自我进化训练R-Zero框架实现了大语言模型在无外部训练数据条件下的自主进化与推理能力提升。当前的LLM改进方法高度依赖大规模人工标注数据,这种范式虽然取得了显著成果但面临两个根本性限制:人类生成数据的有限性将导致训练瓶颈,以及人工数据的智能上界制约了模型超越人类能力的可能性。
HyperAI超神经1 个月前
机器人·大语言模型·视觉语言模型·英伟达·physical ai·实时智能交互·gpu 架构
售价3499美元,英伟达Jetson Thor实现机器人与物理世界的实时智能交互黄仁勋曾公开表示,机器人是英伟达在人工智能之外的最大增长机会。在 2025 年 1 月初开幕的 CES 2025 上,老黄更是高喊「AI 的下一个前沿是物理」,就像当年押注 OpenAI 一般,他如今的选择是 Physical AI 引领的机器人赛道。