语言模型

gravity_w16 小时前
人工智能·经验分享·笔记·深度学习·语言模型·nlp
Hugging Face使用指南在~/.bashrc中添加下述内容,将huggingface换成国内镜像,重新打开终端,这样每次都会指向镜像站
余俊晖17 小时前
人工智能·语言模型·自然语言处理
多页文档理解强化学习设计思路:DocR1奖励函数设计与数据构建思路传统GRPO适用于单图/单页任务,无法解决多页文档的两大关键问题:1、需从多页中筛选少量相关证据页;2、需平衡证据检索与答案生成的可靠性。EviGRPO是基于GRPO改进的强化学习框架,专门针对多页文档理解优化——先全局理解文档并定位相关证据页,再基于证据页细粒度推理生成答案,而非直接生成结果。
学历真的很重要17 小时前
人工智能·后端·学习·语言模型·面试·职场和发展·langchain
LangChain V1.0 Context Engineering(上下文工程)详细指南基于官方文档 https://docs.langchain.com/oss/python/langchain/context-engineering的完整中文总结
柯南小海盗19 小时前
人工智能·语言模型·自然语言处理
从“会聊天的AI”到“全能助手”:大语言模型科普大语言模型就是基于深度学习技术,通过大量的文本数据上训的参数量模型,学习人类语言的结构、规则和语义知识,从而实现自然语言的理解、处理与生成。简单来说,它就像一个“超级语言学霸”——通过阅读互联网上几乎所有公开文本,掌握了人类语言的底层逻辑,进而能完成问答、创作、翻译等多种任务。
ggaofeng19 小时前
人工智能·语言模型·自然语言处理
运行调试大语言模型很多LLM是开源的,是可以自己下载模型,运行调试的。下载模型:https://www.modelscope.cn/models/Qwen/Qwen3-0.6B/files
大模型任我行20 小时前
人工智能·语言模型·自然语言处理·论文笔记
微软:小模型微调优化企业搜索📖标题:Fine-tuning Small Language Models as Efficient Enterprise Search Relevance Labelers 🌐来源:arXiv, 2601.03211v1
羊羊小栈1 天前
人工智能·yolo·语言模型·毕业设计·创业创新·大作业
基于YOLO和多模态大语言模型的智能电梯安全监控预警系统(vue+flask+AI算法)b站项目演示与部署教程视频地址(点这里) https://www.bilibili.com/video/BV1UerTBqEDk/?share_source=copy_web&vd_source=31c839f46a9a845dd6dd641cbd5c2ac1
开放知识图谱1 天前
人工智能·语言模型·自然语言处理·知识图谱
论文浅尝 | 图上生成:将大语言模型视为智能体与知识图谱以解决不完整知识图谱问答(EMNLP2024)笔记整理:邹堉莹,东南大学硕士,研究方向为知识图谱与大语言模型相结合论文链接:https://arxiv.org/abs/2404.14741
爱吃羊的老虎2 天前
数据库·语言模型
【大模型】向量数据库:Chroma、Weaviate、Qdrant向量数据库(Vector Database) 是一种面向高维向量数据的专用数据库系统,其核心目标是:在高维向量空间中,实现大规模向量的高效存储、索引与近似相似度检索(Approximate Nearest Neighbor, ANN)。
imbackneverdie2 天前
人工智能·语言模型·自然语言处理·aigc·ai写作
Science最新文章:大型语言模型时代的科学生产Scientific production in the era of large language models
有梦想有行动2 天前
人工智能·语言模型·自然语言处理
大语言模型的前世今生这是一个从传统神经网络 → Transformer → BERT → 大语言模型(LLM) 的技术演化过程。 我下面按时间线讲清楚它们是怎么发现与发展起来的,以及每一步技术是如何铺垫下一步的。
P-ShineBeam2 天前
运维·服务器·人工智能·语言模型
八卡A100服务器坏卡引发 CUDA initialization: cudaGetDeviceCount()异常在多卡 GPU服务器中(尤其是 A100),在坏卡后,可能导致各类应用对 CUDA 设备编号出现不一致。因此在检查各应用组件的安装状态都是正常后,尝试重启了 Fabric Manager:
m0_603888712 天前
人工智能·算法·ai·语言模型·论文速览
Scaling Trends for Multi-Hop Contextual Reasoning in Mid-Scale Language ModelsAuthors: Brady Steele, Micah KatzDeep-Dive Summary:
Toky丶2 天前
人工智能·语言模型·自然语言处理
【文献阅读】Pretraining Large Language Models with NVFP4NVIDIA2025 年 9 月 30 日如今,大语言模型(LLM)在众多领域都是强大的问题解决工具。正如业界广泛的研究和实验所示,随着模型规模、训练集规模和训练集质量的扩大,它们的性能持续提升。目前,训练一个前沿模型需要数十至数百尧浮点运算的算力,这意味着在时间、计算资源和能源方面的巨额投入。因此,提高预训练效率对于开发下一代性能更强大的大语言模型至关重要。虽然 8 位浮点(FP8)训练现已被广泛采用,但转向精度更窄的格式(如 4 位浮点(FP4))有望进一步提升计算速度和资源利用率。然而,这种精度级别
颜值博主2 天前
人工智能·ai·语言模型
新一代大模型范式: Inner Tools作者: peirongyan | 公司: 腾讯开头直接说重点,本文提出一种称之为inner tools的大模型范式,核心思想是将部分无需网络调用的通用工具在模型基座中直接实现并使用,预计可以解决大模型超长上下文理解以及大模型实际应用中消耗资源多,耗时长的问题。
Toky丶2 天前
人工智能·语言模型·自然语言处理
【文献阅读】BitNet Scaling 1-bit Transformers for Large Language Models微软研究院中国科学院大学清华大学https://aka.ms/GeneralAI大型语言模型规模的不断扩大给部署带来了挑战,同时高能耗也引发了对环境影响的担忧。在本研究中,我们提出了 BitNet—— 一种面向大型语言模型的可扩展且稳定的 1 位 Transformer 架构。具体而言,我们引入 BitLinear 作为 nn.Linear 层的即插即用替代方案,以便从零开始训练 1 位权重。语言建模任务的实验结果表明,与最先进的 8 位量化方法和 FP16 Transformer 基线模型相比,BitN
狮子座明仔2 天前
人工智能·语言模型·自然语言处理
MiMo-V2-Flash 深度解读:小米 309B 开源 MoE 模型如何用 15B 激活参数吊打 671B 巨头?一句话总结:小米 MiMo-V2-Flash 以 309B 总参数、15B 激活参数的极致稀疏 MoE 架构,配合创新的混合滑动窗口注意力(Hybrid SWA + Sink Bias)和多 Token 并行预测(MTP),以及突破性的多教师在线策略蒸馏(MOPD)后训练范式,在 SWE-bench Verified 上达到 73.4%,媲美 GPT-5 High,同时推理速度提升 2.6 倍,宣告了"小参数、大智慧"时代的全面到来。
waterfeeling2 天前
人工智能·语言模型·agi
AGI时代如何选取合适的LLM(大语言模型)? -- 浅谈LLM评测为了架起技术基准测试与商业价值之间的桥梁,我们必须超越单纯的“准确率”评分,转而研究这些指标如何预测模型的**“人力投入回报率”(Return on Human Effort)**。
且去填词2 天前
人工智能·python·mysql·语言模型·deepseek·structured data
DeepSeek-R1 实战:数据分析在上一篇专栏中,我们利用 DeepSeek + RAG 搞定了 PDF、Word 等非结构化文档的知识问答。但在企业的核心资产中,还有这另一半壁江山——躺在数据库里的结构化数据。
reesn2 天前
人工智能·语言模型
模型转ONNX流程指南PyTorch能极大地提高构建效率,是训练框架中非常优秀,但它不适合部署。动态建图带来的优势对于性能要求更高的应用场景更像是缺点,非固定的网络结构给网络结构分析并进行优化带来了困难。