自然语言处理

余俊晖1 小时前
人工智能·语言模型·自然语言处理
多页文档理解强化学习设计思路:DocR1奖励函数设计与数据构建思路传统GRPO适用于单图/单页任务,无法解决多页文档的两大关键问题:1、需从多页中筛选少量相关证据页;2、需平衡证据检索与答案生成的可靠性。EviGRPO是基于GRPO改进的强化学习框架,专门针对多页文档理解优化——先全局理解文档并定位相关证据页,再基于证据页细粒度推理生成答案,而非直接生成结果。
AI大佬的小弟3 小时前
人工智能·自然语言处理·开源·大模型基础·大模型分类·什么是大模型·国内外主流大模型
【小白第一课】大模型基础知识(1)---大模型到底是啥?邀诸君共赏ollama的官网页面,后期会进行讲解。之前关于Python基础的分享就结束了,可能好多小伙伴们都感觉内容有点少了,不要慌,我们后面还有关于Python的高级技术分享。一方面是由于一直讲文字内容有点枯燥,害怕大家学的不够投入,另一方面,也是想分享点其他的内容,让大家感受一下AI的魅力。
柯南小海盗4 小时前
人工智能·语言模型·自然语言处理
从“会聊天的AI”到“全能助手”:大语言模型科普大语言模型就是基于深度学习技术,通过大量的文本数据上训的参数量模型,学习人类语言的结构、规则和语义知识,从而实现自然语言的理解、处理与生成。简单来说,它就像一个“超级语言学霸”——通过阅读互联网上几乎所有公开文本,掌握了人类语言的底层逻辑,进而能完成问答、创作、翻译等多种任务。
ggaofeng4 小时前
人工智能·语言模型·自然语言处理
运行调试大语言模型很多LLM是开源的,是可以自己下载模型,运行调试的。下载模型:https://www.modelscope.cn/models/Qwen/Qwen3-0.6B/files
大模型任我行5 小时前
人工智能·语言模型·自然语言处理·论文笔记
微软:小模型微调优化企业搜索📖标题:Fine-tuning Small Language Models as Efficient Enterprise Search Relevance Labelers 🌐来源:arXiv, 2601.03211v1
智算菩萨8 小时前
开发语言·python·自然语言处理
【Python自然语言处理】实战项目:词向量表示完整实现指南目录1. 项目概述2. 文本预处理模块的实现2.1 TextPreprocessor类的核心实现2.2 词性标注与命名实体识别的实现
开放知识图谱9 小时前
人工智能·语言模型·自然语言处理·知识图谱
论文浅尝 | 图上生成:将大语言模型视为智能体与知识图谱以解决不完整知识图谱问答(EMNLP2024)笔记整理:邹堉莹,东南大学硕士,研究方向为知识图谱与大语言模型相结合论文链接:https://arxiv.org/abs/2404.14741
悟道心9 小时前
人工智能·gpt·自然语言处理
8. 自然语言处理NLP -GPTGPT = Generative Pre-trained Transformer 中文名:生成式预训练变换器
谢的2元王国10 小时前
人工智能·自然语言处理·word2vec
小数据量样本 2500条之下 且每条文本长度不超过35个字的时候 多词汇平均向量外加word2vec的语义模型处理后再到特征向量中检索即可"E:\python project 1\.venv1\Scripts\python.exe" "E:\python project 1\多词汇相似语义学习\销售技巧提问.py" Building prefix dict from E:\python project 1\.venv1\Lib\site-packages\jieba\dict.txt ... Loading model from cache C:\Users\Lenovo\AppData\Local\Temp\jieba.cache Loa
无妄无望1 天前
人工智能·自然语言处理·prompt
The Prompt Report: A Systematic Survey of Prompt Engineering Techniques(文本部分 )论文地址:提示词报告生成式人工智能(GenAI)系统正日益广泛地应用于各类行业与研究领域。开发者与终端用户通过提示词(prompting)及提示词工程(prompt engineering)与这类系统进行交互。尽管提示词工程已成为被广泛采用且研究深入的领域,但由于其兴起时间较晚,该领域存在术语冲突问题,且对于 “有效提示词的构成” 缺乏统一的本体论认知。 本文通过构建提示技术分类体系并分析其应用场景,建立了对提示词工程的结构化认知。具体而言,我们提供了包含 33 个术语的详细词汇表、涵盖 58 种大型语言
悟道心1 天前
人工智能·自然语言处理·bert
7. 自然语言处理NLP - BertBERT = Bidirectional Encoder Representations from Transformers 中文翻译:双向编码器表示,来自Transformer。 它是一个由 Google 在 2018 年提出的预训练语言模型,是 NLP 领域的“里程碑”式作品。你可以把它想象成一个“语言通才”——它先在海量文本上自学了语言规律,然后可以被“调教”去干各种任务,比如问答、情感分析、命名实体识别等等。 🎯 核心特点:
木头程序员1 天前
大数据·人工智能·计算机视觉·自然语言处理·智能手机·数据挖掘
大模型边缘部署突破:动态推理技术与精度-延迟-能耗帕累托优化摘要:随着大模型在计算机视觉、自然语言处理等领域的性能持续突破,其在手机、物联网设备等边缘场景的部署需求日益迫切。然而,大模型庞大的参数量与超高的计算开销,与边缘设备有限的算力、存储和能耗预算形成尖锐矛盾。动态推理技术通过自适应剪枝、早期退出等核心方案,可根据输入数据复杂度动态调整计算量,实现精度、延迟、能耗的帕累托优化,成为破解这一困境的关键路径。本文系统解析大模型边缘动态推理的核心问题,深入探讨自适应剪枝、早期退出等关键技术的原理与实现方案,重点分析多目标优化中的指标权衡逻辑,并展望未来技术发展方向,
imbackneverdie1 天前
人工智能·语言模型·自然语言处理·aigc·ai写作
Science最新文章:大型语言模型时代的科学生产Scientific production in the era of large language models
有梦想有行动1 天前
人工智能·语言模型·自然语言处理
大语言模型的前世今生这是一个从传统神经网络 → Transformer → BERT → 大语言模型(LLM) 的技术演化过程。 我下面按时间线讲清楚它们是怎么发现与发展起来的,以及每一步技术是如何铺垫下一步的。
Toky丶1 天前
人工智能·语言模型·自然语言处理
【文献阅读】Pretraining Large Language Models with NVFP4NVIDIA2025 年 9 月 30 日如今,大语言模型(LLM)在众多领域都是强大的问题解决工具。正如业界广泛的研究和实验所示,随着模型规模、训练集规模和训练集质量的扩大,它们的性能持续提升。目前,训练一个前沿模型需要数十至数百尧浮点运算的算力,这意味着在时间、计算资源和能源方面的巨额投入。因此,提高预训练效率对于开发下一代性能更强大的大语言模型至关重要。虽然 8 位浮点(FP8)训练现已被广泛采用,但转向精度更窄的格式(如 4 位浮点(FP4))有望进一步提升计算速度和资源利用率。然而,这种精度级别
Toky丶1 天前
人工智能·语言模型·自然语言处理
【文献阅读】BitNet Scaling 1-bit Transformers for Large Language Models微软研究院中国科学院大学清华大学https://aka.ms/GeneralAI大型语言模型规模的不断扩大给部署带来了挑战,同时高能耗也引发了对环境影响的担忧。在本研究中,我们提出了 BitNet—— 一种面向大型语言模型的可扩展且稳定的 1 位 Transformer 架构。具体而言,我们引入 BitLinear 作为 nn.Linear 层的即插即用替代方案,以便从零开始训练 1 位权重。语言建模任务的实验结果表明,与最先进的 8 位量化方法和 FP16 Transformer 基线模型相比,BitN
OpenBayes1 天前
人工智能·深度学习·自然语言处理·数据集·机器翻译·图像生成
HY-MT1.5-1.8B 支持多语言神经机器翻译;Med-Banana-50K 提供医学影像编辑基准数据6 个公共数据集:* Human faces 人脸数据集* SimpleQA 简明事实性问答评测数据集
狮子座明仔1 天前
人工智能·语言模型·自然语言处理
MiMo-V2-Flash 深度解读:小米 309B 开源 MoE 模型如何用 15B 激活参数吊打 671B 巨头?一句话总结:小米 MiMo-V2-Flash 以 309B 总参数、15B 激活参数的极致稀疏 MoE 架构,配合创新的混合滑动窗口注意力(Hybrid SWA + Sink Bias)和多 Token 并行预测(MTP),以及突破性的多教师在线策略蒸馏(MOPD)后训练范式,在 SWE-bench Verified 上达到 73.4%,媲美 GPT-5 High,同时推理速度提升 2.6 倍,宣告了"小参数、大智慧"时代的全面到来。
Java猿_2 天前
人工智能·语言模型·自然语言处理
使用Three.js创建交互式3D地球模型在现代Web开发中,3D图形可视化已经成为一个热门话题。Three.js作为最流行的3D库之一,为我们提供了强大的工具来创建引人入胜的3D场景。本文将详细介绍如何使用Three.js创建一个交互式的3D地球模型,并逐步优化其性能,最终实现一个带有国家名称标签的流畅3D地球。
资深web全栈开发2 天前
深度学习·自然语言处理·langchain
深度对比 LangChain 8 种文档分割方式:从逻辑底层到选型实战对 LangChain 常见的 8 种分割器进行多维度横向对比,明确每种工具的底层逻辑。在对比之前,请记住这三个衡量尺度: