语言模型

Black蜡笔小新4 小时前
人工智能·语言模型·大模型·音视频·webrtc·rtc
AI大模型驱动的智能音视频通信:视频通话SDK工具EasyRTC在嵌入式设备中的应用探索随着物联网(IoT)和人工智能(AI)技术的快速发展,嵌入式设备正逐渐成为连接物理世界与数字世界的桥梁。而WebRTC,作为一种开源、实时、点对点的音视频通信技术,凭借其低延迟、高可靠性和跨平台等优势,正在嵌入式领域展现出巨大的应用潜力。
Zhouqi_Hua5 小时前
论文阅读·笔记·深度学习·语言模型·自然语言处理
LLM论文笔记 15: Transformers Can Achieve Length Generalization But Not Robustly1. 实验结论:十进制加法任务上的长度泛化最佳组合:FIRE位置编码随机化位置编码反向数据格式索引提示(index hints,辅助定位)
AI生成未来8 小时前
计算机视觉·语言模型·多模态·mllms
多模态大语言模型(MLLMs)如何重塑和变革计算机视觉?本文介绍了多模态大型语言模型(MLLM)的定义、使用挑战性提示的应用场景,以及正在重塑计算机视觉的顶级模型。
bug404_20 小时前
人工智能·分布式·语言模型
分布式大语言模型服务引擎vLLM论文解读论文地址:Efficient Memory Management for Large Language Model Serving with PagedAttention
Zhouqi_Hua1 天前
论文阅读·人工智能·深度学习·神经网络·语言模型
LLM论文笔记 12: Teaching Arithmetic to Small Transformers1. 算数运算NTP中数据格式使用reverse或者scratchpad格式(CoT)可以显著提高精确度,cot可以显著减小需要的训练数据量
一 铭1 天前
人工智能·语言模型·大模型·llm
dify实现分析-rag-关键词索引的实现在dify中有两种构建索引的方式,一种是经济型,另一种是高质量索引(通过向量数据库来实现)。其中经济型就是关键词索引,通过构建关键词索引来定位查询的文本块,而关键词索引的构建是通过Jieba这个库来完成的。
没枕头我咋睡觉1 天前
人工智能·语言模型·自然语言处理
【大语言模型_2】mindie部署deepseek模型https://modelscope.cn/home不修改启动模型会报错修改模型config.json
仙人掌_lz1 天前
人工智能·语言模型·自然语言处理
【再读】2501.12948/DeepSeek-R1通过强化学习提升大型语言模型(LLMs)的推理能力DeepSeek-R1-Zero展示了在没有监督数据的情况下,通过RL可以发展出强大的推理能力。DeepSeek-R1通过引入冷启动数据和多阶段训练,进一步提升了推理性能,达到了与OpenAI-o1-1217相当的水平。此外,通过蒸馏技术,将DeepSeek-R1的推理能力转移到更小的密集模型上,显著提高了这些模型的推理能力。
tangjunjun-owen1 天前
人工智能·语言模型·自然语言处理·llava-cot论文
LLaVA-CoT: Let Vision Language Models Reason Step-by-Step论文解读大型语言模型在推理能力方面展现了显著的进步,尤其是在推理时扩展方面,如OpenAI的o1模型所示。然而,当前的视觉-语言模型(VLMs)在进行系统性和结构性推理时往往面临挑战,特别是在处理复杂的视觉问答任务时。在这项工作中,我们介绍了LLaVA-CoT1,这是一种新型的VLM,旨在进行自主的多阶段推理。不同于链式思维提示,LLaVA-CoT独立地参与到摘要、视觉解释、逻辑推理和结论生成的连续阶段中。这种结构化的方法使得LLaVA-CoT在需要高度推理的任务上实现了明显的精度提升。为了实现这一目标,我们编译
FserSuN1 天前
人工智能·语言模型·自然语言处理
大语言模型Agent当你面临一个没有简单答案的问题时,通常需要遵循几个步骤,仔细思考,并记住你已经尝试过的方法。LLM代理正是为语言模型应用中的这些情况而设计的。它们结合了全面的数据分析、战略规划、数据检索以及从过去行动中学习的能力,以解决复杂问题。
真上帝的左手1 天前
spring boot·ai·语言模型·自然语言处理·ai编程
23. AI-大语言模型-DeepSeek赋能开发-Spring AI集成拥抱AI‌DeepSeek 是深度求索公司发布的大模型,是国产之光。大家应该学会如何使用 DeepSeek 大模型,本文主要探讨,如何开发基于 DeepSeek 大模型的智能应用。
LeeZhao@1 天前
人工智能·语言模型·aigc·生活
【AIGC工具箱】AIGC重塑生活神器官网地址:Sonic: Shifting Focus to Global Audio Perception in Audio-driven Portrait Animation
里清外明1 天前
python·语言模型·aigc
大模型免费api调用系列:硅基流动使用多家平台发现,硅基流动是我发现的第一家同时提供免费的大模型api、嵌入模型api和重排序模型api的平台,很高兴跟大家分享这个消息,注册烦请填写邀请码:1qZVBGKZ,会赠送14元的额度用于付费的模型使用。这里分享通过python代码调用api输出内容的示例,其他代码也可参考官方给的示例哦。需要注意的是代码中的api key需要换成自己注册后创建的api key,例如`api_key="your_key`换成`api_key="xxx"`,`"Authorization": Bearer <toke
Donvink2 天前
人工智能·深度学习·语言模型·transformer
【复现DeepSeek-R1之Open R1实战】系列5:SFT源码逐行深度解析【复现DeepSeek-R1之Open R1实战】系列3:SFT和GRPO源码逐行深度解析(上) 【复现DeepSeek-R1之Open R1实战】系列5:SFT和GRPO源码逐行深度解析(中)
奇谱2 天前
人工智能·语言模型
deepseek-v3在阿里云和腾讯云的使用中的差异随着deepseek在各大云商上线,试用了下阿里云和腾讯云的deepseek服务,在回答经典数学问题9.9和9.11谁大时,发现还是有差异的。将相关的问题记录如下。
gzroy2 天前
人工智能·语言模型
华为昇腾服务器部署DeepSeek模型实战在华为的昇腾服务器上部署了DeepSeek R1的模型进行验证测试,记录一下相关的过程。服务器是配置了8块910B3的显卡,每块显卡有64GB显存,根据DeepSeek R1各个模型的参数计算,如果部署R1的Qwen 14B版本,需要1张显卡,如果是32B版本,需要2张,Llama 70B的模型需要4张显卡。如果是R1全参数版本,则需要32张显卡,也就是4台满配的昇腾服务器。这里先选择32B的模型进行部署测试,等之后申请更多的算力资源之后再测试部署全参数版本。另外除了部署32B之外,为了能更好地使用Dee
Watermelo6172 天前
大数据·人工智能·深度学习·神经网络·机器学习·语言模型·自然语言处理
DeepSeek横空出世,真的拯救了算力焦虑吗?目录DeepSeek横空出世,真的拯救了算力焦虑吗?一、为什么会有算力焦虑二、来自硅谷四大科技巨头的决策
Jason95102 天前
人工智能·语言模型
如何在不依赖函数调用功能的情况下结合工具与大型语言模型当大型语言模型(LLM)原生不支持函数调用功能时,如何实现智能工具调度?本文通过自然语言解析+结构化输出控制的方法来实现。
charles_vaez2 天前
深度学习·语言模型·自然语言处理
开源模型应用落地-DeepSeek-R1-Distill-Qwen-7B-LoRA微调-LLaMA-Factory-单机单卡-V100(一)如今,大语言模型领域热闹非凡,各种模型不断涌现。DeepSeek-R1-Distill-Qwen-7B 模型凭借其出色的效果和性能,吸引了众多开发者的目光。而 LLaMa-Factory 作为强大的微调工具,能让模型更好地满足个性化需求。
Black_Rock_br2 天前
ios·语言模型·iphone
iPhone 智能进化:Siri 调用 DeepSeek 大模型通过 Siri 直接调用 DeepSeek 这一顶尖 AI 大模型,让你的 iPhone 即刻化身为超级智能大脑。