qwen

大模型之路5 天前
人工智能·知识蒸馏·qwen·deepseek·deepseek-r1
DeepSeek-R1 如何通过知识蒸馏将推理能力传递给 QwenDeepSeek-R1(深度解析 DeepSeek R1:强化学习与知识蒸馏的协同力量),作为一个通过大规模强化学习训练出的强大推理模型,在数学、编程等推理任务上达到了与OpenAI-o1相当的性能水平。然而,如此强大的模型如何能够在资源受限的设备上运行,成为了一个亟待解决的问题。DeepSeek团队通过创新的知识蒸馏技术,成功地将DeepSeek-R1的推理能力传递给了参数量更小的Qwen系列模型,为AI模型的轻量化部署提供了重要参考。本文将详细探讨这一过程。
uncle_ll8 天前
大模型·llm·llama·qwen·rag
基于 llama-index与Qwen大模型实现RAGLlamaIndex和Langchain都是比较成熟的RAG和Agent框架,这里基于llama实现RAG框架,大模型选用阿里的开源模型Qwen大模型。可以实现Qwen2.5 与外部数据(例如文档、网页等)的连接,利用 LlamaIndex 与 Qwen2.5 快速部署检索增强生成(RAG)技术。
relis17 天前
人工智能·llama·qwen·ai大模型·开源模型·deepseek·codestral
编程AI深度实战:大模型哪个好? Mistral vs Qwen vs Deepseek vs Llama随着开源 LLM 的发展,越来越多的模型变得专业化,“代码”LLM 变得非常流行。这些 LLM 旨在比其 “常识” 对应物更小,但旨在超越更大的通用模型的编码性能。
__如果1 个月前
论文阅读·qwen
论文阅读--Qwen2&2.5技术报告所有模型都是在超过7 trillion token(7万亿)的高质量、大规模数据集上预训练的沿用Qwen(Bai等人,2023a)的做法,我们采用了基于字节级字节对编码的相同Tokenizer
OpenSani2 个月前
语言模型·qwen·qwen2·qwenvl
qwenvl 以及qwenvl 2 模型架构理解qwenvl 模型理解:参考资料: https://qwenlm.github.io/zh/blog/qwen2-vl/ https://github.com/QwenLM/Qwen2-VL?tab=readme-ov-file https://qwenlm.github.io/zh/blog/qwen2-vl/
lzl20402 个月前
深度学习·langchain·通义千问·qwen·rag
【深度学习总结】使用PDF构建RAG:结合Langchain和通义千问使用平台:趋动云,注册送算力在大型语言模型(LLMs)应用领域,我们面临着大量挑战,从特定领域知识的匮乏到信息准确性的窘境,以及可能生成虚假内容。检索增强生成(RAG)通过引入外部知识库等补充信息源,成为解决这些难题的有效策略。事实证明,在需要持续更新或特定领域应用的知识密集型场景中,RAG 尤其有效。与其他方法相比,RAG 的一个显著优势在于无需为特定任务重新培训 LLM。最近,RAG 因其在会话助手等应用中的成功应用而备受瞩目。
MatpyMaster2 个月前
人工智能·大模型·qwen·量化微调
大模型QLoRA微调——基于Qwen2-7B的自动化病历摘要生成系统01 项目简介(1)项目背景医疗文档中包含大量的诊疗信息,例如疾病诊断、手术名称、解剖部位、药物使用以及影像和实验室检查结果。这些信息是医疗数据分析的核心,但由于医疗文本内容复杂、格式多样,提取这些关键内容具有一定挑战。为此,本项目基于 Qwen-7B大语言模型,通过QLoRA微调,使其从医疗文档中识别并提取这些信息。
李好秀2 个月前
python·ai·llm·qwen
大语言模型人工智能(Artificial Intelligence,AI) 是计算机科学的一个分支,致力于创建能够执行通常需要人类智能的任务的机器或软件。AI 包括许多子领域,目标是使机器能够模仿或执行诸如学习、推理、规划、自然语言理解、感知和决策等任务。
农夫山泉2号2 个月前
ocr·qwen·got-ocr
【OCR】——端到端文字识别GOT-OCR2.0不香嘛?代码:https://github.com/Ucas-HaoranWei/GOT-OCR2.0?tab=readme-ov-file 在线demo:https://huggingface.co/spaces/stepfun-ai/GOT_official_online_demo
linmoo19863 个月前
java·人工智能·ai·大模型·通义千问·qwen·脚手架
java脚手架系列16-AI大模型集成之所以想写这一系列,是因为之前工作过程中有几次项目是从零开始搭建的,而且项目涉及的内容还不少。在这过程中,遇到了很多棘手的非业务问题,在不断实践过程中慢慢积累出一些基本的实践经验,认为这些与业务无关的基本的实践经验其实可以复刻到其它项目上,在行业内可能称为脚手架,因此决定将此java基础脚手架的搭建总结下来,分享给大家使用。
仙魁XAN4 个月前
api·qwen·dify·1024程序员节·ollama
AGI 之 【Dify】 之 Dify 在 Windows 端本地部署调用 Ollama 本地下载的大模型,实现 API 形式进行聊天对话目录AGI 之 【Dify】 之 Dify 在 Windows 端本地部署调用 Ollama 本地下载的大模型,实现 API 形式进行聊天对话
ejinxian5 个月前
qwen·qwen2.5
大模型Qwen2.5 家族的最新成员阿里今天发布了 Qwen 家族的最新成员:Qwen2.5,包括语言模型 Qwen2.5,以及专门针对编程的 Qwen2.5-Coder 和数学的 Qwen2.5-Math 模型。
伊织code6 个月前
音频·markdown·提取·qwen·tts·funasr·audionotes
AudioNotes -将音频内容转 markdownAudioNotes 能够快速提取音视频的内容,并且调用大模型进行整理,成为一份结构化的markdown笔记,方便快速阅读。基于 FunASR 和 Qwen2 构建。
洛阳泰山7 个月前
前端·python·sql·openai·qwen·chainlit
使用Chainlit接入通义千问快速实现一个自然语言转sql语言的智能体让我们构建一个简单的应用程序,帮助用户使用自然语言创建 SQL 查询。最终结果预览此示例有额外的依赖项。你可以使用以下命令安装它们:
洛阳泰山7 个月前
langchain·机器人·llm·qwen·rag·chainlit
使用Chainlit接入通义千问快速实现一个本地文档知识问答机器人增强版之前写了一篇文章,使用国内通义千问作为llm,结合langchain框架实现文本向量化检索和使用chainlit实现网页界面交互,实现一个本地知识问答的机器人。原文链接《使用Chainlit接入通义千问快速实现一个本地文档知识问答机器人》。本次基于上个版本做了增强优化,重要改动是:
EEE1even8 个月前
前端·语言模型·llm·qwen
Qwen2本地web Demo千问2前段时间发布了,个人觉得千问系列是我用过最好的中文开源大模型,所以这里基于streamlit进行一个千问2的web搭建,来进行模型的测试
我在北国不背锅8 个月前
docker·容器·qwen
内网环境使用Docker部署Qwen2模型在我参与的一个国企项目中,我们基于大语言模型开发了一些应用,但是甲方公司所有的资源环境都是纯内网。更为有趣的是,甲方公司已自主搭建并运行着一套百度机器学习平台(BML),客户要求所有的大模型部署必须依托于现有的BML平台进行,而非独立构建全新的基础设施,资源申请也相当严苛。面对这一系列限定条件,我们只能试着利用Docker容器技术进行大语言模型的部署。
m0_375599738 个月前
大语言模型·通义千问·qwen
阿里通义千问:本地部署Qwen1.5开源大模型通义千问为阿里云研发的大语言系列模型。千问模型基于Transformer架构,在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。同时,在预训练模型的基础之上,使用对齐机制打造了模型的chat版本。
IT大头8 个月前
人工智能·语言模型·chatgpt·qwen
Qwen2开源发布,各方位全面升级!今天,通义千问团队带来了Qwen2系列模型,Qwen2系列模型是Qwen1.5系列模型的重大升级。包括了:
产品大道10 个月前
人工智能·大模型·llama·qwen·千问
本地体验最强开源模型Llama3+Qnw(支持Windows和Mac)一键运行大模型本地软件(含模型):点击下载Meta放出Llama3模型了,也应该是这段时间里的一个科技大新闻了。