大模型

九年义务漏网鲨鱼7 小时前
人工智能·深度学习·算法·大模型·强化学习
【大模型面经】千问系列专题面经🧔 这里是九年义务漏网鲨鱼,研究生在读,主要研究方向是人脸伪造检测,长期致力于研究多模态大模型技术;国家奖学金获得者,国家级大创项目一项,发明专利一篇,多篇论文在投,蓝桥杯国家级奖项、妈妈杯一等奖。 ✍ 博客主要内容为大模型技术的学习以及相关面经,本人已得到B站、百度、唯品会等多段多模态大模型的实习offer,为了能够紧跟前沿知识,决定写一个“从零学习 RL”主题的专栏。这个专栏将记录我个人的主观学习过程,因此会存在错误,若有出错,欢迎大家在评论区帮助我指出。除此之外,博客内容也会分享一些我在本科期间的
WWZZ20258 小时前
人工智能·深度学习·算法·机器人·大模型·卷积神经网络·具身智能
快速上手大模型:深度学习7(实践:卷积层)核心是将输入图像X中所有像素与每个输出像素相连,MLP思想。式中表示隐藏层中位置(i,j)处的像素,表示输入图像(k,l)处的像素,
山顶夕景12 小时前
大模型·llm·强化学习·rl
【RL】ORPO: Monolithic Preference Optimization without Reference ModelL ORPO = E ( x , y w , y l ) [ L SFT + λ ⋅ L OR ] \mathcal{L}_{\text{ORPO}} = \mathbb{E}_{(x, y_w, y_l)} \left[ \mathcal{L}_{\text{SFT}} + \lambda \cdot \mathcal{L}_{\text{OR}} \right] LORPO=E(x,yw,yl)[LSFT+λ⋅LOR]
彡皮13 小时前
开发语言·qt·大模型·千问7b
基于Qt,调用千问7B大模型,实现智能对话之前在工作中,没有接触过大模型,只是经常使用AI来解决问题。 换工作之后,前几天看了同事做的一个系统,集成大模型,将AI应用到了工作中,当时第一感觉是,我是不是落后了一个世纪。。。 于是从他们的只言片语中,去查阅相关资料,因为我对Qt比较熟悉,因此基于Qt,做了一个简单的智能模型对话框。
CoderJia程序员甲17 小时前
ai·开源·大模型·github·ai教程
GitHub 热榜项目 - 日榜(2025-11-16)生成于:2025-11-16共发现热门项目: 18 个榜单类型:日榜本期GitHub热榜显示AI应用开发依然是绝对焦点,开发者正致力于将前沿AI技术转化为开箱即用的解决方案。舆情监控工具TrendRadar和谷歌的AI工具包adk-go引领了这股潮流,它们强调用AI解决信息过载和复杂流程自动化等实际问题。同时,轻量化RAG框架LightRAG和大模型记忆引擎Memori的流行,反映出社区对提升AI应用性能与效率的迫切需求。微软的AI呼叫中心项目则展示了AI在具体业务场景的深度集成。总体而言,榜单揭示了AI
哥本哈士奇19 小时前
大模型
实现AI和BI整合的初步思路和探索-Part3前两篇探索了用code和dify的实现思路,实现起来均有一定的门槛。那么市面上有没有什么开源的现成产品已经对这个方向进行了探索呢?最近还真搜罗到了两个不错的产品,一个是飞致云下的SQLBot,还有一个是WrenAI。
是Dream呀21 小时前
人工智能·大模型·aigc·音视频·deepseek
一个账号调用N个AI模型!从LLM到视频生成的丝滑解决方案前言:你是否遇到过这样的情况?项目需要接入多个AI模型,结果发现每个模型都要单独注册账号、申请API密钥、学习不同的SDK、写一大堆适配代码。OpenAI、DeepSeek、Claude、Qwen……光是维护这些平台的账号和代码就让人头大,更别提频繁切换测试时的效率损失了。
zhangbaolin1 天前
langchain·大模型·长期记忆·深度智能体·短期记忆
深度智能体-长短期记忆创建深度智能体时,如果不配置持久化存储,缺省使用基于状态的持久化后端。此时,文件系统保存在状态中,对话结束保存在其中的数据将丢失。为了跨线程共享数据,可以使用混合持久化后端,把不同路径的文件分别保存在状态中或者本地文件系统或数据库中。
宁渡AI大模型1 天前
人工智能·ai·大模型·qwen
从生成内容角度介绍开源AI大模型为了将大模型能力与公司现有工作流程深度融合,从而提升整体工作效率,公司计划在本地部署开源大模型。本调研报告旨在系统评估当前主流开源大模型,为本地化部署提供选型依据。
哥本哈士奇(aspnetx)2 天前
大模型
实现AI和BI整合的初步思路和探索-Part3前两篇探索了用code和dify的实现思路,实现起来均有一定的门槛。那么市面上有没有什么开源的现成产品已经对这个方向进行了探索呢?最近还真搜罗到了两个不错的产品,一个是飞致云下的SQLBot,还有一个是WrenAI。
DogDaoDao2 天前
人工智能·语言模型·架构·大模型·transformer·循环神经网络·对抗网络
大语言模型四大核心技术架构深度解析2017年,Google团队在《Attention Is All You Need》中提出的Transformer架构彻底改变了序列建模范式。与传统循环神经网络(RNN)逐 token 处理不同,Transformer 通过自注意力机制实现了序列的并行处理,这一突破使其成为 BERT、GPT 等革命性模型的基础。
三条猫2 天前
人工智能·机器学习·3d·ai·大模型·cad
AI 大模型如何给 CAD 3D 模型“建立语义”?这几年,大模型逐渐把文字、图像、视频都“读懂”了,但唯独在 CAD 3D 模型面前吃了瘪。原因其实很简单: 图像是像素,文字是字符,而 3D 模型是 几何 + 拓扑 + 工程意图 的混合物。 它不是自然生成的,而是人类设计出来的结果。
小新学习屋2 天前
chatgpt·大模型·提示工程
大模型-提示工程分为两种:基础大预言模型(Base LLM)、指令微调大语言模型(Instruction Tuned LLM)。
zhangbaolin2 天前
langchain·大模型·人机交互·深度智能体
深度智能体-人机回环与图和智能体一样,在深度智能体中也需要对一些有潜在风险的工具调用进行检查和确认,可以在创建深度智能体时通过interrupt_on来对不同的工具配置不同的检查策略。对于工具—策略键值对,如果策略为True,则允许所有的策略(approve, edit, reject),如果策略为False,则不允许工具有中断,策略为allowed:{},则可以更细粒度控制策略。本文将对深度智能体的人机回环进行详细介绍。
zhangbaolin3 天前
中间件·langchain·大模型·深度智能体
深度智能体的中间件与langchian agent一样,深度智能体也使用中间件,不过二者是有区别的,langchain agent的中间件是通过在模型调用、工具调用时插入实现对智能体运行的细粒度控制,而深度智能体的中间件则抽象层次更高,主要支持规划、持久化和创建子智能体。深度智能体支持模块化的中间件架构,当深度智能体被创建时自带以上所说的三种中间件,待办列表中间件(TodoListMiddleware),文件系统中间件( FilesystemMiddleware)和子智能体中间件(SubAgentMiddleware),同
温柔哥`3 天前
大模型·agent·rag·vad·视频异常检测·工具调用·mllms
PANDA:通过代理型 AI 工程师迈向通用视频异常检测PANDA: Towards Generalist Video Anomaly Detection via Agentic AI Engineer NIPS’25 西安电子科技大学;新加坡国立大学 Show Lab
喜欢吃豆3 天前
人工智能·语言模型·自然语言处理·大模型·parquet
Parquet 范式:大语言模型训练数据格式优化的基础解析将数据格式转换为 Apache Parquet 并非一种随意的偏好,而是针对大规模数据处理(尤其是大语言模型 (LLM) 训练)的一项基础性能优化。Parquet 格式通过其列式存储架构,在 I/O 效率、存储成本和查询性能方面提供了数量级的提升。
Mr_Dwj3 天前
开发语言·人工智能·python·大模型·编程语言
【Python】Python 基本概念更好的阅读体验:https://wiki.dwj601.cn/develop/back-end/python/basic-concepts/
探模之翼3 天前
大模型·ocr·deepseek-ocr
深度解读 DeepSeek-OCR 论文:通过视觉模态实现高效文本压缩DeepSeek-OCR 论文:DeepSeek-OCR: Contexts Optical Compression(上下文光学压缩)
Mr.zwX4 天前
大模型·longcat
美团龙猫大模型LongCat-Flash总结美团大模型之前很少被关注过,但是近期推出的龙猫大模型很受关注,来简单总结下龙猫做了什么样的事情。 总的来说,LongCat-Flash是一个 560B的模型(28层、64个attention head),每个token激活18.6B~31.3B(平均27B)参数。 模型在30天内完成超过20T个token的训练,同时推理速度可达每秒100 token,成本低至每百万个token输出只需0.7美元。 为了让LongCat-Flash具有Agent智能,首先在混合数据集上进行大规模pre-train,随后针对