价格屠夫DeepSeek!这次开卷本地私有化部署;海辛大佬手把手叫你用ComfyUI;精彩的深度学习历史回顾;Devv创始人真诚复盘 | ShowMeAI日报

👀日报&周刊合集 | 🎡ShowMeAI官网 | 🧡 点赞关注评论拜托啦!

1. 价格屠夫又来了! 开卷「本地私有化部署」服务价格,顺手上线和开源DeepSeek-Coder-V2

6月17日晚,DeepSeek「深度求索」公众号发文,宣布上线和开源 DeepSeek-Coder-V2 大模型,包含 236B 和 16B 两种参数规模,API 支持 32K 上下文。

官方表示,这是「全球首个在代码/数学能力上与 GPT-4-Turbo 争锋的模型 」,在代码、数学的多个榜单上位居全球第二,介于最强闭源模型 GPT-4o 和 GPT-4-Turbo 之间 👍👍👍

DeepSeek-Coder-V2 的价格依旧是非常低低低!而且官方宣布「本地私有化部署 」服务售价仅仅 45 万/套/年 ,还包含了一台推理训练一体化的高性能服务器 (Nvidia H20、Huawei 910B 或其它同级别显卡,8 显卡互联) 👆 服务细则如上图左侧所示 ⋙ DeepSeek 官方发文有更多详情

这意味着什么呢?意味着连友商报价的零头都没有... (上图右侧是 智谱 ChatGLM 的本地私有化报价)。

如果你想体验 DeepSeek-Coder-V2 的代码能力,可以登录 DeepSeek Chat 在线网站 (网站和 API 都是 236B 版本的模型),选择左侧「代码助手」。

我自己测了几个例子,的确体验非常丝滑,回答也很友好~

DeepSeek Chat 在线网站chat.deepseek.com/coder

2. 上海交大「CS2916 大语言模型」课程完结,国内高校首门 LLM 技术前沿课,全明星讲师团队

上海交大春季学期开设的《大语言模型》课程 (代码 CS2916),上周刚刚完结🎊🎊🎊

这门课程定位与斯坦福大学 CS324「large language models 」**和 卡耐基梅隆 11-667「Large Language Models Methods and Applications」**相似,聚焦于 LLM 领域的前沿技术发展,并且系统性地讲解 LLM 涉及到的基础知识体系。

课程大纲

  • 为什么是大语言模型 (LLMs)?

  • 神经网络和深度学习基础

  • 语言模型与表示学习

  • Transformers 和预训练语言模型

  • 提示工程 (Prompting Engineering)

  • 评估 (Evaluation)

  • 大语言模型的并行训练

  • 指令调整与对齐 (Instruction Tuning and Alignment)

  • 奖励模型与强化学习人类偏好反馈 (RLHF)

  • 代理 (Agent)

  • 多模态 (Multimodal)

  • 长上下文大语言模型 (Long-context LLM)

  • 多模态大语言模型 (Multi-modal LLM)

非常值得一提的是,课程讲师团队非常豪华 !主讲老师 刘鹏飞 是上交清源研究院的副教授,同时也是生成式人工智能研究组负责人,非常之🐂🍺 而且,它还邀请了几位知名学者,讲授相关章节 (的确是国际一流AI课程的水准和风格):

  • 邱锡鹏 (复旦大学教授,上海高校青年教师教学竞赛优等奖,著作《神经网络与深度学习》,MOSS大模型领导者)
  • 闫宏秀 (上海交通大学教授,主要研究方向:技术哲学、数据伦理、大模型安全对齐)
  • 魏忠钰 (复旦大学数据智能与社会计算实验室负责人,上海市青年教师教学比赛优秀奖,主要研究方向:多模态智能交互)
  • 颜航 (上海人工智能实验室青年研究员,主要研究方向:大语言模型)
  • 刘知远 (清华大学计算机系副教授, 清华大学教学成果一等奖,大模型技术相关领域取得多项创新成果)

课程官网有大纲 & 每章课件/阅读资料,感兴趣可以前往获取啦~

课程课件在努力保持专业度的基础上,加了中文解释 ,这点对中文学习者非常友好!!推荐的阅读资料非常精准完备,也赞一个 👍 不过,暂时没在公共平台找到课程视频,有点点遗憾 😭

上海交大 · CS2916 大语言模型 课程官网gair-nlp.github.io/cs2916/docs...

3. 海辛Hyacinth 大佬录制的 ComfyUI 基础教程 (系列更新中),讲得非常好!

ComfyUI 专为 Stable Diffusion 设计,将图像生成过程分解为多个独立的节点。每个节点都有特定的功能,形成一个完整的工作流。用户可以灵活地调整和配置不同的功能节点,实现对模型的精准控制和高度定制化

海辛Hyacinth 就不用多介绍啦~ 集美丽和才华于一身的AI视频创作者,影视创作和知识分享非常活跃 & 参与了龙年央视春晚的节目制作 🤙

海辛Hyacinth 最近正在 B 站陆续更新自己录制的 ComfyUI 基础课 。截至6月16日,更新了7个视频,每个视频 10 分钟左右。课程品质非常好,兼顾了基础和实战 👍 她从最基础的安装讲起,细节非常丰富,但实战感觉又很强,一点不拖沓,新手跟着学可以快速掌握最必要的操作技巧~

  • ComfyUI 安装与部署:从 GitHub 页面开始讲起,详细演示如何下载、安装和配置ComfyUI

  • ComfyUI 界面介绍:各个界面元素的作用,以及最重要、最基本的操作 (节点、工作流等)

  • ComfyUI 文生图、图生图:文本生成图像、图像生成图像的详细步骤,演示整个操作流程 & 注意事项

  • ComfyUI ControlNet 使用:在 ComfyUI 中使用 ControlNet 来增强图像生成的完整操作流程

  • ComfyUI Upscale:在ComfyUI 中进行图像放大的4种主流方式,图像放大、潜空间放大、插件UltimateSDUpscale、开源Supir (目前效果最好)

  • ComfyUI InstantID:使用开源社区技术 Instant ID来进行角色换脸的完整操作,也就是仅输入一张参考图片,InstantID 就可以生成基于该角色的其他风格的图片

  • IPAdapter (旧版):使用 IPAdapter 进行迁移学习的完整操作,也就是输入一张图像后,生成图像时可以学习到这张参考图像的风格特征

B站课程网址www.bilibili.com/video/BV1rJ...

4. Devv 创始人分享,如何打造一个月入3万美元的AI搜索引擎

👉 这期日报 分享了YC 创始人 Paul Graham 的一篇经典长文「How to Get Startup Ideas」,日报详细整理了文章说到的十几种「创业 idea 来源方式」。社区伙伴们反馈很活跃呀 😀 看来大家的确需要这种比较高屋建瓴的、系统的分享&指导。

想起来 Devv 创始人 @jiayuan 曾经分享过他这次创业的心得,与 Paul Graham 长文提到的创业技巧完美呼应!我们一起康康叭 👀

Devv.ai 是一款专为程序员设计的新一代 AI 搜索引擎,旨在替代开发者日常使用的 Google、StackOverflow 和文档查询场景,助开发者快速定位精确的代码片段和解决方案,提升编程效率。

jiayuan 在开篇就提到「Solving a Real Problem」,也就是从解决一个真正的问题开始。这跟 Paul Graham 分享的第一条完全一致。

为了确保观察到一个真正的问题,jiayuan 在项目开始之前跟 50 位不同背景的开发者进行了一对一的访谈 ,了解他们当前的痛点和解决方案,并最终达成共识:做一款专注于开发者的、可靠的搜索引擎

他还在文中分享了几个关键节点,比如一周内 MVP 快速上线验证需求、确定差异化方向、大模型没备案导致中国市场被封禁(数据下跌严重)、出海、商业化...

而且,他还在社交平台 (推特 X 和即刻) 上非常活跃,积极分享产品使用技巧、技术路径、重大的产品更新!做得非常好 👍 我们整理下他在分享最终提到的几条 产品构建经验 & 创业经验,感兴趣可以阅读原文哦!

🔔 产品构建经验

  1. 解决一个真正的、切身的问题。成功的创业公司往往能够解决用户的实际需求。

  2. 通过MVP快速验证。避免一开始就追求完美,应该推出基础版产品进行快速验证。

  3. 让你的产品与众不同。在市场竞争激烈时,通过独特功能和专注目标用户群体,使产品独具一格。

  4. 口碑的力量。优秀的产品会自然引发用户间的推荐,尤其在开发者这样的紧密社群中更为显著。

  5. 面对挑战是必经之路。创业之路充满挑战,关键在于保持适应性和持续进步。

  6. 归根到底,Devv 的成功归功于对初步见解的坚持:开发者需要一个更优秀、更可靠的AI搜索工具,然后团队始终专注于解决这个核心问题并不断完善产品

🔔 创业经验

  • Y Combinator Startup School:免费的线上「创业速成班」,创业成功者和投资人们的讲座视频,涵盖了从创意到资金募集的各个方面。

  • 书籍《The Lean Startup (精益创业)》:Eric Ries 经典之作,强调快速实验与持续改进,是每位创业者的必读指南。

  • Lenny's Newsletter:前 Airbnb 产品领袖 Lenny Rachitsky 的深度分享,涵盖产品管理和创业公司成长的深度内容。

  • 书籍《The Hard Thing About Hard Things (创业的艰难之路)》:Ben Horowitz 作为一名著名的风险投资人,在书中提供了经营一家创业公司可能遇到的挑战 & 坦率真诚的见解。创业必读。

创始人分享的原文 (英文)www.indiehackers.com/post/how-we...

5. GenAI 设计模式全面指南:使用 LLM 时可参考的架构模式和心智模型

上面说到了如何获取创业/产品 idea,接下来就看看 GenAI 产品有哪些被验证的、可以依赖的设计模式 ,帮助你减轻和克服 GenAI 实现过程中的挑战,比如成本、延迟和幻觉等等

作者不仅详细解释了每种模式的含义,还给出了架构图,以及可以参考的实现思路 & 可用的工具资源。当然,作者 Vincent Koc 也说到,这是他暂时经验的总结,而行业和技术的发展变动是迅速且剧烈的。

1. 使用分层缓存策略驱动微调

  • 模式简介:采用分层缓存策略,通过存储对大型语言模型的初始查询结果,实现对后续相似查询的快速响应,有效降低成本和冗余,同时为模型的进一步微调提供数据支持,以提升专业任务的精确性和适应性。

  • 相关资源:GPTCache、缓存数据库如Redis、Apache Cassandra、Memcached。

2. 多路复用AI智能体,用于专家小组

  • 模式简介:创建一个由多个专家级AI智能体组成的生态系统,每个智能体专注于特定任务,通过协作解决复杂查询,提供综合且多样化的解决方案,增强问题解决的深度和广度。

  • 相关资源:GPT-4、Phi-2、TinyLlama、通用模型或具有特定个性的 Llama。

3. 为多个任务进行LLM的微调

  • 模式简介:通过对大型语言模型进行多任务微调,促进跨领域的知识和技能转移,增强模型在处理多样化任务时的多功能性和灵活性,适用于需要广泛技能的虚拟助手或研究工具。

  • 相关资源:DeepSpeed、Hugging Face的transformer库。

4. 基于混合规则和生成

  • 模式简介:结合生成式逻辑和基于规则的逻辑,创造出既符合严格规则又具有创新性的解决方案,尤其适用于那些需要在创新和合规之间找到平衡的行业。

  • 相关资源:电话IVR系统、传统聊天机器人。

5. 结合知识图谱使用LLM

  • 模式简介:通过将知识图谱与大型语言模型相结合,赋予模型以事实为基础的强大能力,确保输出在具有上下文意识的同时,更加准确和真实,适用于对信息准确性要求极高的应用场景。

  • 相关资源:图形数据库服务如ArangoDB、Amazon Neptune、Azure Cosmos DB、Neo4j;数据集和服务如Google企业知识图谱API、PyKEEN、维基数据。

6. AI代理群

  • 模式简介:借鉴自然界群体行为的智慧,通过大量AI智能体的协同工作,每个智能体提供独特的视角,共同创造出超越个体能力的集体智慧,特别适用于需要广泛创造性思维或处理复杂数据集的场景。

  • 相关资源:消息服务如Apache Kafka。

7. 具有可组合性的模块化单体LLM方法(Moe)

  • 模式简介:采用模块化的人工智能系统设计,允许系统根据任务需求动态调整配置,实现最佳性能,为企业提供高度定制化和适应性强的解决方案。

  • 相关资源:CrewAI、Langchain、Microsoft Autogen、SuperAGI。

8. LLM的记忆认知方法

  • 模式简介:引入类似人类记忆的认知机制,使大型语言模型能够记住并利用先前的互动信息,提供更加个性化和细致的回应,尤其适用于需要持续对话或学习的环境。

  • 相关资源:向量数据库、NLP库如spaCy、BART语言模型、开源解决方案MemGPT。

9. 红蓝队双模型评估

  • 模式简介:通过一个AI生成内容,另一个AI进行批判性评估的双模型设置,模拟严格的同行评审过程,为内容生成平台提供高质量的控制机制,确保输出的可信度和准确性。

  • 相关资源:微调模型、人工审查过程模拟工具。

原文链接towardsdatascience.com/generative-...

中文翻译版本 (翻得不错)luxiangdong.com/2024/02/26/...

6. 哇!一份精彩的「深度学习 (DeepLearning) 历史回顾」:积硅步,至千里

这是一份非常有意思的深度学习历史研究

从前馈神经网络到 GPT-4o,深度学习逐步创建了一套日益智能的系统。作者对这段历史进行了研究,但并不是按照时间线,也没有讲技术细节,而是总结成一个思考框架:

深度学习的约束条件,由数据、参数、优化与正则化、架构、计算、计算效率、能源 7 个部分组成。而深度学习领域的发展史,就是对这7个约束条件的突破史。

  • 数据:模型的好坏取决于它训练的数据集。
  • 参数:模型的表征能力受其包含的参数数量限制。
  • 优化和正则化:模型在有效收敛的同时所能拥有的参数数量 (尤其是深度)受到优化和正则化方法的有效性的限制。
  • 架构:网络架构的质量限制了模型的表征能力。
  • 计算:总可用计算约束了模型可以具有的可训练参数的最大数量。
  • 计算效率:用于训练的软件实现限制了计算利用率的效率。
  • 能源:单个位置可从电网中提取的能量限制了可用于训练运行的计算量。

以下是更详细的内容大纲。作者有非常多有趣和深刻的洞察,帮助我们在技术之外,看到深度学习领域发展的一条条明线和暗线。还没发现有中文翻译版本,感兴趣可以前往阅读原文:

1. 约束 (Constraints)

1.1. 数据 (Data)

  • 良好的近似 (A Good Approximation)

  • 突破 #1: 大型标注数据集 (Breakthrough #1: Large Labeled Datasets)

  • 突破 #2: 解锁互联网 (Breakthrough #2: Unlocking the Internet)

  • 突破 #3: 训练助手 (Breakthrough #3: Training Assistants)

  • 互联网数据之外 (Beyond Internet Data)

  • 建模数据 (Modeling Data)

1.2. 参数 (Parameters)

  • 突破 #1: 增加深度 (Breakthrough #1: Increasing Depth)

  • 突破 #2: 规模定律 (Scaling Laws)

1.3. 优化与正则化 (Optimization & Regularization)

  • 突破 #1: 驯服梯度 (Taming Gradients)

  • 突破 #2: 网络之网络 (Network of Networks)

  • 突破 #3: 驯服激活 (Taming Activations)

  • 突破 #4: 动量 (Momentum)

  • 被遗忘的约束 (The Forgotten Constraint)

1.4. 架构 (Architecture)

  • 突破 #1: 学习特征 (Learning Features)

  • 突破 #2: 记忆 (Memory)

  • 突破 #3: 注意力机制 (Attention)

  • 突破 #4: 利用随机性 (Harnessing Randomness)

  • 突破 #5: 嵌入 (Embeddings)

  • "不要触碰架构" ("Don't Touch the Architecture")

1.5. 计算 (Compute)

  • 突破 #1: 计算通信 (Communicating Compute)

  • 突破 #2: 乘势而上 (Riding Tailwinds)

  • 突破 #3: 人工智能优先 (AI Gets Prioritized)

  • 突破 #4: 计算竞赛 (The Compute Arms Race)

  • 调整供应链 (Adjusting Supply Chains)

  • 人工智能专用芯片 (AI ASICs)

1.6. 计算效率 (Compute Efficiency)

  • 突破 #1: CUDA

  • 突破 #2: 核心库 (Kernel Libraries)

  • 持续改进 (Continuous Improvement)

1.7. 能源 (Energy)

1.8. 约束与杠杆 (Constraints & Leverage)
2. 叙事 (Narratives)

  • 叙事 #1: 深度学习有效 (Deep Learning Works)

  • 叙事 #2: 互联网规模数据 (Internet Scale Data)

  • 叙事 #3: 规模定律 (Scaling Laws)

3. 灵感 (Inspiration)

  • 神经科学 (Neuroscience)

  • 线性代数与微积分 (Linear Algebra & Calculus)

  • 物理与信息论 (Physics & Information Theory)

  • 工程学 (Engineering)

4. 智能 (Intelligence)

5. 未来 (Future)

此外,作者还整理了自己整个过程中阅读的高质量资料、关键论文、学习笔记、对重要概念的解释,以及在相关情况下的 PyTorch 的简单实现。可以说是一份「Deep Learning」的学习大宝库!
GitHub 项目链接 (记得 Star ⭐)github.com/adam-maj/de...

◉ 点击 👀日报&周刊合集,订阅话题 #ShowMeAI日报,一览AI领域发展前沿,抓住最新发展机会!

◉ > 前往 🎡ShowMeAI,获取结构化成长路径和全套资料库,用知识加速每一次技术进步!

相关推荐
GOTXX42 分钟前
基于Opencv的图像处理软件
图像处理·人工智能·深度学习·opencv·卷积神经网络
糖豆豆今天也要努力鸭2 小时前
torch.__version__的torch版本和conda list的torch版本不一致
linux·pytorch·python·深度学习·conda·torch
敲上瘾2 小时前
操作系统的理解
linux·运维·服务器·c++·大模型·操作系统·aigc
何大春2 小时前
【弱监督语义分割】Self-supervised Image-specific Prototype Exploration for WSSS 论文阅读
论文阅读·人工智能·python·深度学习·论文笔记·原型模式
Suyuoa2 小时前
附录2-pytorch yolov5目标检测
python·深度学习·yolo
余生H3 小时前
transformer.js(三):底层架构及性能优化指南
javascript·深度学习·架构·transformer
罗小罗同学4 小时前
医工交叉入门书籍分享:Transformer模型在机器学习领域的应用|个人观点·24-11-22
深度学习·机器学习·transformer
孤独且没人爱的纸鹤4 小时前
【深度学习】:从人工神经网络的基础原理到循环神经网络的先进技术,跨越智能算法的关键发展阶段及其未来趋势,探索技术进步与应用挑战
人工智能·python·深度学习·机器学习·ai
阿_旭4 小时前
TensorFlow构建CNN卷积神经网络模型的基本步骤:数据处理、模型构建、模型训练
人工智能·深度学习·cnn·tensorflow
羊小猪~~4 小时前
tensorflow案例7--数据增强与测试集, 训练集, 验证集的构建
人工智能·python·深度学习·机器学习·cnn·tensorflow·neo4j