玩音乐的人写的Suno.ai教程就是不一样!全球大模型汇总清单(持续更新);深度盘点文生图&文生视频;AI Native工作流即将崛起 | ShowMeAI日报


👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦!

👀 YC官网公布 4000+ 创业公司详细信息,20年追风逐浪

www.ycombinator.com/companies
补充一份背景:Y Combinator (简称YC) 是全球知名的创业孵化器,不仅为创业者提供资金支持,还提供一系列的资源和服务来帮助解决创业过程中的各种问题。

YC 独特的投资策略和敏锐的洞察力一直备受好评,其投资成绩也很显著,大量独角兽公司已经脱颖而出。现在炙手可热的 Sam Altman 曾经是 YC 总裁 👀

YC 官网可以查看所有创业公司详细信息了!!

2005年以来,YC 已经投资 4000+ 创业公司了,合起来的总估值也已经超过了 6000 亿美元。

YC官网上线了「Startup Directory 」页面,可以按照 Batch、Industry、Region、Tags、Company Size 维度对其投资的所有公司进行检索,还支持关键词搜索。检索结果列表包含公司的简要信息,点击可以看到每家公司的详情页,非常具体全面!!

如果你对 YC 的投资历史和动向感兴趣,那么可以研究起来了 👀

www.ycombinator.com/companies/i...

YC 还设置了一个生成式AI专题页面 「Generative AI Startups funded by Y Combinator (YC) 2024」,包含100家 YC 投资的 GenAI 相关初创企业

YC 的投资动向一直是硅谷创业的风向标之一。如果你也想投身 GenAI 创业的浪潮,记得跟上 YC 的节奏~

🉑 中美之外,还有哪些大模型?这里有份「比较完整」的全球大模型名单

补充一份背景:中美大模型太多了,日报只列举最常被提及的一些;其他国家和地区的大模型信息很少,努力查找但难免疏漏~

🔔 美国 (部分)

  • GPT-4:OpenAI 发布,拥有超过1万亿参数,支持32768个令牌的最大上下文长度

  • PaLM 2 (Bison-001):谷歌发布,专注于常识推理、形式逻辑、数学和多语言处理

  • Gemini:谷歌发布,是原生多模态AI模型,包含文本、图像、音频、视频和代码

  • Claude:Anthropic 发布,接近 GPT-4 的性能,专注于构建有用、诚实和无害的AI助手

  • LLaMA:Meta AI发布,从 70 亿到 650 亿参数不等的系列开源大语言模型

  • **Vicuna 33B:LMSYS 发布,基于 330 亿参数训练的开源大模型

🔔 中国 (部分)

  • 悟道:智源人工智能研究院发布,参数达到 1.75 万亿

  • 文心一言:百度发布,基于文心大模型

  • 盘古:华为发布,包含 CV 和 NLP 两类大模型

  • 通义:阿里巴巴发布,包含 NLP、视觉和多模态大模型

  • 星火:科大讯飞发布,具有跨领域知识和语言理解能力

  • ChatGLM:清华大学发布,支持中英双语的对话语言模型

  • 书生·浦语 (InternLM):上海人工智能实验室发布,多语千亿参数基座模型

  • baichuan:百川智能发布,开源可商用的大规模预训练语言模型

  • kimi:月之暗面 (MoonShot) 发布,支持超长文本处理

  • 云雀:字节跳动发布,可以在「豆包」「扣子」等产品种使用

  • 混元:腾讯发布,万亿中文 NLP 预训练模型

  • Yi:零一万物发布,拥有超长上下文窗口的开源模型

🔔 欧洲

  • Mistral / Mixtral:法国 Mistral AI 公司发布,7.3 亿参数,击败其他开源模型

  • Luminous:德国 Aleph Alpha 公司发布,700 亿参数,注重安全和隐私

  • BLOOM:Hugging Face 发起,1760 亿参数,注重伦理考量和可访问性

🔔 韩国

  • HyperCLOVA:Naver 发布,2040 亿参数,针对韩语的大模型

  • KoGPT:Kakao Brain 发布,基于 GPT-3 的韩语模型

  • Exaone:LG AI Research 发布,3000 亿参数的多模态模型

  • A.:SKT 发布,全球首个韩语大语言模型

🔔 日本

  • HyperCLOVA:NAVER 和 LINE 发布,针对日语的大语言模型

  • Rinna:微软日本发布,基于 GPT-2 的日语聊天机器人

  • ELYZA Pencil:ELYZA Co., Ltd. 发布,生成式AI产品

  • open-calm:CyberAgent 训练的 70 亿参数基础模型

  • Stormy-7b-10ep:Izumi-Lab 在 open-calm 上微调的版本

🔔 其他

  • YaLM:俄罗斯模型,1000 亿参数,免费供全球开发者使用

  • Falcon:阿联酋技术创新研究所发布,多语言开源大模型

  • NOOR:阿联酋发布,100 亿参数的阿拉伯语 NLP 模型

  • AI21 Labs:以色列公司发布,拥有 Jurassic-2 基础大模型

🉑 玩音乐的人写的 Suno 教程就是不一样:真正的从0到1,顺带补乐理知识

www.suno.ai
补充一份背景:Suno.ai 是一个基于AI的音乐创作平台,可以根据用户输入的简单提示词生成带有伴奏和人声的音乐,自发布之后就疯狂刷榜 🏆 因为生成的音乐真的很!好!听!

我们曾经在 ⋙ 这篇日报 里介绍过 Suno.ai 和 匹配的提示词教程

但是!社群的小伙伴在一起玩时,遇到了一个很棘手的问题:怎么把生成的片段拼成一首完整的歌呢

这就要熟练地结合乐理知识来设计提示词了?!嘶......感觉需要很深的行业 Know-How 哇 🤷‍♀️

然后这篇教程就出现了!作者用 7500 字非常详细地介绍了 Suno 的使用方法,从最基础的操作界面讲起,细致列出了音乐领域提示词技巧 ,介绍了最常用的辅助工具和拓展资源 ,还整理了常见问题与解决方案 !!最难得的是,在涉及到乐理知识的部分有简明扼要的补充,帮助我们快速 get 操作的背后原理 👏👏👏

也就是说,跟着这份教程操作,我们真的可以搞定「提示词 → 音乐片段 → 一首完整歌」的全部流程啦!

这样具有行业知识的高水平的教程,请多来一点,我们真的很需要! ⋙ 阅读原文

Chirp 是 Suno 公司发布的「文本生成音乐」模型,目前已经进化到 Chirp V2 版本

🔔 Part 1-2: 简介 & Chirp 操作流程

  • 网页版最大生成时长1分20秒,延续最大时长60秒

  • Explore、Create、Library、Credits、Subscribe 的页面布局和详细介绍

🔔 Part 3: Chirp 基础知识

  1. Chirp 支持的语言:支持多种语言,并且能够自动检测并使用正确的语言进行演唱

  2. 元标签 (Metatags):元标签是一种特殊的提示,用于在创作内容时提供方向性指引

  3. 两类特色功能

  • 风格提示 (Style Prompting):在提示框中输入完整的句子,或者由逗号隔开的一系列乐器、音乐元素、流派、风格词汇

  • 写好风格提示词的建议和注意事项

  • 歌词提示 (Lyric Prompting):通过元标签来引导后面的歌词、歌曲结构、音乐风格,一定程度上为歌词提示功能减负

  • 歌词提示的书写格式

  • 知识科普:歌词结构包含 Intro (引子或前奏)、Verse (诗歌部分 / 主歌)、Chorus (合唱部分 / 副歌)、Bridge (桥接部分)、Outro (尾奏)、Pre-Chorus (前副歌)(可选) 、间奏 (Interlude)(可选)

🔔 Part 4: 辅助工具

  1. Sonoteller
  • sonoteller.ai

  • 智能的音乐分析网站,输入 YouTube 链接可生成包含歌曲的分析报告

  1. Every noise at once
  • everynoise.com

  • 音乐流派分类网站,点击流派名称就可以播放对应的音乐示例

  1. Chosic
  1. 音乐术语查询器
  1. 维基百科音乐术语大全

🔔 Part 5: Chirp 进阶知识

  1. Chirp的采样特性:在第一个生成片段的最后10秒进行采样并应用于后续片段,保持歌曲的连贯性和一致性

  2. 元标签的书写技巧:支持不同格式的括号,内容可以是名词、形容词+名词、句子(尽可能短) 等

  • ⭐ 常用格式清单

🔔 Part 6: 实战

  1. 歌曲生成
  • 使用常见的歌曲结构 [intro]---[verse 1]---[chorus]---[verse 2]---[chorus]---[bridge]---[chorus]---[outro]

  • 前奏 :生成「独立前奏 」的四种操作方法,解决前奏过长或不唱歌词 的方法,指定乐器演奏的方法

  • 主歌与副歌:主歌与副歌之间自然过渡的方法

  • 结尾部分:控制生成需要的尾奏

  1. 纯音乐生成
  • ⭐ 生成纯音乐的两种操作方法

  • ⭐ 生成没有人声的伴奏的两种操作方法

🔔 Part 7: 更多

  1. SunoBeats GPTs:质量很高,尤其对流派和风格的把控很准,能满足日常需求

  2. 非官方Suno wiki: www.notion.so/suno-ai-wik...

🔔 Part 8: 常见问题与解决方案

  • 歌词延续:如果歌词被切断,应在下一个片段中接上,但避免重复使用被中断的元标签

  • 器乐过渡:在器乐部分结束后,可以通过添加语气词或使用特定的元标签来提示Chirp进入歌词部分

  • 生成错误:如果遇到"无法生成"或"尝试另一个提示"的错误,可能是由于版权、使用真实乐队或艺术家名称、违规词汇或积分用尽等原因

👀 a16z 最新洞察 | prosumer (producer-consumer) 的未来:AI Native工作流的崛起

a16z.com/the-future-...
补充一份背景:a16z (全称 Andreessen Horowitz) 是全球知名的风险投资机构,从去年开始 a16z 发布在网站的多篇 GenAI 主题分析文章都曾引起广泛关注

名词解释:prosumer 是一个合成词,由 producer 和 consumer 两个词组成,可以翻译为产消者 (生产消费者),用来描述既消费产品或服务,又参与生产过程的个人或群体。在AI领域,prosumer 可指用AI工具和技术来创造内容、解决问题或提高工作效率的个人。

a16z 这篇文章提出的观点很棒:目前大多数AI产品仍然专注于单一功能,但是随着LLM 能力的提升,这些产品将发展出更全面的 AI Native 工作流

而且!即将出现的 GenAI Native Workflow 可以满足「用户操作简单 BUT 输出也能达到专业级别 」这样曾经属于「异想天开」的要求!比如用户可以快速生成一张精美的图片,而不再需要吭哧吭哧花很长时间学 Adobe Photoshop 花样繁多的操作技巧。

GenAI使我们每个人都可以成为程序员、制作人、设计师、音乐家,把创造力和操作技巧之间的鸿沟抹平,轻松跨越 producer 与 consumer 之间的壁垒,成为身份切换自如的新一代 prosumers

GenAI Native Workflow 产品首先要把大模型能力转化为易用高效的用户界面,然后具备以下功能点:

  1. 生成工具:真正解决「空白页面」的需求,或者把增量资产 (例如草图或大纲) 转化为更完整的产品

  2. 多模态组合:可以在一个地方生成并组合多种模态的内容 (比如图片、文字、音频、视频等),不过目前还没有一个模型可以生成所有这些资源类型

  3. 智能编辑器:因为生成模型的随机性使得用户有大量的修改需求,智能编辑使得内容生成的迭代更加容易,比如基于已有输出进行微调 (而不是从头开始),

  4. 平台内细化:最后10%的润色工作通常是创造出好作品和伟大作品之间的区别,平台可以帮助识别哪些需要改进并自动完成

  5. 可重复/可转换的输出:AI生成的内容灵活性很高,可以作为后续迭代的起点,新的工作流要允许用户在不同媒介间之间自由转换

a16z 判断未来几个月 Prosumer产品有望出现以下工具:

  1. 编辑工具的进化:期待出现能够在单一平台上完成从内容生成到编辑、混音等所有步骤的工具,例如视频编辑可能不再需要在多个平台之间切换

  2. 交互模式的多样化:期待出现更多支持语音、草图等非文本交互方式的工具,以便用户以更自然的方式与AI工具合作,例如Oasis、TalkNotes 和 AudioPen 等工具可以将语音笔记转化为电子邮件、博客文章或推文

  3. 平等对待人类和AI生成内容:期待工具能够平等对待人类和AI生成的内容,使它们可以无缝结合,例如 Runway 编辑工具允许用户在同一个时间线上使用AI生成的剪辑和真实资产,并使用魔法工具对两者进行编辑

🉑 一文纵览「文生图」「文生视频」技术的发展路径与应用场景


一、主流文生图技术发展路径

  1. 横向来看,文生图的主流技术路径可分为4类

  2. 纵向来看,主流文生图技术的演进路径

二、主流文生视频技术发展路径

  1. 早期发展 (2016 年以前)

  2. 奠基任务:GAN/VAE/flow-based (2016-2019 年)

  3. 自回归模型及扩散模型生成阶段 (2019-2023)

  4. 未来发展趋势 (2024-?)

  5. 视频生成模型 mapping

三、应用场景

  1. 基于闭源模型

  2. 基于开源模型 ⋙ 阅读原文

🉑 如何将大语言模型集成到系统和产品中?一共有7种模式!

eugeneyan.com/writing/llm...

这是一篇长文,详细讲解了将大语言模型集成到系统和产品中地7种模式,并将其按照「Data - User」「Defensive - Offensive」划分成了四个象限。

以下是这7种模式地简单介绍,原文详细且专业地讨论了模式的具体使用方式,包括评估的构建、RAG的实现、微调的方法、缓存策略、防护措施的实施以及如何通过用户体验设计来收集反馈等。感兴趣可以访问上方 👆 链接:

  1. 评估 (Evals):用于衡量模型在特定任务上的性能,包括基准数据和指标

  2. 检索增强生成 (RAG):通过从外部检索相关数据并增强输入,为模型提供更丰富的上下文,以提高输出的质量

  3. 微调 (Fine-tuning):通过在特定任务上进一步训练预训练模型,使其更好地完成任务

  4. 缓存 (Caching):通过存储先前检索或计算的数据,减少响应的延迟和成本

  5. 防护措施 (Guardrails):确保LLM输出的质量,包括验证输出的语法正确性、事实准确性和无害内容

  6. 防御性用户体验 (Defensive UX):设计策略,以预见并优雅地处理用户与基于LLM的产品交互中可能出现的错误

  7. 收集用户反馈:通过收集用户反馈来构建数据飞轮,这些反馈有助于改进模型、微调和防护措施

感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们!

◉ 点击 👀日报&周刊合集,订阅话题 #ShowMeAI日报,一览AI领域发展前沿,抓住最新发展机会!

◉ 点击 🎡生产力工具与行业应用大全,一起在信息浪潮里扑腾起来吧!

相关推荐
零壹AI实验室3 分钟前
用AI 10分钟搭建一个监控系统:Prometheus + Grafana 实战
人工智能·grafana·prometheus
志栋智能5 分钟前
超自动化巡检:量化运维成效的标尺
运维·网络·人工智能·自动化
AI科技星6 分钟前
紫金山天文台与6G 超导太赫兹实验对比【乖乖数学】
人工智能·线性代数·机器学习·量子计算·agi
摩尔线程6 分钟前
摩尔线程携手紫光计算机发布《语音识别全栈国产化技术实践白皮书》
人工智能·语音识别·摩尔线程
字节跳动开源7 分钟前
局中局!给 Agent 装上 OpenViking,它们竟然学会了“记仇”和“伪装”?
人工智能·开源·llm
Exploring10 分钟前
通过 Vibe Coding,我开发的第一款鸿蒙 App 上架了,欢迎大家下载体验
人工智能
杀生丸学AI13 分钟前
【VALSE 2026】AI领域年度重要进展
人工智能
沪漂阿龙21 分钟前
面试题:文本表示方法详解——One-hot、Word2Vec、上下文表示、BERT词向量全解析(NLP基础高频考点)
人工智能·神经网络·自然语言处理·bert·word2vec
Luminbox紫创测控25 分钟前
氙灯太阳光模拟器加速老化测试
人工智能·测试工具·测试标准
沪漂阿龙26 分钟前
面试题详解:NLP基础概念与任务——一文吃透自然语言处理、Tokenization、文本分类、文本摘要、信息抽取与大模型应用
人工智能·自然语言处理·分类