玩音乐的人写的Suno.ai教程就是不一样!全球大模型汇总清单(持续更新);深度盘点文生图&文生视频;AI Native工作流即将崛起 | ShowMeAI日报


👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦!

👀 YC官网公布 4000+ 创业公司详细信息,20年追风逐浪

www.ycombinator.com/companies
补充一份背景:Y Combinator (简称YC) 是全球知名的创业孵化器,不仅为创业者提供资金支持,还提供一系列的资源和服务来帮助解决创业过程中的各种问题。

YC 独特的投资策略和敏锐的洞察力一直备受好评,其投资成绩也很显著,大量独角兽公司已经脱颖而出。现在炙手可热的 Sam Altman 曾经是 YC 总裁 👀

YC 官网可以查看所有创业公司详细信息了!!

2005年以来,YC 已经投资 4000+ 创业公司了,合起来的总估值也已经超过了 6000 亿美元。

YC官网上线了「Startup Directory 」页面,可以按照 Batch、Industry、Region、Tags、Company Size 维度对其投资的所有公司进行检索,还支持关键词搜索。检索结果列表包含公司的简要信息,点击可以看到每家公司的详情页,非常具体全面!!

如果你对 YC 的投资历史和动向感兴趣,那么可以研究起来了 👀

www.ycombinator.com/companies/i...

YC 还设置了一个生成式AI专题页面 「Generative AI Startups funded by Y Combinator (YC) 2024」,包含100家 YC 投资的 GenAI 相关初创企业

YC 的投资动向一直是硅谷创业的风向标之一。如果你也想投身 GenAI 创业的浪潮,记得跟上 YC 的节奏~

🉑 中美之外,还有哪些大模型?这里有份「比较完整」的全球大模型名单

补充一份背景:中美大模型太多了,日报只列举最常被提及的一些;其他国家和地区的大模型信息很少,努力查找但难免疏漏~

🔔 美国 (部分)

  • GPT-4:OpenAI 发布,拥有超过1万亿参数,支持32768个令牌的最大上下文长度

  • PaLM 2 (Bison-001):谷歌发布,专注于常识推理、形式逻辑、数学和多语言处理

  • Gemini:谷歌发布,是原生多模态AI模型,包含文本、图像、音频、视频和代码

  • Claude:Anthropic 发布,接近 GPT-4 的性能,专注于构建有用、诚实和无害的AI助手

  • LLaMA:Meta AI发布,从 70 亿到 650 亿参数不等的系列开源大语言模型

  • **Vicuna 33B:LMSYS 发布,基于 330 亿参数训练的开源大模型

🔔 中国 (部分)

  • 悟道:智源人工智能研究院发布,参数达到 1.75 万亿

  • 文心一言:百度发布,基于文心大模型

  • 盘古:华为发布,包含 CV 和 NLP 两类大模型

  • 通义:阿里巴巴发布,包含 NLP、视觉和多模态大模型

  • 星火:科大讯飞发布,具有跨领域知识和语言理解能力

  • ChatGLM:清华大学发布,支持中英双语的对话语言模型

  • 书生·浦语 (InternLM):上海人工智能实验室发布,多语千亿参数基座模型

  • baichuan:百川智能发布,开源可商用的大规模预训练语言模型

  • kimi:月之暗面 (MoonShot) 发布,支持超长文本处理

  • 云雀:字节跳动发布,可以在「豆包」「扣子」等产品种使用

  • 混元:腾讯发布,万亿中文 NLP 预训练模型

  • Yi:零一万物发布,拥有超长上下文窗口的开源模型

🔔 欧洲

  • Mistral / Mixtral:法国 Mistral AI 公司发布,7.3 亿参数,击败其他开源模型

  • Luminous:德国 Aleph Alpha 公司发布,700 亿参数,注重安全和隐私

  • BLOOM:Hugging Face 发起,1760 亿参数,注重伦理考量和可访问性

🔔 韩国

  • HyperCLOVA:Naver 发布,2040 亿参数,针对韩语的大模型

  • KoGPT:Kakao Brain 发布,基于 GPT-3 的韩语模型

  • Exaone:LG AI Research 发布,3000 亿参数的多模态模型

  • A.:SKT 发布,全球首个韩语大语言模型

🔔 日本

  • HyperCLOVA:NAVER 和 LINE 发布,针对日语的大语言模型

  • Rinna:微软日本发布,基于 GPT-2 的日语聊天机器人

  • ELYZA Pencil:ELYZA Co., Ltd. 发布,生成式AI产品

  • open-calm:CyberAgent 训练的 70 亿参数基础模型

  • Stormy-7b-10ep:Izumi-Lab 在 open-calm 上微调的版本

🔔 其他

  • YaLM:俄罗斯模型,1000 亿参数,免费供全球开发者使用

  • Falcon:阿联酋技术创新研究所发布,多语言开源大模型

  • NOOR:阿联酋发布,100 亿参数的阿拉伯语 NLP 模型

  • AI21 Labs:以色列公司发布,拥有 Jurassic-2 基础大模型

🉑 玩音乐的人写的 Suno 教程就是不一样:真正的从0到1,顺带补乐理知识

www.suno.ai
补充一份背景:Suno.ai 是一个基于AI的音乐创作平台,可以根据用户输入的简单提示词生成带有伴奏和人声的音乐,自发布之后就疯狂刷榜 🏆 因为生成的音乐真的很!好!听!

我们曾经在 ⋙ 这篇日报 里介绍过 Suno.ai 和 匹配的提示词教程

但是!社群的小伙伴在一起玩时,遇到了一个很棘手的问题:怎么把生成的片段拼成一首完整的歌呢

这就要熟练地结合乐理知识来设计提示词了?!嘶......感觉需要很深的行业 Know-How 哇 🤷‍♀️

然后这篇教程就出现了!作者用 7500 字非常详细地介绍了 Suno 的使用方法,从最基础的操作界面讲起,细致列出了音乐领域提示词技巧 ,介绍了最常用的辅助工具和拓展资源 ,还整理了常见问题与解决方案 !!最难得的是,在涉及到乐理知识的部分有简明扼要的补充,帮助我们快速 get 操作的背后原理 👏👏👏

也就是说,跟着这份教程操作,我们真的可以搞定「提示词 → 音乐片段 → 一首完整歌」的全部流程啦!

这样具有行业知识的高水平的教程,请多来一点,我们真的很需要! ⋙ 阅读原文

Chirp 是 Suno 公司发布的「文本生成音乐」模型,目前已经进化到 Chirp V2 版本

🔔 Part 1-2: 简介 & Chirp 操作流程

  • 网页版最大生成时长1分20秒,延续最大时长60秒

  • Explore、Create、Library、Credits、Subscribe 的页面布局和详细介绍

🔔 Part 3: Chirp 基础知识

  1. Chirp 支持的语言:支持多种语言,并且能够自动检测并使用正确的语言进行演唱

  2. 元标签 (Metatags):元标签是一种特殊的提示,用于在创作内容时提供方向性指引

  3. 两类特色功能

  • 风格提示 (Style Prompting):在提示框中输入完整的句子,或者由逗号隔开的一系列乐器、音乐元素、流派、风格词汇

  • 写好风格提示词的建议和注意事项

  • 歌词提示 (Lyric Prompting):通过元标签来引导后面的歌词、歌曲结构、音乐风格,一定程度上为歌词提示功能减负

  • 歌词提示的书写格式

  • 知识科普:歌词结构包含 Intro (引子或前奏)、Verse (诗歌部分 / 主歌)、Chorus (合唱部分 / 副歌)、Bridge (桥接部分)、Outro (尾奏)、Pre-Chorus (前副歌)(可选) 、间奏 (Interlude)(可选)

🔔 Part 4: 辅助工具

  1. Sonoteller
  • sonoteller.ai

  • 智能的音乐分析网站,输入 YouTube 链接可生成包含歌曲的分析报告

  1. Every noise at once
  • everynoise.com

  • 音乐流派分类网站,点击流派名称就可以播放对应的音乐示例

  1. Chosic
  1. 音乐术语查询器
  1. 维基百科音乐术语大全

🔔 Part 5: Chirp 进阶知识

  1. Chirp的采样特性:在第一个生成片段的最后10秒进行采样并应用于后续片段,保持歌曲的连贯性和一致性

  2. 元标签的书写技巧:支持不同格式的括号,内容可以是名词、形容词+名词、句子(尽可能短) 等

  • ⭐ 常用格式清单

🔔 Part 6: 实战

  1. 歌曲生成
  • 使用常见的歌曲结构 [intro]---[verse 1]---[chorus]---[verse 2]---[chorus]---[bridge]---[chorus]---[outro]

  • 前奏 :生成「独立前奏 」的四种操作方法,解决前奏过长或不唱歌词 的方法,指定乐器演奏的方法

  • 主歌与副歌:主歌与副歌之间自然过渡的方法

  • 结尾部分:控制生成需要的尾奏

  1. 纯音乐生成
  • ⭐ 生成纯音乐的两种操作方法

  • ⭐ 生成没有人声的伴奏的两种操作方法

🔔 Part 7: 更多

  1. SunoBeats GPTs:质量很高,尤其对流派和风格的把控很准,能满足日常需求

  2. 非官方Suno wiki: www.notion.so/suno-ai-wik...

🔔 Part 8: 常见问题与解决方案

  • 歌词延续:如果歌词被切断,应在下一个片段中接上,但避免重复使用被中断的元标签

  • 器乐过渡:在器乐部分结束后,可以通过添加语气词或使用特定的元标签来提示Chirp进入歌词部分

  • 生成错误:如果遇到"无法生成"或"尝试另一个提示"的错误,可能是由于版权、使用真实乐队或艺术家名称、违规词汇或积分用尽等原因

👀 a16z 最新洞察 | prosumer (producer-consumer) 的未来:AI Native工作流的崛起

a16z.com/the-future-...
补充一份背景:a16z (全称 Andreessen Horowitz) 是全球知名的风险投资机构,从去年开始 a16z 发布在网站的多篇 GenAI 主题分析文章都曾引起广泛关注

名词解释:prosumer 是一个合成词,由 producer 和 consumer 两个词组成,可以翻译为产消者 (生产消费者),用来描述既消费产品或服务,又参与生产过程的个人或群体。在AI领域,prosumer 可指用AI工具和技术来创造内容、解决问题或提高工作效率的个人。

a16z 这篇文章提出的观点很棒:目前大多数AI产品仍然专注于单一功能,但是随着LLM 能力的提升,这些产品将发展出更全面的 AI Native 工作流

而且!即将出现的 GenAI Native Workflow 可以满足「用户操作简单 BUT 输出也能达到专业级别 」这样曾经属于「异想天开」的要求!比如用户可以快速生成一张精美的图片,而不再需要吭哧吭哧花很长时间学 Adobe Photoshop 花样繁多的操作技巧。

GenAI使我们每个人都可以成为程序员、制作人、设计师、音乐家,把创造力和操作技巧之间的鸿沟抹平,轻松跨越 producer 与 consumer 之间的壁垒,成为身份切换自如的新一代 prosumers

GenAI Native Workflow 产品首先要把大模型能力转化为易用高效的用户界面,然后具备以下功能点:

  1. 生成工具:真正解决「空白页面」的需求,或者把增量资产 (例如草图或大纲) 转化为更完整的产品

  2. 多模态组合:可以在一个地方生成并组合多种模态的内容 (比如图片、文字、音频、视频等),不过目前还没有一个模型可以生成所有这些资源类型

  3. 智能编辑器:因为生成模型的随机性使得用户有大量的修改需求,智能编辑使得内容生成的迭代更加容易,比如基于已有输出进行微调 (而不是从头开始),

  4. 平台内细化:最后10%的润色工作通常是创造出好作品和伟大作品之间的区别,平台可以帮助识别哪些需要改进并自动完成

  5. 可重复/可转换的输出:AI生成的内容灵活性很高,可以作为后续迭代的起点,新的工作流要允许用户在不同媒介间之间自由转换

a16z 判断未来几个月 Prosumer产品有望出现以下工具:

  1. 编辑工具的进化:期待出现能够在单一平台上完成从内容生成到编辑、混音等所有步骤的工具,例如视频编辑可能不再需要在多个平台之间切换

  2. 交互模式的多样化:期待出现更多支持语音、草图等非文本交互方式的工具,以便用户以更自然的方式与AI工具合作,例如Oasis、TalkNotes 和 AudioPen 等工具可以将语音笔记转化为电子邮件、博客文章或推文

  3. 平等对待人类和AI生成内容:期待工具能够平等对待人类和AI生成的内容,使它们可以无缝结合,例如 Runway 编辑工具允许用户在同一个时间线上使用AI生成的剪辑和真实资产,并使用魔法工具对两者进行编辑

🉑 一文纵览「文生图」「文生视频」技术的发展路径与应用场景


一、主流文生图技术发展路径

  1. 横向来看,文生图的主流技术路径可分为4类

  2. 纵向来看,主流文生图技术的演进路径

二、主流文生视频技术发展路径

  1. 早期发展 (2016 年以前)

  2. 奠基任务:GAN/VAE/flow-based (2016-2019 年)

  3. 自回归模型及扩散模型生成阶段 (2019-2023)

  4. 未来发展趋势 (2024-?)

  5. 视频生成模型 mapping

三、应用场景

  1. 基于闭源模型

  2. 基于开源模型 ⋙ 阅读原文

🉑 如何将大语言模型集成到系统和产品中?一共有7种模式!

eugeneyan.com/writing/llm...

这是一篇长文,详细讲解了将大语言模型集成到系统和产品中地7种模式,并将其按照「Data - User」「Defensive - Offensive」划分成了四个象限。

以下是这7种模式地简单介绍,原文详细且专业地讨论了模式的具体使用方式,包括评估的构建、RAG的实现、微调的方法、缓存策略、防护措施的实施以及如何通过用户体验设计来收集反馈等。感兴趣可以访问上方 👆 链接:

  1. 评估 (Evals):用于衡量模型在特定任务上的性能,包括基准数据和指标

  2. 检索增强生成 (RAG):通过从外部检索相关数据并增强输入,为模型提供更丰富的上下文,以提高输出的质量

  3. 微调 (Fine-tuning):通过在特定任务上进一步训练预训练模型,使其更好地完成任务

  4. 缓存 (Caching):通过存储先前检索或计算的数据,减少响应的延迟和成本

  5. 防护措施 (Guardrails):确保LLM输出的质量,包括验证输出的语法正确性、事实准确性和无害内容

  6. 防御性用户体验 (Defensive UX):设计策略,以预见并优雅地处理用户与基于LLM的产品交互中可能出现的错误

  7. 收集用户反馈:通过收集用户反馈来构建数据飞轮,这些反馈有助于改进模型、微调和防护措施

感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们!

◉ 点击 👀日报&周刊合集,订阅话题 #ShowMeAI日报,一览AI领域发展前沿,抓住最新发展机会!

◉ 点击 🎡生产力工具与行业应用大全,一起在信息浪潮里扑腾起来吧!

相关推荐
明明真系叻15 分钟前
第二十六周机器学习笔记:PINN求正反解求PDE文献阅读——正问题
人工智能·笔记·深度学习·机器学习·1024程序员节
88号技师2 小时前
2024年12月一区SCI-加权平均优化算法Weighted average algorithm-附Matlab免费代码
人工智能·算法·matlab·优化算法
IT猿手2 小时前
多目标应用(一):多目标麋鹿优化算法(MOEHO)求解10个工程应用,提供完整MATLAB代码
开发语言·人工智能·算法·机器学习·matlab
88号技师2 小时前
几款性能优秀的差分进化算法DE(SaDE、JADE,SHADE,LSHADE、LSHADE_SPACMA、LSHADE_EpSin)-附Matlab免费代码
开发语言·人工智能·算法·matlab·优化算法
2301_764441332 小时前
基于python语音启动电脑应用程序
人工智能·语音识别
HyperAI超神经2 小时前
未来具身智能的触觉革命!TactEdge传感器让机器人具备精细触觉感知,实现织物缺陷检测、灵巧操作控制
人工智能·深度学习·机器人·触觉传感器·中国地质大学·机器人智能感知·具身触觉
galileo20162 小时前
转化为MarkDown
人工智能
说私域3 小时前
私域电商逆袭密码:AI 智能名片小程序与商城系统如何梦幻联动
人工智能·小程序
请站在我身后3 小时前
复现Qwen-Audio 千问
人工智能·深度学习·语言模型·语音识别
love you joyfully4 小时前
目标检测与R-CNN——paddle部分
人工智能·目标检测·cnn·paddle