👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦!
🉑 AI Grant「创业加速器」开放第三期报名:各种意义上的星光璀璨
AI Grant 是一家专注在人工智能领域的创业加速器 「accelerator for AI startups 」,专门面向初创项目提供资金支持。目前已经开放第三批申请啦!⏰ 截止日期2月16日
AI Grant 两位创始人可是「有点来头」:Nat Friedman 是 GitHub 前 CEO,Daniel Gross 有着丰富的创业和投资背景,创业项目曾被 Apple 收购也担任过 Y-Combinator 合伙人。
而且!他们拉到了一众圈内大佬担任顾问,比如大名鼎鼎的 Midjourney CEO David Holz 、OpenAI 创始人之一 Andrej Karpathy 、Transformers 共同作者 & Character.ai CEO Noam Shazeer......
AI Grant 的投资「不拘一格」:可以没有公司,也可以拿过其他融资;可以有项目交叉,也可以单枪匹马;摒弃一切门槛以吸引到优秀的创始人们。
而且!一旦入选,就像掉进了资源的海洋,不仅资金有保障,还有大量的顶级线下峰会 / Demo Day、近百万美元的云积分和AI工具积分...... 真的非常诱人!
上图已经完成的前两轮投资中,我们可以看到非常多熟悉的名字:Perplexity、Cursor、Replicate、Lexica.art、Pika Labs...... 足可以见 AI Grant 的命中率有多高了!
👀 全球 AIGC 浪潮下 .ai 域名可是笔大买卖!这钱谁挣到了?
spectrum.ieee.org/ai-domains
补充一份背景:我们常说的网址 由几部分组成,其中.com
.cn
.edu
.dk
这部分属于 TLD (Top-Level Domain),也就是顶级域名
1985年开始,互联网号码分配机构 (IANA) 开始组织发放国家代码顶级域名 给所在区域的居民、公司和组织使用,命名一般从国家或地区的英文名中挑选两个字母 ,比如中国的.cn
,美国的.us
,英国的.uk
,丹麦的.dk
。而 .ai
这个宿命般的域名,当时被随手分配给了一个加勒比海的小岛安圭拉 (Anguilla)。
随着全球互联网的急速发展,.ai
这个域名曾两度被外界商业公司看上:第一次,安圭拉政府选择把它交给一家台湾公司,但几年之后这群人杳无音信了 🤷♀️;政府拿回来后又被另一家公司盯上,说服理由是「ai是中文里的<爱>,可以卖给中文网站挣大钱」。
这次,安圭拉政府选择了拒绝,因为他们已经看到了人工智能 (Artificial Intelligence) 行业的冉冉升起 ☀ 觉得这是个更大的机会!
果然,2022年底 ChatGPT 爆火带动了全球AI行业的新一轮浪潮,小岛安圭拉的 .ai
域名也随之受到追捧,销售营业额疯狂增长,并稳定在每个月 300 万美元左右。而当一年后开始续费时,这个数额有望稳定在每月 600 万美元。
这笔钱对于 15,000 人口的小岛可以说意义重大!毕竟占到了政府预算的 1/3,已经被用于偿还债务和减免部分税务啦!政府和居民都喜滋滋 o(〃^▽^〃)o
🉑 大饼AI变声:一款超好用的实时变声软件!创始人竟然是 00 后!
国内版 dubbing.tech
海外版 dubbingai.io/
大饼 ai 变声 (海外版叫 Dubbing AI) 是一款简单好用的实时ai变声器,可以把你的声音变成任何人。
与传统的调音/声卡等技术路径完全不同,大饼 ai 变声使用了全新的Transformer 架构,可以完美实现对人类声音克隆,还支持改变更多声音参数,所以生成的声音逼真自然,还能富有情感!!
操作也很简单,官网下载安装,配置完成后再开启任何社交软件或游戏,在产品内说话就可以实现变声啦 👀 有上千款音色可以选择,而且延时很短,基本做到了「说一句,变一句」~
产品还在高速迭代中,已经开始期待未来的「口音消除 」和「口音增强 」功能啦!把Chinglish 转化为 English 的同时保留音色和情感 ,或者把普通话转化为台湾腔,都是很有意思的玩法呀~
创始人凌天格最近接受了采访。是一位 00 后呐!毕业于 CMU,毕业后创业就拿到了源码资本的投资,优秀 👍
他在采访里介绍了产品的发展历程、技术优势和未来规划,还谈到了对国内外创业的感受和思考。能在他的回答里感受到「初生牛犊」的无所畏惧,也能感受到他对用户、赛道和商业模式的专业洞察。
如果你对这款产品、这个赛道感兴趣,那么可以看看这个采访视频呀 ⋙ 采访的视频 &文字版
🉑 为什么说 2023 是AI视频的爆发年?以及我们对 2024 的期待
2023年初,还没有公开的文本到视频模型;年底,全球数百万用户已经能使用几十种视频生成的产品和模型了。这一年AI视频技术的确出现了大爆发。
但是,目前产品的局限性仍然比较明显,比如生成视频的时长通常在3到4秒之间,质量参差不齐,角色一致性不好掌握等等。
这篇文章作者追踪了21款AI视频产品,包括我们都很熟悉的 Runway、Pika、Genmo、Leonardo等等,并把产品特性汇总成上方 👆 表格。
可以看到,这些产品大多来自初创公司,大厂的进展似乎并不明显:尽管Google、Meta、字节跳动陆续发布了论文和效果展示,但是模型并没有开源。
文章总结了当前 AI 视频技术仍然面临的3个核心挑战:场景控制 (如角色动作的准确性)、时间连贯性 (确保视频中的元素在帧与帧之间保持一致)、视频长度 (目前大多数模型生成的视频长度有限) ,但相信这些问题将随着时间推移而得到改善。
AI视频将走向何方呢?作者讨论了AI视频技术在发展过程中面临的挑战,潜在的发展方向,以及行业内部对未来的期待/预测:
扩散架构与3D空间理解:AI视频模型在生成连贯视频时面临3D空间理解的挑战;行业正探讨是否需要3D引擎来提升视频质量,或通过大量数据训练来弥补这一不足
高质量训练数据的获取:高质量的视频训练数据难以获取,这限制了模型的发展;专业工作室的数据可能成为关键,但其可用性尚待观察
平台与模型的多样化用例:视频生成领域预计将出现多样化的模型,各自擅长不同的风格和场景,类似于图像生成领域的多样化
工作流程的整合与优化:视频创作流程将趋向整合,视频生成平台可能会增加编辑功能,同时期待出现一个集成的AI编辑平台,来提高创作效率
👀 大语言模型评测是怎么被玩儿烂的?我们跟知情人聊了一个下午
补充一份背景:C-Eval 是符尧 发起的大模型中文能力评测基准,为了大模型刷榜的第一个目标。C-Eval 被「刷烂」之后,符尧又带领一小队人构建了新的大模型评测基准 CoT Hub,10月份发布之后现在已经在 GitHub 收获了 2000 Star~
这次访谈嘉宾 高梵 (化名) 就是 CoT Hub 的参与者之一,他透露了很多关于「刷榜」的内幕,比如为什么会有这种现象存在、常见的操作方式、影响榜单成绩的诸多因素、以及评测基准的未来。
刷榜 是指在大模型评测中,通过各种手段人为提高模型在评测榜单上的排名。这种行为不仅扭曲了评测结果,使得一些模型的性能被过度夸大,也被研究证实会影响大模型本身的「智力」。
刷榜之所以存在,主观原因是激烈的竞争 使得众多大模型厂商求胜心切,客观原因学术性评测基准团队的GPU和资金有限,往往依赖大模型公司自行提交测试结果,为刷榜提供了机会。
此外,评测方法的脆弱性也是结果易受扰动的原因之一,温度、解码策略、Prompt(提示词)等因素都可能影响评测结果。HuggingFace 提供了一套全自动的模型能力评测框架,试图在评测环节上保持公平性,但也出现过因自动化测评框架Bug导致的问题。
对文中提到的刷榜行为,进行了一下简单总结:
数据泄露:这是指在训练和测试过程中,训练集和测试集之间存在数据重叠,导致模型过度适应这些「背到过」的训练数据。这种数据泄露会让模型在测试时表现得更好,因为它已经「记住」了测试数据,而不是真正理解了数据背后的规律
针对性训练:为了在特定的评测基准上获得高分,一些团队可能会对模型进行针对性的训练,使其在这些特定的任务上表现优异,即使这可能牺牲了模型在其他任务上的泛化能力
利用评测漏洞 :有些团队可能会发现并利用评测过程中的漏洞,比如通过特定的解码策略或Prompt(提示词)来提高模型的得分。这些策略可能并不反映模型的真实能力,而是利用了评测流程的不完善之处 ⋙ 阅读原文
最终,用户会用脚投票的。
🉑 台大 CommE5070 | 深度学习音乐分析与生成 (2023秋季·已完结)
这是台大2023年秋季学期的课程「深度学习在音乐分析与生成中的应用 (Deep Learning for Music Analysis and Generation) 」,主要内容是通过深度学习技术解决与音乐相关的各种问题。
课程整体内容分为两部分:
音乐分析:涉及音乐音频信号的分析,包括音乐音频的特征提取和表示学习、音乐音频分类、旋律提取、自动音乐转录和音乐源分离
音乐生成:涉及音乐材料的生成,包括符号域(如MIDI或乐谱)和音频域(如人声和器乐)的音乐信号。这部分将涉及深度生成模型,如生成对抗网络(GANs)、变分自编码器(VAE)、Transformers和扩散模型
课程大纲,感兴趣可以前往 👆 上当链接下载课件:
Lecture 1. Introduction to the course
第1讲:课程介绍
Lecture 2. Fundamentals & Music representation
第2讲:基础知识与音乐表示
Lecture 3. Analysis I (timbre): Automatic music classification and representation learning
第3讲:分析I(音色):自动音乐分类和表示学习
Lecture 4. Generation I: Source separation
第4讲:生成I:源分离
Lecture 5. Generation II: GAN & Vocoders
第5讲:生成II:GAN与声码器
Lecture 6. Generation III: Synthesis of notes and loops
第6讲:生成III:音符和循环合成
Lecture 7. Analysis II (pitch): Music transcription, Melody extraction, and Chord Recognition
第7讲:分析II(音高):音乐转录、旋律提取和和弦识别
Lecture 8. Generation IV: Symbolic MIDI generation
第8讲:生成IV:符号MIDI生成
Lecture 9. Generation V: Symbolic MIDI generation: Advanced topic on music structure
第9讲:生成V:符号MIDI生成:音乐结构的高级话题
Lecture 10. Generation VI: Singing voice generation
第10讲:生成VI:人声生成
Lecture 11. Generation VII: Text-to-music generation
第11讲:生成VII:文本到音乐生成
Lecture 12. Generation VIII: Differentiable DSP models and automatic mixing
第12讲:生成VIII:可微分DSP模型和自动混音
Lecture 13. Analysis III (rhythm)
第13讲:分析III(节奏)
感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们!
◉ 点击 👀日报&周刊合集,订阅话题 #ShowMeAI日报,一览AI领域发展前沿,抓住最新发展机会!
◉ 点击 🎡生产力工具与行业应用大全,一起在信息浪潮里扑腾起来吧!