大语言模型评测是怎么被玩儿烂的？.ai域名与安圭拉小岛的意外之财；AI视频的过去与将来；大饼AI变声；深度学习音乐分析与生成课程

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦！

🉑 AI Grant「创业加速器」开放第三期报名：各种意义上的星光璀璨

aigrant.com

AI Grant 是一家专注在人工智能领域的创业加速器 「accelerator for AI startups 」，专门面向初创项目提供资金支持。目前已经开放第三批申请啦！⏰ 截止日期2月16日

AI Grant 两位创始人可是「有点来头」：Nat Friedman 是 GitHub 前 CEO，Daniel Gross 有着丰富的创业和投资背景，创业项目曾被 Apple 收购也担任过 Y-Combinator 合伙人。

而且！他们拉到了一众圈内大佬担任顾问，比如大名鼎鼎的 Midjourney CEO David Holz 、OpenAI 创始人之一 Andrej Karpathy 、Transformers 共同作者 & Character.ai CEO Noam Shazeer......

AI Grant 的投资「不拘一格」：可以没有公司，也可以拿过其他融资；可以有项目交叉，也可以单枪匹马；摒弃一切门槛以吸引到优秀的创始人们。

而且！一旦入选，就像掉进了资源的海洋，不仅资金有保障，还有大量的顶级线下峰会 / Demo Day、近百万美元的云积分和AI工具积分...... 真的非常诱人！

上图已经完成的前两轮投资中，我们可以看到非常多熟悉的名字：Perplexity、Cursor、Replicate、Lexica.art、Pika Labs...... 足可以见 AI Grant 的命中率有多高了！

👀 全球 AIGC 浪潮下 .ai 域名可是笔大买卖！这钱谁挣到了？

spectrum.ieee.org/ai-domains
补充一份背景：我们常说的网址由几部分组成，其中 .com .cn .edu .dk 这部分属于 TLD (Top-Level Domain)，也就是顶级域名

1985年开始，互联网号码分配机构 (IANA) 开始组织发放国家代码顶级域名 给所在区域的居民、公司和组织使用，命名一般从国家或地区的英文名中挑选两个字母 ，比如中国的.cn，美国的.us，英国的.uk，丹麦的.dk。而 .ai 这个宿命般的域名，当时被随手分配给了一个加勒比海的小岛安圭拉 (Anguilla)。

随着全球互联网的急速发展，.ai 这个域名曾两度被外界商业公司看上：第一次，安圭拉政府选择把它交给一家台湾公司，但几年之后这群人杳无音信了 🤷‍♀️；政府拿回来后又被另一家公司盯上，说服理由是「ai是中文里的<爱>，可以卖给中文网站挣大钱」。

这次，安圭拉政府选择了拒绝，因为他们已经看到了人工智能 (Artificial Intelligence) 行业的冉冉升起 ☀ 觉得这是个更大的机会！

果然，2022年底 ChatGPT 爆火带动了全球AI行业的新一轮浪潮，小岛安圭拉的 .ai 域名也随之受到追捧，销售营业额疯狂增长，并稳定在每个月 300 万美元左右。而当一年后开始续费时，这个数额有望稳定在每月 600 万美元。

这笔钱对于 15,000 人口的小岛可以说意义重大！毕竟占到了政府预算的 1/3，已经被用于偿还债务和减免部分税务啦！政府和居民都喜滋滋 o(〃＾▽＾〃)o

🉑 大饼AI变声：一款超好用的实时变声软件！创始人竟然是 00 后！

国内版 dubbing.tech

海外版 dubbingai.io/

大饼 ai 变声 (海外版叫 Dubbing AI) 是一款简单好用的实时ai变声器，可以把你的声音变成任何人。

与传统的调音/声卡等技术路径完全不同，大饼 ai 变声使用了全新的Transformer 架构，可以完美实现对人类声音克隆，还支持改变更多声音参数，所以生成的声音逼真自然，还能富有情感！！

操作也很简单，官网下载安装，配置完成后再开启任何社交软件或游戏，在产品内说话就可以实现变声啦 👀 有上千款音色可以选择，而且延时很短，基本做到了「说一句，变一句」~

产品还在高速迭代中，已经开始期待未来的「口音消除 」和「口音增强 」功能啦！把Chinglish 转化为 English 的同时保留音色和情感 ，或者把普通话转化为台湾腔，都是很有意思的玩法呀~

创始人凌天格最近接受了采访。是一位 00 后呐！毕业于 CMU，毕业后创业就拿到了源码资本的投资，优秀 👍

他在采访里介绍了产品的发展历程、技术优势和未来规划，还谈到了对国内外创业的感受和思考。能在他的回答里感受到「初生牛犊」的无所畏惧，也能感受到他对用户、赛道和商业模式的专业洞察。

如果你对这款产品、这个赛道感兴趣，那么可以看看这个采访视频呀 ⋙ 采访的视频 &文字版

🉑 为什么说 2023 是AI视频的爆发年？以及我们对 2024 的期待

a16z.com/why-2023-wa...

2023年初，还没有公开的文本到视频模型；年底，全球数百万用户已经能使用几十种视频生成的产品和模型了。这一年AI视频技术的确出现了大爆发。

但是，目前产品的局限性仍然比较明显，比如生成视频的时长通常在3到4秒之间，质量参差不齐，角色一致性不好掌握等等。

这篇文章作者追踪了21款AI视频产品，包括我们都很熟悉的 Runway、Pika、Genmo、Leonardo等等，并把产品特性汇总成上方 👆 表格。

可以看到，这些产品大多来自初创公司，大厂的进展似乎并不明显：尽管Google、Meta、字节跳动陆续发布了论文和效果展示，但是模型并没有开源。

文章总结了当前 AI 视频技术仍然面临的3个核心挑战：场景控制 (如角色动作的准确性)、时间连贯性 (确保视频中的元素在帧与帧之间保持一致)、视频长度 (目前大多数模型生成的视频长度有限) ，但相信这些问题将随着时间推移而得到改善。

AI视频将走向何方呢？作者讨论了AI视频技术在发展过程中面临的挑战，潜在的发展方向，以及行业内部对未来的期待/预测：

扩散架构与3D空间理解：AI视频模型在生成连贯视频时面临3D空间理解的挑战；行业正探讨是否需要3D引擎来提升视频质量，或通过大量数据训练来弥补这一不足

高质量训练数据的获取：高质量的视频训练数据难以获取，这限制了模型的发展；专业工作室的数据可能成为关键，但其可用性尚待观察

平台与模型的多样化用例：视频生成领域预计将出现多样化的模型，各自擅长不同的风格和场景，类似于图像生成领域的多样化

工作流程的整合与优化：视频创作流程将趋向整合，视频生成平台可能会增加编辑功能，同时期待出现一个集成的AI编辑平台，来提高创作效率

👀 大语言模型评测是怎么被玩儿烂的？我们跟知情人聊了一个下午

补充一份背景：C-Eval 是符尧发起的大模型中文能力评测基准，为了大模型刷榜的第一个目标。C-Eval 被「刷烂」之后，符尧又带领一小队人构建了新的大模型评测基准 CoT Hub，10月份发布之后现在已经在 GitHub 收获了 2000 Star~
这次访谈嘉宾高梵 (化名) 就是 CoT Hub 的参与者之一，他透露了很多关于「刷榜」的内幕，比如为什么会有这种现象存在、常见的操作方式、影响榜单成绩的诸多因素、以及评测基准的未来。

刷榜是指在大模型评测中，通过各种手段人为提高模型在评测榜单上的排名。这种行为不仅扭曲了评测结果，使得一些模型的性能被过度夸大，也被研究证实会影响大模型本身的「智力」。

刷榜之所以存在，主观原因是激烈的竞争 使得众多大模型厂商求胜心切，客观原因学术性评测基准团队的GPU和资金有限，往往依赖大模型公司自行提交测试结果，为刷榜提供了机会。

此外，评测方法的脆弱性也是结果易受扰动的原因之一，温度、解码策略、Prompt（提示词）等因素都可能影响评测结果。HuggingFace 提供了一套全自动的模型能力评测框架，试图在评测环节上保持公平性，但也出现过因自动化测评框架Bug导致的问题。

对文中提到的刷榜行为，进行了一下简单总结：

数据泄露：这是指在训练和测试过程中，训练集和测试集之间存在数据重叠，导致模型过度适应这些「背到过」的训练数据。这种数据泄露会让模型在测试时表现得更好，因为它已经「记住」了测试数据，而不是真正理解了数据背后的规律

针对性训练：为了在特定的评测基准上获得高分，一些团队可能会对模型进行针对性的训练，使其在这些特定的任务上表现优异，即使这可能牺牲了模型在其他任务上的泛化能力

利用评测漏洞 ：有些团队可能会发现并利用评测过程中的漏洞，比如通过特定的解码策略或Prompt（提示词）来提高模型的得分。这些策略可能并不反映模型的真实能力，而是利用了评测流程的不完善之处 ⋙ 阅读原文

最终，用户会用脚投票的。

🉑 台大 CommE5070 | 深度学习音乐分析与生成 (2023秋季·已完结)

github.com/affige/Deep...

这是台大2023年秋季学期的课程「深度学习在音乐分析与生成中的应用 (Deep Learning for Music Analysis and Generation) 」，主要内容是通过深度学习技术解决与音乐相关的各种问题。

课程整体内容分为两部分：

音乐分析：涉及音乐音频信号的分析，包括音乐音频的特征提取和表示学习、音乐音频分类、旋律提取、自动音乐转录和音乐源分离

音乐生成：涉及音乐材料的生成，包括符号域（如MIDI或乐谱）和音频域（如人声和器乐）的音乐信号。这部分将涉及深度生成模型，如生成对抗网络（GANs）、变分自编码器（VAE）、Transformers和扩散模型

课程大纲，感兴趣可以前往 👆 上当链接下载课件：

Lecture 1. Introduction to the course

第1讲：课程介绍

Lecture 2. Fundamentals & Music representation

第2讲：基础知识与音乐表示

Lecture 3. Analysis I (timbre): Automatic music classification and representation learning

第3讲：分析I（音色）：自动音乐分类和表示学习

Lecture 4. Generation I: Source separation

第4讲：生成I：源分离

Lecture 5. Generation II: GAN & Vocoders

第5讲：生成II：GAN与声码器

Lecture 6. Generation III: Synthesis of notes and loops

第6讲：生成III：音符和循环合成

Lecture 7. Analysis II (pitch): Music transcription, Melody extraction, and Chord Recognition

第7讲：分析II（音高）：音乐转录、旋律提取和和弦识别

Lecture 8. Generation IV: Symbolic MIDI generation

第8讲：生成IV：符号MIDI生成

Lecture 9. Generation V: Symbolic MIDI generation: Advanced topic on music structure

第9讲：生成V：符号MIDI生成：音乐结构的高级话题

Lecture 10. Generation VI: Singing voice generation

第10讲：生成VI：人声生成

Lecture 11. Generation VII: Text-to-music generation

第11讲：生成VII：文本到音乐生成

Lecture 12. Generation VIII: Differentiable DSP models and automatic mixing

第12讲：生成VIII：可微分DSP模型和自动混音

Lecture 13. Analysis III (rhythm)

第13讲：分析III（节奏）

感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们！

◉ 点击 👀日报&周刊合集，订阅话题 #ShowMeAI日报，一览AI领域发展前沿，抓住最新发展机会！

◉ 点击 🎡生产力工具与行业应用大全，一起在信息浪潮里扑腾起来吧！