音频与视频
词汇表
| 函数 | 说明 |
|---|---|
AudioCapture[] |
从计算机麦克风捕获音频 |
AudioPlot[audio] |
绘制音频强度 |
Spectrogram[audio] |
从音频生成声谱图 |
AudioPitchShift[audio, r] |
将音频移调 |
SpeechRecognize[audio] |
识别音频中的单词 |
Speak["字符串"] |
让计算机朗读字符串 |
SpeechSynthesize["字符串"] |
合成语音音频 |
AudioIdentify[audio] |
识别音频内容 |
VideoCapture[] |
从摄像头捕获视频 |
VideoFrameList[video, n] |
从视频生成帧列表 |
VideoMapTimeSeries[f, video] |
将函数应用于视频的每一帧 |
AnimationVideo[expr, {t, min, max}] |
通过动画生成视频 |
音频
在 12节 中我们看到 Wolfram 语言如何处理由音符组成的声音。
实际上它可以处理任何类型的音频,例如人声。
捕获音频
AudioCapture 可以从计算机的麦克风捕获音频。
捕获我说"不合逻辑的"短语 a cat, a dog, a squid:
wl
In[]:=AudioCapture[]


盒子表示你捕获的音频。
可以通过按播放按钮来播放。
还有许多对音频进行操作的函数。
波形图
例如,可以使用 AudioPlot 绘制音频强度。
将音频强度随时间绘制为图:


在此图中,大致可以区分出不同的单词。
频谱图
更详细的可视化方式是使用声谱图。
为音频生成声谱图:


声谱图有点像广义的乐谱,其中在某一音高处强度越高显示越暗。
语音识别
不同的语音或音素在声谱图中表现为不同的结构。
SpeechRecognize 试图分析整个声谱图以识别单词。
对于较长的音频,需要大量计算,因此可能需要一些时间。
识别音频中所说的内容:

wl
Out[]=a cat, a dog, a squid
变调
将音高按 2 倍(即一倍八度)移位,会使我的声音变高、滑稽。
其声谱图会被拉伸。
为移调后的音频生成声谱图:



SpeechRecognize 无法正确识别所说内容:
wl
Out[]=I can't. I don't. I Scream.
语音合成
Wolfram 语音不仅能识别语音,也能生成语音。
Speak 让计算机发声,SpeechSynthesize 给出明确的音频。
从文本合成语音并生成其声谱图:
In[]:=Spectrogram[SpeechSynthesize["a cat, a dog, a squid"]]

计算机合成语音的声谱图与我的声音声谱图在某种程度上相似。
大多数计算机上,SpeechSynthesize 可以访问多种具有不同口音的声音,通常以名字描述。
使用不同口音的声音:
In[]:=Spectrogram[SpeechSynthesize["a cat, a dog, a squid", #]] & /@ {"Tessa", "Juan", "Luca", "Lekha"}
注
桌面版和网页版的可用声音样式不一样,可通过
$VoiceStyles查询。
声音和音符
也可以从我们在第 12 节讨论的 Sound 对象生成音频。
在合成钢琴上按顺序演奏若干、跨八度的音符:
In[]:=Sound[Table[SoundNote[12 n, 1, "Piano"], {n, 4}]]
Out[]=
对应的音频图,较高音调的音符衰减更快:
In[]:=AudioPlot[Sound[Table[SoundNote[12 n, 1, "Piano"], {n, 4}]]]

以及其声谱图:
In[]:=Spectrogram[Sound[Table[SoundNote[12 n, 1, "Piano"], {n, 4}]]]

合成小提琴的相应声谱图:
In[]:=Spectrogram[Sound[Table[SoundNote[12 n, 1, "Violin"], {n, 4}]]]

类似ImageIdentify 函数,用于音频的是 AudioIdentify。
AudioIdentify 将音频识别为小提琴:
In[]:=AudioIdentify[Sound[Table[SoundNote[12 n, 1, "Violin"], {n, 4}]]]

视频
Wolfram 语音不仅处理音频,也处理视频。VideoCapture 可以从计算机摄像头捕获视频。
视频捕获
摄像头捕获视频:
In[]:=video=VideoCapture[]

视频帧列表
从视频中获取帧列表作为图像:
wl
In[]:=VideoFrameList[video, 6] // ImageCollage

提取音频
从视频中提取音轨并识别我说的话:
wl
In[]:=SpeechRecognize[Audio[video]]
Out=Hello there, let me introduce you to my spiky friend.
视频映射时间序列
计算视频过程中红、绿、蓝的平均值:
wl
In[]:=ListLinePlot[VideoMapTimeSeries[Mean[#Image] &, video], PlotStyle -> {Red, Green, Blue}]

动画视频
除了直接捕获视频外,还可以从文件获取或从服务器流式传输。
也可以使用程序创建视频。
AnimationVideo 类似于 Manipulate,但会自动动画化并生成视频。
视频通常包含大量数据,可能需要较长时间生成。
生成一个黑盘在黄色盘内"生长"的视频:
wl
In[]:=AnimationVideo[
Graphics[{Style[Disk[{0, 0}, 1], Yellow],
Style[Disk[{0, 0}, a], Black]}, ImageSize -> 100], {a, 0, 1}]

将视频保存为 .mp4 文件:
wl
In[]:=Export["blob.mp4",%]
像 Manipulate 一样,可以在 AnimationVideo 中指定步长。
生成一个有 1 到 10 个扇区的饼图视频:
wl
In[]:=AnimationVideo[PieChart[Table[1, n], ImageSize -> 100], {n, 1, 10, 1}]
