口哨声、歌声、boing声和biotwang声:用AI识别鲸鱼叫声

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

谷歌推出了一款全新的鲸鱼生物声学模型,可以识别八个不同的鲸鱼物种,其中包括两种物种的多种叫声。这个模型还包含了最近被确认为布氏鲸发出的"Biotwang"声。为了保护生活在偏远环境中的动物,研究人员必须能够追踪它们,了解它们的种群动态。随着长期被动声学监测技术的发展,基于大量声景数据的自动物种识别工具已经成为保护与生态研究的关键。然而,尽管有像Google Perch这样的鸟类声音识别模型,开发能够同时分类多个鲸鱼物种叫声的模型仍然充满挑战。https://github.com/google-research/perch/tree/main/chirp

鲸鱼的声学范围极为广泛,蓝鲸的声音可以低至10赫兹,而齿鲸(如虎鲸)的声音可高达120千赫兹。此外,录音还会因地点和时间的不同而产生巨大变化,使得模型开发更加复杂。特别是一些神秘的鲸鱼种类,其叫声特征仍不为人知,这进一步加剧了识别难度。一个典型的例子是"Biotwang"声,这种声音最早在马里亚纳海沟被记录,带有金属质感,与典型的鲸鱼低沉叫声完全不同。最近,NOAA(美国国家海洋和大气管理局)的研究人员将其确定为布氏鲸独特的叫声。

如今,谷歌的鲸鱼生物声学模型已能够识别八个物种,并可以区分两种物种的多种叫声类型。这个模型帮助研究人员分析了超过20万小时的海洋录音,解锁了许多关于鲸鱼生态的新发现。目前,模型已通过Kaggle Models开放下载。

项目背景

谷歌的鲸鱼叫声分类项目始于2018年,当时与NOAA的太平洋群岛渔业科学中心合作,开发了一个检测座头鲸叫声的模型。该模型通过分析NOAA收集的18.7万小时音频数据,确认了座头鲸的时空分布模式,还发现了它们在Kingman Reef的新分布地点。后来,谷歌与加拿大渔业和海洋部(DFO)合作,开发了一个虎鲸检测模型,帮助DFO实时监测濒危的南部居民虎鲸种群。

新的鲸鱼生物声学模型

最新的多物种模型能够为八种鲸鱼提供分类分数,并可进一步区分其中两种物种的不同叫声类型,总共涵盖了12个分类。模型使用原始音频数据生成频谱图,将其分类为12种鲸鱼叫声或物种之一。由于鲸鱼栖息环境中可能包含大量背景噪音,模型还特别训练了大量负样本,确保它能够有效排除背景音干扰。

模型在测试集上的表现非常优异,尤其是对于小须鲸、北大西洋露脊鲸、北太平洋露脊鲸和布氏鲸的分类,表现尤为突出。

模型中的新标签

除了常见的鲸鱼叫声,模型还包括了一些较为独特的声音。例如,小须鲸发出的"boing"声最早在上世纪50年代的潜艇录音中被记录,直到2005年才被确认属于小须鲸。北太平洋露脊鲸则以其"枪声"叫声而闻名,这种声音独特于该物种的东部种群。布氏鲸的"Biotwang"声也经过NOAA研究人员的确认,进一步丰富了模型的分类能力。

新发现

布氏鲸虽然在全球都有目击报告,但人们对其种群结构和迁徙模式知之甚少。通过谷歌模型对西太平洋声景数据的分析,研究人员发现了布氏鲸的叫声在该区域的季节性变化,揭示了不同种群之间可能存在的差异。这一发现为了解该物种的生态提供了重要线索。

扩展到更多物种

尽管模型目前仅涵盖了约94种鲸类物种中的八种,但它的潜在应用范围远远不止于此。研究人员可以使用模型的预训练嵌入技术,快速识别和分类新的鲸鱼声音或物种,为鲸类研究和保护提供强有力的支持。

相关推荐
赋创小助手1 分钟前
NVIDIA RTX PRO 4500 Blackwell Server Edition 深度解析:AI服务器新一代“高密度算力卡”?
服务器·人工智能·科技·深度学习·计算机视觉·语言模型·自然语言处理
黎阳之光1 分钟前
黎阳之光:十五五规划下,以5G+AI全栈技术重塑零碳园区“信息高速路”
大数据·人工智能·5g·安全·智慧城市
蓝队云计算3 分钟前
部署OpenClaw选什么服务器?2核4G+10M带宽配置的蓝队云服务器轻松搞定!
运维·服务器·人工智能·云服务器·openclaw
Saniffer_SH3 分钟前
【高清视频】AI服务器调试利器:PCIe功耗分析设备 Quarch PAM 深度解析
网络·人工智能·驱动开发·嵌入式硬件·测试工具·计算机外设·压力测试
羑悻的小杀马特4 分钟前
Apache IoTDB:开启端边云协同的时序数据新时代
运维·人工智能·apache·iotdb
xixixi777774 分钟前
详细梳理移动通信技术从1G到5G(及展望6G)的核心特征、区别以及迭代背后的驱动原因
人工智能·网络安全·信息与通信·通信
L-影5 分钟前
下篇:SFT微调的主要类型与实际作用
人工智能·ai·sft微调
GitCode官方6 分钟前
WGAI v5.2 重磅升级:解锁 YOLOv26 支持与 AGV 机器人巡检核心能力
人工智能·yolo·机器人·开源·atomgit
左耳咚6 分钟前
Claude Code 记忆系统与 CLAUDE.md
前端·人工智能·claude
喵叔哟8 分钟前
12-调用OpenAI-API
前端·人工智能·.net