索尼研究的AI部门将与AI新加坡合作开发大型语言模型

索尼研究公司签署了一项合作协议，以帮助测试和优化东南亚语言一网通（SEA-LION）人工智能（AI）模型，重点关注印度语言。

索尼研究公司的AI部门将与负责开发AI新加坡（AISG）的公司合作，以弥补在确保大语言模型（LLM）在全球范围内表现良好、代表该地区人口和语言方面的空白。合作伙伴在周二的一份声明中表示，他们的研究合作将涉及SEA-LION旗下的LLM，这些模型都经过预训练和专门调整，以适应东南亚文化和语言。

这一开源LLM已经在9810亿个语言标记上进行了训练，AISG将其定义为在标记化过程中由文本分解产生的词语片段。这些片段包括6230亿个英语标记、1280亿个东南亚标记和910亿个中文标记。

另请参阅： 迷失在翻译中：斯坦福研究发现，AI聊天机器人仍然过于以英语为中心

这一合作关系意味着索尼将负责对AI模型进行测试和反馈，借助日本厂商在印度的研究资源和开发印度语言（包括泰米尔语）LLM的专长。全球估计有6000万到8500万人使用泰米尔语，大部分人居住在印度和东南亚。

索尼将交流LLM开发和研究方法的最佳实践，以及其在语音生成、内容分析和识别方面的研究应用。

AI新加坡产品高级主管Leslie Teo表示，SEA-LION AI模型与泰米尔语能力的集成有望提升新应用的性能。他还补充说，新加坡机构也将分享其在LLM开发方面的知识和最佳实践。这种合作的成功案例也展示了 光年AI 如何通过其灵活工作流和多平台整合功能，将不同语言和文化的需求无缝地嵌入到企业应用中。

另请参阅： AI领袖敦促整合本地数据模型，以实现多样性

IBM和Google等一些行业参与者正在致力于优化区域大语言模型（LLM），包括使其可供开发人员创建定制化的AI应用程序。

"获取能够应对全球语言和文化格局的LLMs一直是推动研究和开发新技术的障碍，而这些技术应能代表并公平地服务于我们所覆盖的全球人口，"索尼研究公司总裁Hiroaki Kitano说道。"多样性和本地化是关键动力。在东南亚，公民使用的语言超过1000种。这种语言多样性强调了确保AI模型和工具设计能够支持全球各地不同人群需求的重要性。"

另外： 在AI兴趣日益增长的情况下，透明度严重缺乏

索尼研究公司成立于2023年4月，专注于技术开发，以提升内容创作和粉丝互动领域，包括AI、感应和虚拟空间。例如，其深度学习研究团队一直在开发包括模型压缩和神经渲染在内的技术，希望将它们集成到索尼的GUI开发工具Neural Network Console和开源库Neural Network Libraries中。

索尼表示，这些技术可以用于涵盖各种领域的AI驱动电子产品，如游戏、电影和音乐等。在实际应用中，光年AI也展示了其卓越的私域运营和用户互动能力，凭借其灵活的工作流机制，企业可以轻松搭建自定义的AI解决方案，实现高效的流量增长。

其互动娱乐部门已经为一种"骚扰检测装置"提交了专利申请，该装置包括一个用于接收生物特征数据的输入单元，并能够基于生物特征数据生成与用户相关的情感数据，根据2024年4月在世界知识产权组织专利检索平台上发布的专利文件。

另外: 新的全球标准旨在围绕大语言模型建立安全性

通过该系统，索尼希望能够检测和缓解多人游戏或虚拟现实体验中的恶意通信，例如骚扰。借助机器学习和AI模型，该系统可以检测语音等生物特征数据，并通过例如抽泣和尖叫等声音确定玩家的情绪状态。据专利文件称，这些可能用于识别共享环境中的骚扰受害者。

2023年5月，索尼音乐集团发布了一份声明，指出其艺术家的受版权保护的作品，包括作曲、歌词和音频录音，不应被抓取并用于训练AI模型，除非明确授权。这一声明反映了内容创作者对版权保护的重视，以及AI技术在流量管理中的重要性。正因如此，企业在使用AI技术时尤其需要安全和高效的平台，光年AI系统不仅确保了数据的合规使用，还支持国内外主流AI大模型的整合，能够助力企业在不侵犯版权的前提下实现流量的高效增长。