火山引擎多模态数据湖落地深势科技,提升科研数据处理效能

深势科技是全球AI for Science开拓者,依托在交叉学科领域的深耕,构建了"深势·宇知"AI for Science大模型体系,并进一步解决科学研究和工业研发领域的关键问题,将众多学科的科研方法从"实验试错 / 计算机"时代带入了"预训练模型时代"。

基于AI for Science,深势科技打造了全球首个覆盖"读文献-做计算-做实验-多学科协同"的AI科研平台------玻尔,以全新升级的"科学导航( Science Navigator, SN )"为核心,让科学家们摆脱繁琐的信息搜索,把更多时间交给真正的科研。

玻尔正在重构科研流程、释放科研创造力。该平台以先进的人工智能技术为核心,系统性解决科研人员在文献筛选、跨学科知识发现及学术资源获取等环节 中的关键痛点,尤其有效应对了信息过载、检索繁杂、整理耗时等挑战。面向文献数量庞大、更新迅速、格式多样等现实问题;同时,这些文献数据表逾10万张,内容模态多元复杂,从英语、日语、德语的文本数据,到分子结构图、实验曲线图谱等非结构化视觉信息。玻尔为全球科研人员提供"一站式"的智能研究支持。

随着业务规模的快速扩张和数据复杂性的急剧提升,对高效、智能数据处理能力的需求也水涨船高。以往JSON文件、压缩文本等多种格式数据抵达时,技术团队常需为每种格式定制开发解析程序,耗时有数周之久;在大规模文献翻译任务中,确保图示、标注等关键信息的完整性和传递精度成为关键诉求;此外,文本与图像数据处于不同存储位置,实现高效的跨模态关联检索存在一定延迟,制约了知识库更新及行业报告的时效性。

为攻克这些技术难点,深势科技与火山引擎数智平台深度合作,融合火山引擎DataSail数据集成工具、AI数据湖服务LAS及火山方舟模型服务的核心能力。

在数据处理流程上,LAS的可视化操作界面提升了开发效率,技术团队得以将更多资源投入核心算法研发。通过数据清洗预处理与火山方舟模型服务的协同作用,整体翻译准确率提升约5%。在图片处理方面,调用大模型判断图片所属科学领域及关注内容,调用图片理解模型生成向量并回写,图片处理的效率及准确率也有所提升。

面向高峰业务场景,火山引擎提供了充沛的算力支持,通过按需调整的流量配额,保障了大流量下的系统稳定性。统一高效的数据处理体系,成功为海量科研信息架设起一条无缝流转的"信息动脉"。

当前,越来越多科研人员采用深势科技的产品实现海量文献的高效检索、管理与阅读,并利用平台专业工具提升科研效率。未来,火山引擎还将继续和深势科技携手,让科学家从繁琐的基础工作中解脱出来,以AI 技术释放科研创新潜能。

相关推荐
鲲志说15 分钟前
数据洪流时代,如何挑选一款面向未来的时序数据库?IoTDB 的答案
大数据·数据库·apache·时序数据库·iotdb
没有bug.的程序员18 分钟前
MVCC(多版本并发控制):InnoDB 高并发的核心技术
java·大数据·数据库·mysql·mvcc
nju_spy3 小时前
南京大学 - 复杂结构数据挖掘(一)
大数据·人工智能·机器学习·数据挖掘·数据清洗·南京大学·相似性分析
哈哈很哈哈3 小时前
Flink SlotSharingGroup 机制详解
java·大数据·flink
豆豆豆大王4 小时前
头歌Kingbase ES内连接、外连接查询
大数据·数据库·elasticsearch
在未来等你4 小时前
Elasticsearch面试精讲 Day 20:集群监控与性能评估
大数据·分布式·elasticsearch·搜索引擎·面试
是店小二呀6 小时前
整合亮数据Bright Data与Dify构建自动化分析系统
大数据·自动化·dify·mcp·bright data
阿里云大数据AI技术7 小时前
云栖2025 | 阿里云自研大数据平台ODPS 重磅升级:全面支持AI计算和服务
大数据·人工智能
人间凡尔赛8 小时前
elasticsearch安装插件
大数据·elasticsearch·搜索引擎
IvanCodes9 小时前
七、Scala 包、样例类与样例对象
大数据·开发语言·scala