百度搜索创新大赛,一场2800人的技术狂欢

导读

这是一场以"创新"为主题的科技竞赛,4个月里2800人参与比拼,五大赛道充分开放AI应用场景。95所985/211高校学子齐聚,他们在这里学习、交流、碰撞、成长。在这个瞬息万变的时代,年轻人们正主动积极与前沿科技碰撞,用自己的方式掀起了一场AI创新潮流。

12月1日,以"新搜索·新奇点"为主题的第二届百度搜索创新大赛圆满结束,本次大赛共设置五大赛道,题目涉及语义检索、多模态、软硬结合优化等搜索核心业务场景,并鼓励参赛者洞察搜索场景需求,通过AI与方法创新解决问题,受到社会各界广泛关注。本文主要介绍了五大赛道冠军及作品情况。

搜索与年轻灵感的双向奔赴

本次大赛历时4个月,共吸引了来自45个省市及海外城市共2800余人报名参赛。参赛者中81%为高校学生,且超过半数为研究生。 大赛组委会定向收到了 1600余份简历投递,投递方向以机器/深度学习、AI产品创新方向为主,专业方向与搜索需求人才的关联度较高。

与此同时,组委会在大赛期间组织了近20场线上/线下培训活动,有5万多名同学直接参与相关课程学习,赛事资料及课程触达了100万开发者群体。赛事活动的举办,为检索及人工智能领域的人才培养和技能强化提供助力,进一步激发学生的积极性和动力。

大赛的参赛者们经过激烈的初赛、复赛、决赛角逐,评审组针对技术含量、创新性、应用价值等维度综合考量,最终有28支团队突围获奖。百度集团副总裁、搜索平台负责人肖阳在颁奖典礼上表示:大语言模型的浪潮才刚刚开始,它引发的创新,一定会加速推动搜索引擎的进化。通过搜索创新大赛,我们想把搜索这样一个最大规模的AI应用场景充分开放,让更多年轻人的聪明才智和搜索发生碰撞。

1 搜索引擎何以提升用户极致满足?赛道一"搜索答案组织"给出了答案

赛题

如何针对用户query,利用生成模型组织搜索引擎返回的多条检索结果,生成一个正确、丰富、语义通顺、完全满足用户需求的答案,提升搜索引擎的极致满足?

本赛道共有719人报名,共提交了220个参赛作品。获得冠军的是来自中国科学院计算技术研究所的学生团队。 该团队通过精细调整Lora微调LLM方案,精选公开问答数据增强训练,利用大模型蒸馏提升学习效果,并参照NEFTune进行噪声嵌入增加模型鲁棒性。这些举措使测试数据结果更符合用户需求。每一个技术选型均给出了合理动机、扎实分析和可信结论,这体现了团队对搜索答案组织问题的深度理解和出色的科研能力。

冠军团队代表李一鸣在接受采访时说到:"'纸上得来终觉浅,绝知此事要躬行',通过这次比赛对于NLP领域一知半解的我,在一步步调试优化大模型、一系列的过程中体会到了收获知识、提升技术的喜悦。通过百度搜索创新大赛这样的线下交流展示的机会,不仅能够让我们利用所学的知识,真正去解决一些工业界的现实问题,也帮助我们在未来的职业道路中有更深刻的认知。"

事实上,这也是百度搜索创新大赛举办的初衷。让每一位参赛者都能够在激烈的赛事中认清自身的优势,在赛事的实践与考验中形成属于自己的特色成果,确立未来的发展规划。

2 赛道二聚焦"基于向量交集的TopK搜索",在经典问题中寻求创新

赛题

给定doc数据集和query,求query与doc全集内各数据的交集个数TopK。

本赛道共有549人报名,共提交了113个参赛作品。冠军是一名全职奶爸,武大毕业,暂时离开工作岗位,但是却始终都在关注着行业的发展。 在本次比赛中,他的机评分数和答辩评分均遥遥领先。其方案基于赛题要求,不仅实现了多线程多流并行和batch优化,还解决了GPU占用低的问题,并提出了高效bitset求向量交集数的方案,进一步提升了GPU的计算效率。此外,他还创新性提出了基于阈值迭代式求TopK方案,通过缩小范围来减少计算量,最后获得了23倍的性能提升。

冠军陈曦在接受采访时说到:"最终的性能提升并不是一蹴而就的,而是通过一个个非常小的优化积累得到的。从业内来看,面向工程优化方向的比赛是很少的。百度搜索能够为大家提供这样一个平台,真的非常难得。在 AI 大模型爆发的关键时刻,搜索技术也迎来了革新的转折点。赛题为我们描绘出了搜索技术的发展方向,让我们一起努力共同促进行业繁荣发展。"

参赛只是一种经历,但其中所涉及的一系列问题以及所取得的成果,却是值得铭记的。

3 赛道三"设计一个解决搜索用户需求的AI原生应用",科技创造价值的内在逻辑已逐步显现

赛题

基于参赛者对搜索用户充分的调研,洞察用户在搜索场景的需求,结合AI的能力,构建AI应用直接有效的解决用户痛点和需求。

本赛道共有530人报名,共提交了83个参赛作品。冠军团队既有来自南京航天航空大学、中国石油大学等院校学生,也有社会开发者。 从产品经理、NLP专硕研究生,到原型设计师到前后端工程师,都是一专多能的复合型人才。该团队的作品是"AI简历助手",在用户需求的挖掘和理解上表现突出,实现了在招聘场景候选人的全链路需求的满足。同时团队自身具备的较强的执行能力保障了最终呈现的效果,让人眼前一亮。在答辩的过程中充分展示了思考、创新、落地、评估等多角度的成果,得到了评委们的一致好评。

冠军团队代表李柯辰接受采访时说到:"通过此次大赛,我们对于自身未来的职业规划有了更具体的目标与方向。在参赛过程中,我们通过产品调研深入了解了人工智能前沿发展,同时体验了百度灵境平台,使我们对AI和LLM的实践应用有了更深刻的理解,也使我们对在这一领域的研究和开发工作产生了浓厚的兴趣。未来,我们将继续深入且广泛地学习,希望能在机器学习、数据科学或算法开发这些领域继续深造和成长,也希望有机会能加入百度搜索"。

以选手的思维和技术,迸发新思想,推动科技的创新,不断地更新和改进搜索的方式和技术,以更好地去适应用户以及社会的需求,这是百度搜索创新大赛的命题,更是百度搜索致力探索的方向。

4 赛道四"基于GPU的近似最近邻检索算法挑战",提高搜索算法的效率和准确率

赛题

给定亿级数据集和测试集,参赛者设计自己的近似最近邻检索算法,返回每个query与数据集内最相似的topK个样本。提供统一的虚拟环境和benchmark 框架,并以QPS-recall作为算法的唯一评估指标。

本赛道共有273人报名,共提交了30个参赛作品。冠军团队来自杭州电子科技大学知识图谱实验室。 团队成员曾在国内外各大编程比赛中获得过数个奖项,还在数据库国际顶级会议,如VLDB、NeurIps中以共同作者的身份发表了数篇向量检索方向的文章。在比赛中,该团队通过流水线技术优化算法 ,在比赛初期就达到baseline 1.5倍的分数,位居排名前列,但他们并没有就此止步。为了坐稳冠军宝座,他们不断探索算法的极限,终于在比赛中后期发现了算法的带宽瓶颈,最后通过模型索引压缩的方式将其性能进一步突破了一倍, 达到了3倍 baseline分数,拿到了本赛道的冠军。

冠军代表接受采访时说到:"比赛是一种经历,经历就有收获。通过此次百度搜索大赛,我们不仅提升了自己的团队协作能力,也锻炼了我们永不放弃的精神。"

当然,这也是百度搜索创新大赛举办的目的之一,为每一位有想法的年轻人提供机会和平台。

5 AI就可以创作出符合你心境的艺术作品?向赛道五"可控图片生成算法"挑战!

赛题

以文生图任务为核心,基于扩散技术框架,通过训练方式和prompt工程等手段优化自己的生成模型。

本赛道共有390人报名,共提交了50支参赛作品。冠军团队来自北京理工大学,成员主要由两名博士和三名硕士组成。 他们的目标是充分理解用户需求,生成相关性高、美观度高、清晰度高和创新性高的图像。该团队使用了多个方法实现算法:第一是通过大量数据收集、清洗、标注、对齐和增强,去挖掘和爬虫下来自己大规模的数据集,并对百度官方发布数据集进行大规模清洗。在此基础上,进行了多LORA模型混合使用,并得到了初步效果。此外,重新使用自身采集数据进行训练,与多LORA模型融合。在不断摸索与尝试下,控制变量,细察原因,最后取得了第一名,效果相比于基础模型提升了5倍。

冠军代表接受采访时说到:"通过比赛,我们深切感受到团队协作的重要性,通过不断地头脑风暴,才能逐步实现1+1大于2的效果。同时我们也意识到,尽管现在有很多开源模型可以使用,但思维应该是创新性的,不能止于此。我们应该求真务实、脚踏实地,一步步实现自己的算法,实现自己的目标。变革,无时无刻不在发生。就像本届大赛主题 '新搜索 新奇点',它强调的是搜索技术的不断发展和创新,也代表着人们对于搜索的需求和方式在不断变化。

与优秀 AI 人才一起成就卓越

百度搜索创新大赛,是国内覆盖面最大、影响最广、成果最多、规格最高的搜索专业赛事,被誉为"搜索界的奥林匹克",但这也不止是一次竞赛。大赛是个起点,我们希望寻找AI创新千里马,与年轻人一起拥抱灵感,共赴理想;大赛是个平台,我们希望与跨领域、跨学科的青年人才和创新团队思想碰撞,为技术基因注⼊新的活力。在这个过程中,我们会加强对搜索产品技术的布道,加强对优秀参赛作品的跟踪支持,为创新成果转化拓宽渠道、提供帮助。

AI创新潮流已经掀起,与优秀人才一起成就卓越,才是大赛的价值所在。

------END------

推荐阅读

揭开事件循环的神秘面纱

百度搜索展现服务重构:进步与优化

百度APP iOS端包体积50M优化实践(七)编译器优化

百度搜索内容HTAP表格存储系统

大模型时代,"人人可AI"的百度开发者平台长什么样?

相关推荐
学习前端的小z8 分钟前
【AIGC】如何通过ChatGPT轻松制作个性化GPTs应用
人工智能·chatgpt·aigc
埃菲尔铁塔_CV算法35 分钟前
人工智能图像算法:开启视觉新时代的钥匙
人工智能·算法
EasyCVR36 分钟前
EHOME视频平台EasyCVR视频融合平台使用OBS进行RTMP推流,WebRTC播放出现抖动、卡顿如何解决?
人工智能·算法·ffmpeg·音视频·webrtc·监控视频接入
打羽毛球吗️42 分钟前
机器学习中的两种主要思路:数据驱动与模型驱动
人工智能·机器学习
好喜欢吃红柚子1 小时前
万字长文解读空间、通道注意力机制机制和超详细代码逐行分析(SE,CBAM,SGE,CA,ECA,TA)
人工智能·pytorch·python·计算机视觉·cnn
小馒头学python1 小时前
机器学习是什么?AIGC又是什么?机器学习与AIGC未来科技的双引擎
人工智能·python·机器学习
神奇夜光杯1 小时前
Python酷库之旅-第三方库Pandas(202)
开发语言·人工智能·python·excel·pandas·标准库及第三方库·学习与成长
正义的彬彬侠1 小时前
《XGBoost算法的原理推导》12-14决策树复杂度的正则化项 公式解析
人工智能·决策树·机器学习·集成学习·boosting·xgboost
Debroon1 小时前
RuleAlign 规则对齐框架:将医生的诊断规则形式化并注入模型,无需额外人工标注的自动对齐方法
人工智能
羊小猪~~2 小时前
神经网络基础--什么是正向传播??什么是方向传播??
人工智能·pytorch·python·深度学习·神经网络·算法·机器学习