先说结果
先说结果,获奖了。
2023年10月13日官宣开赛,10月31号提交作品,11月2号通知作品入围了决赛,11月8号参加决赛路演。在短短一周的时间,从项目idea构想到项目开发落地,我的独立AI项目「Lofi心情 」最终在「36氪 X Colingo大语言模型应用创新挑战赛 」决赛中取得了「优胜奖」。
图:优胜奖获奖的三支团队代表(右上图的是我)
在获奖且兴奋之余,我想将本次大赛的经历和收获都记录并且分享出来,希望能够给同在AI路上的朋友们一些思考。
参赛起初
我是在11月20号关注到这个比赛的。
在「36氪 」上看到Al Hackathon挑战赛 的时候,其实我还是抱有疑惑的。一方面,LLM
的部署和使用有不小的难度,更别说再加上Pre-Tuning
和Fine-Tuning
等工作,难度就更大了。另一方面,参赛者要在短时间内还需要基于大模型搭建产品项目,还需要有创新思维,这无疑难上加难。
但当我仔细阅读参赛规则和要求后,瞬间来了兴趣。这次Al Hackathon 是36氪 和CoLingo平台 联合举办的,而前面所担心的LLM
的所有部署和训练,都可以基于CoLingo
这个低代码平台来快速实现,那么参赛者就只需要专注在场景应用上就行了。
于是抱着学习和交流的态度,我扫码添加了主办方运营老师的微信,由于时间紧张(只有7天项目时间),因此毫无准备下的我选择了个人团队参赛,并填写了报名申请表。参赛团队名称也是随便想了下,最后定了个比较搞笑的名字,叫做「长在树上的地瓜」。
考不上清华北大,烤个地瓜也是不错的。
报名完成后,我加入了大赛交流群中。大赛为了让参赛者快速完成项目,CoLingo平台在比赛前期的每个晚上都安排了平台的使用培训和案例介绍,包含知识库问答助手、导购员、简历生成、网页总结、B站视频内容总结......
在学习和众多的案例之后,我陷入了迷茫,可能很多人都会有相同的疑惑:
- 大模型具备什么样的能力,对话?推理?总结?
- 我们到底能用大模型能做什么?我们真的需要大模型吗?
在学习的那段时间,我一直在思考这些问题。
灵感乍现
回归实际,当前最紧急也是最困扰的问题是,我该选择一个什么项目参赛?
如果是借助大模型的检索和总结能力,在CoLingo平台上的借助LLM总结B站视频内容的案例让人记忆犹新,先获得B站链接中的BV号
,再通过BV号和Http Request Maker网络请求框架获取CID
,通过BV和CID来获取字幕文件
,最后再把字幕文件交由LLM
进行总结......
如果是想做类似抓取和总结招聘网站上的招聘信息的案例的话,使用LLM
和Function_Call
获得用户输入的内容,当匹配到系统所需条件时,通过Google_Search
搜索引擎框架访问招聘网站,而后使用Web_Crawl
扫描网页内容,最后将网页内容交由LLM进行分析输出......
要不最简单,使用Knowledge_Search
和本地上次的知识库文件,做个知识库问答机器人?
虽说一时间没有想好参赛的项目,但在学习LLM的使用案例时,却是学到了不少内容,对LLM的使用场景有了进一步的认识。
在某天培训完,在家里楼下散步的时候,和对象聊起这个比赛,我说看了很多的项目案例,但是不知道该做什么项目参赛好。对象和说我:
不用想太多,你做你擅长的就好啦。
哪怕最后不能得奖,这次比赛也是一次宝贵的经验嘛~
是啊,其实想那么多干什么,确定一个方向,做出来就好了。
此刻我的大脑快速检索(自问自答)着一连串的信息:
我擅长哪一块?产品设计、iOS开发。那我做过哪一块?iOS独立开发。具体开发过什么内容?笔记类、图片编辑类应用。我想做什么?大概是结合图片最好还有音乐什么的。我能想到什么?类似呼吸或者冥想平复情绪或者提高专注的应用......
突然那么一刻,灵光一闪!赶紧回到家中打开电脑,一个灵感悄然而生。
思维导图可能是我用过最好用的思绪整理工具了,不一会儿就把想到的灵感具象化了出来。再结合自身产品设计和iOS独立开发的能力,很快就构想了一个「文本+图片+音乐」的冥想类型的应用。
初步的想法是,通过LLM的能力分析用户的情绪,借助本地知识库和Knowledge_Search的能力匹配「文字」部分,借助Midjourney或者第三方API来生成图片,至于音乐部分,如果有现成的Music Agent的API就更好,如果没有的话,就只能自己使用python写一个脚本来合成音乐......
呼~
一连串设想之后,总算是有了大体的方向。
入围决赛
本身赛程时间也比较紧张,而恰巧11月30号、31号作品提交时间赶上了阿里云的云栖大会,由于掘金技术社区的福利(感谢我张哥),我以媒体的身份应邀参加云栖大会要去趟杭州,这样参赛时间的安排上就更加紧张了。
在前期我还可以在B站、油管等渠道看看如何结合AI工具来实现图片和音乐部分。到越到往后的时间,心情也更加急躁,索性遇到问题就自己来。Midjourney、SD暂时用不了,就改用一些图片的API,Music AI倒是找到了些国内外的解决方案,但大体上都需要付费而且没有API,那么没办法了,也自己来吧。
还好技多不压身~
就这样,在CoLingo平台 上大体完成了情绪分析、情绪-疗愈文字匹配、和弦和旋律生成的工作后,剩下的图片部分用了第三方的API,音乐合成部分将CoLingo通过Agent API
的形式与Python
写的方法桥接合成音乐,最后快速使用SwiftUI开发一个简单的iOS应用用于画面呈现。
在最终效果完成的那一刻,压力得到了释放,听着优美的音乐,看着文字和图片效果,我感觉被自己设计的应用治愈了。本来只是想做个项目参赛,没想到真有效果,好像。
在11月31号晚上,在CoLingo的主办催促下,在杭州的酒店,我提交了这个项目。
2天后,我收到了决赛入围的邀请。
决赛准备
Al Hackathon挑战赛决赛以「产品演示 」的方式进行,每位参赛者需要准备一个演讲的PPT,并且为了避免现场演示"翻车",因此主办方建议可以录制一段产品演示的DEMO。为此,主办方还将PPT模版分享给了我们,这省了不少事情。
说实话,在B端领域工作了那么久,设计PPT和路演应该算是我最擅长的事情。项目背景、解决方案、技术方案、产品亮点......由于决赛路演方式是5+3 的模式(5分钟展示,3分钟问答),那么在PPT内容的准备上不能太多,大概每个部分的内容一张PPT。
为了让参赛作品更加具有吸引力,在PPT中所有的配图基本都是使用AI
设计的,当然,也包括我的「自我介绍」部分的头像。
PPT完成后,其实远没有结束。虽说可以现场自由发挥,但为了呈现最好的效果,对于第一次参加Al Hackathon挑战赛的我来说,还是需要做好全面的准备。
为了现场发挥稳定,我根据每张PPT的内容写了一份演讲稿。下面是我准备的讲稿部分:
各位评委老师,以及一起在AI领域探索的同行者们,大家好,我是「长在树上的地瓜」团队的队长,今天所带来的AI作品叫做「Lofi心情」。
在这个信息爆炸和快节奏的时代,在都市打工的我们常常感受到焦虑和不安,可能是由于工作所带来的压力,或者来自于家庭,亦或者是对自己过高的要求所带来的负担。我们希望和人诉说今天的心情、今天的焦虑,或者今天遇到的事情,当我们诉说后,也希望有人将倾听自己的心声。
当你在学习或者工作的时候,我们需要保持高度的专注,我们常常会找一个舒适的环境,戴着耳机,放着轻音乐,专注于当下的事情,不被外界的事务所打扰。亦或者在上下班路上,在嘈杂的人群中寻找一份安静。在这一刻,我们不属于任何人,只属于我们自己。
Lofi心情是一款可以帮助你缓解焦虑和提高专注能力的应用,我们可以简单的对话的形式,诉说我们的心情、情绪,或者想法,通过大模型的能力,我们可以得到专属定制的lofi音乐场景,包含唯美的图片、抚慰内心的文字,以及舒心的音乐。在心情焦虑时,也可以通过Lofi心情来让自己平静下来,Lofi心情像是有人陪伴着你身边,倾听你的烦恼,并且为你排解焦虑。在你在努力的时候,Lofi心情也可以在此刻为你打造专注的音乐场景,让你感受着音乐,沉浸在专注的世界里。
下面是一段产品Demo的演示。
在过去传统的C端产品开发中,要完成这个作品可能需要做很多方面的准备,需要了解当前用户的情绪状态,还需要通过复杂的乐理知识和音乐方案来创造这样的产品。而现在,借助于大模型的能力,我们可以以对话的形式得到用户当前的心情状态,我们构建了情绪分析师的角色,来获得用户输入的内容的情绪状态,并通过Knowledge来进行向量匹配,获得疗愈的文字话术,这一部分我们实现了文字展示的内容。
Lofi音乐场景部分,和以往需要专业的音乐人参与不同,我们通过另一个心理医生的大模型,通过用户的情绪状态,来设想一个治愈的音乐场景,比如一首平静的、钢琴、美丽的环境、令人放松的曲子。我们让心理医生创建了这样的提示词。下一步我们构建了一个"作曲家"的角色,让作曲家根据心理分析师的构想的音乐场景,设计和弦和旋律,后面我们通过本地的python音乐库生成脚本生成音乐部分。最后,我们将文字、音乐、图片相结合,在APP的载体上呈现最终的效果。
核心能力方面,非常感谢CoLingo平台提供的大模型的整理能力,可以很方便地调用大模型来分析当前用户的情绪,并且通过本地知识库来匹配治愈的文字。在整个作品设计过程,我们使用到了多个Language Model提供的能力,以及通过本地知识库构建Knowledge Search 来做文字向量匹配,通过Code来整理和输出信息,最后使用Agent API与移动端产品相链接,最终实现Lofi心情的整个项目。
最后,再一次感谢36k AI协同创新中心和CoLingo平台,以上就是我们团队的作品介绍,谢谢大家。
讲稿写完后,其实也不是一次就结束了,在比赛前我还做了另一件事情,就是「预演」。
许是为了准备充分,或者增加自己的底气,也是为了控制演讲的时间,我大概是做了3、4次预演练习,为此也都删除了部分讲稿的内容(时长原因)。
路演现场
11月8号下午,由于是工作日特地请了半天假。
路演当天开幕式后,先是线下(北京现场)的团队进行路演,线下路演的效果比线上路演效果要好太多,这是在看直播时候的直观感受。
但其实也发现一个问题,大多数团队其实作品都非常不错,但由于时间或者前期准备的关系,大多数团队都没有将自己的作品完全展示,这非常的可惜。
于是在边看其他团队路演过程中,我也在不断调整自己演讲的交稿的内容。最后,下面是我的路演的直播视频:
整体来说,已然是对自己比较满意了,毕竟这个过程没有太多的卡顿,而且时间把控得也还好。最后,也获得了不错的结果,下面是颁奖典礼的直播视频:
视频中我只截取了本人参赛内容和颁奖的部分,后面其实还有「总冠军 」(总冠军是一等奖,我是二等奖优胜奖)的团队颁奖,当然其他团队的作品也可以在「36氪」完整的重播中见到,非常推荐大家去看重播~
完整重播地址:
赛后感悟
以上,就是Al Hackathon挑战赛的全过程,回顾整个比赛历程(好吧,我说实话,看了几次重播),从参赛准备到路演,整个过程应该是比较完整和具有参考意义的,也是我学习路上一个重要的脚印。
对于这次大赛比较深刻的我觉得有几点:
- 当新技术来临的时候,我们应该尽可能将新技术与自身的能力相融合,拥抱新技术。
一直以来我所擅长是产品设计和iOS开发,而LLM本身所具备的能力可以弥补我后端上的不足,也使得一个作品从创意到落地可以在非常短的时间实现,这本身就是一件非常"可怕"的事情。
- 多去尝试新领域和新事物,先完成再完善。
本次大赛170多名选手报名,组成70多支队伍,提交作品并入围只有30支队伍,而最后也只有4只队伍得奖(1支总冠军,3支优胜奖)。说实话,可能看到这次Al Hackathon挑战赛的可能特别多,而最终有勇气报名的却很少,但不去报名可能永远没有机会被看到。而报名参赛后,我猜最后提交作品参赛可能又筛选了很多人,这个阶段我感觉「完成」并「做好」更重要,首先时间很短,单单有个创意就很不错了,在有限的资源、有限的时间内做到最好,这已经很不容易了。其次「完成」才有机会,「没完成」就失去了被发现的机会,哪怕你的作品再优秀。
- 撕开1米的口子,打1000米的纵深。
如果是看商业化能力,那么决赛中有很多队伍都比我强很多,甚至有些企业的作品已经投入市场进行验证了。如果是看团队背景,有些团队的成员title简直吓人,各种清华北大、研究生、海外留学生。如果是看技术能力,那么运用GPT4或者将AI与自家系统相结合的案例更是数不胜数。但如果看作品是否有趣,作品是否简约,作品是否吸引人,我感觉自己的作品还是很不错的。它就是一个很简单的东西,就面向一个很垂直的领域,就是做一件很有意思的事情。
"你要找到你真正想做的事情,那种可以让你一直想做下去的事情....."前公司CTO(我的老领导)这么和我说道。
这次的Al Hackathon挑战赛对我来说只是一次开始,它开启了我人生中关于AI这一方向的新篇章,它似乎向我展示一条全新的道路,这条道路可能还不太明朗,需要一步一步开拓新的地图。
但人生,不也是这样吗?