自从GPT出来后,一直想利用GPT的能力做点什么,想了很多项目,比如用GPT写小说,用GPT做股票分析,用GPT写营销文章,最终我选了一个比较有意思的方向:GPT足球预测。因为每天都有足球比赛,每一场比赛90分钟就有结果,也就是我每次对GPT模型训练90分钟后即可得到验证,可以快速的迭代不断的优化我的预测模型,于是我选中了GPT足球的预测。下面是需要准备的开发工作:
一、爬虫工作:通过爬虫爬取所有足球联赛的数据,把每场比赛两个球队的历史表现、历史战绩、交锋战绩、积分排名、球队阵容、团队优势劣势、比赛的得分、比赛进攻数据、防守数据、犯规数据、红球、黑球、蓝球等各种技术指标数据、联赛的规则包括盘口等所有数据爬下来,然后结构化存储。
二、GPT模型选择:分别从GPT3.5、 GPT-4、GPT-4-tubor、GPT-4o各种模型选择一种适合自己的模型。我当时选择是Openai 的GPT-4-tubor做训练LLM大模型。原因是GPT3.5的性能和分析能力比较弱而且最多是容纳8k的数据,也是如果一场比赛的数据比较全,超出8k就投喂不进去了,就得做裁剪动作,这样会影响真实的判断,GPT-4o速度快,成本比gpt-4-tubor便宜一半,但是思维逻辑比较浅,善于多面手的快速给出答案,不善于做深度逻辑思维思考,对于足球分析需要分析过去1年-10年的各种历史数据,还需要分析正在比赛的盘口、比分、球队状态等各种数据,需要深度思考经过多次测试发现gpt-4-tubor效果比较好,也比较稳定。
三、prompt开发: 整个训练prompt的设计非常重要,可以说如果你的prompt不好的话,GPT预测出的结果胡言乱语。比如:"请预测这场比赛" 和"请预测这次比赛,并且要综合考虑盘口和球队状态" ,同样的比赛数据不同的提示词预测出来的答案是不同的,准确率也是不同的。所以需要有一套prompt的训练工具来找到你最优的prompt提示词。
四、Fine-ture: 因为GPT是不具备记忆功能 ,也就是没错提问都是独立事件,GPT是不会自动记住上次你提问过什么问题了,所以Fine-ture过程就很重要。比如你问足球比赛梅西是那个球队 也许他会列出多个结果出来,如果你对梅西的归属球队做fine-ture训练 那么以后你在问GPT 他就制度梅西是属于那个球队。
五、数据投喂: 在整个训练过程中,最主要是数据组装和投喂方式,那么大的数据 目前GPT3.5-gpt-tubor 支撑的数据是8k和16k ,在有限的数据中如果提炼组装最有价值的数据给GPT 让GPT能够出精确的答案这个非常重要。
六、准确率:经过不断的优化prompt和不断的优化数据 GPT预测准确率在70-80%左右,整个给过程还算比较理想,除了准确率其实更重要的一个指标是赔率。GPT需要根据这2指标综合建立自己一套评分系统最终给出最大获胜的结果。
总结:总之从爬虫、数据结构、prompt、模型训练、fine-ture整个过程的学习和训练中发现。GPT对做预测事件的项目的准确率高低主要取决于您数据的质量+prompt的质量。
关于AI预测类技术探讨学习 欢迎大家交流