如何让ai在游戏中更像一个人?

开题开了一整年是我没想到的,还因此延毕了......我重新梳理一下我想做的研究以及相关痕迹。

我2023年3月找到的导师。起初我发现了在玩RTS游戏中会出现很多固定的套路,选手为此要做大量的练习,我就在想如何把这部分内容借助状态机这种流程给固化下来,于是老师为我指明了一个方向------人机结合,我还和老师说了想做脑机接口和实现长生不老,老师没笑话我,而是认真的给我说了她的team没有做脑机的东西,人机结合的想法是很有价值和意义的。

老师在2023年7月、9月都很关切我,主动来问我研究进展。但是在老师的平台上难以开发界面程序,兵棋平台只适合做机器学习......加上对老师是害怕的态度,于是卡了很久又没敢说,导致2024年3月交上开题报告时一塌糊涂,线上组会参加后我又查了RLHF相关论文,发现在多智能体上采用没人做出来,都是在大预言模型上进行的。

人机结合的题目,去掉了RLHF的版本,在2024年6月着急有点逼着老师给我过了,但是评委老师那里没给过,老师对我的态度也下降了不少(生气也带上了不少失望在里面,像是我给老师画饼但没兑现相关的模块开发)。这个失败还有别的原因:人机结合的成效十分难以评价,我又是非脱产没进组,没有数据可以用来证明和评估。

后来让我自己找题目,我还是想做我的"机械飞升",加上ai转绘已经十分发展,我想融入扩散算法来实现"人的操作的风格提取",以达到做出"ai替身"的目标。

我就不敢做别的内容,仍然在兵棋里找,直到后来老师对我发火不让我在兵棋上做了,我才又找的别的。最后找到了开源的microRTS 平台,IEEE每年的只能游戏比赛上都有它,于是我开始配置、找python的转接项目......最后终于搞通了,然后想出了"策略提取"这个题目------因为策略风格不好衡量,而策略可以作为行为序列来进行定义。再然后,想到了对"包围、穿插"等行为的识别和模仿,于是定题目为"策略提取的智能体融合与构建",这样就能像那些ai出图网站上对不同图片风格进行"杂交"了,但是在老师那里评价到,一是工程量太大了肯定做不了,二是不好作为研究(一点突破也能毕业,但再大的工程也不能毕业),于是我开始删减,找题目。

再后来,我找到了其中的一点------策略识别上,然后开始搞星际2 的数据集和相关论文。经过后来老师的提点,我找到了"计划识别"这个方向,可以作为辅助决策的用途。再经过讨论后,我这个更像是"对手建模",在最后和老师讨论的时候,老师问我到底想做什么,我说了还是想做"AI替身",老师说你还是做你学姐的模仿学习吧,把她出现的问题解决了,解决好能出东西,解决不了也可以分析问题也能毕业。

于是我开始想我的题目,把我的"策略提取"融入到模仿学习智能体的优化上面......就是用对手建模的方法来优化智能体。卜了一盘,说鬼神默佑而中------看看近在咫尺的ddl是否能过关吧......(生活不像故事有个结局,学业还在继续,未完持续)


注:2022年12月到2023年9月底我的996(实际上是早9晚10,一周六天)出差才基本结束;2024又当项目负责人,678三个月根本没自己的时间。

期间我也思考过存在的意义等问题,写成了科幻小说在国科大的科普科幻大赛小小的拿了个奖,当然,自己的思考被别人认可的感觉还是很棒的!

......看开点,失败是成功之母,失败代表着正在探索,而不是原地踏步。

相关推荐
闪闪发亮的小星星4 小时前
开普勒三大定律
笔记
自传.5 小时前
尚硅谷 Vibe Coding|第一章 AI 编程基础理论 学习笔记
笔记·学习·尚硅谷·vibe coding
chase。6 小时前
【学习笔记】SimpleVLA-RL:通过强化学习扩展 VLA 训练
笔记·学习
AOwhisky7 小时前
Redis 学习笔记(第一期):概述、安装配置与核心理论
运维·数据库·redis·笔记·学习·云计算
智者知已应修善业8 小时前
【51单片机8位数码管同时倒计时从9999】2024-1-25
c++·经验分享·笔记·算法·51单片机
AOwhisky8 小时前
Redis 学习笔记(第四期):高可用与集群(哨兵 + Cluster + 容器化)
linux·运维·数据库·redis·笔记·学习·缓存
2501_938176889 小时前
924期权赚了2000倍真的吗?
笔记
yzqy_9 小时前
AMD AI 开发者计划学习笔记:从 ROCm 到 Ryzen AI,理解 AMD 的 AI 开发生态
人工智能·笔记·学习·datawhale·amdev
疯狂打码的少年9 小时前
【程序语言与编译】正规式与有限自动机的等价转换
笔记