年底了,打开备忘录准备写年终总结,光标闪了半天,愣是一个字没憋出来。
不是没东西写,恰恰相反,太多了。写文、做自媒体、参加比赛、办活动、学大模型......日历上密密麻麻全是痕迹,手机相册里存满了各种活动的合影和奖状。可就是这么奇怪,明明做了这么多事儿,坐下来一盘点,心里却空落落的。
那天晚上三点多,躺在床上睡不着,脑子里突然蹦出一个念头:我这一年,活得像不像一个强化学习的智能体?
一、先聊聊什么是强化学习,用人话说
别急着划走,我不打算讲什么马尔可夫决策过程,也不会贴代码。
强化学习这东西,核心思路特别简单:一个小家伙(咱们叫它智能体),被丢进一个陌生环境里,它不知道该干嘛,只能瞎试。做对了一件事,环境给它一点甜头,叫"奖励";做错了,可能挨一巴掌,叫"惩罚"。时间长了,它就学会了------哦,原来这么干能拿奖励,那我就多干这个。
听着是不是特耳熟?
这不就是咱们吗?
从小到大,考试考好了,爸妈给买玩具;上班业绩好了,老板给发奖金;发条朋友圈,点赞多了心情就好。我们不也是在这个环境里不断试探,看看什么动作能换来正向反馈,然后调整自己的行为吗?
想通这一点之后,我突然对自己这一年有了新的理解。

二、写了一年的文章,奖励在哪儿
先说写文这件事吧。
今年我确实写了不少,打开后台一看,几十篇是有的。但说实话,大部分都是水文。不是我想水,是真的没时间打磨。白天上班,晚上还有各种事儿要处理,能抽出来写东西的时间本来就不多,还得保证更新频率,只能压缩质量。
最开始我给自己设定的奖励是阅读量。每发一篇就盯着后台数据看,刷新,刷新,再刷新。阅读量涨了,开心一下午;阅读量扑了,郁闷好几天。
后来发现这个奖励信号太不稳定了。同样的内容质量,有时候赶上热点就爆了,有时候发出去连个水花都没有。渐渐地,我开始怀疑自己:到底是我写得不好,还是运气不好?
再后来,我干脆不看数据了。写完发出去就完事儿,眼不见心不烦。
可是这样一来,新的问题又出现了------没有奖励信号的反馈,我就不知道自己在进步还是在退步。就像一个在黑暗中摸索的人,偶尔会撞到墙,但大部分时间都不知道自己走的方向对不对。
强化学习里有个概念叫"稀疏奖励",就是说奖励来得太少太慢,智能体很难学到东西。我今年写文章的状态,大概就是这样。做了很多动作,但有效的反馈太少了,以至于我到现在都不确定,自己在写作这条路上,到底有没有变强。
三、自媒体这条路,我的奖励函数可能设错了
如果说写文章的奖励是稀疏的,那自媒体这块儿,简直就是负奖励连击。
先说公众号。今年有段时间,我开始重写公众号,阅读量还不错,大几千,我当时可高兴了,心想这条路走对了,以后多写这种内容。知道某一天,我写了一篇分析某家公司的文章,自认为挺客观的,数据翔实,观点中立。发出去之后。
结果第二天,投诉来了。
具体的我就不细说了,反正后果就是,那篇文章之后,我的账号流量直接从大几千变成了十几。不是几百,是十几。你能想象那种落差吗?就像打游戏打到一半,突然被系统判定开挂,直接封号重来。
更让人沮丧的是,我根本不知道自己错在哪儿。写得太真实了?触碰了谁的利益?还是纯粹运气不好被人盯上了?没有人告诉你答案,你只能自己猜,然后在下次行动时更加小心翼翼。
这算什么奖励?这是惩罚啊。而且是那种你都不知道为什么挨打的惩罚。
小红书也差不多。今年我换了好几个方向,什么技术分享、工具推荐、生活记录都试过了,就是找不到流量密码。看着别人随手发个帖子就几千赞,我认认真真做的内容却连一百浏览都没有,真的会怀疑人生。
最离谱的是出海那段时间。信心满满地做内容,想着国外市场大,竞争没那么卷。结果呢?整整一个季度,回来一看,粉丝数:3。
三个。
就三个。
我都怀疑那三个人是不是点错了。
这种体验让我开始反思:是不是我给自己设定的奖励函数就有问题?
我把"涨粉"、"阅读量"当作奖励,把"变现"当作终极目标。但这些东西真的是我能控制的吗?算法一变,规则一调,你之前积累的所有经验可能一夜之间全作废。追着这些外部指标跑,我越来越像一只被牵着鼻子走的驴,筋疲力尽却不知道自己在图什么。

四、比赛和活动,终于拿到奖励了,然后呢
今年参加比赛的次数不多,主要是实在抽不出时间。但就这仅有的两次,都翻车了。
一次是选题方向搞错了。比赛要求的是A方向,我阴差阳错理解成了B方向,辛辛苦苦做了一周的东西,最后要提交上去才发现跑偏了。那一刻真的很崩溃,不是因为浪费了时间,而是那种"明明很努力却因为低级错误功亏一篑"的感觉,太打击人了。
另一次更离谱,我把最终提交时间记错了。以为还有一天,结果截止日期就是当天晚上十二点。等我反应过来的时候,已经来不及了。
你说这怪谁?怪自己呗。但人就是这样,明明知道是自己的问题,还是会找理由开脱------太忙了,事情太多了,精力跟不上了。
活动倒是参加了不少,每次名次都一般般。不上不下,拿个参与奖或者安慰奖。东西挺好的,就是没什么用。家里已经堆了一堆马克杯、帆布袋、充电宝,真的用不上那么多。
有时候我会想,这算奖励吗?
从强化学习的角度看,算。毕竟你做了某个动作(参加比赛),得到了一个正向反馈(奖品)。但问题是,这个奖励的价值太低了,低到不足以激励我下次付出同样的努力。
更让人无奈的是,大奖拿不到。不是不想拿,是真的够不着。看着第一名的奖品眼馋,但自己和人家的差距明明白白摆在那儿,也不好说什么。
有一瞬间我突然觉得自己老了。不是身体老,是脑子跟不上了。年轻人的思路天马行空,创意层出不穷,我还在这儿按部就班地套方法论。可能我不是不努力,是努力的方向已经过时了。
五、办活动这件事,终于尝到了一点甜头
说了这么多丧气话,还是有些让人欣慰的事儿。
今年我成功办了TRAE的Meetup和黑客松,这是实打实落地的东西。从筹备到执行,从邀请嘉宾到现场协调,每一个环节都是自己一点点推进的。
活动当天看着现场坐满了人,大家认真听讲、积极交流,那一刻是真的有成就感。这种感觉和写文章涨了阅读量不一样,也和拿了个小奖品不一样。它是一种"我做成了一件事"的确定性,是看得见摸得着的反馈。
还被邀请参加了一些活动的分享嘉宾,这种体验也挺新鲜的。站在台上讲东西,底下几十号人看着你,那种感觉既紧张又兴奋。
当然,也有社死的时候。互动环节被现场观众拷打,问的问题我答不上来,脸上笑嘻嘻心里慌得一批。那种冒汗的感觉,谁经历谁知道。
但事后想想,这也算一种奖励吧------被拷打说明人家认真听了,问得出专业问题说明他们在乎你讲的内容。如果全程没人理你,那才是真正的失败。
这件事让我意识到,有些奖励是即时的,有些奖励是延迟的。办活动这种事,当下可能看不到什么直接收益,但它带来的人脉、口碑、经验,都是会在未来某个时刻兑现的。强化学习里也有这个概念,叫"延迟奖励",你现在做的事情可能要过很久才能看到回报。
难的是,很多人等不了那么久。

六、学了一堆东西,奖励还在路上
今年在学习上投入的时间真的不少。
大模型那些东西,该玩的都玩了一遍。魔搭、HuggingFace、各种国内外的工具和平台,我敢说自己用得挺六的。看到什么新东西出来,第一时间就去上手试试,了解它能干什么、怎么用、有什么坑。
可问题在于,我只停留在"会用"的层面,始终没想明白怎么把它变成钱。
直到有一天,看见一个博主发视频,用我也会的工具做了个简单应用,然后靠这个接广告变现了。那一刻真的很复杂,一方面是替人家高兴,另一方面是懊恼------这东西我也会啊,怎么就没想到呢?
这种"后知后觉"的感觉太难受了。就像考试的时候,题目明明都会做,但出了考场才反应过来自己写错了。不是能力问题,是脑子没转过弯来。
后来我总结了一下,大模型这东西,学是学不完的。技术迭代太快了,今天学的东西可能下个月就过时了。与其追着技术跑,不如想清楚自己要用这些东西干什么。
还有一个建议,给那些和我一样在学大模型的朋友:别入算法的坑。不是说算法不重要,是性价比太低了。你花大半年时间搞明白transformer的数学原理,可能还不如人家花两周学会怎么调用API变现来得实在。当然,如果你是搞科研的,当我没说。
学习的奖励是什么?短期来看,是掌握了新技能;长期来看,应该是用这些技能创造价值。但问题是,我目前还卡在"短期"这一步,长期的奖励还没到账。
希望2026年能兑现吧。
七、回到最初的问题:奖励到底是什么
写到这里,我突然发现一个问题。
这一年,我一直在找奖励,却从来没有认真想过,什么才是我真正想要的奖励。
是阅读量吗?那个数字涨涨跌跌,情绪被它牵着走,太累了。 是粉丝数吗?追了一年,没追上。 是奖品吗?家里堆了一堆用不上的东西。 是钱吗?商单还是几百块的水平,没什么长进。 是成就感吗?有过,但很短暂。 是认可吗?有一些,但总觉得不够。
或许问题就出在这里------我的奖励函数太混乱了。
同时追求太多东西,每一个都想要,每一个都舍不得放弃。结果就是精力被切得七零八碎,什么都做了,什么都没做好。
强化学习里有个说法,叫"探索与利用的权衡"。探索是尝试新的可能,利用是专注于已经验证有效的方向。一个好的智能体,需要在这两者之间找到平衡。
回看我的2025,探索做了很多,利用却严重不足。我尝试了写文、自媒体、比赛、活动、学习各种方向,但没有一条路走到足够深的地方。
2026年,也许我应该停下来想一想,到底什么才是值得我all in的事情。不是什么都要,而是选定一两个真正重要的目标,然后把那条路走穿。 
八、写在最后
凌晨四点,写完这篇文章,窗外天已经有点蒙蒙亮了。
我问自己:这一年,你比去年优秀了吗?
说实话,我不知道。
如果用那些外部指标来衡量------粉丝数、阅读量、收入------答案大概是没有,甚至可能还倒退了。
但如果换一个角度想,这一年我确实经历了很多、尝试了很多、也失败了很多。这些经历本身,难道不也是一种奖励吗?
不是那种立竿见影的奖励,而是更隐蔽、更深远的那种。
就像强化学习里的智能体,它在环境中不断试错,每一次失败都让它对这个世界有了更准确的理解。我今年踩过的坑、走过的弯路、犯过的低级错误,其实都在帮我建立一个更清晰的世界模型。
这个模型会告诉我,哪些事情值得做,哪些事情是陷阱;什么样的奖励是真实的,什么样的奖励是海市蜃楼。
所以,如果我的2025是强化学习,那奖励是什么?
答案可能是:我终于开始认真思考这个问题了。
知道自己想要什么,比盲目地追逐一切,重要得多。
2026,希望能少一点稀疏奖励,多一点确定性的收获。
也希望每一个和我一样在深夜里彷徨的人,都能找到属于自己的奖励函数。
晚安,或者说,早安。