大家好,我是一名AI算法工程师。今天,我带大家了解一下算法是如何进行推荐的。
很多人觉得现在有个奇怪的现象,那就是有些人出其不意的就火了。比如,在网络上随意发了一个吃包子的视频,播放过万,评论过千。
与此同时,你呕心沥血精心制作的一些作品,发到网上,反而激不起一点浪花。
这种现象,我遇到过很多次,相信你可能也遇到过。其实,这并不是平台抽风乱选,其实是有理论依据的。今天,我们就来一起分析下其中的原理。
在以前,知识比较匮乏,面对需求,我们都是去寻找知识。比如,面对一个问题,我们会去询问相关专业的朋友,去图书馆查阅书籍资料,有条件的人甚至去网络上进行搜索。总之,我们是去主动寻找信息。
而现在迎来了知识爆炸的时代,信息多到让你眼花缭乱,你根本没有心思去筛选。甚至说,能提供到你屏幕上作为备选信息的,都已然是经过了算法的层层过滤。
作为一个内容创作者,你的作品是否能够获得展示的资格,也全靠你所在平台的推荐算法。也就是说,在茫茫信息里面,决定你作品是否受到关注的因素,并非是我们自认为的质量有多高,而是它是否符合当下算法的推荐需求。
很多人弄不清楚,到底发什么类型的作品会火?因此,他们提出一个"广撒网"的理论。操作方法就是多发作品,不求精致但数量一定要多。因为说不准某一个就火了。其实,这样并没有什么效果。反而还会让我们更找不到算法的评定规律,以至于将成绩推到玄学和运气。
那么,算法究竟是如何进行评定的呢?
不同的平台,会有不同的推荐机制,也就是我们说的调性。这正如你所遇到的场景:同一个视频,发在知乎没有浏览量,发到头条却火了。但是,这并不是说我们就无法摸清它们的规律。因为但凡叫"推荐算法",它们的底层就会有一些相通的理论知识。这就如同老虎和狮子,虽然习性不同,但是都属于猫科动物。
下面我们就从算法角度来剖析一下它的基本原则。
一、个性化优先
要说AI会把什么样的信息推给一个人,那得看那个人什么样。因为系统是根据阅读用户的信息进行个性化推荐的。首先,AI会收集数据,包括用户的点击、浏览、购买等兴趣偏好。然后AI匹配出此用户感兴趣的内容发给他。
从这一点上来看,你的内容一定要有针对性。他们文化人叫"垂直领域"。比如我写过一篇文章,全文是讲解一个物理公式的。结果每个平台的数据都很好。这说明推荐并不是玄学,它是符合推荐基本原则的。
可能大家会有个疑问:一篇文章只讲一个公式,有多少人会看?谁没事看公式?其实从算法角度讲,如果遇到有人搜索这个公式,那么这一篇肯定会排在其他信息的前面(同等权重的情况),因为这篇的关联性最强。其实这很合理,就像你对一个公式感兴趣,其他作品都是一笔带过,而这个却通篇描述。你选哪个?
二、内容分析
上面说了,AI会把感兴趣的内容推给用户。那么,你的作品会被定义为什么内容呢?
AI会对内容进行分析,提取关键词、主题、标签等信息,用于理解作品的主题和内容特征。就这点的操作,结果会出乎大多数人的意料。
举个例子,你去小餐馆吃饭,要吃一碗朝鲜面。你在前台跟服务员说:"来一碗朝鲜面,面少点,青菜多点,少放辣,多倒醋,我不吃香菜,哦,对了,不要煮得太烂"。结果,服务员朝后厨喊了一句:"朝鲜面,一份"。
服务员将你的内容,从物品和数量的维度,提取为两个关键词传送给了制餐平台。你可能会"哎"一声,但是仔细一想,桌上有醋和辣椒,人家默认不放香菜,面少、菜多有标准吗?
我们再回到AI推荐系统,也是一样的道理。面对海量信息,AI不会对你的信息分析地太细致。因为这样不利于技术处理与检索。你写几千字,可能最后就总结成几十字。
我吃过一次亏。我写过一篇文章,介绍IT行业的职场故事,故事动人心弦,细节描述到位,而且金句频出,很能引起职场人的共鸣。当我发布在某个小平台后数据很好,引发了读者的激烈讨论。但是,当我投放到某大平台之后,从AI理解来看,完全不吸引人。
原来洋洋洒洒的4000多字,就这样被AI总结为56个字,丝毫体现不出文章的精髓。AI这样提取,既无法吸引读者,也不会给流量推荐。这类处理,也是造成各个平台不一致的原因。因为他们提取到的关键信息不一样,也就影响了你作品的推荐与否。
至于它们提取的规则,可能采用了不同的算法。比如TF-IDF(词频-逆文档频率)算法。
这个算法是一个传统算法。它会统计一篇文章中的两个信息。一个是词频,也就是特定关键词出现的次数。比如"AI"这个词的TF(词频),表示在某平台的所有文章里出现的次数。如果大家写的文章,都出现了"AI"这个关键词。然后你也写了一篇文章,里面提到了"AI",那么"AI"的词频就很高。这表示,你这篇文章并不稀奇,大家都在写。
然后,它会再看第二个信息,那就是逆文档频率。它表示一个词在所有文章中出现的稀缺程度。两者结合,它可以评定出一个热门话题中的独特视角。这也是为什么你跟风随手发一个作品,莫名其妙就火了的原因。那可能是因为你的词频(TF)很高,是个热门。而你的逆文档频率(IDF)也很高,是热门中的独特视角,所以属于稀缺资源。又因为物以稀为贵,所以算法就给你推荐了。
除了TF-IDF算法,还有extRank算法,词嵌入模型等等。它们都可以统计出一个作品的关键信息。而这个关键信息,是相对于整个平台信息池里的重要程度。
三、热门和时效性
AI算法除了靠以上两点去评价内容,同时也会对内容进行一个热门话题的评定。比如,当下热搜是什么,平台鼓励发什么(一般是话题),这些也会给你的内容加分。一般推荐公式是:得分=个性化+相关性+热门度+......。这一点倒是被很多做自媒体的朋友捕获到了,因为他们常常说要跟着热门走。
但是请大家注意。这里的热门有两类,一类是大众真的关心的话题。另一类是平台鼓励大家发的话题。尤其是后者,一般平台缺少某类话题,就会鼓励创作者去发布这类内容,而且会给这类话题加流量。例如春天了,平台希望创作者多发春游类的内容。如果你照着做了,这也是会加分的。
四、其他规则
上面说的规则,算是基本规则。另外,AI推荐算法还有很多基本规则。
比如,反馈机制。它表示收集用户对推荐结果的反馈,包括点击率、喜欢与不喜欢的反馈,主要用于优化算法。简单来说就是AI猜测你喜欢这个信息,并推荐给了你,结果你真的点击了,而且还看了很久,还评论和收藏。那么这个反馈AI会收集到。说明这个信息确实不错,AI推荐得很对。
再比如协同过滤机制。这主要是针对新用户,它是基于用户行为和兴趣,找到与目标用户相似兴趣的其他用户。然后推荐这些相似用户喜欢的文章。形象地说就是,这个用户可能没有设置太多的偏好信息。但是AI通过通讯录或者好友等信息,推测你和别人属于同一类人,然后把别人的喜好推荐给你,假设你也是这类人。然后根据反馈效果进行下一步调整。
除此之外,算法也会加入多样性推荐,主要是避免AI推荐算法过度依赖用户的历史行为,引入一定程度的随机性或推荐多样性。这样可以防止用户陷入个性化信息之中,这在业内叫做防止过拟合。
另外作品的一些基础信息,比如文字字数,词汇的丰富度,句子的复杂情况,图文比例等等,也会作为评定一篇文章的辅助依据。但是,他们相比较于前面提到的几点,影响力可能会比较小。
最后,当所有的条件都一样的时候。AI推荐算法总是要计算出一个排名的,这时候会继续引入评判因素,比如你的发布时间。如果时间发得太晚,可能也会被淹没。如果恰好赶上大家都打开客户端,你也刚好发,可能会又一波流量。如果实在实在没法作出评判了,这时才会利用随机数,这才是玄学和运气,但是到这了一步说明你前面已经挺好了。所以,它占的比重不是很大。
上面就是从AI算法的角度评定作品推荐的策略,仅供大家参考。