你发的文章,是如何被算法推荐的

大家好,我是一名AI算法工程师。今天,我带大家了解一下算法是如何进行推荐的。

很多人觉得现在有个奇怪的现象,那就是有些人出其不意的就火了。比如,在网络上随意发了一个吃包子的视频,播放过万,评论过千。

与此同时,你呕心沥血精心制作的一些作品,发到网上,反而激不起一点浪花。

这种现象,我遇到过很多次,相信你可能也遇到过。其实,这并不是平台抽风乱选,其实是有理论依据的。今天,我们就来一起分析下其中的原理。

在以前,知识比较匮乏,面对需求,我们都是去寻找知识。比如,面对一个问题,我们会去询问相关专业的朋友,去图书馆查阅书籍资料,有条件的人甚至去网络上进行搜索。总之,我们是去主动寻找信息。

而现在迎来了知识爆炸的时代,信息多到让你眼花缭乱,你根本没有心思去筛选。甚至说,能提供到你屏幕上作为备选信息的,都已然是经过了算法的层层过滤。

作为一个内容创作者,你的作品是否能够获得展示的资格,也全靠你所在平台的推荐算法。也就是说,在茫茫信息里面,决定你作品是否受到关注的因素,并非是我们自认为的质量有多高,而是它是否符合当下算法的推荐需求。

很多人弄不清楚,到底发什么类型的作品会火?因此,他们提出一个"广撒网"的理论。操作方法就是多发作品,不求精致但数量一定要多。因为说不准某一个就火了。其实,这样并没有什么效果。反而还会让我们更找不到算法的评定规律,以至于将成绩推到玄学和运气。

那么,算法究竟是如何进行评定的呢?

不同的平台,会有不同的推荐机制,也就是我们说的调性。这正如你所遇到的场景:同一个视频,发在知乎没有浏览量,发到头条却火了。但是,这并不是说我们就无法摸清它们的规律。因为但凡叫"推荐算法",它们的底层就会有一些相通的理论知识。这就如同老虎和狮子,虽然习性不同,但是都属于猫科动物。

下面我们就从算法角度来剖析一下它的基本原则。

一、个性化优先

要说AI会把什么样的信息推给一个人,那得看那个人什么样。因为系统是根据阅读用户的信息进行个性化推荐的。首先,AI会收集数据,包括用户的点击、浏览、购买等兴趣偏好。然后AI匹配出此用户感兴趣的内容发给他。

从这一点上来看,你的内容一定要有针对性。他们文化人叫"垂直领域"。比如我写过一篇文章,全文是讲解一个物理公式的。结果每个平台的数据都很好。这说明推荐并不是玄学,它是符合推荐基本原则的。

可能大家会有个疑问:一篇文章只讲一个公式,有多少人会看?谁没事看公式?其实从算法角度讲,如果遇到有人搜索这个公式,那么这一篇肯定会排在其他信息的前面(同等权重的情况),因为这篇的关联性最强。其实这很合理,就像你对一个公式感兴趣,其他作品都是一笔带过,而这个却通篇描述。你选哪个?

二、内容分析

上面说了,AI会把感兴趣的内容推给用户。那么,你的作品会被定义为什么内容呢?

AI会对内容进行分析,提取关键词、主题、标签等信息,用于理解作品的主题和内容特征。就这点的操作,结果会出乎大多数人的意料。

举个例子,你去小餐馆吃饭,要吃一碗朝鲜面。你在前台跟服务员说:"来一碗朝鲜面,面少点,青菜多点,少放辣,多倒醋,我不吃香菜,哦,对了,不要煮得太烂"。结果,服务员朝后厨喊了一句:"朝鲜面,一份"。

服务员将你的内容,从物品和数量的维度,提取为两个关键词传送给了制餐平台。你可能会"哎"一声,但是仔细一想,桌上有醋和辣椒,人家默认不放香菜,面少、菜多有标准吗?

我们再回到AI推荐系统,也是一样的道理。面对海量信息,AI不会对你的信息分析地太细致。因为这样不利于技术处理与检索。你写几千字,可能最后就总结成几十字。

我吃过一次亏。我写过一篇文章,介绍IT行业的职场故事,故事动人心弦,细节描述到位,而且金句频出,很能引起职场人的共鸣。当我发布在某个小平台后数据很好,引发了读者的激烈讨论。但是,当我投放到某大平台之后,从AI理解来看,完全不吸引人。

原来洋洋洒洒的4000多字,就这样被AI总结为56个字,丝毫体现不出文章的精髓。AI这样提取,既无法吸引读者,也不会给流量推荐。这类处理,也是造成各个平台不一致的原因。因为他们提取到的关键信息不一样,也就影响了你作品的推荐与否。

至于它们提取的规则,可能采用了不同的算法。比如TF-IDF(词频-逆文档频率)算法。

这个算法是一个传统算法。它会统计一篇文章中的两个信息。一个是词频,也就是特定关键词出现的次数。比如"AI"这个词的TF(词频),表示在某平台的所有文章里出现的次数。如果大家写的文章,都出现了"AI"这个关键词。然后你也写了一篇文章,里面提到了"AI",那么"AI"的词频就很高。这表示,你这篇文章并不稀奇,大家都在写。

然后,它会再看第二个信息,那就是逆文档频率。它表示一个词在所有文章中出现的稀缺程度。两者结合,它可以评定出一个热门话题中的独特视角。这也是为什么你跟风随手发一个作品,莫名其妙就火了的原因。那可能是因为你的词频(TF)很高,是个热门。而你的逆文档频率(IDF)也很高,是热门中的独特视角,所以属于稀缺资源。又因为物以稀为贵,所以算法就给你推荐了。

除了TF-IDF算法,还有extRank算法,词嵌入模型等等。它们都可以统计出一个作品的关键信息。而这个关键信息,是相对于整个平台信息池里的重要程度。

三、热门和时效性

AI算法除了靠以上两点去评价内容,同时也会对内容进行一个热门话题的评定。比如,当下热搜是什么,平台鼓励发什么(一般是话题),这些也会给你的内容加分。一般推荐公式是:得分=个性化+相关性+热门度+......。这一点倒是被很多做自媒体的朋友捕获到了,因为他们常常说要跟着热门走。

但是请大家注意。这里的热门有两类,一类是大众真的关心的话题。另一类是平台鼓励大家发的话题。尤其是后者,一般平台缺少某类话题,就会鼓励创作者去发布这类内容,而且会给这类话题加流量。例如春天了,平台希望创作者多发春游类的内容。如果你照着做了,这也是会加分的。

四、其他规则

上面说的规则,算是基本规则。另外,AI推荐算法还有很多基本规则。

比如,反馈机制。它表示收集用户对推荐结果的反馈,包括点击率、喜欢与不喜欢的反馈,主要用于优化算法。简单来说就是AI猜测你喜欢这个信息,并推荐给了你,结果你真的点击了,而且还看了很久,还评论和收藏。那么这个反馈AI会收集到。说明这个信息确实不错,AI推荐得很对。

再比如协同过滤机制。这主要是针对新用户,它是基于用户行为和兴趣,找到与目标用户相似兴趣的其他用户。然后推荐这些相似用户喜欢的文章。形象地说就是,这个用户可能没有设置太多的偏好信息。但是AI通过通讯录或者好友等信息,推测你和别人属于同一类人,然后把别人的喜好推荐给你,假设你也是这类人。然后根据反馈效果进行下一步调整。

除此之外,算法也会加入多样性推荐,主要是避免AI推荐算法过度依赖用户的历史行为,引入一定程度的随机性或推荐多样性。这样可以防止用户陷入个性化信息之中,这在业内叫做防止过拟合。

另外作品的一些基础信息,比如文字字数,词汇的丰富度,句子的复杂情况,图文比例等等,也会作为评定一篇文章的辅助依据。但是,他们相比较于前面提到的几点,影响力可能会比较小。

最后,当所有的条件都一样的时候。AI推荐算法总是要计算出一个排名的,这时候会继续引入评判因素,比如你的发布时间。如果时间发得太晚,可能也会被淹没。如果恰好赶上大家都打开客户端,你也刚好发,可能会又一波流量。如果实在实在没法作出评判了,这时才会利用随机数,这才是玄学和运气,但是到这了一步说明你前面已经挺好了。所以,它占的比重不是很大。

上面就是从AI算法的角度评定作品推荐的策略,仅供大家参考。

相关推荐
井底哇哇27 分钟前
ChatGPT是强人工智能吗?
人工智能·chatgpt
Coovally AI模型快速验证32 分钟前
MMYOLO:打破单一模式限制,多模态目标检测的革命性突破!
人工智能·算法·yolo·目标检测·机器学习·计算机视觉·目标跟踪
AI浩1 小时前
【面试总结】FFN(前馈神经网络)在Transformer模型中先升维再降维的原因
人工智能·深度学习·计算机视觉·transformer
可为测控1 小时前
图像处理基础(4):高斯滤波器详解
人工智能·算法·计算机视觉
一水鉴天2 小时前
为AI聊天工具添加一个知识系统 之63 详细设计 之4:AI操作系统 之2 智能合约
开发语言·人工智能·python
倔强的石头1062 小时前
解锁辅助驾驶新境界:基于昇腾 AI 异构计算架构 CANN 的应用探秘
人工智能·架构
佛州小李哥3 小时前
Agent群舞,在亚马逊云科技搭建数字营销多代理(Multi-Agent)(下篇)
人工智能·科技·ai·语言模型·云计算·aws·亚马逊云科技
说私域3 小时前
社群裂变+2+1链动新纪元:S2B2C小程序如何重塑企业客户管理版图?
大数据·人工智能·小程序·开源
程序猿阿伟3 小时前
《探秘鸿蒙Next:如何保障AI模型轻量化后多设备协同功能一致》
人工智能·华为·harmonyos
2401_897579653 小时前
AI赋能Flutter开发:ScriptEcho助你高效构建跨端应用
前端·人工智能·flutter