基于人工智能的搜索和推荐系统

互联网上的搜索历史分析和用户活动是个性化推荐的基础,这些推荐 已成为电子商务行业和在线业务的强大营销工具。随着人工智能的使用, 在线搜索 也在改进,因为它会根据用户的视觉偏好提出建议,而不是根据每个客户的需求和偏好量身定制产品描述。

概述

现代搜索引擎帮助我们在几秒钟内在不断增长的互联网数据海洋中找到任何实际问题的答案。这怎么可能呢?如此快速的搜索过程背后是什么?本博客将讨论人工智能 (AI) 搜索技术,这些技术可以快速帮助满足用户的信息需求并提供最合适的建议。

AI 帮助推荐引擎根据每个客户的需求和偏好做出快速、切中要害的推荐。借助 AI,在线搜索变得越来越好,因为它会根据用户的视觉偏好而不是产品规格提供推荐。

利用 AI 的推荐引擎可以成为搜索字段的替代品,因为它们可以帮助用户找到他们可能不会以不同的方式看到的对象或内容。这就是为什么今天,推荐引擎在 AmazonFacebookYouTube 等网站中发挥着至关重要的作用。让我们更深入地了解推荐引擎的工作原理,并了解它们如何收集数据和提出建议。

搜索引擎的演变

Archie 是第一个搜索引擎,它搜索 FTP 站点以创建可下载文件的索引。由于篇幅有限,仅提供房源,不包括每个地点的内容。它允许用户环顾 Internet。但它的功能有限,尤其是与当前的搜索引擎相比。第一个搜索引擎是一个 FTP,用户可以在其中提出简单的文件搜索请求,他们必须下载这些文件才能读取文件。

随着 Internet 上文档总数的增加,系统似乎对相关页面进行了排名。对于页面排名,搜索机器会考虑查询中的关键字、这些单词的频率以及 它们在文档上下文中的重要性

必要的统计量 TF-IDF 出现了:

  • TF (Term-frequency) --- 单词实例数与文档中单词总数的比率,用于评估单个记录中术语的重要性。

  • IDF (Inverse Document Frequency) --- 单词在特定文档集合中出现的频率的倒数,这种方法减少了广泛使用的关键字的权重。

Google 搜索引擎于 1998 年出现,具有创新的反向链接排名算法 PageRank[KB(2] )。该工具的本质是,机器会根据与运营商相关的超链接数量来评估页面的重要性。具有最多反向链接的页面被推到最高排名。

2013 年,Google 创建了 Word2Vec,这是语义分析模型的集合。它为 2015 年推出的新型人工智能 搜索技术 RankBrain 奠定了基础。这个自学系统可以在单独的单词之间建立联系,提取隐藏的语义联系并理解文本的含义。搜索引擎算法基于神经网络深度学习工作,可以找到与关键字和目的匹配的页面。与传统算法相比,神经网络的主要优势在于它们经过训练,但未进行编程。从技术上讲,他们可以学习检测输入数据和输出之间的复杂依赖关系并进行简化(就像人脑在神经元之间建立连接一样)。

所有 AI 搜索技术的基本任务是提高对复杂冗长查询的理解,并在输入信息不完整或扭曲时提供正确的结果。

搜索引擎的历史:从索引卡到 AI 聊天机器人

现代搜索引擎非常神奇------复杂的算法使搜索引擎能够获取您的搜索查询并返回通常准确的结果,从而为您提供有价值的信息。

搜索引擎的历史始于 1990 年的 Archie,这是一个托管可下载目录列表索引的 FTP 站点。搜索引擎仍然是原始目录列表,直到搜索引擎发展到对网站进行爬取和索引,最终创建算法来优化相关性。

AI 搜索的工作原理是什么?

搜索时,AI 通常是指机器学习和自然语言处理 (NLP) 模块,这些模块确定搜索查询向用户检索相关信息的意图。

NLP 和 ML

由于人类语言的非结构化性质和多样性,理解和充分响应人类说话的方式对机器来说是一个巨大的挑战。

借助 NLP,计算机可以检测语言模式并识别单词之间的关系,以了解用户的兴趣。NLP 是 AlexaSiri 等语音助手的核心,因此 Google 通过让智能引擎阅读 2,865 部言情小说来训练其 AI 更具对话性。

计算机程序需要机器学习才能根据它们对人类语言的理解自动采取行动,并提供随着时间的推移而改进的回复。机器学习是一门使系统执行操作而无需使用数学公式进行显式编程的科学。机器分析输入系统的数据,并使用算法不断寻找模式和联系,同时执行人类团队需要数周甚至数年才能完成的任务。

语义搜索

搜索 2021 年的"最佳洗手液",您可以获得对 COVID-19 有效的产品建议,而无需指定任何其他内容,这与您在 2019 年收到的产品相比大不相同。通过查询的上下文含义来理解搜索者的意图,而不是依赖于一个人输入的确切单词,是语义搜索的领域,因为搜索引擎理解查询的含义,人们发现使用它们的便利性,他们的期望会发生变化。使用 NLP 和机器学习的 AI 驱动的语义搜索意味着调查可以独立运行并返回更相关的结果。

热门内容搜索引擎

成立至今,Google 一直是搜索引擎市场的领导者。

截至 2021 年 6 月,Bing 在全球搜索引擎市场的份额为 5.56%,而市场领导者 Google 的份额为 87.76%。在此期间,雅虎的市场份额为 2.71%。

领先搜索引擎的全球市场份额

基于 AI 的推荐系统

对 Internet 上的搜索历史和用户活动的分析是个人推荐的基础,这已成为电子商务行业和在线公司的强大营销工具。

推荐系统不使用特定查询,而是分析用户的偏好来推荐感兴趣的商品或服务。为了预测特定客户的需求,推荐人会考虑以下因素:

·以前查看过的页面

·过去的购买记录

·用户的个人资料(其中标明了年龄、性别、职业、爱好)

·其他用户及其连接的类似个人资料

·地理位置

因此,推荐引擎是一种过滤系统,可防止信息过载,并根据每个客户的需求提取切中要害的内容。

推荐系统有哪些类型?

有各种类型的推荐系统,每种系统都使用多种技术和方法来生成预测。实施在很大程度上取决于用例(即它将如何满足业务需求)、项目的规模以及数据的数量和质量。通常,有基于内容和协作过滤的推荐系统,协作过滤进一步分为基于内存和基于模型的方法。

基于内容的推荐系统使用基于用户喜欢的产品或服务的明确反馈、属性、关键字或描述的过滤器。该算法推荐根据用户当前想要或寻找的内容建立的项目。

使用协同过滤的系统有两个子组,并使用不同的方法:

  • 基于模型 --- 利用机器学习 (ML),涉及从信息集中提取信息(例如,评级、反馈、评论等),并使用这些信息来构建 ML 模型

  • 基于内存 --- 分析数据集以查找或建立其他用户或项目之间的相关性和相似性,从而获得推荐。

什么是基于内容的筛选?

基于内容的推荐系统通过显式或隐式反馈处理用户提供的数据。随着用户提供更多输入或对初始建议采取更多操作,引擎/系统会变得更加准确。

什么是协作筛选?

协作筛选的运行基于以下假设:同意或喜欢过去的用户更有可能在不久后执行相同的操作。如下所示,协作筛选涉及分析数据,这些数据通常以矩阵形式排列,其中包含一组项目和具有相似偏好的用户,这些用户已表明他们的响应。协作过滤中的一个基本概念是利用其他用户的反馈或评级来为特定用户生成预测。这些衡量标准包括详细评分(例如,喜欢或不喜欢、1 到 10 分的评分等)或隐性反馈(例如,查看、添加到愿望清单、在页面上花费的时间等)。

用于开发 AI、ML、DL 解决方案的框架

为了有效地创建和部署智能搜索和 AI 技术,开发人员必须选择合适的框架。每个框架都有特定的用途,有其特性和功能。

Microsoft 认知工具包 ( CNTK)

CNTK 表示一组用于设计和开发不同类型网络的开源工具。它通过深度学习使处理大量数据变得更加容易,并为语音、图像和手写识别提供实用的训练模型。

TensorFlow

用于语音和图像识别的最佳开源库是文本应用程序。该框架由 Google 开发,用 C++ 和 Python 编写。它非常适合复杂项目,例如,关于创建多层神经网络的项目。

PyTorch 插件

该工具由 Facebook 组成,主要用于快速有效地训练模型。它有几个现成的训练模型和易于组合的模块化部件。最重要的优势是透明和直接的模型创建过程。

MXNet 网络

Apache 创建了一个非常可扩展的深度学习框架,被大公司和全球 Web 服务主要用于语音和手写识别、自然语言处理 (NLP) 和预测。

DL4J 系列

Deeplearning4j 是一个主要用 Java 和 Scala 编写的商业开源平台。该框架适用于图像识别、自然语言处理、漏洞架构和文本分析

IP 布局

主要市场参与者(美国顶级外派人员)

下图显示,谷歌 (3138)、Microsoft (2137) 和 IBM (1418) 是人工智能搜索和推荐系统中专利申请量排名前三的受让人。

结论

人工智能和大数据分析已经在我们的日常生活中扎根,产生了重大的变化。在 AI 算法的帮助下,内容搜索和推荐实践变得越来越像人类。

毫无疑问,搜索引擎越来越受欢迎,并在新的数字时代发挥着重要作用。尤其是人工智能,即时推荐更加普遍,既省时又务实。借助人工智能,推荐引擎提高了他们的生产力,并且它们基于客户的视觉偏好而不是项目的描述。

相关推荐
谢眠3 分钟前
机器学习day6-线性代数2-梯度下降
人工智能·机器学习
sp_fyf_20241 小时前
【大语言模型】ACL2024论文-19 SportsMetrics: 融合文本和数值数据以理解大型语言模型中的信息融合
人工智能·深度学习·神经网络·机器学习·语言模型·自然语言处理
CoderIsArt1 小时前
基于 BP 神经网络整定的 PID 控制
人工智能·深度学习·神经网络
开源社1 小时前
一场开源视角的AI会议即将在南京举办
人工智能·开源
FreeIPCC1 小时前
谈一下开源生态对 AI人工智能大模型的促进作用
大数据·人工智能·机器人·开源
梦幻通灵1 小时前
ES分词环境实战
大数据·elasticsearch·搜索引擎
Elastic 中国社区官方博客1 小时前
Elasticsearch 中的热点以及如何使用 AutoOps 解决它们
大数据·运维·elasticsearch·搜索引擎·全文检索
机器之心2 小时前
全球十亿级轨迹点驱动,首个轨迹基础大模型来了
人工智能·后端
z千鑫2 小时前
【人工智能】PyTorch、TensorFlow 和 Keras 全面解析与对比:深度学习框架的终极指南
人工智能·pytorch·深度学习·aigc·tensorflow·keras·codemoss
EterNity_TiMe_2 小时前
【论文复现】神经网络的公式推导与代码实现
人工智能·python·深度学习·神经网络·数据分析·特征分析