2022 年推荐引擎综合指南

由柏拉图重新发布

关注： 0

这篇文章是作为数据科学博客马拉松.

介绍

2.69 年全球推荐引擎使用市场价值为 2021 亿美元。预计到 15.10 年将超过 2026 亿美元，37.79-2022 年的复合年增长率为 2026%。

公司给你的建议有时会使用数据分析技术来识别符合你口味和偏好的项目。随着互联网数据的快速增长，毫不奇怪地说 Netflix 知道您接下来想看哪部电影或您想在 Twitter 上阅读的热门新闻文章。

随着人工智能的最新进展和多个企业之间竞争的加剧，搜索、映射和为用户提供相关数据块以改善消费者体验和增加数字化趋势是必不可少的。

话虽如此，在今天的指南中，我们将讨论推荐引擎、它们的重要性、面临的挑战、工作原理、不同的技术、应用程序和使用它们的顶级公司，最后，如何用 Python 构建自己的推荐引擎。

什么是推荐引擎？

推荐引擎是一种数据过滤系统，它在不同的机器学习算法上运行，根据数据分析向用户推荐产品、服务和信息。它的工作原理是利用客户偏好、过去的交易历史、属性或情境等各种因素，在客户行为数据中找到模式。

可以隐式或显式收集用于发现洞察力的数据。公司通常使用 PB 级的数据作为推荐引擎来展示他们的观点以及他们的经历、行为、偏好和兴趣。

在这个信息密度和产品过载不断发展的市场中，每家公司使用推荐引擎的目的略有不同。尽管如此，他们都有相同的目标，即推动更多销售、提高客户参与度和保留率，并为消费者提供个性化的知识和解决方案。

为什么推荐引擎在机器学习中很重要？

毫无疑问，推荐引擎是增强用户体验、刺激需求、增加收入、提高点击率 (CTR)、积极吸引用户以及其他关键指标的非凡方式。作为强大的数据过滤工具，推荐引擎实时工作。当需要为用户提供个性化的建议和建议时，它们可能是有益的。

让我们以 Netflix 为例。

有数以千计的电影和多个类别的节目可供观看。尽管如此，Netflix 还是为您提供了更多您最有可能喜欢的电影广告节目。通过这种策略，Netflix 可以降低取消率，每年节省 XNUMX 亿美元，节省您的时间，并提供更好的用户体验。

这就是为什么推荐引擎至关重要的原因，以及有多少企业通过提供更大量的交叉销售机会来增加其产品的参与机会。

如何在 Python 中构建推荐引擎？

本指南部分将帮助您在 Python 中构建基本的推荐系统。我们将专注于通过推荐与特定项目（在我们的例子中是电影）最相似的项目来构建一个基本的推荐系统。请记住，这不是一个精确、强大的推荐引擎。它只是建议哪些电影/项目与您的电影偏好最相似。

您可以在本节末尾找到代码和数据文件。那么让我们开始吧：

请注意： 强烈建议在 google collab 或 jupyter notebook 上运行此代码。

#1。导入所需的库。

导入 numpy 和 pandas 机器学习库，因为我们将它们用于数据帧和评估相关性。

代码

将numpy导入为np 将熊猫作为pd导入

#2。获取数据

定义列名，读取电影和评论数据集的 csv 文件并打印前 5 行。

代码

column_names = ['user_id', 'item_id', 'rating', 'timestamp'] df = pd.read_csv('u.data', sep='t', names=column_names) df.head（）

输出

正如您在上面看到的，我们有四列：用户 ID，每个用户都是唯一的。项目 ID 对于每部电影、电影的评分及其时间戳都是唯一的。

现在让我们获取电影标题：

代码

movie_titles = pd.read_csv("Movie_Id_Titles") 电影标题.head()

输出

使用 pandas 的库读取数据并打印数据集中的前 5 行。我们有每部电影的 ID 和标题。

我们现在可以加入这两列：

代码

df = pd.merge(df,movie_titles,on='item_id') df.head（）

输出

我们现在有了组合数据框，接下来我们将使用它进行探索性数据分析 (EDA)。

#3。探索性数据分析

让我们稍微检查一下数据，看看一些收视率最高的电影。

可视化导入将是我们在 EDA 中的第一步。

代码

将matplotlib.pyplot导入为plt 将seaborn导入为sns sns.set_style('白色') %matplotlib 内联

接下来，我们将创建一个评分数据框，其中平均评分和评分数作为我们的两列：

代码

df.groupby('title')['rating'].mean().sort_values(ascending=False).head()

输出

代码

df.groupby('title')['rating'].count().sort_values(ascending=False).head()

输出

代码

评分 = pd.DataFrame(df.groupby('title')['rating'].mean()) 评分.head()

输出

接下来，在平均评分旁边设置评分列的数量：

代码

评分['评分数量'] = pd.DataFrame(df.groupby('title')['rating'].count()) 评分.head()

输出

绘制一些直方图以直观地检查多个评级：

代码

plt.figure(图大小=(10,4)) 评分['评分数'].hist(bins=70)

输出

代码

plt.figure(图大小=(10,4)) 评级['评级'].hist(bins=70)

输出

代码

sns.jointplot(x='rating',y='num of rating',data=ratings,alpha=0.5)

输出

好的！现在我们对数据的外观有了一个全面的了解，让我们继续用 Python 构建一个简单的推荐系统：

#4。推荐类似电影

现在让我们用用户 ID 和电影标题构建一个矩阵。然后，每个单元格将包含用户对该电影的评分。

请注意： 会有很多 为NaN 值，因为大多数人没有看过大部分电影。

代码

moviemat = df.pivot_table(index='user_id',columns='title',values='rating') 电影垫头（）

输出

打印评分最高的电影：

代码

ratings.sort_values('收视数',ascending=False).head(10)

输出

让我们挑两部电影：星球大战，一部科幻电影。另一个是Liar Liar，这是一部喜剧。下一步是获取这两部电影的用户评分：

代码

starwars_user_ratings = moviemat['星球大战 (1977)'] liarliar_user_ratings = moviemat['骗子骗子 (1997)'] starwars_user_ ratings.head()

输出

然后我们可以使用 corrwith() 方法来获取两个 pandas 系列之间的相关性：

代码

类似_to_starwars = moviemat.corrwith(starwars_user_ ratings) 类似_to_liarliar = moviemat.corrwith(liarliar_user_ ratings)

输出

仍然有许多空值可以通过删除 NaN 值来清除。所以我们使用 DataFrame 而不是系列：

代码

corr_starwars = pd.DataFrame(similar_to_starwars,columns=['Correlation']) corr_starwars.dropna（就地=真） corr_starwars.head()

输出

现在，假设我们按相关性对数据帧进行排序。在这种情况下，我们应该获得最具可比性的电影，但是请注意，我们会获得一些没有真正意义的电影。

这是因为有很多电影只被看过星球大战的用户看过一次。

代码

corr_starwars.sort_values('相关性',ascending=False).head(10)

输出

我们可以通过过滤掉少于 100 条评论的电影来解决这个问题。我们可以根据之前在 EDA 部分中绘制的直方图来确定这个值。

代码

corr_starwars = corr_starwars.join(ratings['收视数']) corr_starwars.head()

输出

现在对值进行排序并见证标题如何使人们更加理解：

代码

corr_starwars[corr_starwars['收视率']>100].sort_values('相关性',ascending=False).head()

输出

现在喜剧骗子骗子电影的收益相同：

代码

corr_liarliar = pd.DataFrame(similar_to_liarliar,columns=['Correlation']) corr_liarliar.dropna（就地=真） corr_liarliar = corr_liarliar.join(ratings['收视数']) corr_liarliar[corr_liarliar['评分数']>100].sort_values('相关性',ascending=False).head()

输出

干得好，您已经制作了自己的电影推荐引擎。

注意：在此处访问谷歌笔记本。

使用推荐引擎的应用程序和顶级公司

许多行业使用推荐引擎来促进用户交互并增强购物前景。正如我们所见，推荐引擎可以改变企业与用户沟通的方式，并根据他们收集到的信息最大化他们的投资回报率 (ROI)。

我们将看到几乎每个企业如何使用推荐引擎来获得获利的机会。

1。电子商务

电子商务是推荐引擎首先被广泛使用的行业。电子商务企业最适合为数百万客户及其在线数据库中的数据提供准确的建议。

2。零售

购物数据是机器学习算法最有价值的信息。它是关于用户意图的最精确的数据点。拥有大量购物数据的零售商处于为客户提供具体建议的企业的最前沿。

3。媒体

与电子商务一样，媒体公司最先采用推荐引擎技术。如果没有推荐引擎，很难注意到新闻网站。

4。银行业

银行业是一个大众市场行业，被数百万人以数字方式使用，是推荐的首选。了解客户的确切财务状况和过去的选择，并与数千个可比用户的数据相关联，非常具有决定性意义。

5。电信

该行业与银行业有着相似的动态。电信公司拥有数百万客户的凭据，他们的每一个动作都被记录在案。与其他行业相比，他们的产品范围也比较窄，这使得电信领域的建议成为更易于管理的解决方案。

6。公用事业

与电信类似的动态，但公用事业的产品范围更加有限，使得推荐相对容易使用。

使用推荐引擎的顶级公司包括

Amazon
Netflix公司
Spotify
LinkedIn
YouTube
TikTok
Instagram
Facebook
火种
Quora的
谷歌
雅虎

最后的思考

推荐引擎是一种强大的营销工具，可以帮助您更好地进行追加销售、交叉销售和促进业务发展。推荐引擎领域正在发生许多事情。每家公司都必须与技术保持同步，以便为所有用户提供最满意的建议集。

到这里我们就到了本指南的结尾。我希望所有的主题和解释都足以帮助你开始你的机器学习推荐引擎之旅。

在我们的博客上阅读更多关于推荐引擎.

如果您仍有任何疑问，请通过我的社交媒体资料与我联系，我很乐意为您提供帮助。你可以在下面阅读更多关于我的信息：

我是一名数据科学家，拥有计算机科学学士学位，专攻机器学习、人工智能和计算机视觉。 Mrinal 还是一位自由博主、作家和极客，拥有五年的工作经验。我拥有计算机科学大部分领域的背景，目前正在温莎大学攻读应用计算硕士学位，专业是人工智能，我是一名自由内容作家和内容分析师。

阅读有关 Mrinal Walia 的推荐引擎的更多信息：

1. 拥有资源的前 5 个开源机器学习推荐系统项目

2. 计算机科学专业学生必须尝试的开源深度学习项目

本文中显示的媒体不属于 Analytics Vidhya 所有，其使用由作者自行决定。

用于异常检测的 SVM 一类分类器综合指南

分析维迪亚

源节点： 1904881

时间戳记： 2023 年 1 月 18 日

人工智能与图像生成的美学

源群集：

分析维迪亚

源节点： 2269463

时间戳记： 2023 年 9 月 13 日

由柏拉图重新发布

用于异常检测的 SVM 一类分类器综合指南

10 年值得了解的 2023 个强大数据建模工具

使用 Python 开始使用 Google Palm API

WWDC 亮点：Apple 实用的 AI 解决方案揭晓

Python 气泡图

CES 2024 预览：抢先一睹人工智能与科技的未来

利用 DeepMind 的 AlphaFold 彻底改变生物分子预测

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

介绍

目录

什么是推荐引擎？

为什么推荐引擎在机器学习中很重要？

推荐引擎的不同技术

推荐引擎的工作

推荐引擎的挑战