首页 > 科技快讯 > 算法为什么比你还懂你自己

算法为什么比你还懂你自己

晰数塔互联网快讯
2021-07-12 17:50

本文来自微信公众号“人人都是产品经理”（ID:woshipm），作者：Pluto_蛋蛋，36氪经授权发布。

移动互联网的快速发展、互联网信息的爆发增长，都让用户面临着某种信息无法完全消化的茧房困境。在这一问题维度上，推荐算法的应用可以帮助用户过滤、筛选、乃至“便利”地获取信息。不过，问题往往需要多维看待，当被赋予过强的商业化目的时，推荐算法应当回归工具的本质。

又是一年一度的“618”购物节，浏览淘宝时，感叹“为你推荐”越来越精准了，就像是肚子中的蛔虫，我想要什么它马上就可以推荐给我。

不光淘宝，还有网易云音乐、美团、快手、Bilibili ……“为你推荐”、“猜你喜欢”等推荐功能似乎成了大多 APP 的标配，既像一个贴心的管家关心着我的每一喜好，也像一个躲在屏幕后的偷窥狂窥视着我的一举一动。

那么“为你推荐”，“猜你喜欢”背后的推荐算法是怎么做到比你还了解你呢？

01

02

03 常见的推荐算法

推荐算法是推荐系统的核心，在很大程度上决定了推荐系统的优劣，也就是我们常说的“推荐得准不准”。

如何知道你的偏好，从而让推荐准确，可以从以下四个方案提供思路：

1. 方案一：大家都喜欢的东西，你也会喜欢

人是集体性生物，个人行为会受到外界人群行为的影响，而在自己的判断，偏好上表现得和大多数人一样。这为推荐算法提供了一个思路，即“大家喜欢的东西，你也会喜欢”，热度推荐算法也应用而生。

对不同物品赋予个初始得分，用户对物品的交互会产生不同的分值，比如点赞 +2，点踩 -1，加入购物车 +3 等，根据发布时间与当前时间的差值再得出该物品“新鲜度”的衰减分，初始分加行为分再减去衰减分就可得出当前得分，按照得分值的大小进行排序就可得出推荐列表。那么大多数用户都喜欢的（点赞、收藏、转发）物品，结合发布时间，会优先推荐给你。

热度算法的应用很多，比如淘宝、微博的热搜，还可以根据不同维度生成分榜单。

当然具体到各个产品当中，不会像上文写的简单加减，会根据场景、自身用户特点进行加权等更复杂的计算。

2. 方案二：你喜欢这个东西，也会喜欢这一类东西

虽然会有“三分钟热度”，但在一段时间内，人对某物品的喜欢会保持稳定，即你喜欢这个东西，也会喜欢和它同属一类的其他东西。

比如你喜欢姜文导演的电影《让子弹飞》，那么他导演的《鬼子来了》, 你也大概率也会喜欢——这种推荐方式就是利用内容过滤推荐算法。

基于内容推荐，需要提前对推荐对象进行分类，分类的方式有很多，可以按照种类，比如水果、蔬菜、粮油……也可以按照归属，比如某导演的所有电影、某歌手的所有歌曲……其实就是判断不同对象之间的相关性，对相关性取值，划分区间，不同区间内的所有对象归为一类。

比如抖音，一旦你浏览了这一类中的某个内容，就会推荐这一类中其他的内容给你。

相关性可以通过贝叶斯定理计算，以用户观看视频为判断相关性的标准，设用户观看视频 A 的概率为 P(A)，观看视频 B 的概率为 P(B)，则：

用户看完视频 A 再看视频 B 的概率为：P(B|A)；根据 P(B|A) 值的大小来决定是否来推送视频 B。

3. 方案三：找到一个和你很像的人，他喜欢的东西你也会喜欢

人总是期望得到熟悉或相似的东西，就连人也是，两个相似的人更容易产生交集，也有更多相同的东西可以进行分享，比如都喜欢某一首歌，某一部电影……

找到那个和你很像的人，不只是一个浪漫的梦想，也是推荐算法一直尝试实现的事情，协同过滤推荐算法就是致力于解决这个问题。

协同过滤推荐算法利用用户信息进行近邻搜索，找到近邻用户，在根据近邻用户的喜好来进行相应的推荐。

举个例子：在身高维度，身高差异最小的两个人更像，再增加体重维度，就成了二维空间，通过两点的夹角大小可以判断相似性，如果再增加年龄维度，就是三维空间，也可以通过夹角大小来判断相似性。

实际应用中一般都是多维空间，比如网易云音乐，以用户对歌曲的交互行为（点赞、收听、收藏等）建立多维空间，在多维空间中计算你与别人的夹角值，通过夹角值的大小来寻找近邻用户，再将她喜欢的歌曲推荐给你。

还记得有段时间，网易云音乐推出了社交的功能，那个推荐给你的人可能是在音乐品味上与你最相似的人。

上图所示的余弦相似度是一种典型的协同过滤相似办法，还有对数似然相似度法、Pearson相似度法、Jaccard相似度法……都是基于存储的协同过滤算法。

4. 方案四：找到一个和你存在某种关系的人，他喜欢的东西你也会喜欢

方案三中的方法主要是利用用户在 APP 内的行为数据，如果是新用户，行为数据非常少，那怎么办？

既然 APP 中没有你的信息，那么可以从你现实世界中寻找线索，通过社交圈是一个不错的途径，毕竟这也是你在现实生活中找到“近邻用户”。

当然这种现实关系不仅仅指社交圈，比如音乐网站 Spotify 宣布与 DNA 网站合作，任何人只要允许 Spotify 查看他的 DNA 序列，Spotify 就可以给用户推荐根据他的 NDA 定制的歌曲。

上述的四个方案提供给算法了解用户的思路，但各有利弊，比如方案三就会面临“冷启动”、“数据稀疏”等问题。所以实际使用中，都是好几种算法的混合，即混合推荐算法。主要有七种不同的混合方式：加权、变换、混合、特征组合、层叠、特征扩充、元级别。

04

05 结语

这是一个最好的时代，也是一个最坏的时代。

——狄更斯《双城记》

推荐算法是技术的产物，也是时代的产物，诞生于如何在海量信息中帮助人们找到需要的信息，但是否“真正”需要是非常难界定的，是出于主观意愿上的独立选择，还是外部干预下的被动选择，到底是“我需要”还是“平台觉得我需要”，是两件非常不同的事情。

信息的摄取自人类诞生之日起就存在，推荐算法面临的挑战，曾经的信息摄取工具或多或少也遇到过。

信息茧房或许是算法建立的，但终究是自己选择躲进去的。

信息暴食更多是物质匮乏时代的遗留，在物质过剩的现在，仍有很多人无法克服对脂肪淀粉等本能的生理渴望，错过一篇公众号文章都会焦虑不已，怎么能奢求他们克服对信息的暴食。

隐私风险一直存在，人们只是数据库中的一串数据，我们用隐私作为交换，选择便利。

黑箱操作，算法最初是作为核心机密来保护的，但随着推荐系统回归到数据本质，算法本身只是成了一把钥匙，箱子里的宝藏是你拥有多少可用的数据，这样也提供了一些了解黑箱操作的途径，但是比起“沙雕视频”，了解算法并没有那么有趣。

推荐算法某种程度上是基于一种“无能”的假设，即：用户没有能力独立找到自己所需的信息，所以需要算法“喂养”。

当然算法可以自信地拍着胸膛说，我比你还了解你，你为什么不愿意接受我的推荐，但是作为创造者，作为追求自由精神的人类，我们不是“事事挂在脸上”的三体人，我们需要一些私密的空间，需要有做出选择权利。可以有一部分人选择放弃这个权利，也可以有一部分人选择行使这个权利，但关键在于能够给予用户做出主观选择的权利。

工具应该回归工具的本质，而不应该被赋予太多原本不属于它的能力。

就像推荐算法被赋予太多商业上的目的后，它虽然依旧行使着工具的作用——帮助我们获取到了信息，但却让我们存在着“被无微不至关心”和“被肆无忌惮窥视”两种割裂的体验。

又一连锁烘焙品牌多店停业！厨师摆拍视频勒索餐饮公司500万！

对话麦肯锡艾家瑞：中国为何有全球最多的“灯塔工厂”？

热点科技快讯

人类唯一的出路: 变成人工智能（五）

本文来自微信公众号：Wait But Why（ID：wbwtimurban），...

报告：抖音海外版下载量突破10亿大关挑战Facebook

新浪科技讯北京时间2月28日早间消息，据美国财经媒体CNBC援...

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

神译局是36氪旗下编译团队，关注科技、商业、职场、生活等领域，...

人类唯一的出路：变成人工智能（三）

本文来自微信公众号：Wait But Why（ID：wbwtimurban），...

热门点击排行

问界商标转让释放信号：赛力斯与华为合作持续深入

报告：抖音海外版下载量突破10亿大关挑战Facebook

科技快讯分类导航

互联网创业

人工智能

大数据分析

行业热点

算法为什么比你还懂你自己

01

推荐算法的由来

1. 客观环境

从客观环境上来说，信息时代为推荐算法的诞生提供了基础。

2. 在主观需要上

从主观需要上，我们某种程度上被裹挟着需要推荐算法。

02

推荐系统的定义

1. 行为采集模块

2. 模型分析模块

3. 推荐算法模块

03