首页 > 专业知识 > 星云Clustar副总裁许振：隐私计算构建AI基础设施，释放数据价值｜2021 CTIS

星云Clustar副总裁许振：隐私计算构建AI基础设施，释放数据价值｜2021 CTIS

晰数塔互联网快讯
2021-06-10 19:09

星云Clustar副总裁许振

6月9日，首届 CTIS 2021消费者科技及创新展览会在上海新国际博览中心正式开幕。在钛媒体联合CTiS共同打造的“AI·创新数字生活主题论坛”上，星云Clustar副总裁许振进行了以“隐私计算构建AI基础设施，释放数据价值”为主题的分享。

机器学习是人工智能的一个细分领域，它是在海量数据的基础上去挖掘数据的价值，如果我们抽象来看，它总结下来就是算法、算力和大数据共同工作的产物，它最革命性的东西就是能够用算法和机器去代替人，去总结数据中的洞察。

“可是当我们面对产业时，我们发现数据并不大，大部分都是小数据，孤岛，烟囱。我们在自己所拥有的这些数据上能够做的挖掘，基本上已经达到了极致，我们再用更多的算法、更强大的算力，也只能去提升一两个百分点，已经很难引起质变了。”许振说，“所以我们在许多场景中不得不需要引入外部新的数据，以对消费者进行画像，预测和洞察消费者行为”。

由此就产生了一个矛盾，企业要提高自己人工智能的水平，必须引入外部数据，但引入外部数据又会受到数据保护法的限制，这一矛盾该如何解决成为了一个重要的问题。

而隐私计算就是回答这一问题的答案。许振介绍说，通过隐私计算技术，两个机构进行联合建模为需求方提供服务，但数据都依旧保持在本地，不用出数据库。这就是隐私计算所解决的问题。

有机构曾预测，到2025年，有50%的企业都是隐私计算的用户，不仅限于金融行业，还包括医疗、生物、政务、零售等行业，都会是隐私计算的潜在客户。

“隐私计算这个赛道是刚刚起步，应用方兴未艾。”许振说，“星云Clustar会坚持在隐私计算领域贡献自己的科技力量。”

以下为许振演讲实录：

感谢主办方的邀请，我是来自星云Clustar的许振。今天我所讲的话题可能距离消费者端有点远，它更加贴近产业端。

我今天所演讲的话题，分享的内容主要是有两个关键词：一个是隐私计算，另一个则是基础设施。

机器学习是人工智能的一个细分领域，它是在海量数据的基础上去挖掘数据的价值，如果我们抽象来看，它总结下来就是算法、算力和大数据共同工作的产物，它最革命性的东西就是能够用算法和机器去代替人，去总结数据中的洞察，这是它最大的突破。

最近几年为什么机器学习这么火，也是因为五六年之前，谷歌的AlphaGo，还有李飞飞的猫，这两个事件推进了深度学习，还有其他比较高效的算法，这些算法使得我们可以将数据的挖掘交由机器，这才进一步导致了后面行业的爆发。包括自动语音识别，视觉识别技术，大部分也都是用机器学习和深度学习去实现。抽象来说，就是让机器在算法的驱动下，在数据中去寻找规律。

可是当我们面对产业时，我们发现数据并不大，大部分都是小数据，孤岛，烟囱。我们在自己所拥有的这些数据上能够做的挖掘，基本上已经达到了极致，我们再用更多的算法、更强大的算力，也只能去提升一两个百分点，已经很难引起质变了。所以我们在许多场景中不得不需要引入外部新的数据，以对消费者进行画像，预测和洞察消费者行为。

举个例子，在金融行业，我们要对消费者信用等级进行评估，这个评估仅仅依靠金融行业内部、银行内部的数据是不够的，因为银行内部可能只有消费者自己提交的家庭住址、学历、收入水平，并没有他的消费习惯、互联网记录。如果加入这些数据，银行对去申请贷款的消费者的洞察会更加全面，银行风控能力会更强。

但这涉及到了隐私问题，用消费者的数据去建立机器学习模型的过程中，是不是会侵犯隐私？

在欧洲和美国，对于隐私的保护是非常严厉的，比如CCPA和GDPR，他们很严苛，收集个人隐私数据的公司不能将这些数据共享出去，一旦发现隐私泄露，罚款额度是非常高的，大约占这个公司整体营业收入的2%，谷歌、Facebook都被罚过。

而在中国，个人隐私保护法也马上就要上线了，去年《民法典》也已经明确规定了：隐私数据，特别是消费者的隐私数据，是不能外泄的。

其实，隐私计算就是能让企业在引入外部数据时，保护消费者隐私的一种方法。

以前做法很简单。比如互联网机构和银行做联合建模，利用消费行为评估信用等级，互联网公司就把数据拷到数据中心，这会导致数据的泄露，这是一种踏过红线的、打擦边球的做法。

第二种是数据脱敏，把关键字符，比如身份证号、手机号、家庭住址等等，做一些分析，然后再去做机器学习的模型，去探寻规律，这种方法的最后结果是不保真的。

而隐私计算是一种数据不用出本地的解决方案。比如两个机构可以通过联合建模的方法，在数据保持在本地的前提下，建出一个模型来为需求方做服务。这就衍生了一个非常好的商业优势，就是它保护了数据的所有权，使数据的所有权和使用权相分离。

以前如果要做一个数据的模型，我们需要把数据拷出去，而随着数据拷贝，这个数据的所有权也就丧失了。隐私计算是数据不出域的，也就是说你可以使用数据，但见不到数据，所以它保证了数据的所有权和使用权的隔离，这使得我们可以去激发整个市场数据。

我们国家一直强调要让数据成为生产要素。既然是生产要素，就是商品，就要定价流通，所以隐私计算的衍生品就是让数据可以变成商品，成为可流通的、有价值、可定价的东西。所以这是隐私计算的副产品，也是它未来可能对这个行业带来的最大的创新源泉。

说到隐私计算，内部还有细分，有三大门派。“华山派”就是指的比较早的可信计算、安全屋，比较流行的像英特尔和阿里蚂蚁的TEE，这种技术可以保证安全可信的计算环境；第二个叫“少林派”，指的是多方安全计算，它的做法就是用秘密分享，不经意传输，混淆电路等算法，保证你的数据既能使用又安全；第三个“武当派”，就是联邦学习，联邦学习是最近比较火的话题，就是在多个分布式的节点，使数据能够进行交互，最后不仅能训练出一个模型来，还能保证数据的隐私和安全性。从三个不同技术的对比可以看出来，联邦学习是最能保证数据的隐私，又能保证效果的一个方法。

现在的隐私计算在金融行业还是非常火爆的。第一，金融行业对外部数据的依赖程度很大，因为金融行业本身就比较闭塞，能够收集到的客户数据非常少，风险控制对于银行来讲是一个非常重要的部门，它要提高风险控制能力，降低坏账率，提高业务水平，所以隐私计算在金融行业是非常重要的。

其次，在一些其他的消费者隐私数据比较敏感的地方，比如医疗、政府等等大数据领域，甚至后边可以扩散到小微企业、产业链金融、还有工业，对个人数据价值的保护，还有数据资产的界定，隐私计算都是非常好的一种解决方案。现在我们正处于一个技术的启动期，大概在2019年的时候，各种技术已经基本成熟了，2020年有些产业开始做一些试点和试用（POC），还有一些点到点的打通。而到了2021年，这个产业就逐渐开始爆发。

举几个例子，隐私计算在金融的几个细分领域应用范围也是比较广的，主要是反洗钱、联合定价、联合信贷风控，还有客户价值的营销筛选模型，在这些领域中隐私计算都已经有落地案例了。

隐私计算的口号就是打破数据孤岛。

数据孤岛分为内部孤岛和外部孤岛。一个大型的集团，比如像长安这种汽车集团，它下面有很多分公司，比如有保险公司、金融公司、汽车公司、车联网公司，这些公司有各种各样的数据，如果长安集团想做数据打通，它是不能把数据拷在一起的，如果拷在一起就违反了《数据安全法》，就出域了。

另外一个，机构和机构之间的数据打通，比如要反洗钱，上海某个银行要和银联进行数据打通，银联的数据不能出来，银行的数据也不能出去，这种情况下就需要机构和机构之间的数据打通。

除了金融行业，还有其他行业，比如样本数据的共享，我们知道CV样本是很难获取的，因为有时候我们去检测缺陷，缺陷并不容易出现，一旦出现，我们即便是标注好了，它的数据样本依然是不够的，所以如果我们大量的人都参与这个行业，去标注自己的样本，样本又能共享，变成一个样本池。同时，这个样本又只属于我自己，你用我的样本，但不会拥有这个样本，这时候又生成了一个产业，对于CV数据的共享，隐私计算也能发挥非常大的作用。

这是金融行业几个比较典型的案例，包括增强风控能力，合规，还有小微企业的贷款几个方面。举个小例子，现在我们都讲供应链金融，想给小微企业贷款，很难，特别是它的信用贷，它没有办法证明自己的还款能力。什么能证明？发票，税务局有它的开票记录，有它的一切经营记录，这些经营记录可以作为它信贷风控的依据。但是这些数据在哪里，可能是在阿里，它可能是阿里上的小微企业，有它的交易流水记录，也可能在税务局，这个数据就在三个方面。用联邦学习的技术，进行数据打通，增加小微企业画像的完整度，银行就可以给小微企业做一个非常客观的信用评分，再给它一个授信额度，小微企业就得到了企业资金的满足。

星云Clustar在这里边做什么呢？

隐私计算是机器学习的一个分支，机器学习是人工智能的一个分支，所有的行业都在用人工智能的技术去解决它的问题，星云Clustar想做的事情就是用隐私计算去为企业提供一个全栈的解决方案，这包括从算力层到计算框架层，再到最上层的数据。隐私计算就意味着数据是要打通的，要有外部数据输入才能完成一个完整的流程和场景，星云Clustar在这三个方面都是给客户提供一站式的解决方案，只要有了这三个东西，客户落地一个隐私计算或者联邦学习的业务场景是非常快的。

星云Clustar是秉承开源的，现在联邦学习最大的开源社区叫FATE，星云在里边主要做算力加速，还有大规模集群式的管理，我们在持续为FATE社区进行贡献。还有包括联邦学习的产业委员会，星云Clustar也在里面起到了非常大的推动作用。

有一个机构曾做了一个预测，到2025年的时候，有50%的企业都是隐私计算的用户，所以我们可以想像一下，我们在做一些业务决策的时候，要做BI，要做各种数据的汇总，CRM、ERP，那都是内部的数据，引入外部数据意味着比你自己在数据上去做各种升维降维、衍生变量，效率更高。所以除了刚才我们提到的金融行业，还有医疗、生物、政务、零售等行业，都会是隐私计算的潜在客户。

所以隐私计算这个赛道是刚刚起步，而且应用方兴未艾，星云Clustar将会坚持在隐私计算领域贡献自己的科技力量。

我的介绍到这里，谢谢。