首页 > 科技快讯 > AI独角兽视共识于无物,互联网公地悲剧即将上演

AI独角兽视共识于无物,互联网公地悲剧即将上演

去年AI研究公司Epoch AI曾经做出预测,到2028年互联网上所有高质量的文本数据都将被使用完毕,AI业界将会撞上“数据墙”(data wall)。而急于获得更多数据来训练更强模型的AI厂商与待价而沽数据拥有者之间的博弈,更堪称是过去两年间互联网世界最有看点的斗争之一。

当斗争日趋激烈,互联网世界过去二十余年建立的一系列准则就被弃之如敝履,曾经大家熟悉的一切似乎都变成了过去式。日前,知名云服务提供商Cloudflare发布博客文章,指控AI搜索独角兽Perplexity在网站已明确标注禁止AI爬虫抓取的情况下仍进行抓取,并采用了多种不同的方式来绕过防火墙、以隐匿其抓取行为。

Cloudflare在博文中指出,相关网站已经在robots.txt中声明禁止Perplexity的爬虫抓取内容,但他们发现Perplexity并没有遵守这一规范。甚至在相关网站检测到Perplexity爬虫或其爬虫所属的ASN(自治系统号)时,选择返回HTTP 403,即服务器理解了本次请求、但拒绝执行该任务的方式来阻止Perplexity爬虫访问。

据悉,Perplexity的做法是更换用户代理(UA),而后者则代表用户进行网络活动的软件实体,它可以是任何能够发起网络请求的软件。用户代理的主要作用是向服务器发送请求,并接收、解析服务器返回的响应,可被视为是一张“网络身份证”。而Perplexity则会将自己的爬虫伪装成Chrome UA来躲避网站的拦截,即在网站面前冒充Chrome。

为了帮助自家客户免遭Perplexity爬虫的骚扰,Cloudflare宣布将后者从已验证的机器人列表中删除。对此,Perplexity公司发言人Jesse Dwyer直接否认了Cloudflare的说法,并宣称Cloudflare的行为就是在推销自己的服务,其博文中的截图显示没有内容被Perplexity爬虫访问,甚至提及的爬虫都不属于他们。

不得不说,Perplexity的公关水平相当在线。但作为一家知名的AI搜索独角兽,Perplexity在使用爬虫不合理抓取内容上,称得上是前科累累。早在去年春季,AWS就曾宣布对Perplexity展开调查,原因是后者被指控未经网站所有者同意,使用托管在AWS服务器上的爬虫程序抓取数据,且涉嫌违反robots.txt协议。

随后在今年6月,英国广播公司(BBC)也向Perplexity发出法律信件,以遏制Perplexity未经授权抓取其内容的行为。如果只是Cloudflare指责也就罢了,在云服务商AWS、新闻机构BBC都先后站出来的情况下,Perplexity的爬虫未经授权抓取内容几乎是板上钉钉的事情了。

面对这一不利局面,Perplexity的做法相当聪明,他们并没有选择澄清,而是攻击Cloudflare别有二心、并非急公好义。不久前Cloudflare宣布推出Pay Per Crawl平台,为内容创作者和AI厂商提供了一个数据交易的场所,同时他们还向用户提供阻止AI爬虫的机制。

不难看出,面对AI厂商无孔不入的爬虫,Cloudflare也想在这个乱局中分到一杯羹,来赚反AI爬虫的钱。作为一个向网站提供数据安全服务的公司,Cloudflare想要让更多网站使用他们的服务,如今还有什么是比渲染AI爬虫的威胁更有效呢?所以Perplexity就是抓住了这一点,使用了“共沉沦”的手段来减轻外界对自己的负面观感。

然而就算Cloudflare渲染AI爬虫威胁是为了自己的业务,显然要比Perplexity的行为好太多。要知道被Perplexity视若无睹的robots.txt是互联网世界的基石之一,它的唯一作用就是告诉网络爬虫,网站中的哪些内容是不对爬虫开放,哪些内容又能被抓取,可以理解为一种物权宣示。

robots.txt的存在就避免了一大批网站收到来自搜索引擎等UA的过多请求,可以节省带宽和服务器资源。更有趣的是,robots.txt其实并不具备任何强制力,它只是一个行业约定俗称的标准或者说是共识。有了这个共识,才有了大批网站愿意将线下的内容搬到线上,从而成就了互联网内容生态的繁荣。

当一家科技企业不在乎业界准则,或者说不要脸了,受害的一方居然做不到对等反制。这也就意味着“公地悲剧”,最终会导致互联网内容资源被过度使用,直至创作者不再愿意分享自己的内容。

所以Perplexity这种破坏共识的行为,显然是一个很不好的开端。

本文来自微信公众号“三易生活”(ID:IT-3eLife),作者:三易菌,36氪经授权发布。

相关推荐

AI独角兽视共识于无物,互联网公地悲剧即将上演
AI独角兽闯关IPO:古典思维导演的悲喜剧
悲剧IPO:一场独角兽和孙正义的两败俱伤
旷视科技:摘下独角兽面具
​四小龙集体冲刺上市,AI的寒冬结束了?
拯救AI独角兽:人工智能产业集体进了「ICU」?
上市潮再起,AI独角兽“成熟”了吗?
旷视科技拟募60亿冲刺科创板,AI独角兽相继受考验
繁荣与泡沫背后,AI独角兽的IPO“野望”
姚班系AI独角兽旷视招股书详解:9轮融资74.6亿,去年营收14亿盈利3千万,研发年薪43万

网址: AI独角兽视共识于无物,互联网公地悲剧即将上演 http://m.xishuta.com/newsview140085.html