首页 > 科技快讯 > 秘塔搜索用知网的数据训练人工智能，侵权吗？

秘塔搜索用知网的数据训练人工智能，侵权吗？

晰数塔互联网快讯
2024-08-16 19:19

近日，知网向人工智能搜索服务商秘塔发送侵权通知，要求其立即断开知网内容搜索结果链接。无独有偶，一个月前拥有《纽约客》《时尚》和《连线》的美国杂志巨头康泰纳仕集团也曾向人工智能搜索引擎Perplexity发出过类似侵权通知。作为秘塔和Perplexity的用户，今天就来分析下知网有权要求秘塔断开链接吗？

一、知网的robots文件并未屏蔽秘塔

搜索引擎是否有权对互联网站内容进行抓取，是由网站robots文件的设置决定的，如果网站的robots文件不允许抓取，则搜索引擎强行抓取可能有不正当竞争风险，有意思的是，虽然知网给秘塔发函要求断开链接，也就是不允许其抓取网页内容，但其robots文件[i]却并没有禁止任何搜索引擎爬虫，根据知网的robots文件内容，不禁止任何人抓取他们的网页，只是cms、query.html?*、 report、paper、qrcode、js、cs这些涉及后台管理界面、静态资源目录和特定内容目录网页不能抓取。

当然，现在很多的人工智能搜索引擎的爬虫确实也不讲武德，其不像传统的百度、谷歌、搜狗、必应那样把自家的爬虫进行命名，而是默不作声的匿名爬取，比如前文提到的Perplexity公司CEO接受采访时公然表示，哪怕你禁止我的爬虫，我也不保证不抓取你的网页，因为我的工具包括匿名的第三方爬虫[ii]。但至少从技术上，知网没有屏蔽秘塔的爬虫。

二、屏蔽特定爬虫要有正当理由

可能有读者会问，我的地盘我做主，网站所有人要屏蔽别人为什么还要有正当理由？这里涉及两方面的问题，一个是《反垄断法》，另一个是行业协会的规定。

1. 知网有市场支配地位

2022年国家市场监管总局曾认定知网在中国境内中文学术文献网络数据库服务市场具有支配地位，并因其其他的垄断行为，对其处以8760万元罚款。我国《反垄断法》第二十二条规定：禁止具有市场支配地位的经营者从事下列滥用市场支配地位的行为：没有正当理由，拒绝与交易相对人进行交易。所以，有市场支配地位的知网，要求秘塔搜索断开链接需要有正当理由的，否则就涉嫌拒绝交易的违法垄断。

2. 行业公约规定限制搜索引擎抓取应有合理理由

多年前，中国互联网协会制定了《互联网搜索引擎服务自律公约》对搜索引擎爬取网站信息是否正当进行了规定。根据该公约第八条：互联网站所有者设置机器人协议应遵循公平、开放和促进信息自由流动的原则，限制搜索引擎抓取应有行业公认合理的正当理由，不利用机器人协议进行不正当竞争行为，积极营造鼓励创新、公平公正的良性竞争环境。这个自律公约可以看作是行业对于网站屏蔽搜索引擎标准的共识，知网的限制行为需要符合这个共识。

3. 法院认为无正当理由屏蔽搜索引擎涉嫌不正当竞争

在后来的百度诉奇虎360搜索引擎违法抓取案中，法院也认可了该公约内容的合理性。北京高院法院认定百度在缺乏合理、正当理由的情况下，以对网络搜索引擎经营主体区别对待的方式，限制360搜索引擎抓取其相关网站网页内容，影响该通用搜索引擎的正常运行，损害了奇虎公司的合法权益和相关消费者的利益，妨碍了正常的互联网竞争秩序，违反公平竞争原则，且违反诚实信用原则和公认的商业道德而具有不正当性，不制止不足以维护公平竞争的秩序，故构成反不正当竞争法第二条规定所指的不正当竞争行为。所以根据行业公约，知网也需要找到要求秘塔断开链接的正当理由。

三、人工智能涉及的知识产权问题可以作为正当理由吗？

所以知网有没有权利要求秘塔断开链接，核心问题是其诉求有没有法律上的正当性。人工智能是新生事物，对版权内容的使用存在一定的合规瑕疵，如果知网以此为由要求断开链接的，会有一定合理性。虽然据秘塔的通告称，知网向其发送的侵权通知长达28页，但除了本文前面的截图外，其他内容并未披露，所以，笔者只能根据自己使用秘塔的体验，以及行业的情况进行分析。

1. 知网无权主张秘塔训练版权侵权

如果秘塔使用了知网上的论文进行了人工智能训练，知网不一定有权主张版权侵权。因为论文的作者投稿某杂志，杂志刊登后，文章的版权可能是作者的，也可能是作者授权给了杂志，知网站内的多数论文虽然被收录，但知网拥有这是杂志社或作者授权的信息网络传播权，如果该论文被用于训练，训练涉及的版权是著作权法规定的复制权和著作权其他权利，并不侵犯知网的信息网络传播权。当然如果是杂志社维权秘塔训练侵权的，那么秘塔将面临《纽约时报》起诉OpenAI一模一样的问题。

如果知网可以证明秘塔的系统抓取其网站大量论文并进行批量训练的，则可以主张训练行为涉嫌侵权其整体数据权利，构成不正当竞争，法律依据是《反不正当竞争法》第二条原则性条款，经营者在生产经营活动中，应当遵循自愿、平等、公平、诚信的原则，遵守法律和商业道德。

2. 秘塔索引库如包含知网内容，可能侵权

根据网上公开的报道[iii]，秘塔AI搜索的播客和文库板块是有索引库的，笔者理解的索引库可能是秘塔把批量收集的文献事先直接在内部做了一个索引数据库，当用户搜索时，秘塔会搜索网络对应的实时内容，然后利用人工智能把实时搜索结果和索引库的内容整合在一起提供答案。

根据笔者的个人体验，索引库很可能是真实存在的，因为秘塔的搜索结果里经常提供非公开可以访问的论文链接，这些论文被标注为pdf，如果用户点击的，可以在秘塔网页的小框中阅读pdf全文但无法下载，如果点击pdf对应的链接，就会被链接到一个文库类网站的登录界面，这个应该是为了表明pdf的来源。根据笔者的用户感知，这个在线阅读的pdf应该是秘塔数据库提供的。其实这个技术上也不难证明，我们代理诉讼时碰到此问题，通常用抓包软件显示该文档的真实ip地址。如果这个ip地址位于秘塔的服务器，则说明是秘塔提供的。

3. 过拟合可能导致输出结果侵权

秘塔的搜索结果如果出现了被索引论文的主要内容，可能涉嫌“洗稿”类著作权侵权。不同于普通的搜索引擎，秘塔的搜索是人工智能的问答式引擎，其结果会整合很多篇新闻、文章、论文，多数情况下，这种整合后输出的结果构成合理使用，法律依据是我国著作权法规定的，为介绍、评论某一作品或者说明某一问题，在作品中适当引用他人已发表作品的构成合理使用。

但少部分情况下，人工智能会因为训练技术问题出现过拟合（outfing）[iv]，导致输出的结果内容和训练内容一致，此时，比如秘塔预训练论文时有过拟合，就会出现搜索结果照搬索引论文文献内容的情况，哪怕照搬的是部分内容也是侵犯被索引文献信息网络传播权的，这时的行为性质就从合理使用变成了抄袭。

如果出现搜索结果抄袭知网论文，或者秘塔制做索引数据库、或者向用户提供论文pdf的在线阅读功能的情况，都是侵犯信息网络传播权的行为，如果知网据此要求秘塔断开链接的，笔者认为是正当的。

4. 抓取学术文献题录及摘要数据不一定侵权

笔者注意到，知网的侵权通知中称秘塔向用户提供知网的学术文献题录及摘要数据，涉嫌侵权。对秘塔抓取这两部分网页是否侵权，笔者倒是有不同意见。网页不同于论文，知网的学术文献题录（标题、作者、发表年份、期刊卷号、期号、页码以及摘要）及摘要网页都是国内用户公开可以访问的，知网作为在中国境内中文学术文献网络数据库服务市场具有支配地位的经营者，其不允许秘塔搜索抓取这两部分公开信息需要有合理的理由。如果秘塔清除了索引库中的知网论文，并且不再向用户提供知网论文的在线阅读功能，此时，知识产权侵权的争议就很小了，根据《反垄断法》和《互联网搜索引擎服务自律公约》，知网不允许秘塔搜索抓取这两部分公开信息就不再具有合理的理由。

参考链接：

[i] https://www.cnki.cn/robots.txt

[ii] https://bookstr.com/article/morality-and-legality-in-perplexitys-new-search-engine/

[iii] https://www.36kr.com/p/2895952320125831

[iv] https://www.ibm.com/cn-zh/topics/overfitting

本文作者：游云庭，上海大邦律师事务所高级合伙人，知识产权律师。电话：8621-52134900，Email: yytbest@gmail.com，本文仅代表作者观点。