首页 > 科技快讯 > 7家出版巨头诉亚马逊侵权，“祸因”竟是AI语音转文字

7家出版巨头诉亚马逊侵权，“祸因”竟是AI语音转文字

晰数塔互联网快讯
2019-09-04 13:19

编者按：本文来自微信公众号“知产力”（ID：zhichanli），作者蓁蓁，36氪经授权发布。

在全球数字图书和阅读器市场中，亚马逊形成了某种意义上的强势，其旗下的Audible也是有声书出版和发行市场的领头羊。风光无限亦有烦恼，近日，亚马逊旗下的有声读物公司Audible，被7家图书出版商以著作权侵权为由，诉至美国纽约南区法院。

7家出版商称Audible的字幕服务侵犯了图书版权，要求联邦法官禁止Audible在一个与教育有关的服务中使用文字内容。

值得关注的是，Audible只有权出售有声读物，但和声音匹配的字幕是由AI自动生成的，并未购买版权。那么AI转录生成的文字是否侵害著作权？因为此前没有先例， 7家出版商正不断寻找阻止Audible发布该服务的方法。

出版巨头与有声读物领头羊的“斗争”

先来聊聊这场阅读领域“神仙打架”般的诉讼始末。

2008年，亚马逊以3亿美元收购Audible。Audible是一家拥有24年历史的公司，以有声读物闻名，如今，它也已成为播客行业和其他形式的音频娱乐领域的一大参与者。2018年，Audible表示，它的可听用户下载了近30亿小时的音频。

今年7月Audible宣布将在今年秋季学生返校时正式推出“Audible字幕”服务。通过这项服务，读者在听有声阅读时能够在智能手机屏幕看到AI自动生成的单词。据外媒报道，Audible将向学生免费提供《第二十二条军规》和《饥饿游戏》的字幕图书。Audible公司创始人唐·卡茨(Don Katz)表示，该服务将帮助那些读书困难的年轻人。

但这引起了7家出版商的不满。它们分别是五大出版商：Hachette，HarperCollins，Macmillan，Penguin Random House和Simon＆Schuster，另外还包括总部位于旧金山的出版商Chronicle Books和Scholastic，这家儿童出版商拥有《哈利·波特》和《饥饿游戏》的出版权。

出版商们认为，Audible字幕服务采用了出版商专有的有声读物，将叙述内容转换成未经授权的文本，并分发这些新电子书的全部文本，未经许可就实施这样的服务是美国版权法直接禁止的典型侵权行为，于是将Audible起诉至纽约南区法院。而Audible的音频书许可证里并不包括文本版本，且机器生成的转录还可能会发生损害作品质量的错误。

出版商称：“如这项服务不被禁止，Audible将自行采用一种数字发行格式，使交叉格式产品市场贬值，并损害出版商、作者及消费者的利益。”

但Audible在一份声明中辩称，字幕服务只是作为一种教育功能，旨在帮助年幼的孩子并提高识字能力， “它不是，也从未打算成为一本书。”Audible发言人详细说明了Audible字幕和正确的电子书之间的差异及对听众的限制，称这项AI提供的服务或功能与电子书的关键区别是无法翻页，用户在收听时必须等待每一行文本逐步生成。

该案在美无先例对当事人双方均是挑战

那么，问题来了，AI转录音频为文字是否构成对书面作品版权的侵犯？

美国亚太法学研究院执行长孙远钊表示，将音频内容以文字呈现，无论是以人工智能或真人人工的方式来操作，都是把特定的既存作品转化为文字记录的行为，在一定程度上与在影视节目中呈现字幕非常类似。

依据美国《著作权法》第101条的定义，这样的呈现可构成“派生作品”（derivative work，也称为“衍生性作品”），即属于对既有作品从事翻译或是以任何形式重新改写（recast）、转型（transformed）、改编（adapted）或修饰（modified）。而美国《著作权法》第106条第（2）项也有明文授权，权利人可以排除他人基于其著作权所从事未经许可的派生行为。因此，未经过权利人（原告五大出版商）合法许可而从事此种行为具有较高的侵权风险。

而Audible在本案中是否侵害著作权？孙远钊认为，是否构成侵权必须依据个案的具体事实来认定。此外，该案的关键争点并不是认定通过人工智能所从事的语音—文字转化是否可以享有著作权的保护，人工智能在此只是一个辅助被告产品达成其功能和目标的一个主要工具。

孙远钊称，该案中被指控侵权的行为并不是由具有特定人工智能的机器、装置或软件真正和完全“自发性”地发动、从事和完成。人工智能操作的背后依然需要依靠自然人的操作来启动（包括在相关的软件中预设好特定的操作指令）。因此该案所要处理的侵权争议与传统的侵权案件相比并无特别不同之处。

美国《著作权法》第106条明确了作品的权利人享有排除对其作品从事复制（reproduce）、派生、散布（distribute，包括销售、出租、出借或其他转让所有权）、公开演出（public performance，主要适用于文学、音乐、戏剧、舞蹈、默剧、电影及其他影音作品）、公开展示（public display，主要适用于文学、音乐、戏剧、舞蹈、默剧、图画、图形或雕塑作品）与公开表演（在此是专指对录音作品从事数字化的传输行为）等六种权属。

美国的法律迄今没有明文赋予权利人“信息网络传播权”，但经美国版权局的一项专题研究，认为现行规制的这六项权属，尤其是对复制权、散布权和公开演出权的保护，已经足以涵盖信息网络传播权的同等范围，因此没有修法的必要。

该案或涉及对原告作品复制权、派生（改编或改作）与散布权的侵权行为。如果是发生在中国，可能涉及到的则是对原作者复制权、发行权、改编权、翻译权与信息网络传播权的判定。

由于该案所呈现的事实在美国系首次发生，对于双方当事人而言都具有一定的挑战性。原告或将主张，“音频转文字”就如同翻译，应被认为构成派生行为，且在被告的实际操作过程中，也可能涉及对于原作品的部分甚至全部内容的未经许可的复制与散布（包括信息网络传播），从而构成直接侵权。另外在策略上，作为补强式的主张，原告亦可能以被告的装置或软件为由而主张不构成直接侵权，但以此为标榜，促成对原告所拥有作品的间接侵权（可能包括辅助责任（contributory liability）与代理责任（vicarious liability），视案件具体情形而言还可能够成诱使侵权（inducement）等）。

而被告则可能用“Cablevision抗辩”主张其行为不构成直接侵权，亦即，依据联邦第二巡回上诉法院在Cartoon Network, LP v. CSC Holdings, Inc.,536 F.3d 121 (2d Cir. 2008)案的判决，主张通过转化把音频变为文字是个连续性的过程，其中每个句子都只会短暂停留，无法长期保存，这并不是将原告所属的作品复制生成另一本书，亦即，不断改变的文字以“跑马灯”的方式在视频上呈现，而从头到尾并没有真正完成一个完整的书籍复制品。

至于在间接侵权方面，被告可能提出“Sony Betamax抗辩”，以此主张合理使用，亦即根据美国联邦最高法院在1984年Sony Corporation of America v. UniversalCity Studios, Inc., 464 U.S. 417(1984)案的判决（通称Sony Betamax案），抗辩这项“音转文”的功能或服务能够“在商业上有相当程度用于非侵权性的使用”（capable of commercially significant non-infringinguses）。

但该服务尚未正式推出，该案也是原告斧底抽薪的举措——企图用诉前禁令让被告的产品或服务“胎死腹中”。在此情况下，被告若提出上述抗辩，在举证方面将有较大难度。

AI+IP仍面临关卡，侵权责任难认定

事实上，提及AI+ IP，国内读者们或许会想起2017年5月，“小冰”创作的诗集《阳光失了玻璃窗》正式出版，这部诗集是“小冰”在学习了519位诗人的现代诗、训练超过10000次后创作完成的。

除微软“小冰”外，还有诸多公司也开发了众多人工智能产品，用于创作各类文学和艺术“作品”。谷歌开发的人工智能DeepDream可以生成绘画，且其画作已经成功被拍卖；腾讯开发的DreamWriter机器人、今日头条的Xiaomingbot可以根据算法自动生成新闻稿件，并及时推送给用户。

中国人民大学法学院教授万勇在其作品《人工智能“作品”，著作权谁属》中指出：与以往技术创新相比，人工智能技术对著作权法提出的挑战是最根本，也是最全面的。

对此，孙远钊称，AI+IP的发展目前仍处在初步的讨论阶段，但其中的意见分歧相当大，包括纯粹由人工智能所完成的成果是否具有“独创性”从而应否赋予著作权的保护？反言之，由于目前的人工智能大多数需依赖大量“吸收”既有的文献资料来协助机器从事“深度学习”，因此，当其结果出现疑似“抄袭”现象时，是否可承担相关的侵权责任？

同理，若认为应对人工智能的成果赋权，假定其背后的“深度学习”是来自于1000个不同的来源或对象，那么这1000位有贡献的人是否都应作为共同权利人？若某个权利拥有多个共同所有人，那么，任何的许可、运用都必须经过所有权利人的一致同意，在众口难调的情况下，这样的赋权是否具有实益？

此外，除技术发展和法律赋权问题外，从实际的应用来看，人工智能目前还存在一些难以突破的关卡：

（1）人类无法赋予并要求机器从事道德和价值的判断（如何在什么样的不同场景下来区分好坏是非，事实上即便是在同一个国家之内，对于同一件事情都可能同时存在多种不同的道德观或价值判断因素）；

（2）人工智能固然对于特定的领域可以从事深度的学习并给出不同的分析结论，但却难以对不同的领域之间从事横向的关连性联系与类比；

（3）人工智能没有情感，因此无从把非理性的因素纳入，作为考量、分析与筛选特定状况和问题的基础。

而近期出现的一个有趣的现象是，完全通过人工智能来撰写发明专利申请的新闻报道出现了。其背后所蕴含的问题是，相关的潜在责任与风险承担应当如何界定分配？

截至目前，尽管AI+IP的发展仍然存在诸多问题与关卡，但可喜的是，该案的出现的确提供了一个机会，它让司法能够处理涉及到受著作权保护的作品，引导人们思考，其周边由第三方所提供的“服务”究竟界限范围应当如何厘清？标准是什么？在美国，在电信和对于残疾人士保障的法规原则上，要求各种音像作品必须在播放时附带提供所有内容的字幕以供观赏者选择呈现，这就意味着其中蕴含了非常大的商机。

反应到网络环境中，该案的判决结果有望明确对音频的许可是否包含对该音频进行文字转化的许可。