首页 > 科技快讯 > 雷军也成了AI语音的受害者？

雷军也成了AI语音的受害者？

晰数塔互联网快讯
2024-10-11 13:15

雷军最近可能有点心烦……

烦什么？你听到了吗？最近，有不少人用雷军的声音进行二次创作，做成各种段子。我听完之后，觉得既搞笑又无奈。

比如：

“老子踏*一眨眼，国庆节就过去了，我又得拖着一大堆破行李去上那个X班；假期里，躺在抖音上刷视频的废物们，大家好，我是雷军，你们千万不要用小米手机看黄片。”

还有更雷人的内容，在哔哩哔哩上，他的AI语音被用来制作各种游戏解说、话题封面语，比如打篮球、打麻将，主打一个“不爽”，吐槽和评论非常犀利。

至于让我感到无奈的部分，却不太好描述。在写这篇文章之前，我把其中一个短视频发给了我爸，并问他：“你觉得这个短视频有什么特别之处吗？”

我爸回答说：“挺有意思的。”但他并没有提到语音的问题，换句话说，他根本没意识到这是AI生成的语音。可见，AI语音已经能够达到以假乱真的地步了。

一

不过，这次假语音和之前“Are you ok？”有很大不同。

Are you ok，内容属性不强，本身没什么恶意，也不会引发误会，最多让本人觉得有点尴尬；雷军甚至还幽默地回应过，还把版权买下来，从营销的角度来看，这反而成了一种正面的宣传。

但AI语音有点不一样。

现在网络上，大部分雷军AI语音，都是网友们用他的声音说的一些很过分的话，什么“远程操控小米手机炸死你”或者“我开小米SU7撞死你全家”。

这些话相当极端。不了解的人，会认为真是雷军说的，已经涉及到造谣的问题。

AI语音有很多种形式，常见的包括：语音合成、语音克隆、语音识别、深度伪造和自然语言处理。前三种大家比较熟悉，后两种是最近两年才逐渐流行起来的。

深度伪造（Deepfake）是由“深度学习”（deep learning）和“伪造”（fake）组合而来，意思是用深度学习技术来模仿人的声音和图像。

而自然语言处理（NLP）是让计算机理解和处理人类语言的技术，应用非常广，比如：智能客服和语音助手。

很多创作者在给视频配音时，为了省时省力又不想出镜，通常会先写好文字，再用AI来朗读和合成。

拿我来说：一般会选择港版男普通话、广西表妹或东北话，这样让文本画面和其他地域口音结合，刚好形成了鲜明的反差感。

这些技术的作用是停留在语音合成和搞笑方面，确实没什么特别的影响；但是，一旦涉及到名人 IP 效应再加上搞笑，同时还试图进行文化层面的输出，情况就大不相同了。

因为这不再是单纯的逗趣，还可能引发各种社会反应。

之前关于“三只羊”卢某某的录音想必不少网友刷到过，那段语音听起来非常逼真，引起了很多人的讨论和担忧，我听完后都感觉像真的，甚至还在群里吐槽事件本身太颠覆三观了。

不过，9天后（2024年9月26日），合肥市公安局很快发布了官方回应，说那是假的，并提醒大家不信谣、不传谣。

假语音威力不比短视频小，短视频有画面，更容易分辨真假，但语音却很难区分，这就更容易误导人们。

二

国外也有类似事件。我用Perplexity查了一下关于AI造假的新闻，发现他们甚至把目标对准了总统，问题上升到了政治层面。

根据《连线》杂志的报道，今年年初，一些新罕布什尔州的选民接到了冒充“拜登总统”的自动语音电话，试图误导他们在初选中投票。

白宫新闻秘书确认，电话是伪造的，并非总统录音。

美国联邦通信委员会（FCC）主席杰西卡·罗森沃塞尔（Jessica Rosenworcel）表示，近年来，机器人电话中使用的AI生成语音变得越来越先进，这些语音可以模仿名人、政治候选人，甚至亲密家人的声音，从而制造虚假信息，误导公众。

她强调，如果语音克隆公司在开发应用时涉及名人、可能误导公众、传播风险高的内容，应该在传播中加上明显的标识，提醒公众注意。“我们建议，将使用AI生成语音的机器人电话（robocall）视为非法。”

另外，还有知名歌手泰勒·斯威夫特的AI伪造“不雅照”在网上疯传，这类AI造假事件引发了人们对人工智能的广泛担忧。

几天后，造假的人被找到，他坦言自己用AI工具ElevenLabs，仅花了不到20分钟和1美元就完成了造假，是不是很惊人？

今年3月，一位记者发现，只要在上传文件开头加入一分钟的静音，就可以绕过规则，成功克隆特朗普和拜登的声音，尽管技术可以用来对抗技术，但AI检测软件往往无法有效识别AI生成的音频。

难道，AI生成语音真的能强大到这种地步吗？

其实我也有疑虑。自从“三只羊”卢某某AI录音事件后，我一直关注着回应此事的品牌（某声）的进展。

他们的网站上确实有雷军的AI合成声音，大家可以自己去试听，音色与真人非常接近，而且发布的数量也不少，这给了许多蹭热度的机会，他们利用名人的声音制造话题。

不仅是雷军，现在很多互联网平台，比如抖音、B站，都有大量与马保国、葛优、“麦克阿瑟（一位模仿网红）”等名人声音相关的视频。

这些视频利用的是AI配音技术，你只要选择相应的人物声音，然后输入文字，就能生成该人物声音的内容；虽然很多程序会用代称来规避版权问题，但提供的声音种类多达上百种，还可以调整语速和语调。

图释：某声品牌社区广场，仍可以搜到一些名人音频

截至写这篇文章，在（某声）社区角色市场，依然可以找到雷军、蔡徐坤、卢本伟、刘亦菲、成龙等名人的仿声合成音，你很难分辨是否是真人。

我并不是单单批评某一个软件，而是整个语音生态似乎都存在一些问题，这引发了我们的思考：

以前互联网平台只对图文和视频进行管理，现在进入了AI时代，AI成了一种新媒介。

那么，AI作为媒介载体做出来的平台，是不是自身也要自我管理？是不是得要求用户，非本人不能用别人的声音伪造？至少现在看来，属于三不管的地带，没有很细节的法律条文、也缺乏清晰的社区规则。

三

既然提供技术的平台监管不到位，那么，发布平台就真的无法监测吗？比如，我将AI语音发布到抖音、快手等平台，难道它们就无法检测到问题？

问了一圈懂行的朋友，他们说，这涉及到两方面问题。

从技术角度，语音模型的自动语音识别（ASR）和文生文、文生图的原理相似，它们首先都要大量的语料来进行训练，只有这样才能生成更多精细化的模型。

这些模型越细分，语音识别效果就越好。这让我感觉，这像是一个层层递进的套娃游戏。

另外，目前国内主流的ASR技术多采用端到端模型（End-to-End Models）。这种模型通过一个网络，将输入的语音直接转换为输出结果，简化了传统ASR系统中多个复杂组件的流程。这使得识别过程更加高效，但中间环节也减少了。

比如说：当你对着手机说“今天天气怎么样？”，端到端模型能直接将语音转为文字，查询天气信息，并告诉你结果，这种方式非常快捷，但它不具备中间的感知能力。

虽然现在主流的AI语音模型开始采用更深度的学习框架，如循环神经网络（RNN）、长短时记忆网络（LSTM）和Transformer来处理一些关键部分，但这些技术仍处于早期阶段。

面对一些更复杂的情况，如方言和多音轨的噪音，模型依然存在局限性，因为训练数据不够全面，模型能力有限。

从审核机制来看，问题就更明显了。一位技术朋友提到：

2018年，有一则新闻，今日头条的创始人张一鸣发表了一封公开信，回应“内涵段子”被关停的事件。在信中，他提到为了弥补算法和机器审核的不足，需要加强人工运营和审核，将6000人的审核团队扩大到10000人。

同样，快手当年也采取了类似措施，将2000人的审核团队扩展到5000人。他们都认识到，在“算法是否具备价值观”的问题上，必须加大投入。

当年视频面临的问题，现在AI语音也遇到了。

平台审核机制分为两部分：机器审核和人工审核。机器审核能快速识别明显违规的内容，但对于隐晦、复杂的内容，机器可能判断不准确，就要人工审核。

AI语音的复杂性不亚于视频，不同语种、口音、语速等都会影响识别效果。要逐帧处理这些因素，并且应对AI生成的以假乱真的音频，是一项极大的挑战。

你想想看，用AI生成一个音频，再让它自己识别是AI生成的，这种循环无疑是对技术的极大考验。

要想实现“魔法打败魔法”的效果，平台要投入更多资金和资源，这不仅困难，还要时间；因此，我们正处在一个技术、伦理与监管并行发展的新阶段。

四

一个在大厂工作的朋友告诉我，目前传播内容的平台针对这种“灰度空间”有三种处理办法：

第一，检查元数据是否有隐性标识。

所谓隐性标识，即音频里用来确定内容的来源或生成的方式，目前，这项技术已经有所发展和应用。

类似于字节跳动早年自研的隐藏水印算法，现在已经应用到各种产品上。今年3月14—15日，中国人工智能产业发展联盟（AIIA）发布了“信元令”数字隐写标识平台，也在大力推广。

简单来说，他们都在解决同一个问题，即让AIGC生成的内容自带标识，这种标识人看不到，技术却看得到。

第二个办法，提醒用户自行添加说明。

如果平台未检测到隐性标识，会提醒用户主动标明内容来源。你可能也见过在发布内容时，可以选择标注“取自网络”“AI生成”或“原创拍摄”。

用户不想自己声明，也没有隐性标识，那平台会进行第三种办法：抽样检测。一旦发现语音中有AI的痕迹，就会直接添加提醒标识。

了解了这些，你就能明白，为什么有些视频下方会出现“疑似使用AI生成技术，请注意甄别”的提示。为什么说是“疑似”呢？因为目前AI还无法完全准确地识别另一个AI生成的内容。

不过，有一个前提：除非某个内容真的引发了广泛关注和巨大舆论，平台才会主动干预。否则，面对海量内容，平台很难做到逐一审核。

所以，防范AI语音，不只是个人和企业的责任，更要技术提供商和社会各界一起努力。

在深度伪造泛滥的时代，雷军成为了国内第二个因AI语音造假而受到影响的人，我们看看段子就好，千万不要成为传播的始作俑者。

总结

AI正在模仿真人。

我想提醒大家，在网上浏览视频时，要多留一个心眼，最好不要默认一切都是真实的。技术无罪，就怕别有用心，希望我们能明智地使用它，推动社会向积极的方向发展。

本文来自微信公众号：王智远，作者：王智远

苹果放大招！Apple Watch Ultra 3配置曝光，更大显示、更强芯片

闷声发大财！联想第一财季营收1362亿创历史新高，利润暴增108%

热点科技快讯

人类唯一的出路: 变成人工智能（五）

本文来自微信公众号：Wait But Why（ID：wbwtimurban），...

报告：抖音海外版下载量突破10亿大关挑战Facebook

新浪科技讯北京时间2月28日早间消息，据美国财经媒体CNBC援...

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

神译局是36氪旗下编译团队，关注科技、商业、职场、生活等领域，...

人类唯一的出路：变成人工智能（三）

本文来自微信公众号：Wait But Why（ID：wbwtimurban），...

热门点击排行

问界商标转让释放信号：赛力斯与华为合作持续深入

报告：抖音海外版下载量突破10亿大关挑战Facebook

科技快讯分类导航

互联网创业

人工智能

大数据分析

行业热点

雷军也成了AI语音的受害者？

苹果放大招！Apple Watch Ultra 3配置曝光，更大显示、更强芯片

闷声发大财！联想第一财季营收1362亿创历史新高，利润暴增108%

人类唯一的出路: 变成人工智能（五）

报告：抖音海外版下载量突破10亿大关 挑战Facebook

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

报告：抖音海外版下载量突破10亿大关挑战Facebook