首页 > 专业知识 > 上下班路上听点啥好？这家公司或能丰富你的通勤时光

上下班路上听点啥好？这家公司或能丰富你的通勤时光

晰数塔互联网快讯
2019-06-24 09:37

编者按：本文来自微信公众号“硅谷洞察”（ID：guigudiyixian），作者硅谷洞察。36氪经授权转载。

近年来，随着亚马逊、Google、苹果，到国内的阿里巴巴、百度、京东等在语音驱动设备（voice-first devices）领域的频繁发力，智能语音的发展速度惊人。随着 Airpods、智能手机等语音设备的持续增加，用语音控制设备不仅逐渐成为主流、还会成为类似于搜索引擎之于 PC、超级 app 之于移动互联网的新一代超级入口。

在这种趋势下，人们对播客（podcast）、有声书等语音内容的需求也日益增加。但长期以来，语音内容生产者一直要面对一个问题：语音内容的编辑，与文字相比，是件耗时又费力的事情。

由加州大学伯克利分校孵化器 SkyDeck 孵化的语音编辑软件公司 Spext，正是想解决这个问题。他们打算如何简化声音内容的编辑？为此，硅谷洞察独家专访了 Spext 的 CEO Anup Gosavi。

上下班路上听点啥好？这家公司或能丰富你的通勤时光

音频节目：发展飞速、编辑速度龟速

目前在美国，两种音频节目形式最常见：播客，以及有声书。据估计，目前在 iTunes 上，有 70 多万个 podcast 频道、4200 万集节目。同时，有声书也在快速发展：Anup 告诉硅谷洞察，去年美国出版了 8 万多本有声书，今年这个数字预计会增长 40%。

上下班路上听点啥好？这家公司或能丰富你的通勤时光

（从2011年到2018年，美国成年人过去12个月内收听过有声书的人比例攀升。图自皮尤研究中心）

Anup 也有听播客的习惯，他自己就是一位已经有十年 “听龄” 的老听众了。正因如此，他意识到播客的一个问题：播客以声音为媒介，这种形式使得其中很多精彩内容没有办法被记录、被索引。换句话说，我们现在在 Google、百度之类的搜索引擎上，能轻易搜到文字，甚至能以图搜图，但播客里的内容却很难搜到。

以声音为媒介的内容，到底有没有可能也能被索引呢？Anup 开始与播客创作者们交谈。他发现，其实想要制作音频内容的人不少，但目前音频播客内容所用到的专业音频编辑软件很难上手、对新人门槛比较大，而且编辑起来也非常耗费时间。

Anup 告诉硅谷洞察，目前内容创建者大多使用 Audacity 和 Garageband 这两款音频波形编辑软件，其中 Audacity 更为主流。

音频波形编辑软件长这样：

上下班路上听点啥好？这家公司或能丰富你的通勤时光

（Adobe Audition 界面）

图里六条形状各异的波浪线，每条都是一条音轨。编辑在剪辑音频时，由于不可能从这上上下下起起伏伏的波浪线里 “读” 出内容，只好通过一遍遍反复播放的办法，把文字信息和 “波浪线” 对应上，从而完成删减、增补等编辑。

而 Audacity 和 Garageband 这两款软件之所以比较主流，除了因为是免费软件（不少苹果产品往往自带这种音频编辑软件），还因为它们与 Adobe Audition 这种更为专业复杂、使用门槛更高的音频编辑软件相比，这两款音频编辑软件使用相对简单、更好上手。

除了要解决上手困难的问题，目前音频波形编辑软件还有另外一个挑战：用起来很费时间。Anup 透露，目前每产生 1 小时的编辑完毕、可以播出的内容，背后就需要 7~8 小时的编辑、修改、把音频整理成文字稿的时间—— 这还是业务熟练的专业人员，对于新手及业余爱好者来说，所需时间只会更长。

让编辑音频像编辑文字一样容易

为了解决这个问题，Anup 决定成立 Spext。Spext 用 AI 技术，通过简化自动转录、语音编辑、声音合成等语音编辑任务，为音频内容制造者极大量节省时间。

从使用界面上来说，Spext 和传统的音频编辑软件长得就很不一样。与传统音频软件的波浪线不同，Spext 的产品 “声音编辑器”（“Editor”）不仅把音频直接转译成文字，而且还能让用户通过编辑文字，直接编辑音频。用 Anup 的话说，Spext 的产品 “看起来像是用于音频编辑的 Google 文档”。

我们以乔布斯的一段音频为例。在这段音频开始的地方，他说，“Hi（长停顿），for those of you that don’t know me, my name is Steve Jobs”（嗨，【长停顿】，你们中可能有些人不认识我，我的名字叫史蒂夫•乔布斯）。

上下班路上听点啥好？这家公司或能丰富你的通勤时光

（图自 Spext）

如果用户想把 “嗨” 后面的长停顿、和 “你们中可能有些人不认识我” 这种没什么信息量的语句删掉，只需把这句话选中，直接删除即可，其背后对应的音频也会准确地把这个部分删除。而如果用传统音频软件编辑的话，哪里是 “嗨”、哪里是停顿的开头结尾，都要找半天。

目前 “声音编辑器” 已进入公测阶段，用户可以在音频中把空白录音、“呃”、“嗯” 之类的删减掉，也可以重新排列句子与句子之间的顺序。几周内，Spext 将推出其产品的最新版本，也是首个商业版本，用户将可以添加音乐、背景声等声效。

更简单的流程自然也给编辑们省了很多时间。Anup 透露说，Spext 产品的测试用户反馈说，Spext 足足帮他们节省了约 80％的编辑时间！

让音频制作不仅省时、更省事

除了省时间，Spext 还能让音频编辑更 “省事”：比如，如果音频里的人发生口误，音频编辑可以直接看着 Spext 根据音频整理出的文字，直接替换文字，打出正确的词，然后 Spext 的 “声音合成器（synthetic media）” 功能，就能自动生成以那个人的声音说的、被修改过的没有口误的那句话。

当然，目前这个功能还不支持大段大段的语音生成，只支持少数词语的替换，但这也已经带来了很多便利，比如就不用因为口误而叫人家重回录音棚录音了。

我们再回到乔布斯的例子：假设编辑想把 “hi” 替换成 “hello”，只需删去 hi，敲入 hello，Spext 就能生成足以以假乱真的、乔帮主声音的 Hello，替换在音频里基本没有违和感。

上下班路上听点啥好？这家公司或能丰富你的通勤时光

（图自 Spext）

Spext 使用的技术之一是 “声音与文字对齐” （aligning the spoken words and text）。为了让机器学会自动把声音与字句对齐，Spext 利用深度学习技术运行该对齐算法。编辑音频时，为了让声音听起来真实自然、字、词、句子之间的剪切与过渡听起来不突兀，声音和文字必须 “严丝合缝” 地准确对齐。

为了做到严丝合缝地对齐，Spext 对字与词进行精确切割。到底有多精确呢？以最简单的 hello 为例，hello 由不同音节组成，别看词很短、读起来很快，为确保声音精度，Spext 把每个词都切割到了 1 微秒的精细度。假设 hello 发音 0.5 秒，这就意味着 Spext 要把它切割成 50 万份，精度可想而知。精度越细，在合成一个词、添加或删减内容时、声音听起来也就越准确自然。

上下班路上听点啥好？这家公司或能丰富你的通勤时光

（Gif 自 Spext）

别看 “让机器自动把音频和文字准确对齐” 听着简单，其实在技术上很有挑战。Anup 解释说，这是因为它对音频工程（audio engineering）、机器学习，以及产品设计的要求都很高。

比如我们刚才说的 “把一个词切成无数个小部分”，并不是切割完毕后就大功告成，机器还需要学习处理一系列可能的复杂情况。比如，每一微秒的声音都有顺序、有编号，在删除或添加声音时，这些号就会改变，而系统如何保证顺序正确、不弄乱，就是不小的挑战。

就像现在已经能造出以假乱真的图片和视频一样，声音也能以假乱真。如何防止这种技术被恶意利用，就成了难题。Anup 介绍道，防止恶意篡改，正是 Spext 目前的工作重点之一。Spext 给出的解决方案是声音认证（audio authentication）。

就像天下没有相同的指纹一样，我们每个人的声音也非常独特 —— 特别是在机器的 “耳朵” 里，每人的声音都有独特 ID。Anup 打了个比方：现在我们可以在手机上通过 face ID 之类的技术 “刷脸” 购物。在你下单之前，iPhone 先要确保你的身份。Spext 的声音 ID 也是同样道理：当你录音完毕后，想再用同样声音修改内容、然后放到网上，也需要进行声音认证。

而 Spext 为此需要解决的技术挑战，就是其需要不断提高声音识别的准确率：只有准确率提高了，才能更精准地识别不同人的声音。

同时，编辑在对音频内容作出修改时，需要编辑及声音的 “原主人” 双方许可后，才能修改内容。

“你可以把它想象成 DocuSign。你在你那边先认证音频的真实性，再把它发给我进行认证。只有双方都点头后，才能完成修改，避免用自动生成器恶意篡改内容。”

当然，如果对内容有争议，还可以用最简单的办法：找回谁也没编辑过的原始录音，有声有真相。

不过 Anup 说，目前声音合成器功能暂不公开，Spext 计划在能更好地进行身份验证后，再启动该功能，以避免此产品被用于恶意目的。

让更多人能讲故事

不论是 “Alexa”，还是 “Hey Google”，越来越多的智能设备以声音驱动，已经成了一股非常明显的潮流。但其实除了潮流本身，人类对于讲故事、分享经历、听故事的需求从来就非常旺盛。

一个有趣的事实是，二十世纪五十年代初，欧美国家电视逐渐普及，不少人当时信誓旦旦地预言说，广播这种 “听得见、看不见” 的媒体，将会很快被淘汰。这个预言显然是错的，直到今天，广播电台依然红火。

与视频相比，音频内容更随意，而且...还有那么一丝亲密感。在摄像机面前，你得穿得好看、背景要好看、角度灯光... 但音频对环境（和长相）的要求低了很多，在很多地方都可以录音，而听者也觉得像是在和主持人谈天说地、亲密交流。正因如此，人们对音频内容的需求随着技术的进步，反而有增无减。

“我们的用户主要是播客、有声书的内容创造者。我们会先关注播客、之后扩展到有声读物出版商。” Anup 说。

为了鼓励更多人发出自己的声音、讲出自己的故事，Spext 还专门开了博客，教那些想要开自己播客频道的人一些技巧，比如如何吸引观众。此外 Spext 也从新闻学校打开市场，比如伯克利新闻学院的学生们，就给了 Spext 很多反馈。

“除了播客、有声书、和新闻学院的学生，另一类潜在客户是企业。” Anup 补充道，“越来越多的企业想用口述历史的形式讲述其公司的历史，比如他们经历了哪些关键时刻、他们的重要策略都是如何制定出来的...作为其宣传的一部分。这很出乎我们意料。”

上下班路上听点啥好？这家公司或能丰富你的通勤时光

（外媒文章：“时尚品牌为何纷纷开播客”）

目前作为创业公司的 Spext 还只支持英文，不过 Anup 在采访尾声时提到，Spext 非常希望未来能扩张到印度、中国这两个人口巨大的市场。当然，中国和印度都有很多方言和口音，想想 Spext 或许未来有天要努力 “听懂” 温州话、闽南语之类的方言，也真是 real 不容易... 估计这也会成为 Spext 未来不小的挑战。

封面图自网络，版权属于原作者