首页 > 专业知识 > 输出语音合成技术,「深声科技」已在有声读物等领域完成商业化落地

输出语音合成技术,「深声科技」已在有声读物等领域完成商业化落地

文/姜菁玲

编辑/地中海蓝

36氪最近接触到的广州深声科技有限公司(简称:深声科技)是一家专注于智能语音技术研发和业务落地的人工智能公司。公司曾在2018年7月获小米数千万元天使轮投资,具有语音合成、声音定制、声音克隆、声音降噪和声音分离等七大核心技术。

语音合成技术又称文语转换(Text to Speech)技术,是指利用电子计算机或其他机械将文字实时转化为可懂且流利的语音,相当于“给机器装上人工嘴巴”。

据深声科技创始人兼CEO周俊明介绍,目前语音合成技术落地场景主要有内容输出、智能客服与智能营销以及语音交互三大类。

音频转化技术输出已经商业化落地

内容输出落地方面,深声科技通过与内容平台合作,对网络小说、新闻资讯、K12儿童读物等内容进行音频转化。智能客服和智能营销方面,主要面向各大运营商和金融客户。语音交互方面,主要落地场景为智能音箱、手机语音助手和车载后装市场等。

在内容输出的合作上,深声科技与畅读书城基于书城内小说版权资源,运用语音合成技术共同开发有声读物。周俊明认为,由于技术限制原因,以往传统小说音频转化整体合成效果不佳,存在机械感强、可懂性差、不生动等问题。

在提升音频转化效果上,深声科技的逻辑是先将小说根据悬疑、玄幻、爱情等题材分类,选择合适的旁白风格,并为小说中不同性格的人物选择契合的音源,进行语音合成,最终希望实现广播剧级别的小说音频转化。音源库的丰富程度是决定效果的基础,深声科技共有1200余名不同音色的录音员,例如萝莉女音、主播女音、稳重男音、温暖男音、二次元音等,可为不同类型性格的角色提供音源支持。

深声科技与畅读书城共同开发的付费音频读物现已上线。以有声读物为例,深声科技采取的盈利模式为基础技术费用加订阅分成。

广播剧《我必封天》片段(深声科技与畅读书城合作开发)

语音合成技术能力

总体来说,周俊明认为深声科技的语音合成质量可以做到音质明亮、还原度高、无机械感。

音质上,最大程度保留语音的各频段信息,避免高频信息丢失造成的沙哑或者沉闷。数据上,深声科技自主研发的数据标注平台,采用自动标注+人工校正的模式,数据标注团队背景多为语言学、汉语言文学专业,可提高输入数据的质与量。在语音合成后端方面,采用可控的端到端技术,整体预测准确率达万分之五。情感韵律方面,利用高性能声码器结合韵律算法和网络模型,解决噪声、机械感强等问题。

2019年7月,深声科技在Blizzard Challenge 2019国际语音合成大赛中获得亚军。Blizzard Challenge国际语音合成大赛由美国卡耐基-梅隆大学(Carnegie Mellon University)、日本名古屋工业大学等联合发起,是当今国际上规模最大、影响力最大的语音合成大赛。

基于语音合成技术,深声科技还有声音定制和声音克隆这两大产品。声音定制主要面向大型企业,为企业制作代表其品牌形象的声音。声音克隆则主要面向广大C端用户,以儿童教育场景为例,通过录制父母或老师的声音生成儿童读物。

与股东方小米的合作

深声科技曾获小米数千万元天使轮投资。一年多以来,深声科技依托小爱同学,为小米提供语音合成、数据制作和人机交互等方面的服务。据了解,预计在12月下旬,深声科技与小米在数字阅读以及智能音箱方面合作的具体功能将上线。

至今,深声科技已与20多家企业达成合作,客户包括小米、金山、中科院等。深声与金山的合作主要体现在WPS文字转语音、优化金山词霸翻译语音体验等。未来,深声科技或将围绕小米生态链的企业开展更多合作。

团队情况

目前深声科技团队规模为50多人,其中75%为技术人员,15%为数据团队。创始人及CEO周俊明为中科院计算技术研究所计算机博士,曾就职于腾讯、欢聚时代,团队其他成员来自中科院、中山大学、华南理工、日本早稻田大学等院校。

深声科技或将在2020年初完成Pre-A轮融资,之后将加快技术研发,预计明年年初上线语音识别功能,加入方言语音合成选项,同时将围绕更多行业细分场景推出解决方案。

图片来源:Pixabey

音频来源:深声科技

相关推荐

输出语音合成技术,「深声科技」已在有声读物等领域完成商业化落地
新科技创业2019 | 研发神经网络合成加速技术降低60%成本,「激浊扬清」有声读物合成方向加速商业化
融资合伙人入围项目 | 研发新型合成技术,「随身听」瞄准有声读物的语音合成
提升音频制作效率和效果,「倒映有声科技」推出有声读物制作平台“书映”
首发 |「融资合伙人」计划 —— 新科技赛道项目合辑
创投日报 | 「寓乐湾」完成 C+ 轮融资,「乐森机器人」获1亿元A轮融资,以及今天值得关注的早期项目
从不温不火到炙手可热:语音识别技术简史
36氪首发|提供全场景的语音前端处理方案,「声加科技」获数千万元Pre-A轮融资
36氪首发 |「声智科技」获B+轮融资,加速“远场语音交互”和人工智能操作系统的应用落地
科技战“疫”:智能语音电梯来了,疫情加速AI场景落地

网址: 输出语音合成技术,「深声科技」已在有声读物等领域完成商业化落地 http://m.xishuta.com/zhidaoview4985.html

所属分类:商业市场