近年来,语音合成技术正越来越多地应用在地图导航、新闻资讯、音频读物等领域。
36氪曾报道过的“随身听”就是其中一家以语音合成技术为核心的创业公司。该公司曾于2018年6月宣布获得远望资本的数百万元人民币天使轮融资,最初对自己的定位是“语音新闻聚合推荐平台”。但该公司创始人兼CEO汤巍敏告诉36氪,为了规避新闻资讯审核的政策风险、快速积累内容,随身听目前的主要业务为:短期内,给第三方做有声书的合成,长期来看,要运营合成有声书的版权。
谈及为何入局有声书语音合成领域,汤巍敏表示,目前,喜马拉雅FM、蜻蜓FM等有声读物平台的头部内容录制质量较高,但长尾内容的录制质量远不如语音合成的效果,其音色也不如语音合成多元。而他们做的语音合成产品分为两种,第一是摘要合成,第二是全文合成,用户可以先听摘要,如果感兴趣,再听全文。
汤巍敏称,在语音合成领域,有多种技术路线,包括传统的拼接技术、参数合成技术,但此二者都遇到了瓶颈。而随身听采用的波形合成技术可以提升时间效率、减除对GPU的依赖、减少60%以上的经济成本。
目前,随身听以B端服务为主,后期会面向C端客户提供合成有声读物。其B端客户包括中国图书进出口集团(有声读物)、人民日报社(新闻技术服务)。
该公司创始团队曾获得百度hackathon大赛黑马奖,其核心技术骨干来自硅谷音视频技术公司OpenTv。
36氪获悉,语音新闻聚合推荐平台“随身听”已完成数百万元人民币天使轮融资,由远望资本投资。本轮融资将主要用于团队扩充和内容丰富。团队希望在短期内优化机器生产的内容质量,丰富内容品类。长期目标是做内容分发平台,接入更多第三方内容。
“随身听”是一个语音新闻聚合推荐平台,团队以自研的舆论预测算法和文章摘要抽取算法,为人工智能语音交互平台客户及个人用户提供语音资讯服务。
“随身听”更像是一个利用机器提升内容生产效率的内容生产者。“随身听”的内容并非来自于网络抓取,而是通过算法自动生成。这使得公司在未来不会面临版权问题。
要做到这一点,主要利用了网络爬虫技术、数据清洗、知识图谱、自然语言处理等相关技术。具体来说,通过网络爬虫模块,每天大概爬取到2-3万条全国各地的新闻资讯及相关平台、作者、评论信息,并对这些内容进行关键信息提取构建信息图谱,去重,过滤敏感信息和谣言,并进行排序;分析文本中的句子的重要性,进行抽取,确定时间、地点、人物、事件等基本信息,生成摘要;并通过语音合成生成语音内容。
一般来说,只有头部内容才能获得更多的关注。这方面,团队通过技术实现新闻热度预测。团队通过抓取阅读、评论、转发等用户行为数据及其变化趋势,和平台本身发布、置顶、推送、下线等行为动作,通过机器学习建模,实现对新闻热度的预测。目前,针对头部内容团队会进行人工录制。
在国内,内容的审核必不可少。目前团队主要通过人工来完成。一方面,新闻编辑员对自动抽取内容的评估和修改,同时修改内容反馈抽取模型和热度预测模型,训练模型参数。另一方面,新闻审核员会负责审核新闻的内容质量和政治脱敏,屏蔽风险。
目前,“随身听”的产品主要以语音内容的形式对外提供。这意味着团队在技术上还需要解决语音合成技术,从而降低内容生产成本。团队表示,目前团队已经积累了很多新闻主播的新闻播音数据,并标注后做新闻播报领域的专业TTS库,比现在开放的通用TTS效果好。现阶段,“随身听”的头部新闻也采用人工录制,长尾新闻采用TTS合成。
现阶段,“随身听”同时像C端、 B端提供内容资讯服务。C端方面,目前主要通过小程序、App呈现,团队表示上线一个月自然用户在5千左右。B端方面 ,以接口的形式向合作伙伴输出内容,目前已经与腾讯、小米、京东、地平线等建立合作关系,按照年费或者接口请求收费,目前公司已经实现了盈利。
此外,为了提高用户粘性,团队还通过机器学习等技术,为用户建立用户画像,首次登录给用户选择感兴趣的内容标签,系统会记录用户的对新闻类型的收听行为,详情TTS的收听情况,以及跳过或重听的行为,建立用户画像,从而筛选用户喜好的标签,筛选出用户最有可能喜爱的新闻内容。
当前,音频内容的接受程度越来越高。一方面,生活中确实存在诸如驾车、骑车、步行、家务、用餐、洗簌等不方便观看的场景;另一方面,也存在下班疲惫、年老眼衰等不愿意看或者不能看的场景,给音频内容提供了机会。而随着智能音响、无线耳机等音频终端普及,智能语音相关的巨头及初创公司之间形成竞争,音频内容的重要性也在提升。
新闻资讯类应用及服务往往门槛相对较低,且前期需要借助渠道推广,很可能面临后来者竞争。团队认为,新闻是数据驱动型项目,目前即使是渠道型的大公司,在新闻的数据化和实效性方面积累并不够强。
“随身听”的团队有10人左右的全职团队,创始团队是百度大数据的技术和腾讯产品经理的组合。创始人汤巍敏,2014年初加入百度,在百度云设备部和百度大数据部任职,有近30个中国和美国专利,在百度期间,参加百度hackathon比赛,并获得了第一名。联合创始人宋治云是前百度智能语音产品经理、腾讯AI高级产品经理。核心成员在新闻预测、个性化推荐、语音交互等方面经验丰富。
远望资本创始合伙人程浩告诉36氪,“语音交互是一个趋势,而个性化的音频新闻是建立在语音交互基础上的杀手应用,既刚需又高频,可以应用在音箱、车载以及手机上;特别是手机端还有微信小程序的红利。其次,从团队配置上看,这是一个百度大数据的技术派和腾讯AI产品经理的优秀组合。”
相关推荐
融资合伙人入围项目 | 研发新型合成技术,「随身听」瞄准有声读物的语音合成
新科技创业2019 | 研发神经网络合成加速技术降低60%成本,「激浊扬清」有声读物合成方向加速商业化
输出语音合成技术,「深声科技」已在有声读物等领域完成商业化落地
首发 |「融资合伙人」计划 —— 新科技赛道项目合辑
创投日报 | 「寓乐湾」完成 C+ 轮融资,「乐森机器人」获1亿元A轮融资,以及今天值得关注的早期项目
提升音频制作效率和效果,「倒映有声科技」推出有声读物制作平台“书映”
致力于合成生物学研发及应用,「迪赢生物」完成数千万元新一轮融资
合成生物学领域又一应用突破,「一兮生物」生物合成母乳低聚糖HMO
Nature重磅:华裔科学家成功解码脑电波,AI直接从大脑中合成语音
开发基因合成技术,Evonetix获3000万美元B轮融资
网址: 融资合伙人入围项目 | 研发新型合成技术,「随身听」瞄准有声读物的语音合成 http://m.xishuta.com/newsview5471.html