作者|韦世玮
编辑|石亚琼
**
36氪获悉,近日智能声音前端处理技术与产品供应商「黄鹂智声」获得千万级人民币天使轮融资,由汇芯投资领投,深创投索斯福、源政投资跟投。这轮资金将主要用于核心技术和C端产品的研发,以面向更多应用场景,扩大市场推广。
黄鹂智声成立于2019年,聚焦于声音前端处理技术和相关产品的研发、应用和服务,通过深度学习、听觉场景分析等技术的融合,在各类噪声环境下实现声音的清晰拾取,可广泛应用于口语考试训练、直播录课、在线会议、呼叫中心、商旅通话、物流快递等场景。
实际上,黄鹂智声核心技术团队早在2005年就开始研发智能语音识别系统,为国际一线大厂提供语音拨号服务,随后团队从2007年起逐渐开拓口语测评赛道,成为国内最早一批为教育行业提供口语测评服务的厂商。
不过,团队在开发过程中发现,学生们进行口语测试时的座位是相邻的,即便是戴上耳机大声说话,也很难保证自己的声音不会被旁边的人声淹没,这就导致最终录音素材全是嘈杂的人声,不管是机器还是人工都很难做出评判。
这也是声音领域典型的“鸡尾酒会问题(cocktail party problem)”。简单来说,当许多人在同一场合下说话时,人类往往能忽略背景的其他噪音,将注意力集中于某个人的声音。但对机器来说,它很难区分环境中重叠和相互干扰的声波,难以针对某个声音信号进行有效的采集和区分处理。
因此,团队决定进一步研发声音前端处理技术,以解决强噪声环境下的语音通信和声音智能处理问题。历经十余年的技术积淀,团队成立了黄鹂智声,开拓智能声音前端处理市场。
目前,公司已相继推出G200b头戴式话筒灭噪蓝牙耳麦、G100u头戴式话筒灭噪有线耳麦、C100m耳挂式话筒灭噪有线麦克风、ENC-BOX自适应通话灭噪盒等多形态降噪耳麦及降噪盒产品。其中,G200b的环境降噪(ENC)深度超50dB,降噪后的语音质量仍十分清晰,同时该款耳麦连续听音乐时长超40h、通话时长超25h,充电10分钟可通话3h,续航优势明显。
值得注意的是,黄鹂智声的降噪技术与人们使用TWS耳机听歌、看电影时感受的“听筒端ANC主动降噪”完全不同,公司主打的是“麦克风端的ENC通话降噪”,该技术主要针对麦克风,通过算法、声学和硬件的整体配合,让麦克风只拾取使用者的声音,让通话的对方听的清清楚楚。
黄鹂智声CEO刘志告诉36氪,ENC降噪具有三大挑战:一是降噪深度与声音失真度往往成反比,如何同时保证强降噪和低失真是最大的挑战;二是噪声种类繁多,当噪声环境发生变化时,降噪都需要一个建模或适应的过程,因此降噪的稳定性和及时性也是一大难点;三是复杂的噪声环境也意味着大运算量的降噪算法和模型,要在小芯片平台上实现低功耗和高性能,才能推动降噪应用更广泛的落地。
在声音前端信号处理领域,传统的方案主要是利用噪声预测和滤波的方法将噪声信号过滤,留下部分相对清晰的语音信号,但这一方案的降噪效果非常有限,因为其主要是基于稳态噪声(如飞机、列车的发动机噪声)的假设,而忽略了真实环境中存在的大量非稳态噪声(如鞭炮声、音乐声、交通环境声等)。
为了突破传统技术的瓶颈,如今已衍生出不同的技术流派,其中基于深度学习的AI流派是目前主流的技术路径之一,其主要利用深度学习建模区分人声和非人声,再从复杂的非稳态噪声中分离与提取出清晰人声,不过这一方法也面临算法和模型复杂度高、可解释性弱的问题。
相比之下,黄鹂智声则走了一条技术融合的路径,通过将麦克风阵列、听觉场景分析、深度学习、声音建模和Gammatone滤波器组等技术融合,一体化实现噪声抑制、盲源分离、解混响、回声消除、定向拾音等效果。简单地说,即将信号处理框架整合到深度学习模型中,以数据驱动的方式共同训练参数。
该方法的好处在于,信号处理的模型复杂度低,可解释性相对更强,融合的深度学习技术保证了参数的稳健性,实时性大大增强,可实现自适应建模。同时,其通过分散建模的方式,让模型在针对不同应用场景时,能够在小资源芯片上取得接近于复杂深度模型的效果。
据第三方实验室检测,黄鹂智声降噪技术的拾音降噪性能超过40dB,有效抑制各类噪声能量高达10000倍,在各类噪声环境下的平均语音质量分达4分以上,属于最高档水平。
团队方面,目前黄鹂智声研发团队占比超60%,核心技术成员大多出身于清华大学。公司CEO刘志为清华大学工学硕士,拥有近20年智能声音领域创业创新经验,曾带领团队先后成功研发iPhone首款语音拨号软件、CET口语自动测评技术与系统等项目,拥有数十项专利。同时,公司还拥有一支市场化的产业运营团队,其销售、产品负责人来自惠普、国光电器等业内知名企业。
从行业角度看,刘志认为通话降噪是一项底层技术,可以赋能整个行业,“它主要有三个应用方向,一是人和人之间的通信,二是人机交互如语音识别、声纹识别,三是声音的物联网。”他说,但技术在朝着这些方向发展的过程中,首先面临的是市场教育的问题。
因此,黄鹂智声的商业策略是先从最能体现自身技术特点的硬件产品做起,在建立品牌认知的同时理解用户的场景和数据,拓展方案市场。基于这一商业策略,黄鹂智声形成了“产品+方案”相结合的业务模式,既在商用及民用领域提供降噪耳麦及降噪盒等硬件产品,也为消费电子、车联网、智能家居等行业及终端产品提供PCBA解决方案。
黄鹂智声自2020年4月推出首款硬件产品以来,首年度即实现千万级产品销售,客户覆盖国内外知名企业及教育机构,涉及3C、互联网、教育、办公、服务等领域。同时,公司已与多家世界500强企业开展方案合作。
刘志谈道,接下来一年,公司将进一步向海外市场和消费端拓展,推出至少一款小型化降噪耳机,并选择1-2个具有未来爆发式增长潜力的产品或应用场景进行方案拓展,“我们提供的是产品背后的价值,我们关注的是客户背后的用户,我们的使命是用声音智能改善人类生活与工作品质。”他说。
相关推荐
36氪首发|「黄鹂智声」获千万级天使轮融资,基于清华团队核心技术提供ENC通话降噪软硬件产品/解决方案
36氪首发|提供全场景的语音前端处理方案,「声加科技」获数千万元Pre-A轮融资
36氪首发|加强半导体领域合作,主动降噪解决方案提供商「安声科技」获6000万元B轮融资
36氪首发 | 发布睿企警务文本分析系统,「Rich AI睿企科技」获千万级美元天使轮融资
36氪首发|「迈宝智能」获千万级天使轮融资,外骨骼机器人如何服务于物流行业?
36氪首发|为农业领域提供AI+IoT软硬件服务「滴翠智能」完成千万级人民币Pre-A轮融资
36氪首发 |「智领云」获线性资本千万级人民币 Pre A 轮融资,为企业搭建标准数据中台
创投日报 | 空间产品运营商「Bee+」完成超亿元B2、B3轮融资,「51选校」获佳发教育千万级 A 轮融资,以及今天值得关注的早期项目
36氪首发 | 打造时空数据智能平台,「亿景智联」获第四范式领投的千万级天使轮融资
36氪首发|完成六千万元A轮融资,「谛声科技」发力企业级声学AI技术服务
网址: 36氪首发|「黄鹂智声」获千万级天使轮融资,基于清华团队核心技术提供ENC通话降噪软硬件产品/解决方案 http://m.xishuta.com/zhidaoview23952.html