首页 > 专业知识 > 36氪首发｜「黄鹂智声」获千万级天使轮融资，基于清华团队核心技术提供ENC通话降噪软硬件产品/解决方案

36氪首发｜「黄鹂智声」获千万级天使轮融资，基于清华团队核心技术提供ENC通话降噪软硬件产品/解决方案

晰数塔互联网快讯
2022-02-21 08:31

作者｜韦世玮

编辑｜石亚琼

36氪获悉，近日智能声音前端处理技术与产品供应商「黄鹂智声」获得千万级人民币天使轮融资，由汇芯投资领投，深创投索斯福、源政投资跟投。这轮资金将主要用于核心技术和C端产品的研发，以面向更多应用场景，扩大市场推广。

黄鹂智声成立于2019年，聚焦于声音前端处理技术和相关产品的研发、应用和服务，通过深度学习、听觉场景分析等技术的融合，在各类噪声环境下实现声音的清晰拾取，可广泛应用于口语考试训练、直播录课、在线会议、呼叫中心、商旅通话、物流快递等场景。

实际上，黄鹂智声核心技术团队早在2005年就开始研发智能语音识别系统，为国际一线大厂提供语音拨号服务，随后团队从2007年起逐渐开拓口语测评赛道，成为国内最早一批为教育行业提供口语测评服务的厂商。

不过，团队在开发过程中发现，学生们进行口语测试时的座位是相邻的，即便是戴上耳机大声说话，也很难保证自己的声音不会被旁边的人声淹没，这就导致最终录音素材全是嘈杂的人声，不管是机器还是人工都很难做出评判。

这也是声音领域典型的“鸡尾酒会问题（cocktail party problem）”。简单来说，当许多人在同一场合下说话时，人类往往能忽略背景的其他噪音，将注意力集中于某个人的声音。但对机器来说，它很难区分环境中重叠和相互干扰的声波，难以针对某个声音信号进行有效的采集和区分处理。

因此，团队决定进一步研发声音前端处理技术，以解决强噪声环境下的语音通信和声音智能处理问题。历经十余年的技术积淀，团队成立了黄鹂智声，开拓智能声音前端处理市场。

一、降噪耳麦为首推产品，走信号处理+深度学习的技术路径

目前，公司已相继推出G200b头戴式话筒灭噪蓝牙耳麦、G100u头戴式话筒灭噪有线耳麦、C100m耳挂式话筒灭噪有线麦克风、ENC-BOX自适应通话灭噪盒等多形态降噪耳麦及降噪盒产品。其中，G200b的环境降噪（ENC）深度超50dB，降噪后的语音质量仍十分清晰，同时该款耳麦连续听音乐时长超40h、通话时长超25h，充电10分钟可通话3h，续航优势明显。

值得注意的是，黄鹂智声的降噪技术与人们使用TWS耳机听歌、看电影时感受的“听筒端ANC主动降噪”完全不同，公司主打的是“麦克风端的ENC通话降噪”，该技术主要针对麦克风，通过算法、声学和硬件的整体配合，让麦克风只拾取使用者的声音，让通话的对方听的清清楚楚。

黄鹂智声CEO刘志告诉36氪，ENC降噪具有三大挑战：一是降噪深度与声音失真度往往成反比，如何同时保证强降噪和低失真是最大的挑战；二是噪声种类繁多，当噪声环境发生变化时，降噪都需要一个建模或适应的过程，因此降噪的稳定性和及时性也是一大难点；三是复杂的噪声环境也意味着大运算量的降噪算法和模型，要在小芯片平台上实现低功耗和高性能，才能推动降噪应用更广泛的落地。

在声音前端信号处理领域，传统的方案主要是利用噪声预测和滤波的方法将噪声信号过滤，留下部分相对清晰的语音信号，但这一方案的降噪效果非常有限，因为其主要是基于稳态噪声（如飞机、列车的发动机噪声）的假设，而忽略了真实环境中存在的大量非稳态噪声（如鞭炮声、音乐声、交通环境声等）。

为了突破传统技术的瓶颈，如今已衍生出不同的技术流派，其中基于深度学习的AI流派是目前主流的技术路径之一，其主要利用深度学习建模区分人声和非人声，再从复杂的非稳态噪声中分离与提取出清晰人声，不过这一方法也面临算法和模型复杂度高、可解释性弱的问题。

相比之下，黄鹂智声则走了一条技术融合的路径，通过将麦克风阵列、听觉场景分析、深度学习、声音建模和Gammatone滤波器组等技术融合，一体化实现噪声抑制、盲源分离、解混响、回声消除、定向拾音等效果。简单地说，即将信号处理框架整合到深度学习模型中，以数据驱动的方式共同训练参数。

该方法的好处在于，信号处理的模型复杂度低，可解释性相对更强，融合的深度学习技术保证了参数的稳健性，实时性大大增强，可实现自适应建模。同时，其通过分散建模的方式，让模型在针对不同应用场景时，能够在小资源芯片上取得接近于复杂深度模型的效果。

据第三方实验室检测，黄鹂智声降噪技术的拾音降噪性能超过40dB，有效抑制各类噪声能量高达10000倍，在各类噪声环境下的平均语音质量分达4分以上，属于最高档水平。

二、清华团队背景，已形成“产品+方案”业务模式

团队方面，目前黄鹂智声研发团队占比超60%，核心技术成员大多出身于清华大学。公司CEO刘志为清华大学工学硕士，拥有近20年智能声音领域创业创新经验，曾带领团队先后成功研发iPhone首款语音拨号软件、CET口语自动测评技术与系统等项目，拥有数十项专利。同时，公司还拥有一支市场化的产业运营团队，其销售、产品负责人来自惠普、国光电器等业内知名企业。

从行业角度看，刘志认为通话降噪是一项底层技术，可以赋能整个行业，“它主要有三个应用方向，一是人和人之间的通信，二是人机交互如语音识别、声纹识别，三是声音的物联网。”他说，但技术在朝着这些方向发展的过程中，首先面临的是市场教育的问题。

因此，黄鹂智声的商业策略是先从最能体现自身技术特点的硬件产品做起，在建立品牌认知的同时理解用户的场景和数据，拓展方案市场。基于这一商业策略，黄鹂智声形成了“产品+方案”相结合的业务模式，既在商用及民用领域提供降噪耳麦及降噪盒等硬件产品，也为消费电子、车联网、智能家居等行业及终端产品提供PCBA解决方案。

黄鹂智声自2020年4月推出首款硬件产品以来，首年度即实现千万级产品销售，客户覆盖国内外知名企业及教育机构，涉及3C、互联网、教育、办公、服务等领域。同时，公司已与多家世界500强企业开展方案合作。

刘志谈道，接下来一年，公司将进一步向海外市场和消费端拓展，推出至少一款小型化降噪耳机，并选择1-2个具有未来爆发式增长潜力的产品或应用场景进行方案拓展，“我们提供的是产品背后的价值，我们关注的是客户背后的用户，我们的使命是用声音智能改善人类生活与工作品质。”他说。