本文来自微信公众号:硅星GenAI (ID:gh_e06235300f0d),作者:Yoky,原文标题:《独家|对话夸克AI眼镜宋刚:如何把整个阿里巴巴塞进一副眼镜里?》
2025年7月26日,WAIC开幕首日,阿里把首款自研夸克AI眼镜推到了台前。硅星人在上海现场见到了这款传闻已久的设备,也见到了它的总架构师——阿里巴巴智能信息事业群智能终端业务负责人宋刚。
这位在手机行业打磨了18年的「框架师」,正把当年定义高端智能手机的经验复用到鼻梁上的新终端。
据介绍,相比传统的音乐播放、通话、翻译、会议纪要等常规AI眼镜功能,夸克AI眼镜新增了基于夸克AI能力的搜索、识别场景,能够满足通用问答、AI图像问答、百科闲聊场景下的用户需求。
更重要的是,它还通过整合阿里生态资源,带来了更多场景想象力,例如,在出行方面,夸克AI眼镜联合高德地图,打造了定制化近眼显示导航系统,为用户提供骑行、步行场景下的精准路线指引;在购物体验上,可以通过淘宝实现商品智能搜索和实时比价功能;支付场景中,联合支付宝实现AI眼镜“看一下支付”,实现真正无感又安全的支付体验;在行程服务方面,与飞猪旅行和阿里商旅合作定制了专属的行程实时动态提醒功能,让出行更加便捷高效。
这次对谈,我们把外界最关心的三个问题抛给了他:
为什么是现在?
为什么是阿里?
为什么是AI眼镜?
下文是宋刚的回答(经整理后实录),也是大厂第一次系统拆解AI眼镜从技术到产品到生态的全路径。
夸克AI眼镜最新产品细节:
在开始前,我们整理了对话中关于这款眼镜的最新产品细节,来帮助大家更好的理解。
外观:夸克AI眼镜通过定制研发双音圈大振膜小型化的扬声器、设计超窄一体化FPC,运用高折射率镜片加镀膜工艺,进一步缩小波导区域光栅面积,使得眼镜镜腿更细、镜框更窄更薄、镜片看起来更通透。其次在眼镜的鼻托和耳弯接触面采用了仿生曲面设计,实现压力均匀分布。
续航:创新换电设计,采用高通AR1旗舰芯片加低功耗的协处理器双芯设计,搭配安卓加RTOS双系统实现动态资源调度,既大幅提升了重载场景下的能效,又有效降低了待机场景下的功耗;在双电池系统上带来了创新的换电设计,通过热插拔镜腿让用户快速更换主电池;搭配一个可随身携带的耳机盒大小的换电仓,可以实现24小时续航。
拍摄和显示:自主研发了Super Raw暗光处理算法,通过RAW域多帧融合与自适应降噪,有效地抑制了暗光下的噪声,显著提升了图像信噪比。借助陀螺仪检测线性角速度,进行实时姿态运算处理,对抖动画面进行动态补偿,实现精准防抖。同时采用双光机显示设计,支持合像距可调,无论近景远景,室内室外,都可以选择最优的显示距离。
软件功能:采用5个麦克风加1个骨传导的阵列设计,即使在恶劣的噪声环境,也能精确唤醒;自研了Master Agent大模型中控系统,可以自主分解复杂指令,实现多意图、多轮对话最后答得好。在端侧采用了图像模糊检测算法,结合Super RAW降噪技术,提升了识别率和准确性;其次是响应快,通过自适应压缩算法,定制高效的意图识别模型让我们的系统端端耗时较行业优化了36%。
为什么是现在?
1、阿里入局AI眼镜的时机并不算早,市场上已经有不少玩家,为什么选择现在这个时点进入?和此前的AI眼镜有什么区别?
宋刚:我们确实不是最早的,目前这个赛道的玩家主要分三类:初创企业、手机厂商,还有像我们这样的互联网科技公司,相比其他类型,但我们有自己的判断和优势。
判断上,我们看好AI眼镜是未来继智能手机之后最重要的移动入口,它可能会成为你的另外一个眼睛和耳朵,会成为感官交互的中枢设备。在阿里AI to C的战略里面,它占据了非常重要的位置。
优势上,第一是,我们在软硬件的领域有多年的积累,尤其是在语音智能方向,团队有很多专家也是来自手机行业背景;第二是应用模型,通义千问大模型,以及我们还有夸克基于通义千问大模型研发的垂类应用模型;第三是,阿里的生态。从硬件到基础模型、应用模型到生态和用户,我们是自己能够闭环的,包括技术闭环、生态闭环、场景的闭环。比如,我们更多的会在用户的衣食住行上,做高德导航、订外卖这些生活场景,再加上夸克有AI眼镜所需要的纪要、翻译、图像问答等强大的AI能力等等。
2、夸克AI眼镜想做什么?现在市面大部分AI眼镜都不能解决刚需问题,夸克对它的产品定位是什么?是娱乐型还是工具型?
答:夸克AI眼镜的定位很明确,我们要做的是一个真正智能的助理型产品。你说得对,现在市面上的AI眼镜确实存在各种问题,要么不够智能,要么续航太短,要么佩戴不舒适,很难解决用户的刚需。这正是我们看到的机会。
我们认为眼镜有着独特的战略价值。它处于人类头部这个生态位,可以捕获80%以上的人体感知输入,这是其他设备做不到的。更重要的是,眼镜具有极强的场景穿透能力,能够同时覆盖办公、生活、移动等各种场景,这让它有可能成为下一代人机交互的'感官中枢'。
基于这个认知,我们的产品定位就很清晰了——要解决真实场景中的实用问题,而不是做一个娱乐玩具。比如走在路上看到不认识的建筑可以直接询问,购物时可以实时比价,旅行时可以即时翻译,这些都是用户的刚需场景。我们希望通过这些实用功能,让眼镜成为继智能手机后最重要的个人移动入口。
对夸克来说,继PC端和手机端之后,可能是未来想象力最大的硬件入口。这就是我们为什么要坚持做助理型产品的原因。
3、当下这个行业出现了很多难题,比如说到底是软件水平不够还是硬件算力不足限制了场景落地?阿里选择此时入局,准备从哪里作为突破点?
宋刚:我认为当下AI眼镜行业的瓶颈,既有软件层面的,也有硬件层面的,但最核心的问题其实是生态。
从硬件角度看,算力确实是个挑战。眼镜这么小的设备,要在功耗、散热、续航之间找平衡,同时还要保证足够的算力支撑AI应用,这对芯片和整机设计都提出了很高要求。我们选择了双光机加双光波导方案,虽然成本不便宜,但能够提供更好的显示效果和用户体验。
软件层面,AI能力的成熟度也在快速提升。我们现在已经实现了从文本智能到多模态融合的范式迁移,通义千问大模型加上夸克的多模态AI能力,再结合百亿级的图像检索能力,技术基础已经比较扎实了。
但我觉得最大的问题还是生态缺失。现在市面上的AI眼镜,用户买回去除了拍照、听音乐,真正的应用场景太少了。这不是硬件或者AI技术本身的问题,而是缺乏真正有价值的服务生态。
这正是我们选择此时入局的原因,也是我们的突破点。我们不是要做一个更好的硬件,而是要做一个真正有用的生态入口。
所以我们的突破点是用完整的阿里生态来解决行业最大的痛点。当眼镜真正能够融入用户的日常生活,解决实际问题时,现有硬件的一些不完美反而变得可以接受了。这是阿里和其他厂商的差异化优势。
为什么是阿里?
4、阿里在硬件制造方面并非最擅长,作为一家以软件见长的公司,团队构成和供应链布局是怎样的?如何解决从研发到量产的硬件挑战?
宋刚:这个产品有它的特殊性,因为它戴在脸上,考验的赛道跟手机还不完全一样。供应链目前重合度比较高,但往未来走,可能会形成单独的眼镜供应链。
问:哪里会出现不一样?
宋刚:AI眼镜用的光机、光波导、穿戴芯片,这些都不是手机现有的产业链。这是一个层面。
另外一个层面是跟传统眼镜品牌的设计和供应链整合。这一点对大家来说其实是在同一起跑线的。今天到底是阿里、华米OV,还是Meta,都要面临这个问题。海外Meta迈出去比较早,国内还在跟进。跟传统眼镜的整合也是非常重要的一环。
第三个层面是生态,这可能是更大的一个逻辑。目前的AI眼镜,我认为其他问题都可以搞定,但生态是目前最大的痛点。比如说手机它有安卓生态,安卓的这些应用,它可以把信息共享给手机,但是它目前还没有跟眼镜打通。但阿里自己的生态是可以打通的。像今天我发布的导航、淘宝,包括支付宝的支付,刚刚提到的点外卖、飞猪的行程提醒,我们都是内部打通的。
5、所以您的意思是,通过阿里的生态力量来牵引AI眼镜供应链进一步迭代对么?
宋刚:这个逻辑很简单——当这个行业有足够大的订单量和很明确的技术需求和趋势时,供应商就有动力去做技术突破和产能投入。阿里愿意依托我们自身的优势持续推动这个产业链的迭代成熟。
但我要强调的是,供应链成熟只能解决这个行业的一部分问题。更核心的还是生态能力的差异化。现在市面上的AI眼镜,我认为硬件问题都是可以逐步解决的,真正的瓶颈在生态。用户买了眼镜回去,除了拍照、听音乐,还能干什么?这是个大问题。
我们的优势在于有完整的服务生态。用户戴上我们的眼镜,走在路上可以用高德导航,看到商品可以用淘宝比价,出差时有飞猪的行程提醒,支付时可以直接调用支付宝。这些都是用户的高频刚需场景,不是为了眼镜而眼镜的功能。
这种生态闭环的价值,可能比硬件本身更重要。当用户真正感受到眼镜能够无缝融入他们的日常生活,解决实际问题时,这个产品才真正从一个新奇的硬件变成了不可或缺的工具。
7、您多次提到“生态”的重要性,如何构建生态?有了阿里生态之后,会给夸克AI眼镜带来哪些扩展,未来有哪些计划中的场景?
宋刚:生态确实是我们的一个优势。有了阿里生态支撑,夸克AI眼镜能够在用户的全生活场景中发挥价值。
具体来说,我们已经规划了几个核心应用场景。出行场景,用户可以直接通过眼镜使用高德导航,不用掏手机就能获得路线指引;购物场景,看到任何商品都可以通过淘宝进行实时比价,这对用户来说是非常实用的功能;支付场景,集成支付宝后可以实现更便捷的支付体验;旅行场景,飞猪旅行和阿里商旅可以提供行程提醒、酒店信息等服务。
更重要的是,这些不是孤立的功能点,而是一个完整的服务闭环,整个过程都在一个生态体系内流转,体验非常顺畅。
我们会先基于阿里的生态先打通,同时也在接入一些第三方生态,比如网易云音乐等等。今天在WAIC现场也成立了产业联盟,也会协同行业共同探讨如何让更多应用实现agent化。
为什么是AI眼镜?
8、从夸克出发,为什么要做一副AI眼镜?
宋刚:从夸克的角度来看,眼镜其实是夸克的一个新的硬件入口。现在夸克的应用大多数是在PC和移动端,但夸克功能作为个人超级助手的出发点和能力在随身穿戴场景有更多的延展空间,对夸克来说,未来眼镜也是一个重要入口,也有可能会是未来最具想象力的一个入口。
比如夸克的AI相机和扫描能力,通过眼镜可以有更多选择,用户可以选择手机还是眼镜作为主要设备。这样的协同会带来更丰富的使用体验。
当你在途旅中突然看到一个事物不知道它是什么,一个突然出现的动物、一块你不认识文字写和牌匾,你都可以问一下眼镜。它会基于夸克的图像识别和搜索能力给你答案以及更多的搜索和讲解。不需要再急忙掏出手机拍照搜索。
总之,眼镜让夸克的AI能力多了一种自然便捷的交互方式,这是我们做AI眼镜的核心逻辑。
9、仅从硬件的角度来说,硬件设计和技术上有哪些单点突破?
宋刚:我们做了双芯片双系统设计。让待机时就跑在低功耗辅芯片上,重负载场景才启动主芯片,从第一代产品就重点去解决功耗的问题。
在拍摄方面,我们做了弱光RAW域多帧降噪技术,比如地下车库扫码,在很低照度情况下也能实现识别。这在手机行业属于常规技术,但受限于算力等各种原因,目前还没有一家眼镜厂商做到。
10、AI功能上呢,AI眼镜AI在哪里?
宋刚:AI的语音交互首先你要识听得清,还要答得好。语音这一块听得清,我们依托夸克的语音大模型。我们还有Master agent的中控系统和夸克大语言模型,让他能够自然交互,比如说多轮对话,多意图的理解,有些问答是跑到大模型去,有些可能是专用的一些技能承接掉了。
这样的话让整个交互的时延,以及说问答的准确性,以及识别的精准度都会有一个全面的提升。另外,在VQA图像的问答上面,我们做了一些像图像模糊检测的算法,SuperRAW的技,提升了图像识别率和准确率。
另外,依托专克百亿级别的图像检索能力。因为专克本身就有强大的搜索能力,再结合上夸克基于千问大模型研发的夸克多模态大模型能力。两个一结合,让我们在这种图像识别、问答的场景下,无论响应时间还是回答的好,都会有非常大的价值。
相关推荐
对话夸克AI眼镜宋刚:如何把整个阿里巴巴塞进一副眼镜里?
阿里本周发布首款自研AI眼镜,整合高德支付宝淘宝
对话Even Realities王骁逸:怎么把599美元的智能眼镜卖给CEO们
对话雷鸟创新李宏伟:AI眼镜对整个AI产业发展的重要性仅次于AI本身
Rokid破圈之后,AI眼镜量产战开始打响
小米AI眼镜出圈之后:做不了最强,但可能最好卖
苹果首款智能眼镜,你期待吗?
谁在自杀式涌入AI眼镜赛道?
一副框架眼镜,一张纸,攻破19部安卓手机人脸识别
晚点独家丨AI 眼镜之战,数笔新融资进行时
网址: 对话夸克AI眼镜宋刚:如何把整个阿里巴巴塞进一副眼镜里? http://m.xishuta.com/newsview139465.html