多模态能力中的理解能力,其实比生成能力更重要。
文|《中国企业家》记者 闫俊文
编辑|李薇
头图来源|受访者
谁是AI界的余承东,敢说敢干,贴着技术最领先的公司打仗?刘庆峰显然算一个。
20多年前,刘庆峰和科大讯飞的对手是微软、百度等大公司,战场是智能语音;现在,刘庆峰的目光跨越两万公里的太平洋,他只有一个态度:贴着硅谷一家名为OpenAI的公司打仗。
“GPT-5一出来,我们有可能跟它又有点差距了,但我们还在迎头赶上,我们知道怎么做。”今年全国两会期间,全国人大代表、科大讯飞董事长刘庆峰接受《中国企业家》独家专访时说。
科大讯飞的作战图是这样的:2023年5月,科大讯飞发布星火认知大模型;6月9日,突破开放式问答,多轮对话能力和数学能力再升级;8月15日,突破代码能力,多模态交互再升级;10月24日,通用模型对标2022年11月发布的ChatGPT(GPT3.5),中文能力实现超越ChatGPT,英文能力与ChatGPT相当;到了今年1月,星火认知大模型的数学、语言理解、语音交互能力都超过了GPT-4 Turbo,代码和多模态理解能力也达到了GPT-4 Turbo的九成。
“6个月内,我们可以达到现在全世界最好的GPT-4最优的水平。”刘庆峰说。
OpenAI最新推出的Sora,被称为“世界模拟器”,被认为颠覆了现实与虚拟的界限。但不同于OpenAI在技术上的“花活”,刘庆峰是一个坚定的务实主义者。
来源:受访者
刘庆峰认为,对于大模型的多模态能力,生成视频只是娱乐,更优先级的是进入工业场景、生活场景、家庭陪伴机器人等具身智能,“大模型的多模态理解能力比多模态生成更重要”。
1月底,科大讯飞发布业绩预告,预计2023年实现归属于上市公司股东的净利润6.45亿元~7.3亿元,同比增长15%~30%,公司在人工智能通用大模型及行业大模型方面高强度投入并取得显著进展。2023年,科大讯飞的股价上涨了大约42%,截至3月7日收盘,其股价为50.27元,总市值1164亿元。
以下为刘庆峰采访内容实录(有删减):
刘庆峰:第一,通过人工智能对现有的产业,以“人工智能+”的行动来进行全面赋能。由于这一次以大模型为代表的通用人工智能的发展,它在文本生成、知识问答、逻辑推理、数学能力、代码能力、多模态能力等方面都有非常强的提升。
所以它可以改变信息生成的方式,改变知识生成的方式,改变人机交互的方式,改变科研范式和代码编程这些产业的效率,会彻底颠覆现代以人力和市场为主要形式的商业模式。
人工智能本身就会为传统产业以及各产业在升级过程中,带来全新的新质生产力价值环节的提升。
第二,人工智能可以创造更多的全新的产品和业态,可以带来未来全新的发展机会。举个例子,当我们的(机器)翻译技术没有超过人工之前,翻译机是很难普及的,可是随着技术进步,现在伴随出境游客变多,我们的翻译机销量大增。它不仅仅是一个中英翻译,它有80多个翻译语种,覆盖全世界200多个国家和地区,这些技术都带来了全新的成长。
类似翻译机这样,人工智能创造了很多全新的产品形态,比如医疗方面,有了银发关怀、家庭医生随访、慢病管理、院后随访等,很多原来没有的服务形态,现在通过人工智能技术一把创造出来了。
刘庆峰:我觉得基本逻辑是这样的:ChatGPT让人看到,用户是愿意为好技术买单的。
OpenAI通过技术,一开始有用户因为好奇心买单,但是我们可以看到更多的是实用主义来买单。
2023年五六月份,ChatGPT的活跃度一度有所下滑,但到9月、10月的时候又重新上来了。最早大家是因为好奇,但实际上它有很多方面做不好的地方,比如有时一本正经地胡说八道,也有很多错误。
从我们既有代码能力来看,它可以通过谷歌二级程序员测试,可是用我们现在给的代码测试集,在真实场景下,GPT得分只有62分,GPT-4是71分,现在我们科大讯飞已经做到68、69分了,所以很多人在用的时候会一开始极度兴奋,但在使用过程中也会出现一些失望。
这就跟Gartner曲线(描述技术发展周期的专业图表)一样,总有一个概念爆发的梦幻期,然后到泡沫破灭。但它不是真的破灭,是有很多人带着过度乐观、过度神化的角度看到没有那么好,又开始理性,理性之后再慢慢坚持下来,又会出现持续增长,进入推动社会进步的阶段。
这一次我们看到大模型的进程非常快。从讯飞星火也能看到,现在我们有将近3000万用户,他们使用最多的不是周末而是工作日,不是晚上而是白天,上午9:30、下午3:30是高峰期,因为它提升了你的工作效率,带来了很多刚需应用上的提高。
所以通用人工智能表现出的特点是一个技术的进步,一个专门的技术应用就可以获得VIP用户的付费,可以形成一个产业生态。
但我觉得更大的赋能肯定还是在各个行业领域的最终落地,体现在最后的具体产品、系统和服务上面,这才是更主流的。
讯飞星火在2023年5月6号推出来之后,短短半年多时间已经有40多万个开发者团队,而且在我们整个AI开放平台上,2023年一年新增了200多万个开发者团队,大家在各个领域用它来创造新的产品。
刘庆峰:大家对Sora过度神化了。实际上,它的底层能力还是GPT-4。没有GPT-4的语义理解能力、文本生成能力,Sora是没法做出来的。
在基本能力之上,OpenAI做了语音大模型Whisper,做了视频理解大模型GPT-4V,实际上因为有了GPT-4的底层能力和GPT-4V来帮助做标注,因为很多的视频原来靠人去标注,一帧画面,你要花很长时间才把所有细节都写清楚。
举个例子,迪士尼动画片《白雪公主》画了好几年,因为你要把它一帧帧的所有细节都描述出来,靠人难度太大。GPT-4会帮助人标注,使得数据标注这件工作能够快速启动,从而使得大模型可以训练,然后用传统的常规图像生成方式结合Transformer的架构,就是现在我们看到的Sora。
来源:Sora演示视频截图
Sora并未让大模型应用对真实世界理解又上了个大台阶,也不是对物理的认知又上了个台阶,本质是GPT-4的底层能力在这个领域的一个成功实践。
刘庆峰:讯飞星火3.5现在已经超过GPT-3.5了,我们正在对标GPT-4,半年内,我们能够达到现在GPT-4最好的水平。
当然,GPT-5一出来,我们有可能跟它又有点差距了,但我们还在迎头赶上,我们知道怎么做。我们本来计划是星火对标GPT-4Turbo,然后年内会出GPT-4V,现在Sora出来,大家有很多需求,有可能我们会把GPT-4V的进度往前提,然后再做Sora。
从本质上来说,我们和OpenAI没有代际差距,只是我们的算力、我们的数据资源优先往哪边放的问题。我们也有类似的计划(推出Sora),但这个计划要排在通用大模型后面一点。
在我看来,对千行百业的赋能,大模型多模态能力中的多模态理解能力,其实比多模态生成更重要,它会对工业场景,对生活场景,对家庭陪伴机器人,对具身智能有巨大的推动。
生成视频还只是对娱乐,对媒体(赋能)。大模型的多模态识别才是对千行百业深度赋能,这个我们排在更优先级,而且我们现在在国内更加领先了。
刘庆峰:我们跟华为通过软硬件深度联手,2023年10月,我们在国内推出首个万卡规模的可以训练万亿浮点参数的国产大模型“飞星一号”。
星火V3.5就是基于完全国产算力训练出来的,国产算力现在跟美国最新的算力比还有一些差距,但是通过软件和硬件的深度结合,通过网络,多卡多机联动的优势可以做适当弥补,从而使得在算力方面我们不至于被彻底卡住“脖子”。
在这个基础上,我们同样可以训练出追赶美国最好的大模型系统。通过大模型能力快速追赶的同时,我们就可以在教育、医疗、智慧城市以及工业等很多应用领域形成优势。
发布于:北京
相关推荐
独家专访科大讯飞董事长刘庆峰:追着OpenAI打仗
科大讯飞股价涨停,董事长刘庆峰称“拥抱人工智能浪潮”
科大讯飞:刘庆峰的赚钱难题
AI 公司科大讯飞董事长刘庆峰:2024年星火大模型赋能1000万硬体终端|钛媒体AGI
抵押所有股票、借20多亿增持科大讯飞,刘庆峰:我愿意冒这个险
科大讯飞吃了“审查”的亏,一天没了120亿
点燃国产大模型的“星火”!为什么是科大讯飞?
大模型混战:科大讯飞不能输的一战
科大讯飞2019年业绩创新高,补贴贡献一半净利润,董事长大额减持
左手算力、右手星火,科大讯飞加速大模型落地应用
网址: 独家专访科大讯飞董事长刘庆峰:追着OpenAI打仗 http://m.xishuta.com/newsview111077.html