文 | 郑灿城
编辑 | 高雅
36氪获悉,文本智能处理与办公智能应用供应商「达观数据」已于近日完成5.8亿元C轮融资,本轮投资方包括中信证券、招商证券、广发证券和中信建投四家证券集团,以及深创投、襄禾资本、弘卓资本、尚珹资本、众麟资本、联想之星、阳光保险集团等。融资资金将主要用于研发NLP、RPA、OCR等核心产品和开拓下游产业应用。
「达观数据」成立于2015年,是36氪长期跟踪报道的公司,其核心产品是开发了首个支持各类国产操作系统的跨平台智能办公机器人,可以简单理解为以文本智能化处理技术为突破口、在自主研发国内首套从事复杂文本智能化处理的IDPS技术平台的底层架构下,实现用计算机代替白领处理办公文字的目的。办公文字处理包括读文字、理解文字和写文字三个过程,「达观数据」提供的服务可以完成上述全部工作。
具有「达观」色彩的是将NLP和RPA相结合。陈运文向36氪解释,日常工作可以大致分为三类,分别是相对简单的机械重复工作,如财务报表核对;还有带有一定业务逻辑和业务知识的工作,如招股书审核等,相对更复杂;第三类是难度更大的文字写作工作,如公文写作等。
简单的流程性工作可由RPA模仿,而更复杂的工作就需要NLP技术在其中发挥作用。如果把RPA比作是人的手,那么NLP就像是智能分析的大脑,手和大脑相互配合,才能使智能办公机器人在多场景下完成专业、复杂的工作事务。
「达观数据」供图
和人相比,NLP和RPA相结合的数字员工具有三大优势。一是更有高准确率和稳定性,也就是数字员工背后的系统运作,能够高水平输出工作成果,这填补了人受到技能掌握、工作经验和工作状态等限制,难以持续稳定输出高标准工作产出的空白。
二是数字员工可以在不断训练的情况下,强化自身工作能力。数字员工在不断加强智能化系统的训练,在训练集(样本数据)越来越多时,数字员工也能进一步提升自身的工作能力。
三是数字员工不会遗忘信息,可永久保留工作能力。如果缺少重复巩固,一名娴熟的业务员可能在一定时间后变得生疏,而计算机一旦熟悉数据库,就永远不会忘记。
这将是对工作方式的变革,人和数字人结合的方式,或许是未来普遍的工作状态。那么,未来的工作场景中,人将主要负责更高级的决策性工作,而细枝末节的工作交给数字员工完成。
例如,当人们需要起草一份报告的时候,人只需要写一份梗概,数字员工就能自动生成报告;再如,人们审核文档的时候只需要关注几个重要的部分,大量的细节交由数字化员工完成。
可以在「达观」的身上看到多个“唯一”,比如业内唯一具有文本标注训练平台的通用软件产品;唯一自主开发OCR(光学字符识别)模块;唯一一款脱离微软.NET框架、拥有完全独立知识产权的RPA产品,可跨平台解决复杂问题等等,团队的技术底色让「达观」得以成为唯一的「达观」。
首先,「达观数据」的员工来自国内专门从事文档资料智能化处理的技术团队,如百度、盛大文学、腾讯等,一直从事NLP技术研发工作;另一方面,「达观数据」通过专家标记,积累了海量高质量训练样本,这些数据是算法学习的绝佳材料。
其次,就技术层面的突破来看,「达观数据」在过去几年和包括北大、复旦在内的国内多所顶尖高效合作,建立了联合实验室和课题攻关组,也技术性理论研究上做出进展。这与学术界在自然语言处理方面的前进几乎同步调,中文预训练模型、transformer模型的提出都将深度神经网络技术推向了一个新的台阶。
此外,「达观数据」自研的OCR技术相当于人的眼睛,能够将文字资料转化成计算机能够读懂的数据。对于一些以图片的形式存在的数据,如扫描文档、发票、卡证和验证码等,OCR和NLP的结合能够对复杂表格进行结构识别和理解。
「达观数据」供图
更重要的是,场景落地往往是技术走向商业化的关键一步,这一点对于人工智能等新兴技术来说尤为凸显。
在面对每个新的行业时,人工智能都需要学习该行业的专业知识,正如术业有专攻,各行各业都有自己的特点。因此,为了让算法适应不同行业,强化对不同行业的理解,「达观数据」创建了行业知识图谱(Knowledge Graph)。
通过对知识图谱的不断完善,解决了深度学习可解释性差的问题,能够帮助算法工程师基于行业理解调整优化模型参数。“这样才能读书破万卷,下笔如有神。”「达观数据」创始人陈运文向36氪表示。
目前,「达观数据」业务已经覆盖金融、制造、传媒、物流、能源、零售、政府、医药等多个行业。正如活字印刷术为各行各业带来的效率革命,智能文本处理技术也将改变白领们的工作方式。陈运文向36氪表示,10年之内,50%的日常文档处理工作将由计算机完成。
同时,广泛应用场景也为智能办公机器人创造着数千亿规模的市场空间,按照公开资料数据,中国3700万白领、600万公务员等群体均对与数字人结合的新工作方式存在需求。
未来,「达观数据」希望能够继续巩固其底层技术能力,攻克技术难关,训练出更加“聪明”的智能文本处理系统;同时,还将持续扩大在已有行业的市场占有率,并将其已验证模式复制到教育、医疗和制造业等新领域。
团队方面,创始人&CEO陈运文博士毕业于复旦大学计算机系,曾任职百度、盛大、腾讯首席数据官,为知名学会ACM、IEEE、CCF高级会员;首席技术执行官纪达麒曾担任盛大文学技术总监,搜狗广告系统高级研发工程师,百度工程师等职务;技术副总裁兼联合创始人桂洪冠,曾在腾讯文学、阿里巴巴、新浪微博等知名企业担任数据挖掘高级技术管理工作;
联合创始人高翔曾任腾讯文学文本挖掘技术负责人,盛大创新院算法专家,擅长自然语言处理、文档智能处理等产品技术研发,拥有多项国家发明专利和科技成果转化奖项;联合创始人纪传俊曾任原盛大创新院AI系统主管,盛大文学数据中心主管。
相关推荐
36氪独家 | 「达观数据」获C轮5.8亿融资,打造NLP、OCR和RPA结合的智能办公机器人
专注 NLP+RPA+OCR,「达观数据」发布新产品“智能文本 RPA ”
达观数据陈运文:智能化办公机器人的未来与应用
36氪首发 | 「达观数据」获深创投领投2.7亿元B+轮融资,持续拓展AI+RPA产品落地
36氪首发 |「壹沓科技」完成2亿元A+轮融资,构建面向未来的数字智能企业
36氪首发 | 2019年回款增长四倍,「来也科技」完成C轮4200万美元融资
RPA:两个故事和中国争夺战
蹿红的RPA赛道,正成为巨头和创业者围猎的百亿美元新机会
爆火RPA的未来之路
36氪首发 | 智能RPA平台「云扩科技」获千万美元A轮融资,金沙江创投、明势资本投资
网址: 36氪独家 | 「达观数据」获C轮5.8亿融资,打造NLP、OCR和RPA结合的智能办公机器人 http://m.xishuta.com/newsview60159.html