文 | 宋予
编辑 | 刘士武
据外媒TechCrunch报道,为大型语言模型提供企业数据预处理工具的初创公司「Unstructured」近期完成了2500万美元的A轮融资,由Madrona领投,Bain Capital Ventures、M12 Ventures、Mango Capital、MongoDB Ventures、Shield Capita和数位天使投资人跟投。
这家初创公司由Brian Raymond、Matt Robinson和Crag Wolfe三人于2022年联合创办,致力于为企业客户构建和部署自然语言处理(NLP)解决方案。
图片截自企业官网
以GPT-4为例的大型语言模型是许多人工智能应用的基石,但由于无法访问一手数据或输入专有数据,部分企业不愿采用这些模型。此外,许多数据被保存在防火墙之后,因此无法被大型语言模型所利用。为了解决上述问题,「Unstructured」构建了一个平台,让大型语言模型能够提取、整理企业数据,从而扫除技术应用的障碍。
首席执行官Brian Raymond在采访中表示:“此前在Primer AI工作时,我们一次又一次地遇到了瓶颈。我们思索着应当如何提取并预处理包含NLP数据的原始客户文件,并将其转化为经过整理的文件,以便于训练机器学习模型。没有一家数据集成或智能文档处理公司能妥善解决上述问题,因此我们决定成立一家公司,以正面应对这个技术瓶颈。”
“企业每天都会产生大量的非结构化数据,如果将这些数据与大型语言模型向结合,那么企业将能够极大地提高工作效率。然而,由于数据的分散化,当今的数据科学家仍然需要手动建立数据连接器和预处理管道。对此,「Unstructured」提供了一个全面的解决方案,用于连接、转换和暂存自然语言数据。”Raymond补充道。
「Unstructured」开发了一系列数据处理工具,以清理、转换企业数据,包括从网页中删除广告和无关数据、扫描页面并执行光学字符识别等。该公司为特定类型的PDF、HTML、Word 文档、SEC文件以及美国陆军军官评估报告开发了处理管道。
「Unstructured」从零开始训练了自有的文件转换NLP模型,并集成了其他模型,以便从原始文件中提取文本和标题、页眉、页脚等20种离散元素。该公司开发了约15个连接器,从客户关系管理软件等多个数据源提取文档。在下游,「Unstructured」与LangChain(一个用于创建大型语言模型应用程序的框架)、Weaviate和MongoDB的Atlas Vector Search等矢量数据库集成。
Raymond表示,该团队开发的数据处理工具是开源套件,已经被下载超过70万次,被100多家公司所采用。为了创造新的收入来源,该公司计划推出一个商业应用程序接口,可以转换25种不同格式的数据,包括PowerPoint和JPG等。
首席执行官Brian Raymond在加入Primer AI之前曾是美国情报界的活跃分子,曾在中东地区服役,在奥巴马政府时期在白宫任职,随后在中央情报局任职。因此,「Unstructured」与美国国防机构的关系密切。该公司已经与美国空军和美国太空部队签署多项合同,与美国特种作战司令部(SOCOM)合作,“结合任务相关数据”部署大型语言模型。此外,「Unstructured」的董事会成员还包括五角大楼联合人工智能中心主任Michael Groen,以及国防部国防创新部门的领导人Mike Brown。
该公司此前还完成了一轮未披露的种子轮融资,由Bain Capital Ventures领投。
相关推荐
海外new things|开源开发者平台初创公司「Gitpod」获2500万美元融资,用于创建云开发环境
国外创投新闻 | 美国食品科技初创「New Age Meats」A轮融资2500万美元,利用动物细胞生产培殖肉
海外new things | 客服管理平台「Assembled」B轮融资5100万美元,利用预测模型优化客服人员部署
2022年Q2海外合成生物企业融资持续,食品科技受资本青睐 | 海外new things
海外new things | 法国初创「Upway」A轮融资2500万美元,销售翻新过的二手电动自行车
海外New Things | 专注医疗设备网络安全,「MedCrypt」获2500万美元B轮融资
海外new things | 美国加州食品技术初创「Joywell Food」B轮融资2500万美元,推出6种从水果中提取的甜味蛋白
海外new things | 人工智能初创「RecoLabs」A轮融资3000万美元,防止敏感数据泄露
工业物联网公司「FogHorn」获 2500 万美元 C 轮融资,支持边缘 AI 应用开发
国外创投新闻|美国初创「Heartex」获2500万美元A轮融资,帮助数据科学家管理数据标注流程
网址: 海外new things | 美国技术初创「Unstructured」A轮融资2500万美元,为大型语言模型开发企业数据预处理工具 http://m.xishuta.com/newsview84349.html