首页 > 专业知识 > 解决内容生产者的搜集事实难题,「搜信源」推出公共领域数据服务

解决内容生产者的搜集事实难题,「搜信源」推出公共领域数据服务

在疫情防控期间,媒体、研究机构等生产了大量内容,向公众提供疫情发展状况、政府防控措施、科研进展等重要信息。要做到这些并不简单,以报道和科研均需使用的国内疫情数据为例,在疫情信息发布权下放后,更新数据需要每日收集34个省级卫健委及393个地市级卫健委网站的信息。实际上,搜集事实信息不仅是一时急需,而是内容生产者的工作日常。

36氪近期接触的「搜信源」是一家提供公共领域信息收集解决方案的企业,主要面向媒体、NGO组织、律师、学者等对政府及机构的公开信息有大量需求的机构和人群,提供搜索工具和定制化的数据库产品,帮助用户提高搜索、核查事实的效率。

内容生产者甚至普通公众,都有获取公共领域信息(如政府公文、执法记录、海关数据等)的需求。《中华人民共和国政府信息公开条例》自2008年开始施行,并于2019年4月修订,但目前,政府信息公开仍有待进一步规范。据中国政法大学法治政府研究院院长王敬波的《我国政府信息公开的问题、对策与前瞻》论文所述,虽然不少地方政府网站设立了“信息公开”专栏,但进一步查看,就会发现信息含量有限,缺乏对信息的合理分类。 此外,政府数据开放程度较低,政府数据不能有效为社会所用。

不少政府网站内置检索功能不完善,而使用主流搜索引擎也难以满足需求。目前主流搜索引擎的排序规则是按照网页的重要程度排序,评价重要程度有多种算法,主要参考词频位置加权、用户访问量和浏览时间、网页超链接质量等等。此外,搜索引擎还会给广告主提供竞价排名服务,并会优先显示自己的产品系。因此,内容生产者很难在检索结果的前几页里快速找到所需信息。

以将公开信息作为素材使用的自媒体行业为例,据网易见外发布的《自媒体行业现状研究与未来趋势分析》,逾65%的自媒体人表示素材搜集是整个创作流程中较为费时费力的环节,超七成受访者表示素材搜集时间在2小时以上,部分素材需要6小时以上。从业者主要通过主流搜索引擎和垂直媒体搜集素材,但现有搜索方式无法区分庞杂信息、定位有效素材,缺少专业性强的素材聚合搜索渠道,素材搜集成为其核心痛点。

不同于主流搜索引擎,搜信源的检索结果排序依据的是对原始信源的筛选以及内容相关度的判断,并可按照信源种类、内容分类、时间范围等对检索结果进行过滤。此外,检索结果的条目会给出信源、内容、时间等信息,方便使用者多角度判断信源。

搜信源创始人冯欣解释这一产品设计的逻辑称,高质量的信源应当是多元的、独立的、一手的、权威专业的、可以被交叉佐证的,而信源的质量直接影响着获取事实的可能性。因此,在产品设计上,搜信源搜索工具的强项在于,能够快速聚合与过滤政府、机构、学术领域的公开信息与开放资源。

目前,搜信源上线的是公测1.0版本,收录了国家机关、非营利性组织、国际组织、新闻媒体、学术机构等八个种类信源发布的超一千万条公开信息,来自国家机关的信息占大多数。

解决内容生产者的搜集事实难题,「搜信源」推出公共领域数据服务

除免费使用的搜索工具之外,搜信源还面向个人和企业用户提供付费的数据解决方案,包括数据深加工、定制数据库集等服务。不同于市场上常见的垂直领域的数据库,如经济、法律类别的数据库,搜信源的定位是提供公共领域公开信息的数据产品,这一领域需求巨大但市场仍是空白。

在市场规模测算上,仅就传媒行业而言,根据公开数据,2018年中国有300万自媒体从业人员,20余万持有新闻记者证采编人员,超2200家报纸、综合性期刊,超2600家广播电视机构,以及超900家新闻网站。结合中国传媒行业细分市场收入来看,冯欣判断这一市场规模在百亿级别。

要进入市场,提供公共领域公开信息服务,难点主要在于如何从海量公开信息中判断哪些数据是用户真正需要的,并且需要将大量非结构化数据处理成可直接使用的结构化数据。搜信源的解决方式是,在前期进行大量的用户访谈,调研用户的真实需求;通过技术手段和人工处理结合的方式,提取图片、文本、文档等非结构化数据,向付费用户提供经过深加工的数据。

解决内容生产者的搜集事实难题,「搜信源」推出公共领域数据服务

在团队方面,核心团队有三人。搜信源创始人冯欣是一位资深记者,曾任职于中国国际电视台CGTN和《中国⽇报》。2017年冯欣离职央视,获得约翰·奈特新闻基金会奖学金,赴斯坦福大学访学,进行项目孵化,回国后创立了搜信源。技术团队负责人为中公教育人工智能研究院院长刘立东,曾就职于中国日报社和中国建设银行广开研发中心,从事新闻大数据汇总和建行手机银行客户端的研发。产品顾问冯小平是一位连续创业者,清华⼤学计算机系硕⼠毕业后加⼊创新⼯场的创业项⽬,之后在教育类NGO从事技术研发帮助偏远地区提⾼教育⽔平,曾独⽴创业开发机器学习算法服务获取数百万融资。

目前,搜信源正在寻求天使轮融资,资金将主要用于研发和运营。

相关推荐

解决内容生产者的搜集事实难题,「搜信源」推出公共领域数据服务
创投日报 | 「唯捷城配」完成1亿元B+轮融资;「亚虹医药」获数亿元C轮融资,以及今天值得关注的早期项目
内容生产者启示录:现代人,有逃避阅读新闻的10000种理由
知识付费行业热度攀升,行业乱象、变现难题待解
Facebook、YouTube都会遇到的内容审核难题,今日头条是怎么解决的?
“后真相”时代的事实核查新闻:发展与局限
新冠疫情的背后:重估搜索价值
为什么经过思考的新闻不会“反转”?
瞄准5G室分千亿市场,「唯得科技」为运营商解决成本难题
快手百度投资半年后,知乎的难题解开了吗?

网址: 解决内容生产者的搜集事实难题,「搜信源」推出公共领域数据服务 http://m.xishuta.com/zhidaoview7874.html

所属分类:创业投资