赞华技术专家解读 | Everest发布“智能文档处理”2020巅峰矩阵,Kofax获评领导者

作者:赞华集团 软件事业部  王雄地


3月27日,Everest Group发布了2020年度 IDP(智能文档处理)领域技术供应商格局的巅峰矩阵(PEAK MATRIX),Kofax 获评领导者。


 

什么是 IDP?


所谓IDP,就是 Intelligent Document Processing,它包含几个要素:


● 从文档(如电子邮件、文本、PDF和扫描文档)中获取数据;

● 利用计算机视觉(CV)、OCR、自然语言处理(NLP)和机器/深度学习(ML/DL)等人工智能技术对相关数据进行分类和提取;

● 技术方案通常是非侵入性的,可以与内部应用程序、系统和其他自动化平台集成。


数据是最重要的资产之一,这已是企业共识了。但数据从何而来?


Document Imaging文档影像化时代


我们都知道,数据分为结构化数据和非结构化数据,其中,非结构化数据占了80%+。而在二、三十年以前,IT 基础设施尚不够完善,组织之间甚至组织内部的信息交换是通过“纸”来完成的,因此“Document Imaging”也就是“纸质文档影像化”技术就应运而生了,通过扫描技术(那时还没有高拍仪)将纸质文档生成数字化的影像,这样就能被企业信息管理系统所使用,再进一步,就是从影像中提取一些关键信息(OCR),让信息系统更方便地找到这些影像。


国内很多企业特别是金融企业建设的“影像采集平台”做的就是 Document Imaging。


Multichannel Caputer多渠道数据采集时代


客户不仅仅关心“纸质文档电子化”,同时,还想从各类已经电子化的非结构化数据比如邮件、Office文档、XML、PDF、支票中获取信息。Forrester Research 当年评测的标题最能说明问题了。



就像现在互联网行业“入口为王”一样,所有管理非结构数据的内容管理系统都需要一个强有力的数据入口,所以在 Forrester Wave上与 Kofax同台竞争并处于 Leader象限的,有3个内容管理大厂:EMC、IBM、OpenText,采集是包含在他们的内容管理产品中,而另一个独立厂商 Top Image System则在2019年被Kofax收购。


 

这个时代处理的绝大多数非结构化数据,实际上是非结构化数据中的“结构化数据”。


按照 Kofax的分类,非结构化数据分为三类:


● 结构化:有固定的模板,有固定的要素,要素位置固定,一个要素对应的数据条目数是固定的,比如快递单;

● 半结构化:有固定的模块,有固定的要素,要素位置固定,但一个要素对应的数据条目是可变的,最常见的是文档中可变条目数的表格,比如发票中的货品一栏;

● 无结构:有固定的要素,但要素无固定的位置,比如国外的发票。


当时,绝大多数产品只能处理前两类文档,Kofax虽然可以处理三类,但对“无结构文档”的处理也比较繁琐,且成本较高。


而随着移动、物联网的迅猛发展,“无结构数据”越来越多,传统技术处理起来已捉襟见肘,更多要依靠 ML/DL、NLP等新兴的 AI技术来应对,又一个新时代到来了,这就是 IDP智能数据处理时代。