about hanvon
由上海市人工智能行业协会主编、上海交通大学出版社出版的《AI加速键——上海人工智能创新发展探索与实践案例集》在世界人工智能大会上首发。在案例集企业篇中,挑选了在上海开展人工智能业务的15家卓越企业,从基本情况、创新创造、创新动能、应用场景四个方面进行阐述。汉王科技新一代人工智能档案大数据处理平台作为人工智能企业典型案例入选。
该书归纳总结了“十三五”期间上海人工智能产业发展和赋能城市数字化转型的成果,以案例形式,从基础创新、产业落地、防疫抗疫、应用场景等多个方面展现上海人工智能发展情况。这是一份地区发展人工智能产业的“建议书”,也是企业人工智能商业落地的“指导手册”。
新一代人工智能档案大数据处理平台
一、创新创造
汉王科技推出的新一代人工智能档案大数据处理平台,重点包含档案高精度全文识别,档案数据结构化抽取等。该平台的模式创新和关键点就是AI替代人工,将原本需要100个人做2年的工作,减少为10个人做半年。
新一代人工智能档案大数据处理平台利用AI深度学习、模式识别及NLP,基于云计算架构面向政企提供智能图文服务。该平台集成全文识别、表格识别、卡证识别、版式分析、图像识别五大核心,作为数据分析及利用的前提条件,为纸质数据的形态转换提供了有力的技术能力支撑,深度赋能业务场景与数据价值挖掘。同时,该平台使用基于微服务的架构模式,支持内网快速私有化部署,为用户构建私有识别云平台,该平台支持多种常见标准卡证票据识别及结构化提取。
二、创新动能
新一代人工智能档案大数据处理平台基于全卷积神经网络(FCN)提取特征序列,实现全局特征与局部特征联合,可以较好地解决版式复杂、噪声严重的档案图像文字定位与检测。该平台采用长短时循环神经网络 (LSTM)作为序列学习,嵌入时序特征,有效建模序列内部关系,解决版式复杂、噪声严重的档案图像的单字符切分与识别问题。
基于以上技术构建的OCR全文识别引擎对于任意扫描的档案图像都能够自动定位文字区域,并自动辨认文字类型(手写体或印刷体),然后准确识别文字,输出识别结果,能够在带背景噪声的情况下定位文字区域,综合大量样图进行识别。汉王科技OCR技术同时在少民族语言中广泛应用,尤其在满文、藏文等识别方面尤为突出。
三、应用场景
上海市城市建设档案馆是上海市城市建设档案的存储、利用、交流和技术咨询服务中心。目前,城市建设档案管理上存在两大问题:一是千万量级的电子档案大多是TIFF图像格式存储(或可识别但识别准确率不高),非文本化的数据也无法适应国家大数据战略的需要。二是大量电子档案中混杂密级件,对外开放查询后存在严重的泄密隐患。
针对上海市城市建设档案馆实际问题,汉王科技推出了“智能机器人解决方案”,通过新一代OCR技术获取高精度的档案全文内容,同时利用NLP技术智能分析档案的涉密情况,将密级件自动挑选出来。该解决方案已经在上海市城市建设档案馆成功实施,大幅度提升了馆方的档案信息化利用水平,缩短了整个项目的进程,为国家节省了大量资金。
面向未来,汉王科技将会在全国的档案行业进行方案推广,重点涵盖城市建设档案、综合档案、医疗档案、政法档案、户籍档案、车籍档案、人事档案、不动产登记档案、企业登记档案等细分领域。每个细分领域都是一个巨大的市场。以综合档案为例,全国4200多家综合档案馆,馆藏量巨大,大部分档案馆仅仅做了扫描工作,档案图像的利用效率非常低,急需有效的解决方案。据不完全估算,全国档案市场将会是千亿级的规模,前景广阔。