CCIG2022|OCR下一站去哪?合合信息智能文字识别技术描绘全景未来
近期,2022中国图象图形大会(CCIG 2022)在成都圆满落幕。本次大会由中国科学技术协会指导,中国图象图形学学会主办,四川大学承办,电子科技大学协办,汇聚了潘云鹤院士、郑南宁院士、高文院士、戴琼海院士、王耀南院士、乔红院士等百余位国内知名学者,以及来自百度、华为、OPPO、合合信息等企业的技术专家,共话图像图形学术研究与技术创新趋势,共谋行业新发展,参会人数突破1500人。
大会采用主旨报告与主题/特色论坛的方式进行。其中,在主旨报告环节里,中国工程院院士、浙江大学教授潘云鹤院士介绍了视觉知识与视觉智能的相关工作,阐释了人工智能发展的过程中,视觉智能起到的重要的作用。本次大会还设置了涵盖OCR、图像理解、计算机视觉、人机交互、类脑视觉、AR/VR、三维视觉、模式识别等多个图形图像领域的学术论坛,合合信息自然语言算法研发总监丁凯博士、合合信息图像算法研发总监郭丰俊博士受邀参与《OCR前沿技术与产业应用》等论坛,同来自中科院、北京大学、华中科技大学、联想研究院、腾讯优图实验室等顶尖学术机构、高校与企业的研究人员们一道,分享OCR领域的前沿进展及技术规模化应用情况。
丁凯博士于CCIG学术论坛上分享智能图像处理技术
丁凯博士认为,尽管OCR技术已走过一个世纪的发展,现今仍存在文档图像质量退化严重、文字检测及版面分析困难、非限定条件文字识别率低、结构化智能理解能力差等亟待解决的问题。OCR技术的进阶之路上,文档图像质量的增强是重要的研究方向,需克服页面弯曲、阴影遮挡、摩尔纹、图片模糊等现代文本图像处理中常见的干扰状况。通过引入AI(人工智能)技术,合合信息智能文字识别及图像处理技术能够帮助各应用领域简化下游文档处理任务,提升文字识别效率与准确性。
以弯曲矫正为例,丁凯博士介绍了基于文本行线拟合和坐标变换、基于文本行线优化矫正的方法原理和优缺点,并提到合合信息采用的基于位移场网络学习的方法的系统架构,可有效解决多种弯曲文档图像的矫正问题。除此之外,在教育领域,合合信息“字迹擦除”技术融合了内容切分、手写字迹分离网络、文档质量增强技术,对复杂场景进行准确处理,实现作业及试卷笔记“一键擦除”。
“字迹擦除”功能演示:布满字迹的试卷(左)与“擦除字迹”后的试卷(右)
另外一方面,文档数字化流程的建立是加速企业数字化转型的关键,也是技术落地中的痛点。为了更好地解决不同业务中存在的文档版式繁杂、训练样本匮乏、模型定制化调优周期长且效率低的问题,合合信息推出了TextIn Studio智能文字识别训练平台,可将底层资源、数据、模型训练、集成部署和服务管理应用多个模块整合在一起,针对性解决各项问题的同时,建立业务流程之间的闭环,实现模型自动化训练和部署。
TextIn Studio生产出了大量不同场景的文档数字化模型,涉及近百种文档图像预处理、文字识别与理解、文档格式转换等方面的服务,较为全面地覆盖了企业和个人工作生活相关的文档类型。合合信息通过TextIn小程序发起了针对高校研究者群体需求发起的限时体验活动,即高校的老师和学生注册并绑定带有“edu”后缀的教育邮箱后,每人一年可免费获得100万次的OCR服务。“希望这个活动能够进一步推动OCR领域产业界和学术界的合作,支持开发者们以更低的门槛接触到相关技术,从而研发更多有价值的应用,推动领域更好地发展。”丁凯博士说。
目前,合合信息相关智能文字识别及图像处理技术已被应用于公司旗下扫描全能王等C端APP中及行业解决方案中,辐射全球百余个国家和地区的亿级用户。据悉,“字迹擦除”功能已接入华为PixLab V1彩色喷墨多功能打印机。相关技术还在国际顶会ICPR、ICFHR等十余项竞赛中获得冠军,并于CVPR、AAAI、ACL、ACM MM等国际顶会上发表。
合合信息参赛队伍获第三届CSIG图像图形挑战赛总决赛冠军
大会还举行了第三届CSIG图像图形挑战赛总决赛颁奖仪式。CSIG图像图形挑战赛旨在促进我国图像图形技术及相关产业的发展和应用,解决企业面临的技术难题,帮助企业引入更多的优秀人才。本次大赛吸引了来自高校、科研机构、企业的上百支参赛队伍参与。凭借在视觉关键信息理解层面的算法优势与多语言票据识别场景的实践沉淀,合合信息与高校及企业生态伙伴组成的参赛队伍继获得“中英文购物小票信息理解赛道”单项冠军后,通过终轮现场比拼,荣获CSIG图像图形技术挑战赛总冠军。
——————————————————————————————————————————
关于中国图象图形学学会:
中国图象图形学学会成立于1990年,是经国家民政部批准成立的国家一级学会,由中国从事图像图形学基础理论与应用研究,软、硬件技术开发及应用推广的专家学者和相关科技工作者组成。
关于合合信息:
合合信息是一家人工智能及大数据科技企业,专注于智能文档图像处理、复杂场景文档识别等智能文字识别技术研究。从2006年创立至今,坚持深耕智能文字识别应用及商业大数据核心技术领域,通过C端、B端产品以及行业解决方案,为全球百余个国家和地区的亿级用户,银行、证券、保险、制造等近30个行业的企业客户提供创新的数字化、智能化服务。