光学字符辨认(OCR)或将手写或印刷文本的图画转换为机器可读文本的技能,可以追溯到70年代初。可是算法长期以来一向尽力找出与水平面不平行的字符,这便是为什么亚马逊的研讨人员开发了他们称为TextTubes的原因。它们是天然图画中曲折文本的检测器,可将所述文本建模为环绕其中心(中心)轴的管状。在描绘其作业的论文中,合著者宣称,他们的办法在盛行的OCR基准上到达了最新的成果。

亚马逊科迪乳业股票股吧研究人员使用AI改善对弯曲文本的识别

正如研讨人员所解说的那样,场景文本一般分为两个接连的使命:文本检测和文本辨认。第一个触及运用上下文头绪来定位字符,单词和行,而第二个意图是转录其内容。两者说起来简单做起来难–户外文本不只遭到变形的影响,还遭到角度改变和恣意字体的影响。

团队的解决方案是运用文本参阅结构的“管状”表明方式来捕获大多数可变性,一起运用方针文本一般是巨细类似的字符串联而成的现实。与传统的运用易于堆叠且简单发生噪声的矩形和四边形来捕获文本信息的办法相反,它被公式化为一种数学功用,可以练习机器学习场景文本检测器。

研讨人员评价了TextTubes在CTW-1500上的功能,该数据集由从天然场景和图画库中搜集的1,500张图画,超越10,000个文本实例(每个图画至少一个曲折实例)组成,并在Total-Text进步行了评价,Total-Text包括大约1,255次练习图画和300个测验图画以及一个或多个曲折文本实例。他们陈述说,他们在CTW-1500上以83.65%的准确度取得了职业抢先的成果,而最接近的办法的准确度为75.6%。

该论文的合著者写道:“对实例的中心轴和均匀半径进行建模……可以捕获有关实例全体的信息。” “在包括单个单词的数据集(例如Total-Text)上,咱们的模型可以完成最新的功能。在具有行级注释的数据集(例如CTW-1500)上,咱们的模型可以更好地捕获实例中各个单词的文本信息。”

假设有一天TextTubes投入生产,关于高度依靠OCR开展业务的企业来说,这可能是一个福音。据估计,纸张仍占80%以上的数字流程;大约97%的小企业仍运用纸质支票。依据大观研讨公司(Grand View Research)的数据,这或许便是为什么到2025年OCR解决方案市场规模将到达133.8亿美元的原因。