手写识别(HandWriting Recognition)是指将在手写设备上书写时产生的有序轨迹信息化转化为文字的过程,实际上是手写轨迹的坐标序列到汉字的内码的一个映射过程,是人机交互最自然、最方便的手段之一。
手写识别(HandWriting Recognition)是指将在手写设备上书写时产生的有序轨迹信息化转化为文字的过程,实际上是手写轨迹的坐标序列到汉字的内码的一个映射过程,是人机交互最自然、最方便的手段之一。
随着智能手机、掌上电脑等移动信息工具的普及,手写识别技术也进入了规模应用时代。
手写识别能够使用户按照最自然、最方便的输入方式进行文字输入,易学易用,可取代键盘或者鼠标。用于手写输入的设备有许多种,比如电磁感应手写板、压感式手写板、触摸屏、触控板、超声波笔等。
手写识别属于文字识别和模式识别范畴,文字识别从识别过程来说分成脱机识别(off-line)和联机识别(on-line)两大类,从识别对象来说又分成手写体识别和印刷体识别两大类,我们常说的手写识别是指联机手写体识别。
脱机手写识别
离线手写识别涉及到将图像中的文本自动转换成是计算机可以使用的字符代码。离线手写识别是比较困难的,因为不同的人有不同的书写风格。离线手写识别主要应用在打印出来的文字识别上。
减少识别错误的技术
常常使用缩小识别范围,例如邮政编码只包含 1~9 的数字,识别这种数字可以减少错误的可能。
主要的技术:
指定特定的字符范围;
利用字符的专有特点。
字符的提取
离线字符识别往往涉及扫描过去写的表格或文档。这意味着该设备或软件需要将扫描的图像中所包含的单个字符提取出来。然而,在这一步中有几种常见的缺陷。其中最常见的是将多个相连的字符当作为单个字符分离出来。这增加了识别的难度,但许多软件已经开始适应这种问题。
字符的识别
当单个字符的提取出来后,识别引擎开始计算其对应的计算机字符。有几种不同的识别技术。
特征的提取
除了人工神经网络外,程序员有时必须手动确定他们感觉很重要的属性。
这些属性可能是:
宽高比;
水平方向上的像素百分比;
竖直方向上的像素百分比;
笔画数;
字符到图像中心的平均距离;
这种方法可以提高识别的准确性,但需要花费更多的研发时间。
在线手写识别
一般过程
在线手写识别可以分解为几个通用的步骤:
预处理;
特征的提取;
分离出字符。
预处理的目的是摒弃无关的输入数据,可以减少负面的影响。这涉及到速度和准确性。通常由图像二值化、 正常化、 采样、 平滑、去噪预处理等组成。