微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 《IT老外在中国》第23期:中文手写文本识别之难将被他破解?

《IT老外在中国》第23期:中文手写文本识别之难将被他破解?

2016-02-05 10:27
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2016-02-05 10:27 CNET科技资讯网

CNET科技资讯网 2月5日 北京消息(文/周雅): 或许从1991年开始,让-路易•法致 (Jean-Louis Fages) 就已经设想过,该如何提高各行各业的工作效率——尽管现在人们打字速度越来越快,经常提笔忘字,但无论如何也避免不了大笔一挥的潇洒签名、永远看不懂的医生处方单、人力资源手里堆积如山的表格文档...这些整理起来,绝对要费老鼻子劲。于是那一年,在法国巴黎,他创办了科技公司A2iA。

让-路易•法致(Jean-Louis Fages),一个瞪着深棕色大眼睛的萌老头,喜欢听朗朗和莫扎特、瓦格纳、肖邦,却在90年代搞起了创新。A2iA是全球手写与印刷文字识别、信息提取和智能文档分类工具包开发商,在人工智能文字识别的行当里,这算得上最早一波。公司三分之二都是工程师,7种西方语言的识别技能,业务覆盖了36个国家。该公司仅仅一个支票阅读(A2iA CheckReader)技术,每年处理来自1000分支机构和银行的超过百万张支票。

而现在,看遍了西方笔迹的A2iA,随着2015年的中法创新加速器(Acceleratech China 2015)来到中国。“我们开始要破解中国的手写体”,让-路易说起这个目标,像登山运动员即将登顶时一样兴奋。

《IT老外在中国》第23期:中文手写文本识别之难将被他破解?

数字化的交易方式

让-路易谈起手写字体的机器识别历史,就像数落自家院子里的果树。

近30年以来,人工智能以一种非常现代的方式极速前进,从80年代机器人为主要产品,一直到现在非常时兴的人机对话。而对文字识别,是人机智能发展的一个基础性的关键技术。

虽然键盘输入已经非常广泛,但全球近30亿人在日常生活中依然保持手写,金融机构为安全起见,还是对笔迹进行比对存档。而让-路易在过去25年所做的一切,就是把人们从繁复的纸质资料处理中解脱出来。

A2iA公司拥有的字符识别技术,其看家本领在于,将一堆格式杂乱的手写表格变成电子数据。当然,这个过程是复杂的,世界各地的手写书法风格迥异。即使都同属拉丁语系,同一个意思在不同地区表达也不同,比如拼写的顺序,重音符号,还有书写风格等等。

让-路易认为,有了数字化的交易方式,对于用户进行的数字采集,讲变得更加精确,数据在发给金融机构后台前,已经过核实,这样一来,减少手动重新输入的工作量,也减少各方进行数据与图像传输的次数,从而根本性地改善现代化的交易方式,这个技术随着金融活动的频繁,越来越被迫切需要。

中文手写识别,能冲破难关吗

目前为止,A2iA公司拥有7种语言的手写识别技术,包括英语,法语,德语,意大利语,葡萄牙语,西班牙语和阿拉伯语。而目前面临的难题,是中文 ,尤其是笔画更多的古文。

让-路易的中国同行们熟稔的是汉字印刷体的机读。一旦遇到手写体,别说机器读不出,人眼都够呛。

而手写汉字用机器难以识别,难的不是技术,而是文化。识别一个不甚规范的汉字,需要许多中国语境信息的背景知识,需要在一定的文化习惯、语言环境中积累,这就难为机器了。
“困难的是,汉字的数量远远高于西方字符的数量,这需要我们修改原来的识别架构”,让-路易苦笑着说。

但A2iA公司多年来一直在攻克此类难关,虽然西方语言和中文在语言脚本上有差异,结构也不同,但摸索语言规律的原理是相通的,许多应用发明也能普适到汉字上。不仅如此,让-路易还聘请了一批擅长汉字机读研究的中国工程师。

A2iA中文版文件识别(A2iA TextReader)定于2016年12月推出。为了提供中文识别的引擎,公司打算先与中国代理商合作,收集中国现实生活的样本文件。这次借中法创新加速器项目(Acceleratech China 2015)的便利,让-路易一行人来到中国考察,如果将来能顺利的搭建起与阿里巴巴、联想等企业的合作,那么A2iA会将50%的业务将放到中国。

说到这里,这个萌老头脸上竟带着憧憬。

每一种文字和文明都值得尊敬

“我本人的经历相当混搭,父母并非土生土长的法国人,他们拥有西班牙裔和意大利裔血统,我自己出生在非洲,吃阿拉伯饭和犹太饭长大,三分之一人生还是在美国度过……”

《IT老外在中国》第23期:中文手写文本识别之难将被他破解?

在中国人眼中,法国是浪漫的象征,而让-路易却认为,中国人同样浪漫——大街上多彩的皮包服饰,百姓多样的生活方式,现代化的都市建筑……过去他只去过香港和上海,这还是第一次来北京。

也许是长年与各种文字打交道,让-路易对任何一个国家的文化满怀敬意。“这是一个有意思的对比,美国是个新国家,但现代化并不算快;而中国很古老,但现代化速度反超美国——这很不可思议。”

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-