CNET科技资讯网 2月5日 北京消息(文/周雅): 或许从1991年开始,让-路易•法致 (Jean-Louis Fages) 就已经设想过,该如何提高各行各业的工作效率——尽管现在人们打字速度越来越快,经常提笔忘字,但无论如何也避免不了大笔一挥的潇洒签名、永远看不懂的医生处方单、人力资源手里堆积如山的表格文档...这些整理起来,绝对要费老鼻子劲。于是那一年,在法国巴黎,他创办了科技公司A2iA。
让-路易•法致(Jean-Louis Fages),一个瞪着深棕色大眼睛的萌老头,喜欢听朗朗和莫扎特、瓦格纳、肖邦,却在90年代搞起了创新。A2iA是全球手写与印刷文字识别、信息提取和智能文档分类工具包开发商,在人工智能文字识别的行当里,这算得上最早一波。公司三分之二都是工程师,7种西方语言的识别技能,业务覆盖了36个国家。该公司仅仅一个支票阅读(A2iA CheckReader)技术,每年处理来自1000分支机构和银行的超过百万张支票。
而现在,看遍了西方笔迹的A2iA,随着2015年的中法创新加速器(Acceleratech China 2015)来到中国。“我们开始要破解中国的手写体”,让-路易说起这个目标,像登山运动员即将登顶时一样兴奋。
让-路易谈起手写字体的机器识别历史,就像数落自家院子里的果树。
近30年以来,人工智能以一种非常现代的方式极速前进,从80年代机器人为主要产品,一直到现在非常时兴的人机对话。而对文字识别,是人机智能发展的一个基础性的关键技术。
虽然键盘输入已经非常广泛,但全球近30亿人在日常生活中依然保持手写,金融机构为安全起见,还是对笔迹进行比对存档。而让-路易在过去25年所做的一切,就是把人们从繁复的纸质资料处理中解脱出来。
A2iA公司拥有的字符识别技术,其看家本领在于,将一堆格式杂乱的手写表格变成电子数据。当然,这个过程是复杂的,世界各地的手写书法风格迥异。即使都同属拉丁语系,同一个意思在不同地区表达也不同,比如拼写的顺序,重音符号,还有书写风格等等。
让-路易认为,有了数字化的交易方式,对于用户进行的数字采集,讲变得更加精确,数据在发给金融机构后台前,已经过核实,这样一来,减少手动重新输入的工作量,也减少各方进行数据与图像传输的次数,从而根本性地改善现代化的交易方式,这个技术随着金融活动的频繁,越来越被迫切需要。
目前为止,A2iA公司拥有7种语言的手写识别技术,包括英语,法语,德语,意大利语,葡萄牙语,西班牙语和阿拉伯语。而目前面临的难题,是中文 ,尤其是笔画更多的古文。
让-路易的中国同行们熟稔的是汉字印刷体的机读。一旦遇到手写体,别说机器读不出,人眼都够呛。
而手写汉字用机器难以识别,难的不是技术,而是文化。识别一个不甚规范的汉字,需要许多中国语境信息的背景知识,需要在一定的文化习惯、语言环境中积累,这就难为机器了。
“困难的是,汉字的数量远远高于西方字符的数量,这需要我们修改原来的识别架构”,让-路易苦笑着说。
但A2iA公司多年来一直在攻克此类难关,虽然西方语言和中文在语言脚本上有差异,结构也不同,但摸索语言规律的原理是相通的,许多应用发明也能普适到汉字上。不仅如此,让-路易还聘请了一批擅长汉字机读研究的中国工程师。
A2iA中文版文件识别(A2iA TextReader)定于2016年12月推出。为了提供中文识别的引擎,公司打算先与中国代理商合作,收集中国现实生活的样本文件。这次借中法创新加速器项目(Acceleratech China 2015)的便利,让-路易一行人来到中国考察,如果将来能顺利的搭建起与阿里巴巴、联想等企业的合作,那么A2iA会将50%的业务将放到中国。
说到这里,这个萌老头脸上竟带着憧憬。
“我本人的经历相当混搭,父母并非土生土长的法国人,他们拥有西班牙裔和意大利裔血统,我自己出生在非洲,吃阿拉伯饭和犹太饭长大,三分之一人生还是在美国度过……”
在中国人眼中,法国是浪漫的象征,而让-路易却认为,中国人同样浪漫——大街上多彩的皮包服饰,百姓多样的生活方式,现代化的都市建筑……过去他只去过香港和上海,这还是第一次来北京。
也许是长年与各种文字打交道,让-路易对任何一个国家的文化满怀敬意。“这是一个有意思的对比,美国是个新国家,但现代化并不算快;而中国很古老,但现代化速度反超美国——这很不可思议。”
好文章,需要你的鼓励
在伊比利亚半岛的明珠巴塞罗那,MWC24再次引爆了全球科技圈的沸腾热情。Fira Gran Via各大展馆水泄不通的人群似乎在传递着这样的信息:我们正迎来行业的又一个“春天”!而这样的新篇章将由5G与AI共同书写,并且,中国企业将在其中扮演重要角色。