微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 对话达观数据陈运文:我们在打破文本智能处理的“真空地带”

对话达观数据陈运文:我们在打破文本智能处理的“真空地带”

2022-09-20 10:25

作者|周雅

配图|扈佃杰

斯蒂芬·茨威格曾在《人类群星闪耀时》书中写道:一个人命中最大的幸运,莫过于在他的人生中途,即在他年富力强的时候,发现了自己的使命。

陈运文34岁那年,是2015年,他离开任职多年的大厂,转而投身于“大众创业、万众创新”的时代浪潮中。从此,他成为达观数据董事长兼CEO,他的使命是“扛起国内文本智能处理ToB业务这面大旗”。

提到「文本智能处理」,表面理解起来倒不难,但背后的处理却有很高技术门槛,它是计算机科学、AI、语言学的交叉领域,本质在于找出自然语言的规律。在国内,百度、搜狗、阿里、腾讯等互联网巨头应用的较早,如搜索引擎正是基于该技术,人们在搜索框敲出文字,文本智能处理在后台搞懂文字的意思,再从海量数据中把相关内容找出来。陈运文在创业之前,就是从事类似的技术研发工作,接触的是大量C端用户。创业之后,他意外发现:“文本智能处理技术在ToB领域的价值更高,且这在国内处于真空地带。”

回望人工智能曲折起伏的60年间,人们曾经热衷于各种人机大战,相较之下,「文本智能处理」——是又难又不易被感知到的“小事”。不过,陈运文创办的达观数据苦耕7年的成果证明了:无论是哪个赛道,技术最关键是要落地从而创造价值。

今年3月,达观数据完成了C轮5.8亿元融资,刷新了中国自然语言处理与知识图谱领域的融资纪录。资料显示,达观数据专门为企业提供各类场景的智能文本机器人,包括办公流程自动化、文档智能审阅、文字识别、企业级垂直搜索、智能推荐等产品,为众多500强企业的“智慧办公”创造了价值。目前,达观数据拿到中国人工智能领域最高奖“吴文俊人工智能奖”,2021年被评为行业首家国家级“专精特新小巨人”企业,同年入选福布斯科技创新50强。此外,达观目前已申请100 余项发明专利,通过国际权威机构的软件成熟度CMMI5的最高等级认证。

同样在今年,达观数据又入选了英特尔“AI百佳创新激励计划”五期优秀团队。在项目中,达观数据的智能文本机器人基于英特尔至强平台和Intel优化版TensorFlow,获得了1.45倍的性能提升。经过英特尔平台优化后,达观的解决方案在智能制造、智慧城市、智慧金融等企业数字化转型场景都可以发挥明显的作用。

创业需要苦行僧的意志,这在陈运文身上体现得淋漓尽致。我们的本次对谈,是陈运文在去赶高铁的路上进行的,他的时间都像奶酪一样被一份份切割好,一部分对外面向客户、政府、媒体等,一部分对内谈战略、组织管理、协调、招聘等,且这些事经常填满他的日常。他说,“脑子要经常切换。要把时间更好的利用起来。”

01 做自己擅长的事

科技行者:达观刚创立那会儿,AI领域已经有点风生水起了,你是怎么决定要进入文本智能处理这个细分赛道的?

陈运文:术业有专攻,人工智能是非常大的一个赛道,我们要看自己擅长做哪块事情,那时候,“AI四小龙”已经创办了,且已经逐渐崭露头角了。

我们看到,除了图像处理这些公司以外,做文本智能处理的,尤其是书面文字资料处理的创业公司在当时几乎没有。一方面,我们原先一直在国内大企里从事文本处理的技术研发工作;另一方面,我们看到整个中国的企业服务版图里,文本智能处理领域的ToB业务还是真空地带,市场潜力巨大。

所以,一是有非常好的市场窗口期,二是我们又具备这样的技术能力,三是还有天使轮投资方真格基金鼓励我们创业。于是就抱着试一试的想法,希望能够扛起国内文本智能处理ToB业务这面大旗。

科技行者:很多创新公司都会讲一个技术护城河的概念,文本智能处理的技术门槛高么?

陈运文:这个技术主要有两方面难点:其一,文字非常抽象与凝练,短短几个字就能表达丰富含义,计算机解读高度凝练的中文语言,难度很大;其二,语言文字处理是人类的高级认知,机器人要掌握行业的“知识图谱”,具备专业的阅读能力,才能够阅读专业的文档资料。这些技术门槛,使得文本的自动化处理和应用存在很多难点。

不过,文本自动化处理的应用场景非常广阔。文字资料普遍存在于每天的工作中,而文字资料的智能化处理技术可大幅提升日常文字办公的效率,为很多行业带来颠覆。虽然很难,但很有价值,所以我们下决心把它做好。

科技行者:那么要把这件事做好,需要哪些核心竞争力?

陈运文:核心技术能力分两大块:

首先,要有一个非常强大的NLP(自然语言处理)算法模型,它能像人一样,理解文字背后所蕴含的复杂语义。比方说,我们训练计算机系统能看懂汉字、能理解汉字的意思、能运用汉字写作。这些都是需要具备的语言能力基础。

同时,要有垂直行业的领域知识,我们一般称之为“domain knowledge”,也就是行业的know how。需要让计算机算法模型像一个行业专家,去解读行业术语,且能够灵活运用这些术语和能力,去完成工作业务。

我们经常讲“三百六十行,行行出状元”,每个行业都有自己的文字资料、写作规范、行业术语、业务审核逻辑等等,所以我们要在每个行业里搭建一个类似专家的知识图谱系统,再用这一系统结合我们的通用语言模型,最终生成每个行业的文本智能处理业务系统。

这两部分缺一不可。

科技行者:作为一家创新型创业公司,不可回避的事情还有市场前景。我们的技术可以用在哪些场景?
陈运文:主要有三类场景:第一类是大量的重复性工作。如财务工作,工作人员要理发票,并将发票内所有详细信息录入到系统中。再如海关报关工作,每个商品都要填报关单,工作量非常大,且繁琐重复,这些量大繁琐的工作就适合机器人完成。

第二类是对准确率要求非常高的工作,常见于金融行业。银行、证券、基金、保险等领域对文本数据的准确率要求非常高,由人来处理这些事务非常辛苦,所以我们可以将复核等工作交给机器人做。另外,政务公文对准确率要求也非常高,姓名、职级、顺序不能搞错,公文的段落篇章都有严格的规范,机器人也可以完成稿件的复核或政府公文的复核工作。

第三类是跨系统的工作。在办公过程中,我们常常要在 A系统查询数据,B系统核验,再到C系统下载相关文档等,需要同时使用多个系统。智能文本机器人可以自动到各个系统完成数据的查验、读取、分析、录入等工作,提升需要横跨多系统的工作的效率。

我们有个常见的评判标准,当你觉得这份工作非常枯燥,工作时觉得自己像个机器人,那这个工作其实就适合机器人完成,这是这些场景的共性所在。

科技行者:咱们典型行业客户是谁,他们当初为什么选择达观的技术?

陈运文:金融就是一个典型的行业。像中信、招商、中信建投等等都是中国最知名的证券公司,它们都是我们的客户。证券公司的工作关联上市公司数亿数十亿的业务,非常重要,同时证券的投行部门加班非常多,非常辛苦。他们工作这么重要,对质量要求这么高,且工作量又这么大,能不能用一些智能化手段来缓解呢?于是证券公司找到我们,采购达观的智能文本处理系统,一用发现确实效果很好,大幅减轻工作负担,提升工作效率。

有一家证券公司的托管业务,原来是靠大量人工审核托管协议,协议动辄上百页,必须把所有的风险点找出来改掉,这是一件极细的活儿。交给我们机器人,半年审核完成了接近20万份协议,且确保百分百把风险点找出并改掉,这就大幅度提升了工作效率。

科技行者:有没有关于工作效率提升的具体数据,让大家直观感受一下?

陈运文:有两方面的统计,一是处理效率,我们把一份协议的审核时间从人工需要30分钟,压缩到机器只需2分钟内,效率提升15倍;二是审核质量,人工审核准确率约96%,会存在遗漏情况,而机器可以做到准确率99.9%。

还有一件有意思的事。我们在今年C轮融资的投资方新增了证券公司,它们原本就是我们的客户,非常认可我们的产品和技术,觉得我们的技术未来大有发展前途,它们决定未来还要投资我们。

科技行者:从买产品,发展到买股份,这应该是最大的认可了。另外,我在看咱们公司官网时,发现达观的产品有很多,包括RPA、文档智能审阅、智能搜索、智能推荐、知识图谱等,这些产品背后的统一的技术逻辑应该就是智能语义处理平台了。

陈运文:是的,无论是让我们系统帮你去搜资料,还是审核文档,或是处理一个流程,底层逻辑都是让计算机能够说文解字,看得懂文字资料,且能够运用文字资料。达观数据的智能语义平台作为核心技术,承载了上面所有的应用场景。

02 七年三大里程碑,与大厂抢人是头疼事

科技行者:创业七年来,感觉市场经历了怎样的变化?

陈运文:原来是天上打雷,现在是地上下雨,把原来可能很高调宣传的东西实实在在变成一个个落地的系统和产品,大家也更愿意看到务实的产品,这是近几年明显的发展趋势。

科技行者:很多人都喜欢听创业公司的成长故事,达观数据这些年有哪些重要里程碑?

陈运文:公司发展分三个阶段:

早期拿到真格基金投资以及后面的一年多发展过程,叫「初创期」,对我们来说需要调整心态,深刻了解中国To B产业运行规律,一点点学习,怎么更好把我们的产品和每个行业的应用场景嫁接到一起,去开发出有竞争力的产品,初创期是非常需要打基础的时候。

从2017年到2020年,是「发展期」,过程中我们完成了两轮融资,公司的规模每年都翻番增长。在行业里,我们逐步把达观的品牌树立起来了,在国内尤其是智能化文本处理领域,我们通过这几年发展期声名鹊起。

第三个阶段是2020年往后至今,是我们「练内功」的阶段。我们通过多年发展,团队数量迅速扩张,公司除了总部在上海以外,在北京、深圳、成都、苏州、郑州都开设了分公司,每个分公司都有几十号员工,全国的员工数量加起来大几百人了,人数已经蛮多了。

当组织不断发展壮大,怎么样让团队工作效率始终保持创业期的高效率,需要下功夫思考。尤其是异地配合,比如北京的客户,本来是北京分公司负责对接,但客户用了一些技术是我们上海公司研发中心研发的,可能又同时用到了深圳分公司的一些经验,所以它需要我们全国各地一盘棋。其中有很多挑战,不同地区合作、不同团队组织文化等方面的挑战等等。

第三个阶段也是我们的平台发展期,我们需要克服发展过程中一些挑战才能迈向下一个台阶。

科技行者:公司苦练内功的时候,正是疫情突然爆发的时候,这对团队协作是一个挑战吧?

陈运文:没错。疫情我们都知道出差不如以前方便了,以前的项目协作,大家可以随时出差,随时到客户现场,随时碰头开会。

疫情以后,大家都是线上交流,人和人的交流在网上和真正面对面感觉还是隔了一层,这种情况下,到底怎样能让团队拧成一股绳,打好配合,把一个复杂的项目完成,这其实是有很多组织和文化方面的挑战,这对我们来说也是一个考验,我们想了很多办法解决问题。

科技行者:你们的解决办法是?

陈运文:我们组织了很多workshop(内部研讨会),这种研讨会是跨地区跨部门的,大家组成一个虚拟团队,每次研讨会设一个主题,主题可能是某个技术话题、运营话题、或产品话题等,比如用三天时间,让大家集中在workshop里交流碰撞。

我们组织得很频繁,过去两年里,每周都组织一次,每次都是不同的话题,让不同团队同事通过这样的充分交流,互相熟悉起来,在未来的工作中协同配合,还是非常有效的。

科技行者:刚才提到的公司发展三个阶段,我从外部来看是两年一个台阶,一直在稳步前进,想必背后也有一定的酸楚。创业以来,有没有让你头疼的事?

陈运文:怎么样能够找到优秀的人才是一件最头疼的事。

我们需要的人才,往往来自于某个特定行业,或者他对某个行业有自己的独到理解,这样的人才对于创业公司非常难得,因为我们面临着来自大厂的人才竞争。从企业品牌的知名度、号召力、薪资待遇方面,创业公司给候选人带来的光环是远不如大厂的,我们明显处于劣势。最困难的是,每次当我们有一个优秀的候选人,前期聊得特别好,在我们和大厂之间二选一时,只能很舍不得丧失了这位候选人,每次都特别可惜。

包括我们公司里很多骨干,都是花了好多精力与之交流,有的候选人到了大厂工作了一年两年后,我们还跟他保持联系,两年后他总算觉得我们还挺有诚意,做事情似乎还挺靠谱,然后再离开大厂来到我们公司。

这过程挺耗费人的心力,因为你需要说服一个人,需要去改变他的判断,需要很有耐心,我们能看上的优秀人才,他们选择也多,我们未必会成为他们最终选择,所以这就特别痛苦。但我们有耐心,希望持续召唤优秀的人才加入,大家一起成长,共同分享成果。

03 人才与有温度的文化,是企业的长期主义

科技行者:一个公司的长期发展,一是要有长期的商业回报,二是要有核心竞争力。我想先问一下,在AI商业化方面,我们有什么心得体会?


陈运文:如果要把商业做好,还是要俯下身去做实实在在的交付服务工作,即便有很高大上的算法技术,最后落地的这一步是要走得比较扎实才行。

我们公司特别鼓励工程师到客户一线去,如果不在客户现场做实验,做交付,让客户真正用起来,那么很多技术都在空转,并没有很好落地。所以我们非常强调落地的工作,我们要求公司管理干部每年至少有一半时间在客户现场。

我特别欣赏华为任正非的一句话,“要让在一线听得到炮火的人来决策”,要在前线才能知道客户到底需要什么技术,真正往哪个方向去做技术研发,这才是最有价值的。

科技行者:咱们再来谈谈核心竞争力。现在大环境很鼓励创新,达观也拿过很多核心技术认证和奖项,你认为提升一家公司核心技术竞争力的本质是什么?

陈运文:首先要尊重人才。因为一家公司的技术,尤其是复杂的技术,不是一个人能做出来的,需要一个强有力的团队,且团队要不断吸收新鲜血液,新人会带着新想法、新视角、创新而来,公司要把这些原创的或独特的想法保护好,让他们愿意去尝试,容忍他们创新的失败,鼓励他们,这非常重要。说到底,就是培养一个优秀的文化氛围,让有创新火花的人才在里面发光发热。

其次,一个正能量的企业文化也很重要。尤其像我们这样的科技创业公司里全是年轻人,我们希望从正能量的角度引导大家,让大家觉得公司是一个积极向上的公司,是一个充满了人文关怀的公司。

在这方面,我们组织了很多社会公益活动。比如每年组织同事去贫困山区做义务支教,每年组织义务献血活动,公司还有残疾人员工,这些员工都非常优秀,在我们公司也发展得非常好,公司整体都是很有温度的文化。

就拿义务支教来说,年轻同事都积极报名,他们去贫困地区建爱心图书室,做短期的支教活动,回来都觉得特别有收获,更珍惜在大城市的生活,也更愿意在未来的公益中奉献爱心。我希望公司始终有这样一个正能量的范围,避免社会上一些负面情绪或一些浮躁的丧文化等。这都是我们在企业文化方面做的工作,还挺有效果的。

科技行者:听起来就很有温度,咱们公司的企业文化怎么概述?

陈运文:我们企业文化浓缩成八个字“通达乐观、务实求真”。“通达乐观”是公司名字的来历,希望大家积极向上,永远乐观向前。“务实求真”是务实、接地气、实事求是解决问题,这样公司才能走得更长远。

科技行者:刚才说“要不断吸引人才”,纳新是公司发展很重要的点,但这涉及到一个问题,大企业可能热衷于换血,你们不断纳新是否也会涉及到这个问题?

陈运文:我们倒没有太多这方面问题。大企业的业务相对稳定,人员团队相对饱和,可能需要用新鲜血液去替换。但我们一直在成长,每年都在扩编,还担心人不够用。我们既希望新鲜血液加入,也希望老员工成长,以承担更重要的职责,这也是我们作为成长期的科技企业吸引人才的地方。

04 创业是痛并快乐着

科技行者:创业之前,你在多家名企(盛大文学、腾讯文学、百度)任负责人。在大厂工作和自己创业相比,感受最大的区别是什么?

陈运文:自己创业要操心的事情太多了,要把自己从技术专家变成一个十项全能的选手,是一个很不容易的过程。当然,这个过程对个人来说是全方位的锻炼和成长,我们经常讲“痛并快乐着”,很辛苦但很有收获。

科技行者:平日里,有没有可推荐的书、电影或者音乐?

陈运文:我自己挺爱读书的,比较推荐吴军老师的作品,他的每一本书都写得非常好。

我在大学当校外研究生导师,就给同学推荐《数学之美》,把非常艰深晦涩的数学原理用非常直观的例子讲清楚,写得非常好,且通俗易懂,今天我们所有的所谓计算机、人工智能技术,底层全部都是数学模型,所以对数学的热爱非常重要。

吴军老师的《浪潮之巅》讲的是整个互联网或者IT科技产业的浪潮发展,里面的企业、产品、技术更迭等等,讲得非常好,非常深刻。

《文明之光》我也特别喜欢,里面讲到了人类文字的演进过程,我们今天的数学技术来自于5000年前人类发明的这些符号,这些符号是怎么发明的,怎么样一步步变成今天的样貌,非常有意思。我们公司搞了一面文化墙,把人类5000年来各种文字的发展历程和当中一些里程碑事件展示出来,还搞了很多实物展品,像一个小型的文字博物馆,里面有来自埃及的文字,来自中国古代的甲骨文,刻在青铜器上的小篆等等,这些都是吴军老师各种书里的内容,我也经常买这些书送给身边的朋友,因为特别喜欢。

科技行者:我待会去书架上把我的《浪潮之巅》再拿出来读一读。

陈运文 达观数据CEO

复旦大学计算机博士,国家“万人计划”专家,2021年中国青年创业奖,中国五四青年奖章、上海市十大青年科技杰出贡献奖获得者,上海市优秀技术带头人,浦东十大杰出青年;国际计算机学会(ACM)、电子电器工程师学会(IEEE)、中国计算机学会(CCF)、中国人工智能学会(CAAI)高级会员,上海市计算机学会多媒体分会副会长;第九届上海青年科技英才,浦东百人计划专家,张江优秀人才;上海市浦东新区政协委员。在人工智能领域拥有丰富研究成果,是复旦大学、上海财经大学、上海外国语大学聘任的校外研究生导师,在IEEE Transactions、SIGKDD等国际顶级学术期刊和会议上发表数十篇高水平科研成果论文,出版有《智能RPA实战》、人工智能经典著作《智能Web算法》(第2版),并参与撰写《数据实践之美》等论著;曾多次摘取ACM KDD CUP、CIKM、EMI Hackathon等世界最顶尖的大数据竞赛的冠亚军荣誉。曾担任盛大文学首席数据官、腾讯文学高级总监、百度核心技术研发工程师。在机器学习、自然语言处理、搜索推荐等领域有丰富的研究和工程经验。

31赞

好文章,需要你的鼓励

推荐文章