CNET科技资讯网 8月22日 北京消息:拿到一部新 Android 手机后,装个微信就能和朋友打字聊天、装个微博就能向外发布信息,对于中国用户来说这一切是很自然的事情。不过,在全球大部分国家,情况其实不是这样的,大部分人打开手机以后没有输入法可用,它们的母语不能显示在电子设备的屏幕上,甚至在互联网世界里是不存在的。
当我们谈论 Google 时,最先想到的可能是无人驾驶汽车、AlphaGo、Project Loon 这些激动人心的项目。其实,互联网上一些最基础的工作,比如让尽可能多的语言显示在电子屏幕上、让每一个网民都能输入自己的母语、保护文字多样性生态这样的事,Google一样在默默地做。虽然听起来这些事情可能不如无人驾驶汽车那样高大上,但这些“小”项目对互联网发展的意义却一点也不比那些高大上的项目差。
图片来自:WP
从上面这张图中,我们可以看到互联网世界各种语言内容的数量和对应语言人口的数量其实是不太协调的,而 Google 的愿景则是希望让全球用户都有足够的内容。
让全世界各种文字都能正常显示在互联网上
要想让全球用户都能在互联网上找到自己的母语内容,首先要解决的问题就是各种文字在电脑、手机等电子设备上显示的问题。所以,从 2011 年开始,Google 内部启动了 Noto 字体项目,它的目标是希望所有的语言都能显示并且有统一协调的观感。
在项目启动后的几年中,Google 除了制作了拉丁文、孟加拉文、梵文、中文、日文、韩文这样使用人数较多的语种外,还把一些已经灭绝了的古文字也列进了项目计划中。Google 字体工程经理陈雍昇表示:虽然这些字体现在已经没有人类使用了,但出于保护文字多样化生态的考虑,Google 仍然会为它们制作对应的字体。
除了尽力支持全球所有种类的语言,Google 在设计这套字体时还要考虑美感的问题。现在,我们查看文档经常会遇到两种或者多种文字混排的情况,如果这两种文字不是按照统一的规格设计的,那么显示出来的效果可能就会让人觉得怪异,所以 Google 在设计这套字体时并不是针对每一种语言单独设计,而是把全世界 100 多种语言放在一起统筹设计。按照 Google 字体产品经理萧湘晔说法,这样做的好处就是用户可以在视觉上得到一种跨语言的和谐度。
有好处自然也有坏处。虽然把 100 多种语言放在一起统筹设计能给用户统一的视觉感受,但设计时的难度却大大增加了。比如来说,不同的字体往往有不同的基线,如果让它们基线都对齐那可能就乱套了;不同的语言也有不同的高度,如果一定要让他们高度一样,阅读的体验可能会非常糟糕;阿拉伯语言是从右到左的语言,它的排版自然和其他字体会有一些差别……
兼顾不同地区的书写差异
不难看出,虽然字体设计这样的事情听上去不如无人驾驶汽车那样让人兴奋,但 Google 为之付出的努力却并不少。现在,我们已经很少在移动设备上看到乱码、不能显示的小方格这样的情况了,Google 在其中自然功不可没。
从 2011 年项目启动以来,Noto 字体覆盖的文字种类已经超过 100 种、语言种类超过 500 种、字符数量超过 110,000 个,每天被上亿人次使用。Google 正在搭建的这套互联网语言系统直接影响着互联网在发展中地区的发展。
让每一位网民都能输入自己的母语
虽然对中国用户来说,各大互联网公司几乎都在争着为这片市场的用户开发中文输入法,但对于生活在一些欠发达地区的网民来说,他们的情况往往是没有母语输入法可用,即便买了智能手机也不能和朋友们愉快的交流。
就拿印度这个人口众多的大国来说,它的语言大约有几百种,其中 29 种语言的使用人口超过一百万。由于印度的有些母语太复杂,以至于有很多受过高等教育的人,他们会写他们的母语,但是却完全不知道怎么输入。
对于 Google 来说,在解决了文字显示问题之后,让人们都能在移动设备上输入自己的母语就成了一个新目标。Google 输入法工程师杨帆表示,无论是 Google 在 Android 上的输入法产品,还是在 iPhone 上的输入法 GBoard,它们的长期目标都是支持各种各样的语言。
现在,Google 的 Android 输入法已经可以支持 100 多种语言,产品经理林林在向 PingWest 品玩介绍这款产品时表示:由于每种语言都有自己独特的字母以及独特的语法,所以支持这么多语言并不是一件容易事。
Google 输入法键盘
举例来说,马拉雅拉姆语一共有 50 多个字母,而且每个字母使用的频率还差不多,这也就意味着 Google 需要把 50 多个字母都摆在一个小小的手机屏幕上——这真是太难为设计师了。在开发印度语输入法时,团队成员没有一个人懂印度语,但最终他们还是做出了支持了 11 种印度的主要语言的输入法。此外,像阿拉伯语和希伯来语是从右往左写的,这自然又要做一些有针对性的调整。
目前,Google 输入法产品除了支持 100 多种语言外,还支持从大到小各种屏幕尺寸的设备。无论是在手机、平板,还是在巨大的 Android 电视上,你都可以用 Google 输入法打出自己想要的文字。
对于 Google 来说,它投入大量资源开发的这些字体和输入法除了能让互联网上的内容更多样化外,从商业的角度考量,也很契合 Google 吸纳下一个 10 亿用户的战略目标。Google 工程总监钟胜华告诉 PingWest 品玩,在 2005 年时 Google 就感受到了国际化的重要性,并希望旗下产品能在全世界任何国家、任何地区都有更好的体验。
所以,当一些互联网公司希望优先照顾好特定国家、特定地区的特定用户群时,Google 在产品方面的考量则是希望全球都能用。也正是由于这种产品思维,那些已经灭绝的文字才能被正常显示在互联网上,那些欠发达地区的用户才能在智能手机上输入自己的母语,那些生活在世界角度经常被忽略的人才能感受到互联网的美妙。
好文章,需要你的鼓励
这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题:如何让AI既能写出高质量内容,又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法,他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感,最终训练出的模型在保持顶级质量的同时,创作多样性接近人类水平,为AI创意写作开辟了新方向。
上海AI实验室联合多所高校开发出VisualPRM系统,这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程,显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准,实现了在七个推理基准上的全面性能提升,即使是最先进的大型模型也获得了5.9个百分点的改进。
上海AI实验室团队通过LEGO积木设计了创新评测基准LEGO-Puzzles,系统测试了20个先进多模态大语言模型的空间推理能力。研究发现即使最强AI模型准确率仅57.7%,远低于人类93.6%的表现,揭示了当前AI在三维空间理解和多步序列推理方面的重大不足,为机器人、自动驾驶等应用发展提供重要参考。
字节跳动团队突破了AI图像生成领域的三大难题:身份识别不准确、文字理解偏差和图片质量不佳。他们开发的InfiniteYou技术采用创新的InfuseNet架构和多阶段训练策略,能够根据用户照片和文字描述生成高质量个性化图像。实验显示该技术在身份相似度、文本匹配度和图像质量方面均超越现有最佳方案,并具备出色的兼容性,为个性化内容创作开辟了新道路。