微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

Google正在建一套互联网语言系统，直接影响下一个10亿网民看什么

谷歌Google语言

Google正在建一套互联网语言系统，直接影响下一个10亿网民看什么

作者：cyzhou

2016-08-22 11:01

分享至：

当我们谈论Google时，最先想到的可能是无人驾驶汽车、AlphaGo、Project Loon这些项目。其实，互联网上一些最基础的工作，比如让尽可能多的语言显示在电子屏幕上、让每一个网民都能输入自己的母语、保护文字多样性生态这样的事，Google一样在默默地做。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2016-08-22 11:01 • cyzhou

CNET科技资讯网 8月22日北京消息：拿到一部新 Android 手机后，装个微信就能和朋友打字聊天、装个微博就能向外发布信息，对于中国用户来说这一切是很自然的事情。不过，在全球大部分国家，情况其实不是这样的，大部分人打开手机以后没有输入法可用，它们的母语不能显示在电子设备的屏幕上，甚至在互联网世界里是不存在的。

当我们谈论 Google 时，最先想到的可能是无人驾驶汽车、AlphaGo、Project Loon 这些激动人心的项目。其实，互联网上一些最基础的工作，比如让尽可能多的语言显示在电子屏幕上、让每一个网民都能输入自己的母语、保护文字多样性生态这样的事，Google一样在默默地做。虽然听起来这些事情可能不如无人驾驶汽车那样高大上，但这些“小”项目对互联网发展的意义却一点也不比那些高大上的项目差。

language-v-population

图片来自：WP

从上面这张图中，我们可以看到互联网世界各种语言内容的数量和对应语言人口的数量其实是不太协调的，而 Google 的愿景则是希望让全球用户都有足够的内容。

让全世界各种文字都能正常显示在互联网上

要想让全球用户都能在互联网上找到自己的母语内容，首先要解决的问题就是各种文字在电脑、手机等电子设备上显示的问题。所以，从 2011 年开始，Google 内部启动了 Noto 字体项目，它的目标是希望所有的语言都能显示并且有统一协调的观感。

在项目启动后的几年中，Google 除了制作了拉丁文、孟加拉文、梵文、中文、日文、韩文这样使用人数较多的语种外，还把一些已经灭绝了的古文字也列进了项目计划中。Google 字体工程经理陈雍昇表示：虽然这些字体现在已经没有人类使用了，但出于保护文字多样化生态的考虑，Google 仍然会为它们制作对应的字体。

FONTS2

除了尽力支持全球所有种类的语言，Google 在设计这套字体时还要考虑美感的问题。现在，我们查看文档经常会遇到两种或者多种文字混排的情况，如果这两种文字不是按照统一的规格设计的，那么显示出来的效果可能就会让人觉得怪异，所以 Google 在设计这套字体时并不是针对每一种语言单独设计，而是把全世界 100 多种语言放在一起统筹设计。按照 Google 字体产品经理萧湘晔说法，这样做的好处就是用户可以在视觉上得到一种跨语言的和谐度。

有好处自然也有坏处。虽然把 100 多种语言放在一起统筹设计能给用户统一的视觉感受，但设计时的难度却大大增加了。比如来说，不同的字体往往有不同的基线，如果让它们基线都对齐那可能就乱套了；不同的语言也有不同的高度，如果一定要让他们高度一样，阅读的体验可能会非常糟糕；阿拉伯语言是从右到左的语言，它的排版自然和其他字体会有一些差别……

NAME

兼顾不同地区的书写差异

不难看出，虽然字体设计这样的事情听上去不如无人驾驶汽车那样让人兴奋，但 Google 为之付出的努力却并不少。现在，我们已经很少在移动设备上看到乱码、不能显示的小方格这样的情况了，Google 在其中自然功不可没。

从 2011 年项目启动以来，Noto 字体覆盖的文字种类已经超过 100 种、语言种类超过 500 种、字符数量超过 110,000 个，每天被上亿人次使用。Google 正在搭建的这套互联网语言系统直接影响着互联网在发展中地区的发展。

让每一位网民都能输入自己的母语

虽然对中国用户来说，各大互联网公司几乎都在争着为这片市场的用户开发中文输入法，但对于生活在一些欠发达地区的网民来说，他们的情况往往是没有母语输入法可用，即便买了智能手机也不能和朋友们愉快的交流。

就拿印度这个人口众多的大国来说，它的语言大约有几百种，其中 29 种语言的使用人口超过一百万。由于印度的有些母语太复杂，以至于有很多受过高等教育的人，他们会写他们的母语，但是却完全不知道怎么输入。

indiamap_language

印度的语言种类很复杂

对于 Google 来说，在解决了文字显示问题之后，让人们都能在移动设备上输入自己的母语就成了一个新目标。Google 输入法工程师杨帆表示，无论是 Google 在 Android 上的输入法产品，还是在 iPhone 上的输入法 GBoard，它们的长期目标都是支持各种各样的语言。

现在，Google 的 Android 输入法已经可以支持 100 多种语言，产品经理林林在向 PingWest 品玩介绍这款产品时表示：由于每种语言都有自己独特的字母以及独特的语法，所以支持这么多语言并不是一件容易事。

Untitled

Google 输入法键盘

举例来说，马拉雅拉姆语一共有 50 多个字母，而且每个字母使用的频率还差不多，这也就意味着 Google 需要把 50 多个字母都摆在一个小小的手机屏幕上——这真是太难为设计师了。在开发印度语输入法时，团队成员没有一个人懂印度语，但最终他们还是做出了支持了 11 种印度的主要语言的输入法。此外，像阿拉伯语和希伯来语是从右往左写的，这自然又要做一些有针对性的调整。

目前，Google 输入法产品除了支持 100 多种语言外，还支持从大到小各种屏幕尺寸的设备。无论是在手机、平板，还是在巨大的 Android 电视上，你都可以用 Google 输入法打出自己想要的文字。

对于 Google 来说，它投入大量资源开发的这些字体和输入法除了能让互联网上的内容更多样化外，从商业的角度考量，也很契合 Google 吸纳下一个 10 亿用户的战略目标。Google 工程总监钟胜华告诉 PingWest 品玩，在 2005 年时 Google 就感受到了国际化的重要性，并希望旗下产品能在全世界任何国家、任何地区都有更好的体验。

所以，当一些互联网公司希望优先照顾好特定国家、特定地区的特定用户群时，Google 在产品方面的考量则是希望全球都能用。也正是由于这种产品思维，那些已经灭绝的文字才能被正常显示在互联网上，那些欠发达地区的用户才能在智能手机上输入自己的母语，那些生活在世界角度经常被忽略的人才能感受到互联网的美妙。

谷歌Google语言

分享至

0赞

好文章，需要你的鼓励

推荐文章

视觉语言模型
AI评估可靠性
元评估基准

2026-05-06 17:20

IIT马德拉斯揭露AI评审员的"视而不见"：你的图文AI评判者究竟有多不靠谱？

这项由IIT马德拉斯与BITS Pilani联合发布的研究（arXiv:2604.21523，2026年4月）构建了FOCUS元评估基准，系统检验了评审型视觉语言大模型的可靠性。通过向超过4000个图文和图像样本中注入40种受控错误，研究发现顶尖评审AI的检测失败率在某些条件下超过50%，物理合理性和视觉细节类错误尤为难以被发现，两两比较是最可靠的评审范式。
人工智能
自动化框架
自进化系统

2026-05-06 16:09

Sylph.AI提出"最后一个你需要手动搭建的脚手架"：让AI自己学会给自己搭脚手架

这篇由Sylph.AI发布的技术报告提出了一套两层自动化框架，核心思想是让AI自动优化自身的运行脚手架，再进一步让AI学会如何更高效地做这种优化。内层的脚手架进化循环通过工人代理、评估代理和进化代理的协作，自动迭代改进单个任务的运行配置；外层的元进化循环则在多个任务上训练，学习一套能快速适应任何新场景的通用进化蓝图，从而彻底消除人工脚手架工程的需求。
人工智能
自然语言处理
新型智能体架构

2026-05-06 15:50

英伟达与加州理工学院揭秘：如何让一个毫无经验的AI在虚拟荒岛中自学成才？

这篇由英伟达等顶尖机构联合发表的论文提出了一种名为Voyager的新型智能体。研究团队以《我的世界》为实验平台，通过引入自动课程规划、技能库存储以及迭代反馈机制，成功让大语言模型主导的AI在完全无人类干预的情况下，实现了在复杂开放世界中的自主探索与终身学习。实验数据表明，Voyager在物品收集、探索范围及技能解锁速度上均呈现出远超传统方法的压倒性优势，为未来开发能够自主解决真实物理世界复杂任务的通用人工智能奠定了关键的理论与实践基础。
多智能体系统
递归计算
潜在空间协作

2026-05-06 15:17

多所顶尖高校携手攻克AI协作难题：让多个AI像流水线工厂一样不断"迭代进化"

这项由伊利诺伊大学、斯坦福大学、英伟达和麻省理工学院联合发布的研究（arXiv:2604.25917，2026年4月）提出了RecursiveMAS框架，让多个异构AI模型通过轻量级模块RecursiveLink在内部信号层面直接传递"潜在思想"，形成循环协作，彻底绕开了传统多AI系统依靠文字传话的低效方式。配合两阶段内外循环训练策略，整个系统只需优化极少量参数，就能在数学、科学、代码生成和搜索问答等9个基准测试上取得平均8.3%的精度提升，同时实现最高2.4倍推理加速和75.6%的token用量削减。