Google AI 现在让用户可以使用手机摄像头即时翻译 27 种语言的文本

（GIF：谷歌）

多亏了人工智能，出国旅行从未如此简单。

谷歌翻译应用程序可让用户立即翻译文本。在应用程序中，只需将您的相机对准您要翻译的文本，您就会看到它实时转换成您想要的语言，就在您眼前——无需互联网连接或手机数据。这个方便的功能已经有一段时间了，但它只兼容七种语言。现在得益于机器学习，谷歌升级了这款应用，可以即时翻译 27 种语言。

因此，下次您在布拉格无法阅读菜单时，我们会支持您，Google 的软件工程师 Otavio Good 在公司的研究中写道博客 .

谷歌也只是使用人工智能将他们的语音识别错误减少了一半。

截至今天，除了英语、法语、德语、意大利语、葡萄牙语、俄语和西班牙语之间的翻译外，还可以实时翻译以下 20 种语言：保加利亚语、加泰罗尼亚语、克罗地亚语、捷克语、丹麦语、荷兰语、菲律宾语、芬兰语、匈牙利语、印度尼西亚语、立陶宛语、挪威语、波兰语、罗马尼亚语、斯洛伐克语、瑞典语、土耳其语和乌克兰语。如果您选择拍照而不是观看文本实时翻译，则总共支持 37 种语言。

那么谷歌是如何增加可用语言的数量的呢？他们首先收购了 Word Lens（以前是增强现实翻译应用程序），并使用机器学习和卷积神经网络来增强应用程序的功能。图像识别方面的进步是关键。

五年前，如果你给电脑一张猫或狗的图像，它很难分辨哪个是哪个。古德先生说，多亏了卷积神经网络，计算机不仅可以区分猫和狗，它们甚至可以识别不同品种的狗。是的，它们不仅仅用于迷幻艺术 — 如果您正在翻译外国菜单或使用最新版本的 Google 翻译应用程序进行签名，那么您现在正在使用深度神经网络。

一步步

第一的 , 翻译必须清除背景杂乱并定位文本。当它定位相同颜色的像素块时，它确定它们是字母。当这些 blob 彼此靠近时，它会理解这是一条要读取的连续线。

下一个， 该应用程序必须识别每个字母是什么。这就是深度学习的用武之地。

我们使用卷积神经网络，在字母和非字母上训练它，这样它就可以了解不同的字母是什么样子，阅读博客文章。

研究人员不仅必须使用看起来干净的字母来训练软件，还必须使用脏字母。古德写道，现实世界中的信件被反射、污垢、污迹和各种怪异所破坏。因此，我们构建了我们的字母生成器来创建各种假污垢，以令人信服地模仿现实世界的嘈杂——假反射、假污迹、假怪异。

一些用于训练的脏字母。（照片：谷歌）

这第三步骤是在字典中查找识别的字母以获得翻译。为了进一步提高准确性，字典查找是近似的，以防 S 被误读为 5。

最后， 翻译后的文本以相同的样式呈现在原始文本之上。

我们可以这样做，因为我们已经找到并阅读了图像中的字母，所以我们确切地知道它们在哪里。我们可以查看字母周围的颜色并使用它来擦除原始字母。然后我们可以使用原始前景色在顶部绘制翻译，博客文章写道。

为了尽可能高效并允许所有这些步骤在没有互联网或数据连接的情况下实时完成，谷歌团队开发了一个非常小的神经网络，其可以处理的信息密度有上限。由于他们正在生成自己的训练数据，因此包含正确的数据很重要，但没有额外的内容，因此神经网络不会在不重要的事情上使用过多的信息密度。一个例子是它如何需要识别一个带有少量旋转但不要太多的字母。

最后，用户可以使用 20 多种语言，但速度仍然很快。

还请参见：Google 的 AI 团队向我们介绍了他们的机器学习研究