谷歌AI为何连“Google”都拼不对？

📅 2026 年 5 月 28 日 📖 约 4 分钟 TechCrunch AIresearchengineering

谷歌的人工智能为何连“谷歌”都不会拼？或者应该说，它什么都拼不对。

Google（谷歌）这个单词里有几个P？根据谷歌AI的答案：有两个。

谷歌的AI Overview还声称，“poop”这个词里“正好有1个‘r’”，而“journalism”这个词里有两个‘d’，但它的拼写却是：j-o-u-r-n-a-d-i-s-m。至少谷歌AI正确识别出美国总统的姓氏里有一个P，却把它拼成了t-r-p-u-m。

你不需要是预言家也能猜到，谷歌以AI为核心的搜索大改版注定不会顺利。我们之前就见过类似的情况。谷歌第一次在搜索中加入AI Overview时，这个功能竟然引用了来自《洋葱新闻》和Reddit的讽刺帖子，建议人们吃石头、在比萨上涂胶水。

这一次，当谷歌加倍努力让生成式AI成为其29岁旗舰产品的核心时，出现这样的失误并不令人意外。

“在单词内计数一直是LLM（大语言模型）的已知难题，我们正在努力修复这个特定问题，”谷歌在给TechCrunch的邮件声明中表示。

这些基础的拼写错误或许让人眼熟。LLM——驱动聊天机器人和其他文本生成器的那种人工智能——天生就不理解拼写。多年来一直有一个经典笑话：每当有公司发布新AI模型时，你应该问它“strawberry”这个词里有几个‘r’。这些AI模型——有些能在几秒钟内写出一款应用，或者解决困扰数学家几十年的难题——在拼写方面却只相当于幼儿园儿童的水平。

然而，谷歌AI Overview的麻烦远不止这些愚蠢的拼写错误。谷歌已经修补了上周的一个问题：搜索“disregard”一词时，会显示一个看似词典释义的结果，但释义却是：“明白。请随时告诉我您的新提示或问题！”但这些拼写错误之所以依然有趣，是因为它们如此难以消除。

正如研究人员之前在我们询问这些拼写谜题时所解释的那样，AI并不把句子理解为由单词和字母组成的语言单位。许多LLM基于transformer模型构建，这类模型将文本拆分成“token”——token可能是完整的单词、音节或字母，取决于具体模型。AI并不像人类那样“阅读”，而是将文本转换为其自身的数字表示形式，然后进行上下文化处理，以帮助AI生成合乎逻辑的回答。

图片来源：TechCrunch

“LLM基于这种transformer架构，它实际上并不阅读文本。当你输入一个提示时，它会被翻译成一种编码，”阿尔伯塔大学的人工智能研究员兼助理教授Matthew Guzdial告诉TechCrunch。“当它看到‘the’这个词时，它只有一个关于‘the’含义的编码，但它不知道‘T’、‘H’、‘E’。”

这种基于token的架构是驱动谷歌AI Overview等LLM的基础，它本身就存在局限性，而且研究人员对于能否解决拼写问题并不乐观。

“对于语言模型来说，很难绕过‘单词’到底是什么这个问题；即使我们让人类专家就完美的token词汇表达成一致，模型可能仍然会发现进一步‘分块’是有用的，”东北大学研究大语言模型可解释性的博士生Sheridan Feucht告诉TechCrunch。“我的猜测是，由于这种模糊性，并不存在完美的token化器。”

这未必是研究人员们亟需解决的紧迫问题，因为LLM的实用性并不在于它们的拼写能力。但这些显而易见的失败能够提醒我们：AI并非完美无缺，即便它有时可能看起来像我们无法理解的无所不知的力量。我们不能盲目信任AI的输出，而不去核实其准确性。

阅读原文

📚 相关主题 engineering

📬 订阅 AI Pulse