Google出了一款不联网也能用的AI听写App，但真正特别的是它怎么‘听懂’你

📅 2026 年 4 月 7 日 📖 约 2 分钟 TechCrunch AI工程产品

开会时掏出手机录一段话，五秒后看到的不是‘呃…那个…然后呢…’，而是一句完整、带主谓宾、连标点都像你亲手敲出来的句子——这不再是剪辑后的播客脚本，而是你刚说出口的念头，被当场重写了一遍。

它用的是Gemini同源技术家族里的轻量模型Gemma，在iPhone本地运行。语音不上传，识别不依赖网络，连‘暂停’键按下去的瞬间，AI就已把刚才那句话里所有自我修正、重复和语气词悄悄抹平。这意味着：你不再需要先录音、再整理、再润色——三个动作被压进一次呼吸之间。

它还能从你的Gmail里读取常用人名、公司名和专业术语；你也可以手动加词，比如‘Qwen’或‘RAG pipeline’。这些词不会被误听成‘queue when’或‘rag pie-pipe’。这意味着：它不是在听声音，而是在配合你已有的知识语境工作。

更关键的是，它把‘听写’拆成了两层：底层是ASR（语音识别），上层是文本重构。当关闭云模式时，ASR靠本地Gemma完成；而文本润色也由本地模型承担——不是简单删‘um’，而是判断哪处停顿是思考间隙、哪处重复是强调、哪句半截话该补全主语。这意味着：它处理的不是音频波形，而是语言背后的意图结构。

别人还在比谁的转录快0.3秒，Google已经让AI在你开口的同时，开始起草回复邮件的初稿。

这个App目前只上架iOS，但App Store页面写着‘Android版即将推出’，并提到将支持设为系统默认键盘、浮窗按钮唤起——也就是说，它想成为你打字时的‘影子助手’，而不是一个单独打开又关闭的工具。

这条路能不能走通，取决于工具本身够不够用。但至少，它把‘要不要试’这件事，变简单了。