AI Pulse

Google出了一款不联网也能用的AI听写App,但真正特别的是它怎么‘听懂’你

Google出了一款不联网也能用的AI听写App,但真正特别的是它怎么‘听懂’你

开会时掏出手机录一段话,五秒后看到的不是‘呃…那个…然后呢…’,而是一句完整、带主谓宾、连标点都像你亲手敲出来的句子——这不再是剪辑后的播客脚本,而是你刚说出口的念头,被当场重写了一遍。

它用的是Gemini同源技术家族里的轻量模型Gemma,在iPhone本地运行。语音不上传,识别不依赖网络,连‘暂停’键按下去的瞬间,AI就已把刚才那句话里所有自我修正、重复和语气词悄悄抹平。 这意味着:你不再需要先录音、再整理、再润色——三个动作被压进一次呼吸之间。

它还能从你的Gmail里读取常用人名、公司名和专业术语;你也可以手动加词,比如‘Qwen’或‘RAG pipeline’。这些词不会被误听成‘queue when’或‘rag pie-pipe’。 这意味着:它不是在听声音,而是在配合你已有的知识语境工作。

更关键的是,它把‘听写’拆成了两层:底层是ASR(语音识别),上层是文本重构。当关闭云模式时,ASR靠本地Gemma完成;而文本润色也由本地模型承担——不是简单删‘um’,而是判断哪处停顿是思考间隙、哪处重复是强调、哪句半截话该补全主语。 这意味着:它处理的不是音频波形,而是语言背后的意图结构。

别人还在比谁的转录快0.3秒,Google已经让AI在你开口的同时,开始起草回复邮件的初稿。

这个App目前只上架iOS,但App Store页面写着‘Android版即将推出’,并提到将支持设为系统默认键盘、浮窗按钮唤起——也就是说,它想成为你打字时的‘影子助手’,而不是一个单独打开又关闭的工具。

这条路能不能走通,取决于工具本身够不够用。但至少,它把‘要不要试’这件事,变简单了。

📎 阅读原文 · TechCrunch