AI现在能像人一样点开终端、切标签、敲回车、读新输出

📅 2026 年 4 月 6 日 📖 约 4 分钟 GitHub AI开源工程

凌晨三点，工程师盯着终端里滚动的日志，手动切到另一个标签页，运行测试命令，再切回来等结果。这个动作他今天重复了十七次。

TermHub 把这套动作拆解成可编程的原子操作：打开新标签、定位当前会话、发送命令、按下回车键、捕获‘这次命令之后新增的那几行输出’。这意味着，AI不再需要把终端当黑盒来猜，而是像真人一样真实操控它。

它支持 macOS 的 iTerm2 和系统 Terminal，也支持 Windows Terminal 和 CMD；命令行可用，SDK 也能直接集成进 AI 工作流；按 Tab 键、Ctrl+C、Esc+下箭头连按五次再回车——这些都成了可调用的函数。这意味着，过去必须靠人工协调的多终端协作（比如一边跑服务、一边查日志、一边调试 API），现在可以由一个提示词驱动闭环完成。

最关键的是‘send-to-capture delta’机制：每次 send 前自动打一个输出快照，后续 capture 只返回‘这次命令之后新增的内容’。这意味着，AI 不再需要从几百行历史日志里做关键词匹配，它拿到的就是干净、确定、时序精确的响应片段。

别人还在用 shell 脚本封装命令，TermHub 却在重定义‘终端控制’的边界——它不提供新功能，而是把操作系统早已允许的自动化能力，第一次对齐了 LLM 的动作粒度。你下次看到 AI 自动开三个终端窗口分别跑前端、后端、数据库，别以为它调了什么云服务；它可能 just ran termhub press --combo cmd+t。

📎 阅读原文 · GitHub