不用再写爬虫了,AI 代理现在能自己点网页扒数据
Firecrawl 刚开源了个叫 web-agent 的框架,说白了就是让 AI 代理自己在网页上动手干活——搜内容、扒数据、点按钮,全套流程自动化。它用的其实是自家 /agent 接口背后那套技术,但这次直接摊开给你看。
以前这类功能藏在黑盒 API 里,现在全拆成可插拔模块。你想换大模型?Anthropic、OpenAI,甚至本地部署的 Llama,随便切。还能塞进子代理,整个部署在自己服务器上,不用看厂商脸色。
跑一条命令 $ firecrawl create agent,立马生成一个完整代理。默认带三个本事:/scrape(扒页面)、/search(搜东西)、/interact(点来点去),三者在计划-执行循环里配合干活。你还能选流式 UI、API 服务,或者直接当库调用。
更实用的是 Skill playbook——相当于给代理写操作手册。比如教它自动翻十页电商商品、跨三个网站比价,或者按模板抽结构化数据。我试过抓鞋价,连尺码库存都整整齐齐吐出来。
代码已经扔 GitHub 上,MIT 许可,随便 fork。模块化设计加上不绑死大模型,终于能把那些一次性爬虫脚本升级成正经自动化工具了。牛皮吹爆了?反正我不用再手动点“下一页”了。