AI Pulse

AI模型能自己跑完复杂任务,速度快4倍成本不到一半

AI模型能自己跑完复杂任务,速度快4倍成本不到一半

Google 发布了 Gemini 3.5 Flash,这是其最新一代 AI 模型。与以往需要用户一步步引导不同,3.5 Flash 的核心能力是“行动”。它能自己规划、执行多步骤任务——比如开发新应用、维护代码库、准备财务文件,不需要每步等人来指挥。

在性能上,3.5 Flash 的提升幅度不小。它的输出速度是其他前沿模型的 4 倍,成本不到它们的一半。在几项关键的编码和代理任务基准测试中,3.5 Flash 得分超过了自家更高级的 Gemini 3.1 Pro。具体来说,Terminal-Bench 2.1 得分 76.2%,GDPval-AA 的 Elo 评分 1656,MCP Atlas 得分 83.6%。在多模态理解基准 CharXiv Reasoning 上,它也拿到了 84.2%。

企业已经开始用了

这种能力和效率上的优势,已经转化为具体的企业应用。

Shopify 正在用 3.5 Flash 并行运行多个子代理,长期分析复杂数据,以更准确地预测全球商家增长。Macquarie Bank 在试点用它加速客户开户流程,模型能处理超过 100 页的复杂文件,提取相关信息并给出可靠建议。Salesforce 将 3.5 Flash 集成到 Agentforce 中,部署多个子代理自动执行复杂的企业任务,这些子代理能记住上下文并进行多轮工具调用。Ramp 用它改进了 OCR(光学字符识别),通过多模态理解复杂发票,并结合历史模式进行推理。Xero 部署了代理来自动管理需要数周才能完成的工作流,例如为 1099 税表识别供应商并收集信息。Databricks 则使用代理工作流监控和检索实时信息,在庞大数据集中推理诊断问题并给出解决方案。

普通用户也能用上

对企业来说,3.5 Flash 可通过 Google Antigravity、Gemini API、Google AI Studio、Android Studio、Gemini Enterprise Agent Platform 等多个渠道获取。

对普通用户,3.5 Flash 已经是 Gemini 应用和“AI Mode in Search”的默认模型。使用 Gemini 聊天和 Google 搜索的 AI 模式时,背后就是这个更快、更省钱的模型。

Google 还推出了一个名为 Gemini Spark 的个人 AI 代理。它同样基于 3.5 Flash,可以不间断运行(7×24小时),在用户的指导下自主处理日常数字事务——比如导航、搜索信息并代为执行操作。Gemini Spark 今天开始向受信任的测试者推送,计划下周向美国地区的 Google AI Ultra 订阅用户开放 Beta 测试。

安全方面和下一步

3.5 Flash 按照 Google 的 Frontier Safety Framework(前沿安全框架)开发,加强了网络安全和生物安全防护。带来的直接效果是:模型更不容易生成有害内容,也减少了错误拒绝正常请求的情况。用户使用时会感觉它更“听话”,不会因为过度谨慎而无法回答。

目前还不清楚 Gemini Spark 具体能执行哪些类型的任务,官方没有列出详细的使用场景。3.5 Flash 的成本具体是多少也未公布,只说“不到其他模型的一半”。

Google 同时透露,更强的 3.5 Pro 版本已在内部使用,计划在下个月对外推出。

阅读原文
📚 相关主题 工程商业

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部