Anthropic一口气给华尔街做了10个AI Agent、Gemini 2.5 Pro登顶编程榜、Cloudflare裁1100人拥抱AI:本周AI圈5件大事

2026-05-11 · AI行业动态
⚡ TL;DR
Anthropic发布10个金融行业AI Agent模板、Google Gemini 2.5 Pro I/O登顶WebDev Arena、Cloudflare裁员1100人转向Agentic AI、Local Deep Research开源项目实现95%准确率、Vercel开源Open Agents框架——本周AI圈每件大事都在重塑行业格局。

导语

过去一周(5月5日-5月9日),AI行业发生了几件可能改变未来两年走向的事情:Anthropic正式进军华尔街,一次性发布10个金融行业AI Agent模板;Google Gemini 2.5 Pro I/O版本在编程基准测试中登顶,价格却只有竞争对手的一半;Cloudflare宣布裁掉1100名员工(占总量20%),理由是AI让这些岗位变得多余;一个开源项目Local Deep Research在消费级显卡上跑出了95%的研究准确率;Vercel发布了Open Agents框架,让任何人都能快速搭建云端AI Agent。

这五件事表面各自独立,但拼在一起指向同一个趋势:AI正在从"工具"进化为"员工"。下面逐一拆解。

一、Anthropic给华尔街送了10个AI Agent:投行分析师的工作方式要变天了

发生了什么

5月5日,Anthropic 在其官网上正式发布了"Claude for Financial Services"——一套面向金融行业的、开箱即用的AI Agent模板包。这不是概念验证,而是可以直接部署到投行日常工作流里的生产级工具。

这套Agent包含10个模板,按职能分为两组:

前台研究组(5个):

中后台运营组(5个):

为什么这件事很重要

过去一年,几乎所有AI公司都在喊"AI Agent",但大多数Agent还停留在"帮我写个邮件"的层面。Anthropic这次直接切入了全球薪酬最高的行业之一——投资银行,而且覆盖了从前台到后台的完整工作链路。

更有意思的是部署方式。这10个Agent有两种运行模式:

    • 插件模式:作为Claude Cowork或Claude Code的插件运行,分析师在桌面上直接使用。比如给Pitch Builder一个目标公司列表,它能同时输出Excel可比模型、PowerPoint Pitchbook草稿和Outlook封面邮件。
    • 托管模式:在Anthropic的平台上自主运行,适合需要处理大量交易或定时任务的场景(如月末结账)。

Anthropic还宣布了与Microsoft 365的深度集成——Claude现在可以直接操作Excel、PowerPoint和Word,而且上下文在这些应用之间自动流转。这意味着分析师在Excel里建的模型,到了PowerPoint里不需要重新解释。

目前已经有Citadel、FIS、BNY、Carlyle、Mizuho等头部金融机构成为客户。其中对冲基金Walleye Capital的CEO Will England说:"我们400名员工100%都在使用Claude Code"——这不是试用,而是全面替换。

对普通人的启示

如果你在金融行业工作,现在最重要的事情是去GitHub上下载这套模板(anthropics/financial-services),跑一遍Demo,理解它的能力边界。这不仅仅是一个工具,而是Anthropic定义了"AI在金融行业应该怎么干活"的标准答案。

二、Gemini 2.5 Pro I/O登顶编程榜:Google终于做出了能打的编程模型

发生了什么

5月7日,Google DeepMind发布了Gemini 2.5 Pro的升级版——Gemini 2.5 Pro "I/O"。DeepMind CEO哈萨比斯说这是"我们有史以来构建的最强编程模型"。

从数据来看,他没吹牛:

WebDev Arena排行榜(人类评审的网页应用生成任务):

模型得分排名
Gemini 2.5 Pro I/O1499.95第1名
Claude 3.7 Sonnet1377.10第2名
Gemini 2.5 Pro(旧版)1278.96第3名

相比上一版本实现了221分的大幅跃升,超越了连OpenAI的GPT-4o都未能击败的Claude 3.7 Sonnet。

最令人印象深刻的能力是单条文本提示生成完整应用。官方展示了多个案例:不到一分钟生成带音效的俄罗斯方块游戏、自动从YouTube视频创建互动学习应用、生成模拟水桶来回晃动的水体物理效果、甚至完成复杂后端路由系统的重构——这是首个实现此能力的AI模型。

价格才是杀手锏

性能登顶已经很厉害了,但真正让行业震动的是价格:

项目Gemini 2.5 Pro I/OClaude 3.7 Sonnet差距
输入价格(每百万token)$1.25$3.00便宜58%
输出价格(每百万token)$10.00$15.00便宜33%
上下文窗口200K tokens

用不到竞争对手一半的价格,提供更好的编程性能。这对OpenAI和Anthropic构成了极大的定价压力。

此外,工具调用(function calling)的失败率"明显下降",在前端开发的可靠性和美观性上也大幅提升。现有Gemini 2.5 Pro用户将自动切换至新模型,无需额外操作。

对开发者的启示

如果你在使用Cursor或其他AI编程工具,Gemini 2.5 Pro I/O已经集成到Cursor中。建议在日常开发任务中切换到这个模型试试,特别是前端开发和全栈应用生成场景。

三、Cloudflare裁掉1100人:AI第一次大规模"替代"而不是"辅助"

发生了什么

5月7日,网络安全巨头Cloudflare宣布裁员1100人,占其5156名员工的约21%。CEO Matthew Prince在内部备忘录中说,这是为了"为Agentic AI时代重组公司架构"。

关键数据:过去三个月,Cloudflare内部的AI使用量增长了600%。Prince表示,AI驱动的效率提升使得许多传统支持和运营岗位变得多余。

讽刺的是,Cloudflare同时发布了Q1财报——收入同比增长25%,超出分析师预期。但市场并不买账,股价盘后暴跌24%。

为什么这件事和以往裁员不一样

2023-2025年,科技行业的裁员潮大多可以归结为"疫情后过度招聘的回调"或"降本增效"。但Cloudflare这次不一样——CEO明确表示不是因为业绩不好,而是因为AI改变了工作方式

几个值得注意的信号:

    • 从"AI辅助"到"AI替代":不是让员工用AI工具提高效率,而是直接用AI替代了整个职能。
    • 收入增长与裁员并行:公司在增长,只是不再需要那么多人了。这是AI影响就业的真正拐点。
    • "Agentic AI"作为裁员理由:Prince用的是"Agentic AI"而不是普通AI——暗示他看到的不只是自动化,而是能自主完成复杂任务的AI Agent。

同一天,Airbnb也透露了一个数据:AI现在生成了公司60%的新代码。虽然Airbnb没有宣布裁员,但这个数字本身就说明了很多问题。

对从业者的启示

Cloudflare的裁员不是孤立事件,而是一个信号。AI替代人力的速度可能比大多数预测更快。对于技术从业者来说,关键是确保自己的工作处于"AI难以自主完成"的区域——目前来看,系统设计、跨领域决策和创造性问题解决仍然是安全区。

四、Local Deep Research开源:消费级显卡跑出95%研究准确率

发生了什么

5月8日,开源项目Local Deep Research(LearningCircuit开发)在GitHub上引发关注。它在使用Qwen3.6-27B模型、仅需一张RTX 3090显卡的前提下,在SimpleQA测试中达到了约95%的准确率。

这个项目的核心价值在于:你在本地就能拥有一台研究能力接近GPT-4级别的AI研究员,数据完全不出你的电脑。

技术特点包括:

为什么95%准确率值得关注

SimpleQA是一个公认难度较高的开放域问答基准,目前GPT-4级别的云端模型在非优化条件下通常能达到85-92%。一个本地运行的开源模型能达到95%,说明两件事:

    • 开源模型的推理能力已经足够强:Qwen3.6-27B的表现证明了中小参数模型通过良好的Agent框架设计,可以超越大参数模型的原始能力。
    • RAG(检索增强生成)的设计比模型大小更重要:Local Deep Research的成功更多归功于其多源搜索+交叉验证+多步推理的研究框架,而非单纯依赖模型本身。

对于需要处理敏感数据(法律、医疗、金融)的场景,这种"完全本地化"的能力尤为宝贵。

对开发者的启示

如果你对隐私敏感型AI应用感兴趣,强烈建议克隆这个仓库试一下。硬件要求不高(RTX 3090或同等级显卡),但能给你一个关于"本地AI Agent能做到什么程度"的真实体感。

五、Vercel发布Open Agents框架:AI Agent开发的"脚手架"来了

发生了什么

5月9日,Vercel Labs在GitHub上发布了Open Agents——一个开源的云端AI Agent构建模板。同一天,Addy Osmani(Google Chrome团队前核心成员)也发布了Agent-Skills框架,专注于将"生产级工程实践"编码到AI编程Agent的逻辑中。

这两个项目代表了同一个趋势:AI Agent开发正在从"手工作坊"走向"工业化"

Open Agents提供了一个基础框架,降低了在云基础设施中构建自主Agent的门槛。而Agent-Skills更专注于代码质量——它将工作流、质量门控和最佳实践编码进Agent的逻辑中,目标是让AI编码从"实验性"提升到"专业级"。

加上同日GitHub Trending上的其他Agent项目(DeepSeek-TUI终端编程Agent、PageIndex无向量RAG系统、InsForge编程Agent后端基础设施),仅5月9日一天就有5个Agent相关项目冲上了GitHub热榜。

这意味着什么

AI Agent的"基础设施层"正在快速成熟。就像云计算早期有CloudFormation和Terraform一样,AI Agent领域正在形成自己的基础设施工具链。这意味着:

    • 构建Agent的成本和门槛在快速降低
    • Agent的质量标准正在被定义(Agent-Skills的质量门控思路)
    • Agent之间的互操作性和组合能力会越来越好

总结:本周AI圈的五个关键信号

事件信号影响范围
Anthropic发布10个金融AgentAI从"工具"进入"员工"角色金融行业从业者
Gemini 2.5 Pro I/O登顶编程榜模型价格战白热化开发者和AI应用公司
Cloudflare裁1100人AI替代人力的拐点已到所有科技从业者
Local Deep Research 95%准确率本地AI能力接近云端隐私敏感型应用开发者
Open Agents + Agent-Skills发布Agent基础设施快速成熟AI开发者

如果说上周的主题是"AI模型的进化",那这周的主题就是"AI Agent的落地"。模型不再是瓶颈,如何把AI变成真正能独立完成工作的"数字员工",才是接下来两年的核心战场。

对于关注AI工具的用户来说,建议重点关注三个方向:Anthropic的金融Agent模板可以作为理解"AI Agent应该怎么设计"的最佳案例;Gemini 2.5 Pro I/O的性价比优势值得在实际开发中验证;Local Deep Research证明了本地化AI的可行性,对数据敏感的场景尤其重要。