Anthropic一口气给华尔街做了10个AI Agent、Gemini 2.5 Pro登顶编程榜、Cloudflare裁1100人拥抱AI：本周AI圈5件大事

2026-05-11 · AI行业动态

⚡ TL;DR
Anthropic发布10个金融行业AI Agent模板、Google Gemini 2.5 Pro I/O登顶WebDev Arena、Cloudflare裁员1100人转向Agentic AI、Local Deep Research开源项目实现95%准确率、Vercel开源Open Agents框架——本周AI圈每件大事都在重塑行业格局。

导语

过去一周（5月5日-5月9日），AI行业发生了几件可能改变未来两年走向的事情：Anthropic正式进军华尔街，一次性发布10个金融行业AI Agent模板；Google Gemini 2.5 Pro I/O版本在编程基准测试中登顶，价格却只有竞争对手的一半；Cloudflare宣布裁掉1100名员工（占总量20%），理由是AI让这些岗位变得多余；一个开源项目Local Deep Research在消费级显卡上跑出了95%的研究准确率；Vercel发布了Open Agents框架，让任何人都能快速搭建云端AI Agent。

这五件事表面各自独立，但拼在一起指向同一个趋势：AI正在从"工具"进化为"员工"。下面逐一拆解。

一、Anthropic给华尔街送了10个AI Agent：投行分析师的工作方式要变天了

发生了什么

5月5日，Anthropic 在其官网上正式发布了"Claude for Financial Services"——一套面向金融行业的、开箱即用的AI Agent模板包。这不是概念验证，而是可以直接部署到投行日常工作流里的生产级工具。

这套Agent包含10个模板，按职能分为两组：

前台研究组（5个）：

Pitch Builder——自动生成目标公司清单、跑可比公司分析、起草Pitchbook
Meeting Preparer——在客户会议前自动整理客户和交易对手的背景资料
Earnings Reviewer——阅读财报电话会议纪要和SEC文件，自动更新财务模型，标记与投资逻辑相关的重要变化
Model Builder——从财报文件、数据源和分析师输入中自动搭建和维护财务模型
Market Researcher——追踪行业和标的发展，综合新闻、公告和券商研报，为信贷和风控审查标记重要事项

中后台运营组（5个）：

Valuation Reviewer——检查估值是否符合可比公司、方法论和公司内部审核标准
General Ledger Reconciler——对账总账科目，运行净资产值计算
Month-End Closer——执行月末结账检查清单，准备日记账分录，生成结账报告
Statement Auditor——审查财务报表的一致性、完整性和审计就绪度
KYC Screener——整理实体档案，审查源文件，打包合规审查升级材料

为什么这件事很重要

过去一年，几乎所有AI公司都在喊"AI Agent"，但大多数Agent还停留在"帮我写个邮件"的层面。Anthropic这次直接切入了全球薪酬最高的行业之一——投资银行，而且覆盖了从前台到后台的完整工作链路。

更有意思的是部署方式。这10个Agent有两种运行模式：

插件模式：作为Claude Cowork或Claude Code的插件运行，分析师在桌面上直接使用。比如给Pitch Builder一个目标公司列表，它能同时输出Excel可比模型、PowerPoint Pitchbook草稿和Outlook封面邮件。
托管模式：在Anthropic的平台上自主运行，适合需要处理大量交易或定时任务的场景（如月末结账）。

Anthropic还宣布了与Microsoft 365的深度集成——Claude现在可以直接操作Excel、PowerPoint和Word，而且上下文在这些应用之间自动流转。这意味着分析师在Excel里建的模型，到了PowerPoint里不需要重新解释。

目前已经有Citadel、FIS、BNY、Carlyle、Mizuho等头部金融机构成为客户。其中对冲基金Walleye Capital的CEO Will England说："我们400名员工100%都在使用Claude Code"——这不是试用，而是全面替换。

对普通人的启示

如果你在金融行业工作，现在最重要的事情是去GitHub上下载这套模板（anthropics/financial-services），跑一遍Demo，理解它的能力边界。这不仅仅是一个工具，而是Anthropic定义了"AI在金融行业应该怎么干活"的标准答案。

二、Gemini 2.5 Pro I/O登顶编程榜：Google终于做出了能打的编程模型

发生了什么

5月7日，Google DeepMind发布了Gemini 2.5 Pro的升级版——Gemini 2.5 Pro "I/O"。DeepMind CEO哈萨比斯说这是"我们有史以来构建的最强编程模型"。

从数据来看，他没吹牛：

WebDev Arena排行榜（人类评审的网页应用生成任务）：

模型	得分	排名
Gemini 2.5 Pro I/O	1499.95	第1名
Claude 3.7 Sonnet	1377.10	第2名
Gemini 2.5 Pro（旧版）	1278.96	第3名

相比上一版本实现了221分的大幅跃升，超越了连OpenAI的GPT-4o都未能击败的Claude 3.7 Sonnet。

最令人印象深刻的能力是单条文本提示生成完整应用。官方展示了多个案例：不到一分钟生成带音效的俄罗斯方块游戏、自动从YouTube视频创建互动学习应用、生成模拟水桶来回晃动的水体物理效果、甚至完成复杂后端路由系统的重构——这是首个实现此能力的AI模型。

价格才是杀手锏

性能登顶已经很厉害了，但真正让行业震动的是价格：

项目	Gemini 2.5 Pro I/O	Claude 3.7 Sonnet	差距
输入价格（每百万token）	$1.25	$3.00	便宜58%
输出价格（每百万token）	$10.00	$15.00	便宜33%
上下文窗口	200K tokens	—	—

用不到竞争对手一半的价格，提供更好的编程性能。这对OpenAI和Anthropic构成了极大的定价压力。

此外，工具调用（function calling）的失败率"明显下降"，在前端开发的可靠性和美观性上也大幅提升。现有Gemini 2.5 Pro用户将自动切换至新模型，无需额外操作。

对开发者的启示

如果你在使用Cursor或其他AI编程工具，Gemini 2.5 Pro I/O已经集成到Cursor中。建议在日常开发任务中切换到这个模型试试，特别是前端开发和全栈应用生成场景。

三、Cloudflare裁掉1100人：AI第一次大规模"替代"而不是"辅助"

发生了什么

5月7日，网络安全巨头Cloudflare宣布裁员1100人，占其5156名员工的约21%。CEO Matthew Prince在内部备忘录中说，这是为了"为Agentic AI时代重组公司架构"。

关键数据：过去三个月，Cloudflare内部的AI使用量增长了600%。Prince表示，AI驱动的效率提升使得许多传统支持和运营岗位变得多余。

讽刺的是，Cloudflare同时发布了Q1财报——收入同比增长25%，超出分析师预期。但市场并不买账，股价盘后暴跌24%。

为什么这件事和以往裁员不一样

2023-2025年，科技行业的裁员潮大多可以归结为"疫情后过度招聘的回调"或"降本增效"。但Cloudflare这次不一样——CEO明确表示不是因为业绩不好，而是因为AI改变了工作方式。

几个值得注意的信号：

从"AI辅助"到"AI替代"：不是让员工用AI工具提高效率，而是直接用AI替代了整个职能。
收入增长与裁员并行：公司在增长，只是不再需要那么多人了。这是AI影响就业的真正拐点。
"Agentic AI"作为裁员理由：Prince用的是"Agentic AI"而不是普通AI——暗示他看到的不只是自动化，而是能自主完成复杂任务的AI Agent。

同一天，Airbnb也透露了一个数据：AI现在生成了公司60%的新代码。虽然Airbnb没有宣布裁员，但这个数字本身就说明了很多问题。

对从业者的启示

Cloudflare的裁员不是孤立事件，而是一个信号。AI替代人力的速度可能比大多数预测更快。对于技术从业者来说，关键是确保自己的工作处于"AI难以自主完成"的区域——目前来看，系统设计、跨领域决策和创造性问题解决仍然是安全区。

四、Local Deep Research开源：消费级显卡跑出95%研究准确率

发生了什么

5月8日，开源项目Local Deep Research（LearningCircuit开发）在GitHub上引发关注。它在使用Qwen3.6-27B模型、仅需一张RTX 3090显卡的前提下，在SimpleQA测试中达到了约95%的准确率。

这个项目的核心价值在于：你在本地就能拥有一台研究能力接近GPT-4级别的AI研究员，数据完全不出你的电脑。

技术特点包括：

连接10+搜索引擎（arXiv、PubMed、GitHub等学术和专业数据源）
支持导入私有文档作为研究知识库
全程本地运行，所有数据端到端加密
兼容llama.cpp和Ollama生态
具备完整的Agent循环——自动规划搜索策略、交叉验证信息、生成研究报告

为什么95%准确率值得关注

SimpleQA是一个公认难度较高的开放域问答基准，目前GPT-4级别的云端模型在非优化条件下通常能达到85-92%。一个本地运行的开源模型能达到95%，说明两件事：

开源模型的推理能力已经足够强：Qwen3.6-27B的表现证明了中小参数模型通过良好的Agent框架设计，可以超越大参数模型的原始能力。
RAG（检索增强生成）的设计比模型大小更重要：Local Deep Research的成功更多归功于其多源搜索+交叉验证+多步推理的研究框架，而非单纯依赖模型本身。

对于需要处理敏感数据（法律、医疗、金融）的场景，这种"完全本地化"的能力尤为宝贵。

对开发者的启示

如果你对隐私敏感型AI应用感兴趣，强烈建议克隆这个仓库试一下。硬件要求不高（RTX 3090或同等级显卡），但能给你一个关于"本地AI Agent能做到什么程度"的真实体感。

五、Vercel发布Open Agents框架：AI Agent开发的"脚手架"来了

发生了什么

5月9日，Vercel Labs在GitHub上发布了Open Agents——一个开源的云端AI Agent构建模板。同一天，Addy Osmani（Google Chrome团队前核心成员）也发布了Agent-Skills框架，专注于将"生产级工程实践"编码到AI编程Agent的逻辑中。

这两个项目代表了同一个趋势：AI Agent开发正在从"手工作坊"走向"工业化"。

Open Agents提供了一个基础框架，降低了在云基础设施中构建自主Agent的门槛。而Agent-Skills更专注于代码质量——它将工作流、质量门控和最佳实践编码进Agent的逻辑中，目标是让AI编码从"实验性"提升到"专业级"。

加上同日GitHub Trending上的其他Agent项目（DeepSeek-TUI终端编程Agent、PageIndex无向量RAG系统、InsForge编程Agent后端基础设施），仅5月9日一天就有5个Agent相关项目冲上了GitHub热榜。

这意味着什么

AI Agent的"基础设施层"正在快速成熟。就像云计算早期有CloudFormation和Terraform一样，AI Agent领域正在形成自己的基础设施工具链。这意味着：

构建Agent的成本和门槛在快速降低
Agent的质量标准正在被定义（Agent-Skills的质量门控思路）
Agent之间的互操作性和组合能力会越来越好

总结：本周AI圈的五个关键信号

事件	信号	影响范围
Anthropic发布10个金融Agent	AI从"工具"进入"员工"角色	金融行业从业者
Gemini 2.5 Pro I/O登顶编程榜	模型价格战白热化	开发者和AI应用公司
Cloudflare裁1100人	AI替代人力的拐点已到	所有科技从业者
Local Deep Research 95%准确率	本地AI能力接近云端	隐私敏感型应用开发者
Open Agents + Agent-Skills发布	Agent基础设施快速成熟	AI开发者

如果说上周的主题是"AI模型的进化"，那这周的主题就是"AI Agent的落地"。模型不再是瓶颈，如何把AI变成真正能独立完成工作的"数字员工"，才是接下来两年的核心战场。

对于关注AI工具的用户来说，建议重点关注三个方向：Anthropic的金融Agent模板可以作为理解"AI Agent应该怎么设计"的最佳案例；Gemini 2.5 Pro I/O的性价比优势值得在实际开发中验证；Local Deep Research证明了本地化AI的可行性，对数据敏感的场景尤其重要。

Anthropic一口气给华尔街做了10个AI Agent、Gemini 2.5 Pro登顶编程榜、Cloudflare裁1100人拥抱AI：本周AI圈5件大事

导语

一、Anthropic给华尔街送了10个AI Agent：投行分析师的工作方式要变天了

发生了什么

为什么这件事很重要

对普通人的启示

二、Gemini 2.5 Pro I/O登顶编程榜：Google终于做出了能打的编程模型

发生了什么

价格才是杀手锏

对开发者的启示

三、Cloudflare裁掉1100人：AI第一次大规模"替代"而不是"辅助"

发生了什么

为什么这件事和以往裁员不一样

对从业者的启示

四、Local Deep Research开源：消费级显卡跑出95%研究准确率

发生了什么

为什么95%准确率值得关注

对开发者的启示

五、Vercel发布Open Agents框架：AI Agent开发的"脚手架"来了

发生了什么

这意味着什么

总结：本周AI圈的五个关键信号

📖 相关文章

🔧 相关工具