Anthropic一口气给华尔街做了10个AI Agent、Gemini 2.5 Pro登顶编程榜、Cloudflare裁1100人拥抱AI:本周AI圈5件大事
Anthropic发布10个金融行业AI Agent模板、Google Gemini 2.5 Pro I/O登顶WebDev Arena、Cloudflare裁员1100人转向Agentic AI、Local Deep Research开源项目实现95%准确率、Vercel开源Open Agents框架——本周AI圈每件大事都在重塑行业格局。
导语
过去一周(5月5日-5月9日),AI行业发生了几件可能改变未来两年走向的事情:Anthropic正式进军华尔街,一次性发布10个金融行业AI Agent模板;Google Gemini 2.5 Pro I/O版本在编程基准测试中登顶,价格却只有竞争对手的一半;Cloudflare宣布裁掉1100名员工(占总量20%),理由是AI让这些岗位变得多余;一个开源项目Local Deep Research在消费级显卡上跑出了95%的研究准确率;Vercel发布了Open Agents框架,让任何人都能快速搭建云端AI Agent。
这五件事表面各自独立,但拼在一起指向同一个趋势:AI正在从"工具"进化为"员工"。下面逐一拆解。
一、Anthropic给华尔街送了10个AI Agent:投行分析师的工作方式要变天了
发生了什么
5月5日,Anthropic 在其官网上正式发布了"Claude for Financial Services"——一套面向金融行业的、开箱即用的AI Agent模板包。这不是概念验证,而是可以直接部署到投行日常工作流里的生产级工具。
这套Agent包含10个模板,按职能分为两组:
前台研究组(5个):
- Pitch Builder——自动生成目标公司清单、跑可比公司分析、起草Pitchbook
- Meeting Preparer——在客户会议前自动整理客户和交易对手的背景资料
- Earnings Reviewer——阅读财报电话会议纪要和SEC文件,自动更新财务模型,标记与投资逻辑相关的重要变化
- Model Builder——从财报文件、数据源和分析师输入中自动搭建和维护财务模型
- Market Researcher——追踪行业和标的发展,综合新闻、公告和券商研报,为信贷和风控审查标记重要事项
中后台运营组(5个):
- Valuation Reviewer——检查估值是否符合可比公司、方法论和公司内部审核标准
- General Ledger Reconciler——对账总账科目,运行净资产值计算
- Month-End Closer——执行月末结账检查清单,准备日记账分录,生成结账报告
- Statement Auditor——审查财务报表的一致性、完整性和审计就绪度
- KYC Screener——整理实体档案,审查源文件,打包合规审查升级材料
为什么这件事很重要
过去一年,几乎所有AI公司都在喊"AI Agent",但大多数Agent还停留在"帮我写个邮件"的层面。Anthropic这次直接切入了全球薪酬最高的行业之一——投资银行,而且覆盖了从前台到后台的完整工作链路。
更有意思的是部署方式。这10个Agent有两种运行模式:
- 插件模式:作为Claude Cowork或Claude Code的插件运行,分析师在桌面上直接使用。比如给Pitch Builder一个目标公司列表,它能同时输出Excel可比模型、PowerPoint Pitchbook草稿和Outlook封面邮件。
- 托管模式:在Anthropic的平台上自主运行,适合需要处理大量交易或定时任务的场景(如月末结账)。
Anthropic还宣布了与Microsoft 365的深度集成——Claude现在可以直接操作Excel、PowerPoint和Word,而且上下文在这些应用之间自动流转。这意味着分析师在Excel里建的模型,到了PowerPoint里不需要重新解释。
目前已经有Citadel、FIS、BNY、Carlyle、Mizuho等头部金融机构成为客户。其中对冲基金Walleye Capital的CEO Will England说:"我们400名员工100%都在使用Claude Code"——这不是试用,而是全面替换。
对普通人的启示
如果你在金融行业工作,现在最重要的事情是去GitHub上下载这套模板(anthropics/financial-services),跑一遍Demo,理解它的能力边界。这不仅仅是一个工具,而是Anthropic定义了"AI在金融行业应该怎么干活"的标准答案。
二、Gemini 2.5 Pro I/O登顶编程榜:Google终于做出了能打的编程模型
发生了什么
5月7日,Google DeepMind发布了Gemini 2.5 Pro的升级版——Gemini 2.5 Pro "I/O"。DeepMind CEO哈萨比斯说这是"我们有史以来构建的最强编程模型"。
从数据来看,他没吹牛:
WebDev Arena排行榜(人类评审的网页应用生成任务):
| 模型 | 得分 | 排名 |
|---|---|---|
| Gemini 2.5 Pro I/O | 1499.95 | 第1名 |
| Claude 3.7 Sonnet | 1377.10 | 第2名 |
| Gemini 2.5 Pro(旧版) | 1278.96 | 第3名 |
相比上一版本实现了221分的大幅跃升,超越了连OpenAI的GPT-4o都未能击败的Claude 3.7 Sonnet。
最令人印象深刻的能力是单条文本提示生成完整应用。官方展示了多个案例:不到一分钟生成带音效的俄罗斯方块游戏、自动从YouTube视频创建互动学习应用、生成模拟水桶来回晃动的水体物理效果、甚至完成复杂后端路由系统的重构——这是首个实现此能力的AI模型。
价格才是杀手锏
性能登顶已经很厉害了,但真正让行业震动的是价格:
| 项目 | Gemini 2.5 Pro I/O | Claude 3.7 Sonnet | 差距 |
|---|---|---|---|
| 输入价格(每百万token) | $1.25 | $3.00 | 便宜58% |
| 输出价格(每百万token) | $10.00 | $15.00 | 便宜33% |
| 上下文窗口 | 200K tokens | — | — |
用不到竞争对手一半的价格,提供更好的编程性能。这对OpenAI和Anthropic构成了极大的定价压力。
此外,工具调用(function calling)的失败率"明显下降",在前端开发的可靠性和美观性上也大幅提升。现有Gemini 2.5 Pro用户将自动切换至新模型,无需额外操作。
对开发者的启示
如果你在使用Cursor或其他AI编程工具,Gemini 2.5 Pro I/O已经集成到Cursor中。建议在日常开发任务中切换到这个模型试试,特别是前端开发和全栈应用生成场景。
三、Cloudflare裁掉1100人:AI第一次大规模"替代"而不是"辅助"
发生了什么
5月7日,网络安全巨头Cloudflare宣布裁员1100人,占其5156名员工的约21%。CEO Matthew Prince在内部备忘录中说,这是为了"为Agentic AI时代重组公司架构"。
关键数据:过去三个月,Cloudflare内部的AI使用量增长了600%。Prince表示,AI驱动的效率提升使得许多传统支持和运营岗位变得多余。
讽刺的是,Cloudflare同时发布了Q1财报——收入同比增长25%,超出分析师预期。但市场并不买账,股价盘后暴跌24%。
为什么这件事和以往裁员不一样
2023-2025年,科技行业的裁员潮大多可以归结为"疫情后过度招聘的回调"或"降本增效"。但Cloudflare这次不一样——CEO明确表示不是因为业绩不好,而是因为AI改变了工作方式。
几个值得注意的信号:
- 从"AI辅助"到"AI替代":不是让员工用AI工具提高效率,而是直接用AI替代了整个职能。
- 收入增长与裁员并行:公司在增长,只是不再需要那么多人了。这是AI影响就业的真正拐点。
- "Agentic AI"作为裁员理由:Prince用的是"Agentic AI"而不是普通AI——暗示他看到的不只是自动化,而是能自主完成复杂任务的AI Agent。
同一天,Airbnb也透露了一个数据:AI现在生成了公司60%的新代码。虽然Airbnb没有宣布裁员,但这个数字本身就说明了很多问题。
对从业者的启示
Cloudflare的裁员不是孤立事件,而是一个信号。AI替代人力的速度可能比大多数预测更快。对于技术从业者来说,关键是确保自己的工作处于"AI难以自主完成"的区域——目前来看,系统设计、跨领域决策和创造性问题解决仍然是安全区。
四、Local Deep Research开源:消费级显卡跑出95%研究准确率
发生了什么
5月8日,开源项目Local Deep Research(LearningCircuit开发)在GitHub上引发关注。它在使用Qwen3.6-27B模型、仅需一张RTX 3090显卡的前提下,在SimpleQA测试中达到了约95%的准确率。
这个项目的核心价值在于:你在本地就能拥有一台研究能力接近GPT-4级别的AI研究员,数据完全不出你的电脑。
技术特点包括:
- 连接10+搜索引擎(arXiv、PubMed、GitHub等学术和专业数据源)
- 支持导入私有文档作为研究知识库
- 全程本地运行,所有数据端到端加密
- 兼容llama.cpp和Ollama生态
- 具备完整的Agent循环——自动规划搜索策略、交叉验证信息、生成研究报告
为什么95%准确率值得关注
SimpleQA是一个公认难度较高的开放域问答基准,目前GPT-4级别的云端模型在非优化条件下通常能达到85-92%。一个本地运行的开源模型能达到95%,说明两件事:
- 开源模型的推理能力已经足够强:Qwen3.6-27B的表现证明了中小参数模型通过良好的Agent框架设计,可以超越大参数模型的原始能力。
- RAG(检索增强生成)的设计比模型大小更重要:Local Deep Research的成功更多归功于其多源搜索+交叉验证+多步推理的研究框架,而非单纯依赖模型本身。
对于需要处理敏感数据(法律、医疗、金融)的场景,这种"完全本地化"的能力尤为宝贵。
对开发者的启示
如果你对隐私敏感型AI应用感兴趣,强烈建议克隆这个仓库试一下。硬件要求不高(RTX 3090或同等级显卡),但能给你一个关于"本地AI Agent能做到什么程度"的真实体感。
五、Vercel发布Open Agents框架:AI Agent开发的"脚手架"来了
发生了什么
5月9日,Vercel Labs在GitHub上发布了Open Agents——一个开源的云端AI Agent构建模板。同一天,Addy Osmani(Google Chrome团队前核心成员)也发布了Agent-Skills框架,专注于将"生产级工程实践"编码到AI编程Agent的逻辑中。
这两个项目代表了同一个趋势:AI Agent开发正在从"手工作坊"走向"工业化"。
Open Agents提供了一个基础框架,降低了在云基础设施中构建自主Agent的门槛。而Agent-Skills更专注于代码质量——它将工作流、质量门控和最佳实践编码进Agent的逻辑中,目标是让AI编码从"实验性"提升到"专业级"。
加上同日GitHub Trending上的其他Agent项目(DeepSeek-TUI终端编程Agent、PageIndex无向量RAG系统、InsForge编程Agent后端基础设施),仅5月9日一天就有5个Agent相关项目冲上了GitHub热榜。
这意味着什么
AI Agent的"基础设施层"正在快速成熟。就像云计算早期有CloudFormation和Terraform一样,AI Agent领域正在形成自己的基础设施工具链。这意味着:
- 构建Agent的成本和门槛在快速降低
- Agent的质量标准正在被定义(Agent-Skills的质量门控思路)
- Agent之间的互操作性和组合能力会越来越好
总结:本周AI圈的五个关键信号
| 事件 | 信号 | 影响范围 |
|---|---|---|
| Anthropic发布10个金融Agent | AI从"工具"进入"员工"角色 | 金融行业从业者 |
| Gemini 2.5 Pro I/O登顶编程榜 | 模型价格战白热化 | 开发者和AI应用公司 |
| Cloudflare裁1100人 | AI替代人力的拐点已到 | 所有科技从业者 |
| Local Deep Research 95%准确率 | 本地AI能力接近云端 | 隐私敏感型应用开发者 |
| Open Agents + Agent-Skills发布 | Agent基础设施快速成熟 | AI开发者 |
如果说上周的主题是"AI模型的进化",那这周的主题就是"AI Agent的落地"。模型不再是瓶颈,如何把AI变成真正能独立完成工作的"数字员工",才是接下来两年的核心战场。
对于关注AI工具的用户来说,建议重点关注三个方向:Anthropic的金融Agent模板可以作为理解"AI Agent应该怎么设计"的最佳案例;Gemini 2.5 Pro I/O的性价比优势值得在实际开发中验证;Local Deep Research证明了本地化AI的可行性,对数据敏感的场景尤其重要。