AI Agent 日报

🤖 AI Agent 研究

浙江大学团队开源 ClawGUI，首个支持 RL 训练的 GUI Agent 全栈框架，统一覆盖 Android、HarmonyOS、iOS 三端部署。集成 GiGPO 和 Process Reward Model，支持并行虚拟环境与真实物理设备训练。ClawGUI-2B 在 MobileWorld GUI-Only 基准上超越同规模 MAI-UI-2B 6.0%，达到 17.1% 成功率。项目同时发布 6 个基准的标准化评估套件，填补开源 GUI Agent RL 基础设施空白。

查看原文 gui-agent reinforcement-learning open-source

KnowRL: 知识引导的最小充分 RL 推理框架

天津大学提出 KnowRL，将 hint 设计建模为最小充分引导问题，通过原子知识点分解和约束子集搜索构建紧凑的交互感知知识子集。研究发现剪枝交互悖论：移除单个知识点可能有益但移除多个反而有害。KnowRL-Nemotron-1.5B 在 8 个推理基准上平均准确率达 74.16%，超越基线 +9.63 分，刷新 1.5B 规模 SOTA。

查看原文 reasoning reinforcement-learning knowledge-guidance

SPPO: 序列级 PPO 突破长链推理训练瓶颈

南方科技大学 NLP 组提出 SPPO，将长链推理重新建模为序列级上下文赌博机问题，使用解耦标量价值函数导出低方差优势信号，无需多采样。SPPO 解决标准 token 级 PPO 在长 CoT 上的不稳定问题，训练速度提升 5.9 倍。已入选 ACL 2026 Main，在 AIME24/25、AMC23、MATH500 上以单样本更新匹配 GRPO(N=8) 性能。

查看原文 rl-training reasoning ppo acl-2026

⭐ GitHub 热门项目

TOP NousResearch/hermes-agent

Nous Research 官方 Agent 框架，主打与用户共同成长理念，提供持久记忆、技能系统、子代理编排等能力。星标近 9 万，是当前最热门的开源 AI Agent 项目之一。

查看原文 ai-agent framework persistent-memory

thedotmack/claude-mem

Claude Code 插件，自动捕获编码会话中 Claude 的所有操作，用 AI 压缩后注入未来会话的上下文。解决 Claude Code 跨会话遗忘问题，星标 5.8 万。

查看原文 claude-code context-memory developer-tools

virattt/ai-hedge-fund

AI 对冲基金团队模拟系统，由多个 AI Agent 分别扮演不同投资角色（分析师、交易员、风控），协作完成投资决策。星标 5.5 万，是 AI+金融交叉领域的标杆项目。

查看原文 ai-agent finance multi-agent

forrestchang/andrej-karpathy-skills

基于 Karpathy 对 LLM 编码陷阱观察提炼的 CLAUDE.md 技巧文件，一个文件即可提升 Claude Code 行为质量。星标 4.3 万，说明社区对 LLM 编码最佳实践的强需求。

查看原文 claude-code best-practices prompting

HKUDS/DeepTutor

港大数据科学团队推出的 Agent 原生个性化学习助手，基于深度研究能力为每个学生生成定制化学习路径。星标 1.8 万，代表 AI+教育方向的最新探索。

查看原文 education agent-native personalization

🚀 模型与行业动态

TOP Adobe Firefly AI Assistant: 跨应用一句话创作

Adobe 发布 Firefly AI Assistant，用户通过自然语言对话即可跨 Photoshop、Premiere、Illustrator 执行复杂多步工作流。助手自动学习用户偏好，支持 Kling 3.0 视频模型集成和 Frame.io Drive 云存储。Adobe 称这是创意工作的范式转变，明确将 Agentic AI 定位为 Creative Cloud 的核心架构。

查看原文 adobe firefly creative-ai agentic

Google Gemini 登陆 Mac: Option+Space 一键唤起

Google 推出 macOS 原生 Gemini 应用，Option+Space 唤起浮动聊天窗口，支持上传文件、生成图片/视频/音乐、回顾历史对话。桌面端 AI 助手竞争白热化，Google 以原生应用切入对抗 ChatGPT 桌面版。

查看原文 google gemini macos desktop-ai

Claude Cowork 正式上线 + Claude for Word 进入 Beta

Anthropic 宣布 Claude Cowork 结束 12 周研究预览正式 GA，已有数百万用户。同时推出 Claude for Word Beta，支持在 Word 侧边栏直接起草、编辑、修订文档，编辑以跟踪更改形式显示。面向 Team 和 Enterprise 计划用户，标志着 Anthropic 全面进军企业办公场景。

查看原文 anthropic claude enterprise productivity

Anthropic Claude Managed Agents: 企业一站式 Agent 部署

Anthropic 推出 Claude Managed Agents 平台，简化企业 AI Agent 部署流程，砍掉复杂编排步骤。但分析指出这可能带来供应商锁定风险。信号明确：Anthropic 正从模型提供商转型为全栈企业 AI 解决方案供应商。

查看原文 anthropic enterprise agent-platform

🔥 社区热议

TOP Claude Code 三大新功能: /ultraplan、Monitor、Advisor 策略

Claude Code 新增 /ultraplan 命令，允许用户在 Web 端构建和编辑计划后在终端执行；Monitor 工具可监听后台事件替代轮询，节省 token；Advisor 策略将 Opus 和 Sonnet 配对，以更低或相近成本获得更优性能。三个功能分别解决规划、监控、成本三大痛点。

查看原文 claude-code developer-tools productivity

OpenAI 推出 $100/月新 Pro 层级

OpenAI 新增 $100/月计划，提供 5 倍于 $20 基础版的算力。$200/月计划提供 10 倍算力。5 月 31 日前两个高级版各有 2x 加成，实际分别达 10 倍和 20 倍。AI 工具正在形成明显的分层定价体系，重度用户月费已接近 SaaS 级别。

查看原文 openai pricing subscription

Grok 深度伪造问题差点被苹果 App Store 下架

苹果 1 月曾悄悄威胁将 Elon Musk 的 Grok AI 应用从 App Store 移除，原因是该应用未能遏制 X 平台上泛滥的非自愿色情深度伪造内容。苹果要求开发者制定内容审核改进计划。这一事件暴露了 AI 生成内容的监管真空和平台责任边界之争。

查看原文 grok deepfake content-moderation apple

NAACP 起诉 xAI: 孟菲斯数据中心污染黑人社区

NAACP 起诉阻止 Musk 的 Colossus 2 数据中心项目，指控项目在没有空气许可证的情况下运行 27 台燃气轮机，违反清洁空气法。诉状称黑人和前线社区被迫承受 AI 创新的有毒代价。案件凸显 AI 基础设施快速扩张背后的环境正义问题。

查看原文 ai-infrastructure environmental-justice data-center

Meta 提出 Hyperagents: 非编码任务的自进化 AI

Meta 研究团队提出 Hyperagents 概念，目标是在动态环境中部署自进化 AI 系统，尤其面向企业生产环境中任务不可预测或不一致的场景。这项工作代表了从编码 Agent 向通用 Agent 扩展的重要方向。

查看原文 meta hyperagents self-improving enterprise

Allbirds 卖鞋改卖算力: 转型 AI 基础设施公司

困境中的鞋履品牌 Allbirds 宣布从鞋类业务全面转向 AI 算力基础设施服务，被 Ars Technica 戏称为 2017 年 Long Island Blockchain 炒作的翻版。这一案例折射出 AI 概念的狂热程度——任何公司只要贴上 AI 标签股价就能飞涨（Allbirds 暴涨 600%）。

查看原文 ai-bubble pivot speculation

🤖 AI Agent 研究

⭐ GitHub 热门项目

🚀 模型与行业动态

🔥 社区热议

📱 微信扫码分享