🤖 AI Agent 研究
浙江大学团队开源 ClawGUI,首个支持 RL 训练的 GUI Agent 全栈框架,统一覆盖 Android、HarmonyOS、iOS 三端部署。集成 GiGPO 和 Process Reward Model,支持并行虚拟环境与真实物理设备训练。ClawGUI-2B 在 MobileWorld GUI-Only 基准上超越同规模 MAI-UI-2B 6.0%,达到 17.1% 成功率。项目同时发布 6 个基准的标准化评估套件,填补开源 GUI Agent RL 基础设施空白。
查看原文 gui-agent reinforcement-learning open-source天津大学提出 KnowRL,将 hint 设计建模为最小充分引导问题,通过原子知识点分解和约束子集搜索构建紧凑的交互感知知识子集。研究发现剪枝交互悖论:移除单个知识点可能有益但移除多个反而有害。KnowRL-Nemotron-1.5B 在 8 个推理基准上平均准确率达 74.16%,超越基线 +9.63 分,刷新 1.5B 规模 SOTA。
查看原文 reasoning reinforcement-learning knowledge-guidance南方科技大学 NLP 组提出 SPPO,将长链推理重新建模为序列级上下文赌博机问题,使用解耦标量价值函数导出低方差优势信号,无需多采样。SPPO 解决标准 token 级 PPO 在长 CoT 上的不稳定问题,训练速度提升 5.9 倍。已入选 ACL 2026 Main,在 AIME24/25、AMC23、MATH500 上以单样本更新匹配 GRPO(N=8) 性能。
查看原文 rl-training reasoning ppo acl-2026⭐ GitHub 热门项目
Nous Research 官方 Agent 框架,主打与用户共同成长理念,提供持久记忆、技能系统、子代理编排等能力。星标近 9 万,是当前最热门的开源 AI Agent 项目之一。
查看原文 ai-agent framework persistent-memoryClaude Code 插件,自动捕获编码会话中 Claude 的所有操作,用 AI 压缩后注入未来会话的上下文。解决 Claude Code 跨会话遗忘问题,星标 5.8 万。
查看原文 claude-code context-memory developer-toolsAI 对冲基金团队模拟系统,由多个 AI Agent 分别扮演不同投资角色(分析师、交易员、风控),协作完成投资决策。星标 5.5 万,是 AI+金融交叉领域的标杆项目。
查看原文 ai-agent finance multi-agent基于 Karpathy 对 LLM 编码陷阱观察提炼的 CLAUDE.md 技巧文件,一个文件即可提升 Claude Code 行为质量。星标 4.3 万,说明社区对 LLM 编码最佳实践的强需求。
查看原文 claude-code best-practices prompting港大数据科学团队推出的 Agent 原生个性化学习助手,基于深度研究能力为每个学生生成定制化学习路径。星标 1.8 万,代表 AI+教育方向的最新探索。
查看原文 education agent-native personalization🚀 模型与行业动态
Adobe 发布 Firefly AI Assistant,用户通过自然语言对话即可跨 Photoshop、Premiere、Illustrator 执行复杂多步工作流。助手自动学习用户偏好,支持 Kling 3.0 视频模型集成和 Frame.io Drive 云存储。Adobe 称这是创意工作的范式转变,明确将 Agentic AI 定位为 Creative Cloud 的核心架构。
查看原文 adobe firefly creative-ai agenticGoogle 推出 macOS 原生 Gemini 应用,Option+Space 唤起浮动聊天窗口,支持上传文件、生成图片/视频/音乐、回顾历史对话。桌面端 AI 助手竞争白热化,Google 以原生应用切入对抗 ChatGPT 桌面版。
查看原文 google gemini macos desktop-aiAnthropic 宣布 Claude Cowork 结束 12 周研究预览正式 GA,已有数百万用户。同时推出 Claude for Word Beta,支持在 Word 侧边栏直接起草、编辑、修订文档,编辑以跟踪更改形式显示。面向 Team 和 Enterprise 计划用户,标志着 Anthropic 全面进军企业办公场景。
查看原文 anthropic claude enterprise productivityAnthropic 推出 Claude Managed Agents 平台,简化企业 AI Agent 部署流程,砍掉复杂编排步骤。但分析指出这可能带来供应商锁定风险。信号明确:Anthropic 正从模型提供商转型为全栈企业 AI 解决方案供应商。
查看原文 anthropic enterprise agent-platform🔥 社区热议
Claude Code 新增 /ultraplan 命令,允许用户在 Web 端构建和编辑计划后在终端执行;Monitor 工具可监听后台事件替代轮询,节省 token;Advisor 策略将 Opus 和 Sonnet 配对,以更低或相近成本获得更优性能。三个功能分别解决规划、监控、成本三大痛点。
查看原文 claude-code developer-tools productivityOpenAI 新增 $100/月计划,提供 5 倍于 $20 基础版的算力。$200/月计划提供 10 倍算力。5 月 31 日前两个高级版各有 2x 加成,实际分别达 10 倍和 20 倍。AI 工具正在形成明显的分层定价体系,重度用户月费已接近 SaaS 级别。
查看原文 openai pricing subscription苹果 1 月曾悄悄威胁将 Elon Musk 的 Grok AI 应用从 App Store 移除,原因是该应用未能遏制 X 平台上泛滥的非自愿色情深度伪造内容。苹果要求开发者制定内容审核改进计划。这一事件暴露了 AI 生成内容的监管真空和平台责任边界之争。
查看原文 grok deepfake content-moderation appleNAACP 起诉阻止 Musk 的 Colossus 2 数据中心项目,指控项目在没有空气许可证的情况下运行 27 台燃气轮机,违反清洁空气法。诉状称黑人和前线社区被迫承受 AI 创新的有毒代价。案件凸显 AI 基础设施快速扩张背后的环境正义问题。
查看原文 ai-infrastructure environmental-justice data-centerMeta 研究团队提出 Hyperagents 概念,目标是在动态环境中部署自进化 AI 系统,尤其面向企业生产环境中任务不可预测或不一致的场景。这项工作代表了从编码 Agent 向通用 Agent 扩展的重要方向。
查看原文 meta hyperagents self-improving enterprise困境中的鞋履品牌 Allbirds 宣布从鞋类业务全面转向 AI 算力基础设施服务,被 Ars Technica 戏称为 2017 年 Long Island Blockchain 炒作的翻版。这一案例折射出 AI 概念的狂热程度——任何公司只要贴上 AI 标签股价就能飞涨(Allbirds 暴涨 600%)。
查看原文 ai-bubble pivot speculation