AI Agent 日报

🤖 AI Agent 研究

TOP AgentSPEX: An Agent SPecification and EXecution Language

AgentSPEX 是一个用于创建结构化、模块化和可解释的大语言模型代理工作流的领域特定语言和框架。它提供显式控制流和状态管理，支持类型化步骤、分支和循环、并行执行、可重用子模块以及显式状态管理。包含可视化编辑器，支持同步图视图和工作流视图。在7个基准测试上进行了评估，比现有框架更具可解释性和可访问性。

查看原文 Agent DSL 工作流

Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence

Agent-World 是一个用于推进通用智能体智能的自我演进训练竞技场。通过可扩展的环境合成，结合多环境强化学习和自我演进智能体竞技场，自动识别能力差距并驱动定向学习。包含智能体环境-任务发现和持续自我演进的智能体训练两个核心组件。在23个具有挑战性的智能体基准测试中，Agent-World-8B和14B模型一致优于强大的专有模型。

查看原文 Agent 强化学习环境合成

OpenGame: Open Agentic Coding for Games

OpenGame 是首个专为端到端网页游戏创建而设计的开源智能体框架。核心是游戏技能——一种可重用、可演进的能力，由模板技能和调试技能组成。由 GameCoder-27B 驱动，这是一个专门用于游戏引擎掌握的代码LLM。OpenGame-Bench 评估管道通过构建健康度、视觉可用性和意图对齐来评估智能体游戏生成，在150个多样化游戏提示上建立了新的最先进水平。

查看原文 Agent 游戏生成代码LLM

When Can LLMs Learn to Reason with Weak Supervision?

这项研究探讨了在三种弱监督设置（数据稀缺、噪声奖励、自监督代理奖励）下，强化学习与可验证奖励（RLVR）的泛化能力。研究发现泛化能力受训练奖励饱和动态支配，推理忠实度是预测模型能否泛化的关键属性。在显式推理轨迹上的监督微调（SFT）对于弱监督下的泛化是必要的，持续预训练可以放大这一效应。

查看原文 LLM 推理弱监督

⭐ GitHub 热门项目

TOP OpenClaw - Personal AI assistant (361K ⭐)

OpenClaw 是一个个人AI助手项目，近期获得大量关注。支持多模态交互、工具调用和长期记忆，可作为个人AI伴侣运行。项目活跃度极高，社区贡献者众多，是开源AI助手领域的标杆项目。

查看原文 AI助手开源多模态

n8n - Workflow automation with AI (185K ⭐)

n8n 是一个开源工作流自动化平台，近期集成了大量AI能力。支持AI Agent节点、LangChain集成和自定义AI工作流构建。近48小时发布了新的AI节点更新，增强了与各种LLM的集成能力，是no-code AI自动化领域的热门选择。

查看原文自动化工作流 AI集成

Langflow - Visual AI builder (147K ⭐)

Langflow 是一个可视化的AI应用构建器，通过拖拽方式创建复杂的AI工作流。近期更新增强了对多种LLM的支持，改进了Agent构建体验。新增MCP（模型上下文协议）支持，可无缝连接外部工具和数据源。

查看原文可视化 AI构建器低代码

Dify - LLM app development platform (138K ⭐)

Dify 是一个开源的LLM应用开发平台，支持RAG引擎、Agent框架和工作流编排。近期发布了新的Agent模式，支持多步骤推理和工具调用。新增了对Claude和GPT-4o的优化支持，改进了知识库检索性能。

查看原文 LLM平台 RAG Agent

Firecrawl - Web scraping for AI (111K ⭐)

Firecrawl 是一个专为AI应用设计的网页抓取工具，可将网页转换为LLM友好的markdown格式。近期更新增强了JavaScript渲染能力和反爬虫绕过功能。新增了批量抓取API和智能内容提取，是构建AI知识库的重要工具。

查看原文爬虫数据采集 AI工具

🚀 模型与行业动态

TOP OpenAI 发布 ChatGPT Images 2.0

OpenAI 推出 ChatGPT Images 2.0，集成O系列推理能力，采用代理式图像生成方法。支持从单个提示生成8张不同图像，可创建漫画页面、社交媒体图形。新增思考模型可进行网络研究并将结果融入图像，支持2K分辨率和多语言文本渲染，在日文、中文等多语言文本生成方面显著改善。

查看原文 OpenAI 图像生成多模态

Google 推出 Deep Research 与 Deep Research Max 代理

Google 发布两个新型自主研究代理，基于 Gemini 3.1 Pro 模型。首次支持通过单一API调用融合网络数据与企业私有数据，生成原生图表和信息图。支持模型上下文协议（MCP）连接第三方数据源。Deep Research Max 采用扩展测试时计算，专为耗时数小时的深度研究任务设计。

查看原文 Google 研究代理 Gemini

Kimi K2.6：可连续运行数天的AI代理模型

Moonshot AI 的 Kimi K2.6 模型专为长时间运行的AI代理设计，支持连续执行数小时甚至数天。可管理多达300个子代理，同时执行4000个协调步骤。在测试中用10小时从头构建了完整的SysY编译器，通过所有140项功能测试。暴露了现有企业编排框架在长时间运行场景下的局限性。

查看原文 Moonshot 长时间运行 Agent

🔥 社区热议

TOP SpaceX 拟以600亿美元收购 AI 编程平台 Cursor

SpaceX 宣布可能以600亿美元收购AI编程平台Cursor，或支付100亿美元的合作费用。此举旨在帮助 xAI 与市场领导者 Anthropic 竞争，同时应对 Google 和 OpenAI 在AI编码领域的竞争。随着 SpaceX 即将IPO，这笔交易将加强其在AI领域的布局，引发行业对AI编程工具估值的新一轮讨论。

查看原文收购 Cursor SpaceX

Anthropic 获亚马逊50亿美元追加投资

亚马逊向 Anthropic 追加50亿美元投资，使总投资达130亿美元。Anthropic 将获得亚马逊5吉瓦的AI芯片算力用于训练 Claude AI 模型。该交易包含 Anthropic 承诺未来十年在AWS技术上投入超1000亿美元，是AI热潮中循环融资的最新案例。此举旨在应对 Claude 付费订阅激增带来的基础设施压力。

查看原文融资 Anthropic 亚马逊

Meta 将追踪员工操作数据训练AI代理

Meta 将开始跟踪美国员工的鼠标移动、点击和击键，为AI代理生成高质量训练数据。该软件运行在特定工作应用和网站上，使用定期截图提供上下文。旨在解决AI代理在处理鼠标移动、点击按钮等日常计算机任务时的训练数据不足问题，但可能在欧洲面临法律限制。

查看原文 Meta 训练数据员工监控

Anthropic Mythos 发现 Firefox 150 中271个零日漏洞

Anthropic 的 Mythos AI 模型在 Mozilla Firefox 150 中发现271个零日漏洞，CTO 称其安全研究能力与世界顶级安全研究人员相当。展示了AI在网络安全领域的突破性进展，能够自主发现复杂软件漏洞。但也引发对AI可能被用于恶意黑客攻击的担忧，防御部署速度可能跟不上AI攻击速度。

查看原文安全 Anthropic 零日漏洞

人形机器人半马击败人类选手创纪录

中国人形机器人在半程马拉松比赛中轻松击败人类选手，创下新纪录。展示了中国在机器人领域的快速发展，特别是在运动能力和自主导航方面的突破。机器人能够以超过人类平均速度完成21.1公里比赛，标志着机器人技术在实际应用中的重大进步。

查看原文机器人中国运动能力

72% 企业AI安全治理存在盲区

VentureBeat 调查显示72%的企业拥有两个或更多主要AI平台，形成安全攻击面扩展。Mass General Brigham 医院案例显示，企业被迫围绕微软Copilot等工具构建安全外壳以防止健康信息泄露。56%受访者自信能检测AI异常，但近三分之一缺乏系统化检测机制，暴露了AI治理的深层问题。

查看原文安全治理企业AI 合规

🤖 AI Agent 研究

⭐ GitHub 热门项目

🚀 模型与行业动态

🔥 社区热议

📱 微信扫码分享