AI Agent 日报

🤖 AI Agent 研究

OpenAI 推出 GPT-Rosalind，这是一款专门针对生物学工作流微调的大语言模型，采用封闭访问模式。该模型旨在加速药物研发流程，通常需要 10-15 年和数十亿美元投入的实验室假设到药房货架的过程。VentureBeat 指出这是 OpenAI 首次为特定科学领域推出专属模型，标志着 AI 正从通用能力向垂直专业领域深度渗透。

查看原文 OpenAI BioAI 垂直模型

DR³-Eval：深度研究智能体的真实评估基准

提出 DR³-Eval 评估框架，专门针对 Deep Research Agents (DRAs) 的复杂长期研究任务评估。框架关注规划、检索、多模态理解等维度，旨在解决现有评估基准过于简化、无法反映真实研究场景的问题。论文强调评估的可复现性和现实性，为 AI agent 研究能力的量化提供了新标准。

查看原文评估 Agent 论文

MM-WebAgent：层级化多模态网页生成智能体

提出 MM-WebAgent，一种层级化多模态智能体框架，用于自动生成网页。该系统结合 AIGC 工具的图像、视频和可视化能力，通过分层决策实现从用户需求到完整网页的端到端生成。框架展示了 AI agent 在内容创作领域的应用潜力，超越了传统的代码生成范式。

查看原文多模态 Agent 论文

Self-Sovereign Agent：经济自持的 AI 智能体

研究自托管 AI 智能体的新兴前景——能够经济上自我维持并自主扩展的 AI 系统。论文探讨了 AI agent 如何在去中心化环境中独立运作，管理自己的资源和能力升级。这一概念对 AI 经济体系和 Agent 自主性研究具有开创性意义，可能成为未来 AgentOS 架构的理论基础。

查看原文 Agent 论文自治

⭐ GitHub 热门项目

TOP AIScientists-Dev/WorldSeed

AI Agent 自主生存的世界引擎——用 YAML 定义任意场景，观察 AI agent 在其中自主演化并产生故事。项目通过声明式配置驱动 agent 行为，降低了构建复杂多 agent 模拟环境的门槛。48 小时内获得 55 星，显示社区对 AI 世界模拟的浓厚兴趣。

查看原文世界模拟 Agent 开源

KarryViber/Orb

自进化 AI agent 框架——封装 Claude Code CLI 并添加持久记忆、多 profile 隔离和自我优化能力。框架设计了 agent 自我迭代的机制，能够根据使用反馈调整行为模式。48 小时内 36 星，体现了社区对「有记忆的 coding agent」的强烈需求。

查看原文 Agent框架记忆开源

catoncat/notion-local-ops-mcp

将 Notion AI 与本地文件、Shell 和本地 agent 结合的 MCP 服务器。允许用户在 Notion 中直接操作本地文件系统，同时保留本地 agent 作为降级方案。这代表了 MCP 生态向办公协作场景的延伸，48 小时内 10 星。

查看原文 MCP Notion 开源

autopilot-mail/autopilot

面向 AI agent 的自托管邮件服务器 SDK。支持可插拔存储、邮件传输和 webhook 处理器，让 AI agent 能够自主收发和管理邮件。项目填补了 agent 生态中邮件交互的空白，48 小时内 15 星。

查看原文邮件 Agent 开源

Calibre-Labs/reforge-ai-evals

Reforge AI 评估课程的市场地图 agent 评估套件。提供标准化的 agent 能力评估框架，涵盖工具使用、推理、规划等多个维度。48 小时内 22 星，反映了行业对 agent 评估标准化的迫切需求。

查看原文评估 Agent 开源

🚀 模型与行业动态

TOP Anthropic 发布 Claude Opus 4.7，重夺最强通用 LLM

Anthropic 发布 Claude Opus 4.7，采用更新的分词器提升文本处理效率（某些输入 token 数可能增加 1.0-1.35x）。在多项基准测试中以微弱优势超越 GPT-4.5 重夺「最强通用 LLM」称号。Hacker News 上获得 1486 点和 1070 条评论，成为当日最热讨论话题。Opus 4.7 的发布标志着头部厂商在通用能力上的军备竞赛仍在加速。

查看原文 Anthropic Claude 模型发布

Anthropic 推出网络安全专用模型 Mythos，获白宫采购意向

Anthropic 的网络安全专用 AI 模型 Mythos 已被 Nvidia、Apple、摩根大通等大型企业用于修补高风险漏洞。Bloomberg 报道白宫管理和预算办公室正准备让联邦机构使用该模型。尽管 Anthropic 与五角大楼存在争议，但 Mythos 在政府和企业安全领域的商业化落地正在加速。

查看原文 Anthropic 安全政府

KV Packet：无需重计算的 LLM KV 缓存方案

提出 KV Packet 方法，解决标准 KV 缓存在长上下文场景下的内存和计算开销问题。方案通过上下文无关的 KV 缓存切片实现无需重计算的高效推理，显著降低 LLM 推理延迟。对 Agent 场景下频繁的多轮对话和长上下文处理具有实际价值。

查看原文推理优化 KV缓存论文

🔥 社区热议

TOP OpenAI 大幅更新 Codex：可操控你电脑上的所有应用

OpenAI 发布 Codex 重大更新，现在可以在 macOS 上自主操控其他应用。新增 90+ 插件连接器（包括 CircleCI、GitLab、Microsoft Suite），支持应用内浏览器预览网页、生成图片。这是对 Claude Code 的直接对标回应，标志着 coding agent 从「写代码」进化到「操作电脑」的新阶段。HN 上 684 点 366 条评论。

查看原文 OpenAI Codex 桌面Agent

Google AI Mode 更新：可在搜索内直接打开链接

Google 更新 AI Mode 功能，用户现在可以在不离开 AI Mode 页面的情况下打开搜索结果链接，同时支持标签页搜索。这是 Google 在 AI 搜索体验上持续迭代的最新动作，试图在保持 AI 交互流畅性的同时不牺牲传统搜索的深度浏览能力。

查看原文 Google 搜索 AI Mode

Mozilla 推出 Thunderbolt AI：专注自托管的 AI 客户端

Mozilla 发布 Thunderbolt AI 客户端，基于 deepset 的 Haystack 构建，专注于自托管基础设施。项目目标是构建「去中心化开源 AI 生态系统」，让用户在本地运行 AI 能力而不依赖云端。这代表了开源社区对 AI 集中化的回应策略。

查看原文 Mozilla 自托管开源

Adobe Creative Cloud 向 Claude Code 风格演进

Adobe 将 Creative Cloud 推向「Claude Code 风格」的智能体交互模式。用户可以通过对话式界面直接编辑图片，AI agent 自动理解创意意图并执行操作。这是 Adobe 在 AI 时代对创意工具交互范式的重大战略转型，从「手动工具」走向「AI 代理执行」。

查看原文 Adobe 创意AI Agent

Meta 研究者提出 Hyperagents：非编码任务的自进化 AI

Meta 研究团队提出 Hyperagents 概念，旨在为非编码任务构建自改进 AI 系统。在企业生产环境中，任务往往不可预测且不一致，Hyperagents 通过元学习机制让 agent 在动态环境中自我优化。这一研究方向被认为是 AI agent 从 demo 走向生产的关键突破。

查看原文 Meta 自进化 Agent

Bernie Sanders 联合工会领袖推动 AI 劳动保护立法

美国参议员 Bernie Sanders 联合多行业工会领袖推动 AI 劳动保护立法，呼吁暂停数据中心建设。他警告若不加干预，十年内制造业岗位将消失。这一动向反映了 AI 对就业市场的冲击正从技术讨论进入政治议程，可能影响 AI 行业的监管走向。

查看原文政策劳动监管

🤖 AI Agent 研究

⭐ GitHub 热门项目

🚀 模型与行业动态

🔥 社区热议

📱 微信扫码分享