🤖 AI Agent 研究
一篇深入分析 Claude Code 架构的学术论文(arXiv:2604.14228),通过解析其 TypeScript 源码,识别出五大核心设计价值和十三项设计原则。核心架构为一个简单的 while 循环调用模型并运行工具,外围包含七级权限系统、五层上下文压缩管道、四种扩展机制(MCP/插件/技能/Hooks)以及子代理委派机制,并与开源项目 OpenClaw 进行了对比分析。
查看原文 Claude Code AI Agent Architecture arXivDR3-Eval 是一个面向深度研究智能体的基准测试框架,专注于评估多模态、多文件报告生成任务。构建了基于真实用户材料的任务沙箱语料库,模拟开放网络环境的复杂性。引入五维评估框架:信息召回率、事实准确性、引用覆盖度、指令遵循度和深度质量,有效揭示了检索鲁棒性和幻觉控制等关键失败模式。
查看原文 deep research agent evaluation benchmark LLM evaluationHY-World 2.0 是一个多模态世界模型框架,支持从文本、单视角图像、多视角图像和视频等多种输入生成高保真 3D 高斯溅射场景。包含全景图生成、轨迹规划、世界扩展和世界合成四大模块,并引入 WorldLens 高性能 3DGS 渲染平台。在多个基准测试中达到开源方案 SOTA 水平,可与闭源模型 Marble 相媲美。
查看原文 world model 3D generation Gaussian Splatting multi-modal研究发现使用强模型生成的合成数据对推理模型微调会导致严重的灾难性遗忘。TESSY 框架通过教师-学生协作交替生成能力 token 和风格 token,使合成数据既继承教师的高级推理能力,又保持与学生模型分布的风格一致性。以 GPT-OSS-120B 为教师微调 Qwen3-8B,在 LiveCodeBench-Pro 和 OJBench 上分别提升 11.25% 和 6.68%。
查看原文 reasoning model fine-tuning synthetic data teacher-student⭐ GitHub 热门项目
基于 NixOS 官方文档和社区最佳实践生成的 AI Agent 技能包。自动从文档中提取最佳实践,生成可执行的 Agent Skill,帮助用户自动化管理 NixOS 系统配置和部署,降低 NixOS 使用门槛。
查看原文 NixOS AI Agent system management automationAI Agent 任务控制中心,提供一键 Netlify 部署、零配置、零成本的解决方案。作为 AI 智能体的统一管理界面,支持快速部署和监控 Agent 任务,无需复杂配置即可上线使用,适合开发者快速搭建 AI Agent 服务。
查看原文 AI Agent deployment Netlify task management专注于代码审查的 AI Agent 项目,利用大语言模型自动化代码审查流程。Agent 能够理解代码上下文、识别潜在问题并提供改进建议,帮助开发团队提高代码质量和审查效率,支持集成到 CI/CD 工作流中。
查看原文 code review AI Agent CI/CD code qualityCamel-AI 推出的开源项目,旨在成为任意 AI 智能体与智能眼镜之间的开放桥梁。允许用户将 AI Agent 能力带到可穿戴设备上,支持语音交互和实时场景理解,为 AI Agent 在 AR/智能硬件领域的落地提供基础框架。
查看原文 smart glasses wearable AI AR open bridgeAI 驱动的 GitHub 研究 Agent,支持用自然语言直接查询 GitHub 仓库并自动调用 API 返回结构化结果。具备复杂意图解析、多轮对话上下文保持、并行请求和限流退避等功能,以表格或 Markdown 展示结果,帮助用户快速比较和决策。
查看原文 GitHub AI Agent natural language repository search🚀 模型与行业动态
Salesforce 在 TDX 大会上发布 Headless 360,是其 27 年来最大架构变革。将平台所有功能暴露为 API、MCP 工具或 CLI 命令,使 AI Agent 无需浏览器即可操作系统。首批发布 100+ 新工具含 60+ MCP 工具,支持 Claude Code、Cursor、Codex 等外部 Agent 直接访问 Salesforce 组织。标志着企业 SaaS 从 GUI 驱动向 Agent 原生基础设施的根本转型。
查看原文 Salesforce MCP AI Agent Enterprise APIOpenAI 发布 Codex 桌面应用重大更新,新增后台控制计算机功能。Codex 现在可以在后台操作 macOS 应用程序,包括文件管理、浏览器控制和系统操作。这一功能使 Codex 从代码助手进化为通用计算机操控 Agent,直接与 Claude Code 的桌面控制能力展开竞争。
查看原文 OpenAI Codex desktop agent computer controlOpenAI 发布专为生物学研究优化的大语言模型 GPT-Rosalind。该模型针对生物学文献理解、实验设计辅助和数据分析等场景进行了专门训练和对齐,在生物信息学基准测试中表现出色,标志着 AI 在垂直科学领域应用的进一步深化。
查看原文 OpenAI GPT-Rosalind biology scientific AI🔥 社区热议
Claude Code Opus 4.7 用户反映模型过度安全审查问题。在开发过程中,模型反复检查代码是否涉及恶意软件,甚至拒绝处理合法的网页抓取和 Cookie 自动化任务。用户每月支付 200 美元订阅费,却在工作中频繁遭遇无故拒绝,引发关于 AI 安全边界与用户自主权的激烈讨论。该帖是过去 24 小时 HN 上最热门的 AI Agent 相关帖子。
查看原文 Claude Code AI Safety Opus 4.7 Hacker News安全公司 Sunglasses 对 Anthropic Auto Mode 的深度分析。Auto Mode 使用基于 Sonnet 4.6 的分类器在工具调用前审查危险操作,但自报假阴性率高达 17%。文章指出该分类器采用推理盲设计——不读取 Agent 自我解释,仅审查用户消息和工具调用。同时强调需要跨供应商的纵深防御层。
查看原文 AI Security Claude Code Auto Mode Agent SafetyHomebrew 维护者 Mike McQuaid 分享 AI Agent 安全开发环境搭建经验。使用 sandvault(macOS 沙盒)将 Agent 运行在隔离的非管理员账户中,防止 rm -rf 和令牌泄露;结合 Git worktrees 实现并行开发。对比了 OpenAI Codex 和 Claude Code 的使用体验,建议 AGENTS.md 保持极简。
查看原文 AI Agent Security Sandbox Git Worktrees Claude Code美国快餐连锁 Dairy Queen 开始在得来速餐厅部署 AI 聊天机器人处理点餐。该系统使用语音 AI 技术自动接收顾客订单,旨在提高点餐效率和减少人工成本。这一部署标志着 AI 在实体零售和服务行业的大规模商用正在加速,从科技公司扩展到传统快餐行业。
查看原文 AI deployment retail voice AI fast foodMozilla 发布 Thunderbolt AI 客户端,专注于自托管基础设施。该客户端允许用户在本地或自有服务器上运行 AI 模型,无需依赖第三方云服务。Mozilla 借此进入 AI Agent 领域,强调隐私保护和用户数据主权,与 Chrome 等浏览器的 AI 集成路线形成差异化竞争。
查看原文 Mozilla self-hosted AI client privacyCharacter.AI 推出创新功能 Books,将文学作品转化为互动角色扮演体验。用户可以选择经典或现代小说,AI 会将书中的角色和情节转化为可交互的对话场景。该功能探索了 AI 在娱乐和文学领域的新型应用场景,模糊了阅读与角色扮演之间的界限。
查看原文 Character.AI interactive fiction entertainment AI