AI Agent 日报

🤖 AI Agent 研究

理想汽车发布 Mind DeepResearch 技术报告，展示其在深度研究领域的突破。该系统能够自动化执行多步骤复杂研究任务，通过智能体框架整合信息检索、数据分析和推理链条，实现端到端的科研流程自动化。论文在 HuggingFace 获得 18 个 upvote，标志着中国车企在 AI 基础研究领域的持续投入。

查看原文 DeepResearch AI Agent LiAuto

Qwen3.5-Omni Technical Report

通义千问团队发布 Qwen3.5-Omni 技术报告，该多模态模型首次统一处理文本、图像、音频和视频输入，支持实时流式交互。报告详细披露了模型架构创新：采用分层注意力机制降低长序列计算成本，在语音理解和视频推理任务上超越同期开源模型。Qwen 生态正从纯文本 LLM 向全模态平台演进。

查看原文 Qwen Multimodal Open Source

Web Retrieval-Aware Chunking (W-RAC) for Efficient RAG

研究者提出 W-RAC 检索感知分块方法，解决传统 RAG 系统中固定窗口分块导致的上下文割裂问题。该方法在分块阶段即考虑网页结构和语义连贯性，实验显示在 QA 任务上较 naive chunking 提升 15% 准确率，同时降低 30% 的 token 消耗。对构建生产级 RAG 系统有直接参考价值。

查看原文 RAG Retrieval Chunking

Cut Your Losses! Learning to Prune Paths Early for Efficient Parallel Reasoning

港中深团队提出并行推理路径早期剪枝方法，通过学习判别低质量推理路径并提前终止，显著减少 LLM 推理时的计算开销。在数学推理和代码生成任务上，该方法在保持准确率不变的前提下将推理成本降低 40-60%。论文提出 Path-Pruner 模块可即插即用到现有 CoT/ToT 框架中。

查看原文 Reasoning Efficiency Pruning

⭐ GitHub 热门项目

TOP OpenCode - The open source coding agent

OpenCode 持续爆发式增长，当前 146K+ stars。本周更新：增强上下文窗口管理，支持自动压缩历史对话；新增 20+ 内置工具集成（浏览器、数据库、API 测试）；优化了多文件并行编辑的冲突处理机制。作为 Claude Code 的开源替代品，正在吸引大量独立开发者和小团队采用。

查看原文 Coding Agent Open Source

OpenClaw - Personal AI assistant

OpenClaw 以 361K stars 稳居 AI agent 项目首位。本周更新聚焦跨平台同步改进和本地模型支持增强。社区贡献的 50+ 新插件涵盖日程管理、代码审查、文档生成等场景。项目已从单纯的 CLI 工具演进为多端个人 AI 助手生态。

查看原文 AI Assistant Multi-platform

everything-claude-code - Agent harness optimization

该项目以 162K stars 成为 Claude Code 生态最重要的参考资源。包含完整的 skills 系统、instincts（行为直觉）、memory 管理和安全最佳实践。最新更新：新增 security-first 开发模式、research-first 工作流模板，以及对 Codex 和 OpenCode 的适配指南。对于构建高质量 agent 工作流极具参考价值。

查看原文 Claude Code Best Practices

gstack - Garry Tan's Claude Code setup

YC 总裁 Garry Tan 开源了他的 Claude Code 配置方案，包含 23 个精心设计的工具模块，涵盖 CEO、设计师、工程经理、发布经理、文档工程师和 QA 六种角色定位。项目上线 40 天即获 78K stars，反映了开发者对高质量 agent 工作流模板的强烈需求。

查看原文 Claude Code Workflow YC

system-prompts-and-models-of-ai-tools

该仓库持续收集各主流 AI 工具的系统提示词和内部模型配置，本周新增 Augment Code、Cluely、Kiro、Leap.new 等工具的内部提示词。累计覆盖 30+ AI 工具，135K stars。对于理解不同 AI agent 的设计思路和 prompt engineering 有极高参考价值。

查看原文 System Prompt Reverse Engineering

🚀 模型与行业动态

TOP Qwen3.6-Max-Preview: Smarter, Sharper, Still Evolving

通义千问发布 Qwen3.6-Max-Preview，采用改进的 MoE 架构，在数学推理和代码生成任务上显著提升。HN 社区 541 点赞、282 条讨论。关键改进包括：推理速度提升 40%，长上下文窗口扩展至 128K tokens，新增结构化输出的 JSON mode。模型权重已在 HuggingFace 开放下载。

查看原文 Qwen LLM Open Source

OpenAI GPT-Rosalind: Biology-tuned LLM

OpenAI 发布 GPT-Rosalind，首个针对生命科学工作流微调的 LLM。该模型在蛋白质结构预测、药物分子设计和基因组分析任务上表现优异。目前采用封闭访问模式，仅面向学术机构和制药企业开放。模型训练使用了超过 500 万篇生物医学论文和 100 万个蛋白质结构数据。

查看原文 OpenAI Biology Specialized Model

Kimi Vendor Verifier: Verify Inference Provider Accuracy

Kimi 推出 Vendor Verifier 工具，允许用户验证不同推理服务商返回结果的准确性。该工具通过多次采样和交叉验证机制，检测推理提供商是否存在偷工减料、使用弱模型冒充强模型等行为。HN 获 164 点赞。这反映了 AI 推理市场信任问题日益突出。

查看原文 Kimi Verification Inference

🔥 社区热议

TOP Anthropic 推出 Claude Design: Prompt 直出原型

Anthropic 正式发布 Claude Design，用户通过自然语言描述即可生成可交互的 UI 原型，直接挑战 Figma。同期发布的还有 Claude 的其他产品工具，标志着 Anthropic 从基础模型提供商向全栈产品公司的转型。据 Bloomberg 报道，Anthropic 年化收入已达 300 亿美元，正与 Goldman Sachs、JPMorgan 等投行探讨 2026 年 10 月 IPO。

查看原文 Anthropic Product Design

Sergey Brin 发内部信: Google 必须追上 Anthropic 的 AI 编程能力

据 The Information 报道，Google 联合创始人 Sergey Brin 在给 DeepMind 员工的内部备忘录中表示：「每位 Gemini 工程师都必须被强制使用内部 agent 处理复杂多步骤任务」。Brin 将追上 Anthropic 视为实现 AI 自我改进的关键一步。Google 已组建专项团队（Strike Team）提升编程模型能力。

查看原文 Google Anthropic AI Coding

NSA 被曝已获得 Anthropic Mythos 访问权限

据 Axios 报道，美国国家安全局（NSA）已获得 Anthropic Mythos 网络安全 AI 模型的访问权限，成为约 40 个获授权机构之一。这一消息引发争议——五角大楼此前曾将 Anthropic 列为国家安全供应链风险，而 NSA 主要用 Mythos 识别自身网络漏洞。Ars Technica 指出该模型可能被用于加速发现未修补的安全漏洞，引发「双刃剑」担忧。

查看原文 Anthropic Security Policy

GitHub 假星经济调查: AI agent 项目成重灾区

awesomeagents.ai 发布深度调查报告，揭露 GitHub 上 AI agent 项目存在严重的虚假 star 刷量问题。调查通过分析 star 时间分布、账号活跃度和关联网络，识别出大量使用 bot 账号批量加星的行为。HN 获 739 点赞、356 条讨论，社区呼吁 GitHub 引入更严格的反作弊机制。

查看原文 GitHub Open Source Ecosystem

Deezer: 44% 新上传音乐为 AI 生成，大部分被标记为欺诈

流媒体平台 Deezer 披露数据：其平台 44% 的新音乐上传来自 AI 生成，且大部分 AI 曲目的播放量涉及欺诈性刷量。Deezer 已部署检测系统对 AI 生成内容进行标记和去货币化处理。这一数据首次从平台角度量化了 AI 对音乐产业的冲击程度，远超行业此前的乐观估计。

查看原文 AI Music Fraud Industry

Salesforce 发布 Headless 360: 整个平台变为 AI Agent 基础设施

Salesforce 在年度 TDX 开发者大会上发布 Headless 360，包含 100+ 新工具和技能，将整个 CRM 平台转变为 AI agent 的后端基础设施。核心理念：在 AI agent 能够推理、规划和执行的时代，企业是否还需要带图形界面的 CRM？Headless 360 让 agent 直接通过 API 操作 CRM 全部功能。

查看原文 Salesforce Enterprise Agent Infrastructure

🤖 AI Agent 研究

⭐ GitHub 热门项目

🚀 模型与行业动态

🔥 社区热议

📱 微信扫码分享