🤖 AI Agent 研究
理想汽车发布 Mind DeepResearch 技术报告,展示其在深度研究领域的突破。该系统能够自动化执行多步骤复杂研究任务,通过智能体框架整合信息检索、数据分析和推理链条,实现端到端的科研流程自动化。论文在 HuggingFace 获得 18 个 upvote,标志着中国车企在 AI 基础研究领域的持续投入。
查看原文 DeepResearch AI Agent LiAuto通义千问团队发布 Qwen3.5-Omni 技术报告,该多模态模型首次统一处理文本、图像、音频和视频输入,支持实时流式交互。报告详细披露了模型架构创新:采用分层注意力机制降低长序列计算成本,在语音理解和视频推理任务上超越同期开源模型。Qwen 生态正从纯文本 LLM 向全模态平台演进。
查看原文 Qwen Multimodal Open Source研究者提出 W-RAC 检索感知分块方法,解决传统 RAG 系统中固定窗口分块导致的上下文割裂问题。该方法在分块阶段即考虑网页结构和语义连贯性,实验显示在 QA 任务上较 naive chunking 提升 15% 准确率,同时降低 30% 的 token 消耗。对构建生产级 RAG 系统有直接参考价值。
查看原文 RAG Retrieval Chunking港中深团队提出并行推理路径早期剪枝方法,通过学习判别低质量推理路径并提前终止,显著减少 LLM 推理时的计算开销。在数学推理和代码生成任务上,该方法在保持准确率不变的前提下将推理成本降低 40-60%。论文提出 Path-Pruner 模块可即插即用到现有 CoT/ToT 框架中。
查看原文 Reasoning Efficiency Pruning⭐ GitHub 热门项目
OpenCode 持续爆发式增长,当前 146K+ stars。本周更新:增强上下文窗口管理,支持自动压缩历史对话;新增 20+ 内置工具集成(浏览器、数据库、API 测试);优化了多文件并行编辑的冲突处理机制。作为 Claude Code 的开源替代品,正在吸引大量独立开发者和小团队采用。
查看原文 Coding Agent Open SourceOpenClaw 以 361K stars 稳居 AI agent 项目首位。本周更新聚焦跨平台同步改进和本地模型支持增强。社区贡献的 50+ 新插件涵盖日程管理、代码审查、文档生成等场景。项目已从单纯的 CLI 工具演进为多端个人 AI 助手生态。
查看原文 AI Assistant Multi-platform该项目以 162K stars 成为 Claude Code 生态最重要的参考资源。包含完整的 skills 系统、instincts(行为直觉)、memory 管理和安全最佳实践。最新更新:新增 security-first 开发模式、research-first 工作流模板,以及对 Codex 和 OpenCode 的适配指南。对于构建高质量 agent 工作流极具参考价值。
查看原文 Claude Code Best PracticesYC 总裁 Garry Tan 开源了他的 Claude Code 配置方案,包含 23 个精心设计的工具模块,涵盖 CEO、设计师、工程经理、发布经理、文档工程师和 QA 六种角色定位。项目上线 40 天即获 78K stars,反映了开发者对高质量 agent 工作流模板的强烈需求。
查看原文 Claude Code Workflow YC该仓库持续收集各主流 AI 工具的系统提示词和内部模型配置,本周新增 Augment Code、Cluely、Kiro、Leap.new 等工具的内部提示词。累计覆盖 30+ AI 工具,135K stars。对于理解不同 AI agent 的设计思路和 prompt engineering 有极高参考价值。
查看原文 System Prompt Reverse Engineering🚀 模型与行业动态
通义千问发布 Qwen3.6-Max-Preview,采用改进的 MoE 架构,在数学推理和代码生成任务上显著提升。HN 社区 541 点赞、282 条讨论。关键改进包括:推理速度提升 40%,长上下文窗口扩展至 128K tokens,新增结构化输出的 JSON mode。模型权重已在 HuggingFace 开放下载。
查看原文 Qwen LLM Open SourceOpenAI 发布 GPT-Rosalind,首个针对生命科学工作流微调的 LLM。该模型在蛋白质结构预测、药物分子设计和基因组分析任务上表现优异。目前采用封闭访问模式,仅面向学术机构和制药企业开放。模型训练使用了超过 500 万篇生物医学论文和 100 万个蛋白质结构数据。
查看原文 OpenAI Biology Specialized ModelKimi 推出 Vendor Verifier 工具,允许用户验证不同推理服务商返回结果的准确性。该工具通过多次采样和交叉验证机制,检测推理提供商是否存在偷工减料、使用弱模型冒充强模型等行为。HN 获 164 点赞。这反映了 AI 推理市场信任问题日益突出。
查看原文 Kimi Verification Inference🔥 社区热议
Anthropic 正式发布 Claude Design,用户通过自然语言描述即可生成可交互的 UI 原型,直接挑战 Figma。同期发布的还有 Claude 的其他产品工具,标志着 Anthropic 从基础模型提供商向全栈产品公司的转型。据 Bloomberg 报道,Anthropic 年化收入已达 300 亿美元,正与 Goldman Sachs、JPMorgan 等投行探讨 2026 年 10 月 IPO。
查看原文 Anthropic Product Design据 The Information 报道,Google 联合创始人 Sergey Brin 在给 DeepMind 员工的内部备忘录中表示:「每位 Gemini 工程师都必须被强制使用内部 agent 处理复杂多步骤任务」。Brin 将追上 Anthropic 视为实现 AI 自我改进的关键一步。Google 已组建专项团队(Strike Team)提升编程模型能力。
查看原文 Google Anthropic AI Coding据 Axios 报道,美国国家安全局(NSA)已获得 Anthropic Mythos 网络安全 AI 模型的访问权限,成为约 40 个获授权机构之一。这一消息引发争议——五角大楼此前曾将 Anthropic 列为国家安全供应链风险,而 NSA 主要用 Mythos 识别自身网络漏洞。Ars Technica 指出该模型可能被用于加速发现未修补的安全漏洞,引发「双刃剑」担忧。
查看原文 Anthropic Security Policyawesomeagents.ai 发布深度调查报告,揭露 GitHub 上 AI agent 项目存在严重的虚假 star 刷量问题。调查通过分析 star 时间分布、账号活跃度和关联网络,识别出大量使用 bot 账号批量加星的行为。HN 获 739 点赞、356 条讨论,社区呼吁 GitHub 引入更严格的反作弊机制。
查看原文 GitHub Open Source Ecosystem流媒体平台 Deezer 披露数据:其平台 44% 的新音乐上传来自 AI 生成,且大部分 AI 曲目的播放量涉及欺诈性刷量。Deezer 已部署检测系统对 AI 生成内容进行标记和去货币化处理。这一数据首次从平台角度量化了 AI 对音乐产业的冲击程度,远超行业此前的乐观估计。
查看原文 AI Music Fraud IndustrySalesforce 在年度 TDX 开发者大会上发布 Headless 360,包含 100+ 新工具和技能,将整个 CRM 平台转变为 AI agent 的后端基础设施。核心理念:在 AI agent 能够推理、规划和执行的时代,企业是否还需要带图形界面的 CRM?Headless 360 让 agent 直接通过 API 操作 CRM 全部功能。
查看原文 Salesforce Enterprise Agent Infrastructure