返回

AI Agent 日报

2026-04-18 · 每日精选

15
条资讯
4
个板块
6
个来源

🤖 AI Agent 研究

TOP HY-World 2.0: 腾讯混元多模态世界模型,重建、生成和模拟3D世界

腾讯混元团队发布HY-World 2.0,支持文本、单视角/多视角图像和视频输入,通过四阶段方法(全景生成HY-Pano 2.0、轨迹规划WorldNav、世界扩展WorldStereo 2.0、世界合成WorldMirror 2.0)生成高保真3D Gaussian Splatting场景。引入WorldLens渲染平台支持交互式探索,多基准测试达开源SOTA,接近闭源Marble模型效果。GitHub 1.02k stars。

查看原文 3D生成 世界模型 多模态 腾讯
RAD-2: 生成器-判别器框架下强化学习扩展,自动驾驶碰撞率降低56%

华中科技大学提出RAD-2统一框架,扩散模型生成器产生多样化轨迹候选,RL优化判别器根据长期驾驶质量重排序。引入时间一致性组相对策略优化(TC-GRPO)和在线策略生成器优化(OGO),在BEV-Warp高吞吐仿真环境训练。相比强扩散规划器碰撞率降低56%,城市复杂交通中安全性和流畅度显著提升。

查看原文 自动驾驶 强化学习 运动规划
TESSY: 师生合作数据合成框架,解决推理模型微调风格分歧

南京大学提出TESSY框架,解决用强教师模型生成数据微调推理模型(如Qwen3-8B)时的性能下降。核心发现:教师生成数据与学生分布存在显著风格分歧导致灾难性遗忘。TESSY让师生交替生成能力token和风格token,合成既保留教师推理质量又符合学生分布的on-policy数据。以GPT-OSS-120B为教师,LiveCodeBench-Pro提升11.25%。

查看原文 推理模型 微调 数据合成

⭐ GitHub 热门项目

TOP Tencent-Hunyuan/HY-World-2.0

腾讯混元世界模型2.0官方代码库,包含全景生成、轨迹规划、世界扩展、世界合成四大模块及WorldLens渲染平台。全部模型权重、代码和技术细节开源,支持交互式3D世界探索。

查看原文 3D世界模型 开源 腾讯
zhuqn1021/Agent-template

现代化AI Agent项目模板,支持多模型切换、工具调用、RAG检索增强、对话记忆等核心能力。基于Python实现,为开发者提供开箱即用的Agent开发脚手架。

查看原文 AI Agent 模板 Python
sly-codechum/chum-mem

Rust实现的AI Agent记忆增强系统,融合Karpathy的LLM Wiki思想、Graphify图谱和PCKC技术,为AI agent提供更持久、结构化的长期记忆能力。

查看原文 Agent记忆 Rust 知识图谱

🚀 模型与行业动态

TOP Anthropic推出Claude Design:Opus 4.7驱动AI设计工具,挑战Figma

Anthropic发布Claude Design,由Opus 4.7驱动,允许用户通过提示词创建设计、原型、Pitch Deck和营销材料。标志Anthropic从基础模型提供商向全栈产品公司转型。年化收入达200亿美元(3月),4月初突破300亿美元,正与高盛/摩根大通/摩根士丹利洽谈IPO,可能10月上市。

查看原文 Anthropic 设计工具 Opus 4.7
OpenAI发布GPT-Rosalind:生命科学专用大模型

OpenAI推出GPT-Rosalind,针对生命科学工作流专门训练的LLM。从实验室假设到药房货架通常需10-15年和数十亿美元,该模型旨在加速药物研发。采用封闭访问模式,面向研究人员和制药企业。同时扩展Codex插件在GitHub的可用性。

查看原文 OpenAI 生命科学 垂直模型
Grok 4.3升级:xAI新增幻灯片创建能力

Elon Musk宣布Grok 4.3版本升级,新增创建幻灯片功能。xAI在多模态生产力工具方向又进一步,使Grok从对话式AI向内容创作助手演进。

查看原文 xAI Grok 生产力工具

🔥 社区热议

TOP Claude Design引爆HN热榜:823 points,550条评论

Anthropic发布的Claude Design在Hacker News上获823 points和550条评论,成为当日最热AI话题。社区讨论焦点:Opus 4.7能力边界、与Figma竞争态势、Anthropic从API公司向产品公司转型、IPO预期对产品策略影响。多位开发者分享早期体验,设计质量超出预期但复杂布局仍有局限。

查看原文 HN热议 Anthropic 设计工具
Claude 4.7 tokenizer成本实测:535 points深度分析

claudecodecamp.com发布Claude 4.7新tokenizer成本实测,HN获535 points和366条评论。详细测量新tokenizer在不同任务下的token消耗变化,代码生成场景效率提升约15%,长文本推理略有增加。社区热议tokenizer优化对API成本的实际影响及与其他模型(GPT-4o、Gemini)成本对比。

查看原文 HN热议 tokenizer 成本优化
OpenAI Sora负责人Bill Peebles离职

The Verge报道OpenAI视频生成模型Sora负责人Bill Peebles和AI for Science副总裁即将离职,延续OpenAI近期高管和核心研究人员流失趋势。Sora面临Runway、Pika等激烈竞争,人事变动可能影响产品路线图。

查看原文 OpenAI 人事变动 Sora
Anthropic网络安全模型Mythos:赢回政府信任

The Verge报道Anthropic推出新网络安全模型Mythos,旨在改善与美国政府的关系。在特朗普政府加强AI监管审查的背景下,Anthropic通过专注网络安全能力展示其技术实力和合规意愿。此举被视为Anthropic在AI安全叙事中的差异化策略。

查看原文 Anthropic 网络安全 政策
Mozilla推出Thunderbolt AI客户端:聚焦自托管基础设施

Mozilla发布Thunderbolt AI客户端,基于deepset的Haystack框架构建,致力于去中心化开源AI生态系统。允许用户在本地或自托管基础设施上运行AI工作负载,不依赖云端API。Mozilla在隐私优先AI方向的重要布局,回应企业和开发者对数据主权的诉求。

查看原文 Mozilla 自托管 开源AI
美国40%数据中心建设延期:卫星和无人机图像揭示

Ars Technica报道,通过卫星和无人机热成像分析发现2026年美国计划建设的数据中心约40%遭遇严重延期。主因:施工延迟、能源供应瓶颈、社区对耗水耗电的抵制。对AI基础设施扩张预期构成挑战,可能影响大模型训练和推理服务供给。

查看原文 数据中心 基础设施 延期