🤖 AI Agent 研究
AgentSPEX 是一个用于创建结构化、模块化和可解释的大语言模型代理工作流的领域特定语言和框架。它提供显式控制流和状态管理,支持类型化步骤、分支和循环、并行执行、可重用子模块以及显式状态管理。包含可视化编辑器,支持同步图视图和工作流视图。在7个基准测试上进行了评估,比现有框架更具可解释性和可访问性。
查看原文 Agent DSL 工作流Agent-World 是一个用于推进通用智能体智能的自我演进训练竞技场。通过可扩展的环境合成,结合多环境强化学习和自我演进智能体竞技场,自动识别能力差距并驱动定向学习。包含智能体环境-任务发现和持续自我演进的智能体训练两个核心组件。在23个具有挑战性的智能体基准测试中,Agent-World-8B和14B模型一致优于强大的专有模型。
查看原文 Agent 强化学习 环境合成OpenGame 是首个专为端到端网页游戏创建而设计的开源智能体框架。核心是游戏技能——一种可重用、可演进的能力,由模板技能和调试技能组成。由 GameCoder-27B 驱动,这是一个专门用于游戏引擎掌握的代码LLM。OpenGame-Bench 评估管道通过构建健康度、视觉可用性和意图对齐来评估智能体游戏生成,在150个多样化游戏提示上建立了新的最先进水平。
查看原文 Agent 游戏生成 代码LLM这项研究探讨了在三种弱监督设置(数据稀缺、噪声奖励、自监督代理奖励)下,强化学习与可验证奖励(RLVR)的泛化能力。研究发现泛化能力受训练奖励饱和动态支配,推理忠实度是预测模型能否泛化的关键属性。在显式推理轨迹上的监督微调(SFT)对于弱监督下的泛化是必要的,持续预训练可以放大这一效应。
查看原文 LLM 推理 弱监督⭐ GitHub 热门项目
OpenClaw 是一个个人AI助手项目,近期获得大量关注。支持多模态交互、工具调用和长期记忆,可作为个人AI伴侣运行。项目活跃度极高,社区贡献者众多,是开源AI助手领域的标杆项目。
查看原文 AI助手 开源 多模态n8n 是一个开源工作流自动化平台,近期集成了大量AI能力。支持AI Agent节点、LangChain集成和自定义AI工作流构建。近48小时发布了新的AI节点更新,增强了与各种LLM的集成能力,是no-code AI自动化领域的热门选择。
查看原文 自动化 工作流 AI集成Langflow 是一个可视化的AI应用构建器,通过拖拽方式创建复杂的AI工作流。近期更新增强了对多种LLM的支持,改进了Agent构建体验。新增MCP(模型上下文协议)支持,可无缝连接外部工具和数据源。
查看原文 可视化 AI构建器 低代码Dify 是一个开源的LLM应用开发平台,支持RAG引擎、Agent框架和工作流编排。近期发布了新的Agent模式,支持多步骤推理和工具调用。新增了对Claude和GPT-4o的优化支持,改进了知识库检索性能。
查看原文 LLM平台 RAG AgentFirecrawl 是一个专为AI应用设计的网页抓取工具,可将网页转换为LLM友好的markdown格式。近期更新增强了JavaScript渲染能力和反爬虫绕过功能。新增了批量抓取API和智能内容提取,是构建AI知识库的重要工具。
查看原文 爬虫 数据采集 AI工具🚀 模型与行业动态
OpenAI 推出 ChatGPT Images 2.0,集成O系列推理能力,采用代理式图像生成方法。支持从单个提示生成8张不同图像,可创建漫画页面、社交媒体图形。新增思考模型可进行网络研究并将结果融入图像,支持2K分辨率和多语言文本渲染,在日文、中文等多语言文本生成方面显著改善。
查看原文 OpenAI 图像生成 多模态Google 发布两个新型自主研究代理,基于 Gemini 3.1 Pro 模型。首次支持通过单一API调用融合网络数据与企业私有数据,生成原生图表和信息图。支持模型上下文协议(MCP)连接第三方数据源。Deep Research Max 采用扩展测试时计算,专为耗时数小时的深度研究任务设计。
查看原文 Google 研究代理 GeminiMoonshot AI 的 Kimi K2.6 模型专为长时间运行的AI代理设计,支持连续执行数小时甚至数天。可管理多达300个子代理,同时执行4000个协调步骤。在测试中用10小时从头构建了完整的SysY编译器,通过所有140项功能测试。暴露了现有企业编排框架在长时间运行场景下的局限性。
查看原文 Moonshot 长时间运行 Agent🔥 社区热议
SpaceX 宣布可能以600亿美元收购AI编程平台Cursor,或支付100亿美元的合作费用。此举旨在帮助 xAI 与市场领导者 Anthropic 竞争,同时应对 Google 和 OpenAI 在AI编码领域的竞争。随着 SpaceX 即将IPO,这笔交易将加强其在AI领域的布局,引发行业对AI编程工具估值的新一轮讨论。
查看原文 收购 Cursor SpaceX亚马逊向 Anthropic 追加50亿美元投资,使总投资达130亿美元。Anthropic 将获得亚马逊5吉瓦的AI芯片算力用于训练 Claude AI 模型。该交易包含 Anthropic 承诺未来十年在AWS技术上投入超1000亿美元,是AI热潮中循环融资的最新案例。此举旨在应对 Claude 付费订阅激增带来的基础设施压力。
查看原文 融资 Anthropic 亚马逊Meta 将开始跟踪美国员工的鼠标移动、点击和击键,为AI代理生成高质量训练数据。该软件运行在特定工作应用和网站上,使用定期截图提供上下文。旨在解决AI代理在处理鼠标移动、点击按钮等日常计算机任务时的训练数据不足问题,但可能在欧洲面临法律限制。
查看原文 Meta 训练数据 员工监控Anthropic 的 Mythos AI 模型在 Mozilla Firefox 150 中发现271个零日漏洞,CTO 称其安全研究能力与世界顶级安全研究人员相当。展示了AI在网络安全领域的突破性进展,能够自主发现复杂软件漏洞。但也引发对AI可能被用于恶意黑客攻击的担忧,防御部署速度可能跟不上AI攻击速度。
查看原文 安全 Anthropic 零日漏洞中国人形机器人在半程马拉松比赛中轻松击败人类选手,创下新纪录。展示了中国在机器人领域的快速发展,特别是在运动能力和自主导航方面的突破。机器人能够以超过人类平均速度完成21.1公里比赛,标志着机器人技术在实际应用中的重大进步。
查看原文 机器人 中国 运动能力VentureBeat 调查显示72%的企业拥有两个或更多主要AI平台,形成安全攻击面扩展。Mass General Brigham 医院案例显示,企业被迫围绕微软Copilot等工具构建安全外壳以防止健康信息泄露。56%受访者自信能检测AI异常,但近三分之一缺乏系统化检测机制,暴露了AI治理的深层问题。
查看原文 安全治理 企业AI 合规