今日刊

2026-06-10 每日精选22

Hacker News, Lobsters, arXiv, GitHub

🤖 AI Agent 研究

TOPEEVEE: Towards Test-time Prompt Learning in the Real World for Self-Improving Agents

【arXiv】在本文中,我们提出了EEVEE ,这是第一个针对LLM代理的多数据集测试时提示学习框架,可在真实任务流下实现测试时提示学习。现有的方法主要是为单个数据集设置而设计的,而

Data Journalist Agent: Transforming Data into Verifiable Multimodal Stories

【arXiv】数据讲述塑造社会的故事;数据记者的工作是将原始信息转化为非专家可以信任的故事。高质量的新闻功能需要新闻编辑室团队花费数周的时间:寻找背景,运行统计数据,选择角度,以及

Flaws in the LLM Automation Narrative

【arXiv】大型语言模型( LLM )越来越多地被描述为人类专家在知识经济任务方面的表现。这些声明主要基于LLM在衡量跨标准平均绩效的基准任务上的表现

ABC-Bench: An Agentic Bio-Capabilities Benchmark for Biosecurity

【arXiv】大型语言模型( LLM )正在迅速获得与生物研究相关的能力,从文献合成到实验数据的解释。LLM代理商也可以越来越多地执行以前需要的硅生物学任务

GitHub 热门项目

TOPeggstack/eggcalc

【GitHub】CLI计算器接受自然语言和单位转换。可用作AI agent的CLI、Python库或MCP服务器。(⭐ 0 )

查看原文
githubopensource
分享
yzfly/TokenCode

【GitHub】为并行而生的 Agent 运行时——Go 写的开源终端 Coding Agent(类 Claude Code),可接入任意模型,自带心跳与自动做梦 | A parallel-native agent runtime in Go: an open-source, Claude Code-style coding agent. Any model, heartbeat & dreaming. (⭐ 1)

查看原文
githubopensource
分享
sentrysurface/surfaceproxy-core

【GitHub】我们的开源项目是SurfaceProxy (或SentrySurface Agent网关)。它是专为AI原生开发而设计的轻量级、高性能语义代理和安全防火墙(⭐ 2 )

查看原文
githubopensource
分享
zhan1206/deepseek-code-agent

【GitHub】DeepSeek代码代理框架-开源Claude代码竞争对手(⭐ 2 )

查看原文
githubopensource
分享

🚀 模型与行业动态

TOPGoogle just fired a warning shot in the AI subscription price wars

谷歌刚刚大大降低了享受其预算AI订阅层的成本。

查看原文
industrytechcrunch
分享
How Justin Ernest invested nearly $500M into hot startups without a traditional VC fund

这位Sabertooth风险投资创始人没有花一年时间筹集正式的风险基金,而是利用有限合伙人的专属网络投资于Anthropic、Anduril和SpaceX等初创公司。

查看原文
industrytechcrunch
分享
Hey, Siri, here’s what I actually want from AI

我迫切需要一个人工智能助理,但我真的想成为那种没有手机中友好的机器人声音就无法工作的人吗?

查看原文
industrytechcrunch
分享
Anthropic’s Fable 5 can make weirdly fun video games with the click of a button

Anthropic的Claude Fable 5将成为网络氛围编码器的大热门。

查看原文
industrytechcrunch
分享
Can tech companies learn to love cheaper AI models?

如果这些相同的人工智能工作负载可以通过更便宜的模型来处理,而不会影响质量,那将意味着人工智能经济的巨大转变。

查看原文
industrytechcrunch
分享

🔥 社区热议

TOPTest-case Reducers Are Underappreciated Debugging Tools

【Lobsters】热度: 61↑ | 24 评论 | 标签: compilers, debugging

查看原文
communitylobsterstech
分享
Cleaning up after AI rockstar developers

【Lobsters】热度: 81↑ | 49 评论 | 标签: vibecoding

查看原文
communitylobsterstech
分享
Grit: rewriting Git in Rust with agents

【Lobsters】热度: 5↑ | 0 评论 | 标签: vcs, vibecoding

查看原文
communitylobsterstech
分享
If Claude Fable stops helping you, you'll never know

【HN】热度: 507 分 | 243 评论

查看原文
communitydiscussion
分享
macOS Container Machines

【HN】热度: 158 分 | 66 评论

查看原文
communitydiscussion
分享
Claude Fable 5

【HN】热度: 1808 分 | 1415 评论

查看原文
communitydiscussion
分享
CEOs who think AI replaces their employees are just bad CEOs

【HN】热度: 436 分 | 177 评论

查看原文
communitydiscussion
分享
Grit: Rewriting Git in Rust with agents

【HN】热度: 73 分 | 90 评论

查看原文
communitydiscussion
分享
German ruling declares Google liable for false answers in AI Overviews

【HN】热度: 16 分 | 2 评论

查看原文
communitydiscussion
分享