跳到正文
汉松札记
返回

用户信号死在检索边界高亮

AI Highlight

来源

用户信号死在检索边界高亮

文本来源是 AI Engineer 频道视频《用户信号死在检索边界》的中文可读转写稿。下面按汉松兴趣画像优先保留机制解释、反常识判断和可复用 workflow,而不是做普通摘要。

一、评估、反馈与故障闭环

背景

这组高亮抓住《用户信号死在检索边界》里最值得保留的反馈闭环:Agent 系统的可靠性主要来自可观测、可复现、可评分的外部结构,而不是一次性把 prompt 写得更漂亮。

我们 73% 的 pipeline 失败是因为 retrieval,而不是 generation 或 context stuffing。Pinecone 前 CTO Ram Sriram 最近有一篇帖子说:我们一直在优化错误的东西。

缺失的是这样一层系统:它消费 traces,吸收 eval,并把二者转化成未来 run 的 retrieval guidance。

第三个问题是,agent 并不是 outcome-informed,也就是没有被结果反馈驱动。eval 和 action 之间缺了一层。

兴趣匹配度很高。它对应汉松持续关注的 Agent 工程化主线:把非确定性系统放进可反馈、可回归、可复盘的闭环里,真正的壁垒在 harness、eval、trace 和人类分诊。

二、上下文、记忆与检索边界

背景

这里讨论的是 Agent 能否拿到正确材料的问题。对汉松有价值的点在于,它把上下文从背景信息变成系统的运行材料:可索引、可缓存、可审计,也可被重新组织。

我们会看几个问题:agent 本质上是什么,agent 为什么会失败,尤其是在检索上失败的原因是什么,怎样让信号真正跨过检索边界,以及怎样让你的 agent 基本上对结果负责。

你不是按关键词检索,而是按当前任务的语义相似度检索,并用这些 memory 在历史上对执行或结果是有帮助还是有伤害来加权。事件结果变成 retrieval re-ranking 中的一等信号,而且不只用于 retrieval。

所以一旦有足够多的 memory,比如 10 条 memory,我们做的事情就是把 reasoning 和 understanding 烘进 skill,这样你的 agent 就能始终保持更新。我们经常看到一种情况:假设你有一个产品 SQL agent,system prompt 里有一列。

兴趣匹配度很高。这是上下文工程的核心问题:不是给模型更多字,而是让模型在正确边界内获得正确材料,并让材料本身可维护、可验证、可复用。

三、工具、系统与工程约束

背景

这组摘录偏工程实现。它关心的不是模型能力的抽象上限,而是工具、接口、基础设施和生产约束如何决定 Agent 最终能不能稳定工作。

所以聊天体验并不是面向生产环境的自我改进学习系统。如果看市场上已有的方法,有 LangChain,也有 Mem0,它们会抽取过去的偏好。

它本质上测试模型在扩展的多步骤 workflow 中推理、规划和使用工具的能力,而不是衡量静态 Q&A。这里可以看到,假设 human last exam with drug 这个任务,你会得到 47.5。

agent 是一个具有 agency 的 LLM,它可以推理、调用工具、与真实世界交互,并检索 memory 来完成任务。这里少了一个主要循环:学习。

兴趣匹配度高。这里能迁移到实际团队建设:工具选择、数据流、权限、成本、延迟和部署形态,往往比单点模型参数更能决定系统上限。

四、人类判断、组织与协作方式

背景

这部分把人放回系统设计里。Agent 越强,越需要人类承担领域判断、目标选择、风险边界和协作组织,而不是把全部责任交给模型。

不是没有上下文、没有历史的静态事实,而是推理。比如,如果有一个客服 bot 在处理退款,你不会真的说:用户偏好 dark theme,或者用户喜欢被叫短一点的名字。

这样不用改变现有 prompt,你实际上就能更新 agent 大量依赖的某些东西。也就是说,你可以更新 skill,这非常酷。

它是一个 runtime 层,让大语言模型 agent 能够从经验中改进,而不需要 retraining、fine-tuning 或人工 prompt engineering。

兴趣匹配度高。它符合汉松的人机共生框架:AI 承担生成和探索,人类承担判断、责任、品味和组织设计,把人的稀缺性放在更高杠杆的位置。

五、Prompt、规格与行为设计

背景

这里的重点是行为设计。Prompt 不是一句魔法咒语,而是一套分层约束、规格、角色、语气和上下文组合出来的系统界面。

然后重写 prompt、重新部署、升级或创建昂贵的模型、重构 harness,或者 fine-tune 自定义模型。为什么当前的 memory 会失败?

基本上,它从 agent 取得输出,然后在一个循环里执行,连接到 retrieval search,并在任务完成时暂停。这是非常基础的 ReAct 架构。

这是很重要的一点,因为大多数 agent 都在处理 context stuffing,而这个问题过去也被反复提出过。它还会从历史和 reasoning 中学习。

兴趣匹配度很高。它把 prompt 从技巧提升为系统设计问题,适合沉淀到汉松的 AI 协作和 agent workflow 方法论里。

整体判断

这篇内容最值得保留的是它把《用户信号死在检索边界》从一次视频分享转成了可迁移的系统判断。核心素材集中在评估、反馈与故障闭环、上下文、记忆与检索边界、工具、系统与工程约束。对汉松后续写作和团队实践来说,它可以作为 AI Agent 工程化素材库的一块:不是追逐单个工具功能,而是持续追问系统如何获得上下文、如何被评估、如何进入生产闭环,以及人类判断应该放在哪些关键节点。


订阅 AI Highlight

分享这篇文章:


上一篇
用 RL Agent 检测并修复 ETL 管道故障高亮
下一篇
端侧前沿成果高亮