来源
- 原始链接:https://www.youtube.com/watch?v=fWXJM-J0ZB8
- 来源类型:视频逐字稿
- 来源标题:端侧前沿成果
端侧前沿成果高亮
文本来源是 AI Engineer 频道视频《端侧前沿成果》的中文可读转写稿。下面按汉松兴趣画像优先保留机制解释、反常识判断和可复用 workflow,而不是做普通摘要。
一、评估、反馈与故障闭环
背景
这组高亮抓住《端侧前沿成果》里最值得保留的反馈闭环:Agent 系统的可靠性主要来自可观测、可复现、可评分的外部结构,而不是一次性把 prompt 写得更漂亮。
为此,你需要持续运行评估,也就是回归评估(regression eval),运行方式类似于 CI/CD 测试——这就是防止你的 CTO 某天早上一不小心把你的 agentic 体验搞垮的方法。真实故事,发生在我一个创始人朋友身上。
我需要选择一批模型,但首先要找到一个评估框架和测量工具。我选择了 Phoenix,恰好是 Arize 开发的。
好消息是,所有这些小型本地模型的总费用一栏全是零,因为推理已经转移到了用户端。它在用户的设备上运行,是用户自己给手机充电,让电池驱动模型运行。
兴趣匹配度很高。它对应汉松持续关注的 Agent 工程化主线:把非确定性系统放进可反馈、可回归、可复盘的闭环里,真正的壁垒在 harness、eval、trace 和人类分诊。
二、上下文、记忆与检索边界
背景
这里讨论的是 Agent 能否拿到正确材料的问题。对汉松有价值的点在于,它把上下文从背景信息变成系统的运行材料:可索引、可缓存、可审计,也可被重新组织。
近来 token 成本虽然在下降,但推理总支出却在上升,因为 agent 和推理型工作负载消耗 token 的速度远超价格下降的速度。但我们完全可以消除其中大部分成本,这一切从问自己一个问题开始:这到底花了我多少钱?
当你使用云端的大型 LLM 时,你在向远程服务器发送数据,这始终存在数据暴露、被截获以及被第三方留存的风险。已经有案例表明,使用远程 AI 聊天机器人导致敏感商业数据被存储、泄露并公开。
所谓黄金数据集,是一组经过精心筛选的高质量输入 - 输出对,最好由人工标注,用作评估、验证和基准测试模型的基准真值。
兴趣匹配度很高。这是上下文工程的核心问题:不是给模型更多字,而是让模型在正确边界内获得正确材料,并让材料本身可维护、可验证、可复用。
三、工具、系统与工程约束
背景
这组摘录偏工程实现。它关心的不是模型能力的抽象上限,而是工具、接口、基础设施和生产约束如何决定 Agent 最终能不能稳定工作。
你要把系统中的各个部分转换为 SLM 和专用模型用于生产,但原型阶段完全可以用基础模型,没问题。
你可能想先用基础模型搭建系统原型,然后把其中的部分功能转换为小语言模型和专用模型用于生产。
Agent 的推理调用会层层叠加,这意味着即使单个 token 更便宜,你可能用得更多;或者如果你同时用了四个模型,费用可能更贵。当然,如果没有网络连接,远程模型根本无法使用,这意味着除非你的软件联网,否则没人能用它。
兴趣匹配度高。这里能迁移到实际团队建设:工具选择、数据流、权限、成本、延迟和部署形态,往往比单点模型参数更能决定系统上限。
四、人类判断、组织与协作方式
背景
这部分把人放回系统设计里。Agent 越强,越需要人类承担领域判断、目标选择、风险边界和协作组织,而不是把全部责任交给模型。
但如果你在做移动应用,可能不想用蒸馏模型,因为每次增加新能力,你可能都需要重新训练模型,然后每次都要向用户推送一个新的 1 到 2 GB 的模型。这就是一个典型的例子:“我觉得我没办法控制那个模型。
你不需要历史知识,不需要哲学,不需要那些 Reddit 帖子,不需要模型学到和训练过的大量内容。我们大多数人用模型做的事情,无非是总结一段聊天记录,或者判断某人现在是不是在发火。
那你可能需要 Arize 的可观测性平台——专为模型和热爱它们的 agent 而生。今天我实际上会用到 Arize 的一个开源项目 Phoenix,稍后会详细介绍。
兴趣匹配度高。它符合汉松的人机共生框架:AI 承担生成和探索,人类承担判断、责任、品味和组织设计,把人的稀缺性放在更高杠杆的位置。
五、Prompt、规格与行为设计
背景
这里的重点是行为设计。Prompt 不是一句魔法咒语,而是一套分层约束、规格、角色、语气和上下文组合出来的系统界面。
然后是严格规则版本,这是一个充满”不”的 prompt,包含明确的负向约束:不要有前言,不要在回答前数字数……不对,要在回答前数字数。假设是:小模型对字面命令响应更好,喜欢被明确指挥。
你要隔离每个 prompt 变体中的单一变量,以测试你的改动是否真的在推动指标变化。我创建了五个 prompt:四个新 prompt 加上原始 prompt 作为基准。
第三步,从小到大测试:将小模型的输出与测试标准进行比较,从最小的模型开始,逐步向上,直到找到在可接受范围内的那个”小而够用”的 SAGE 模型。第四步,选择你的 SAGE 模型:即能为你的输入提供可接受响应的最小模型。
兴趣匹配度很高。它把 prompt 从技巧提升为系统设计问题,适合沉淀到汉松的 AI 协作和 agent workflow 方法论里。
整体判断
这篇内容最值得保留的是它把《端侧前沿成果》从一次视频分享转成了可迁移的系统判断。核心素材集中在评估、反馈与故障闭环、上下文、记忆与检索边界、工具、系统与工程约束。对汉松后续写作和团队实践来说,它可以作为 AI Agent 工程化素材库的一块:不是追逐单个工具功能,而是持续追问系统如何获得上下文、如何被评估、如何进入生产闭环,以及人类判断应该放在哪些关键节点。