来源

原始链接：https://www.youtube.com/watch?v=RrkGoX3Cw7o
来源类型：视频逐字稿
来源标题：Shopify CTO Muel Parkin访谈：内部AI工具落地、自研ML基础设施与前沿技术应用

Shopify CTO 访谈：内部 AI 工具落地、自研 ML 基础设施与前沿技术应用

本次高亮基于 Get笔记解析到的 YouTube 视频逐字稿原文，来源字段为 web_page.content。原文长度约 7.4 万字符，没有使用 Get笔记 AI 总结作为主输入。

【Agent 编程的核心指标不是 token 用量，而是评审闭环】

背景：访谈一开始就在回应 Jensen Huang 关于工程师应大量消耗 token 的观点。Shopify CTO 的判断更细：token 消耗方向是对的，但管理重点应该从消耗量转向消耗结构，尤其是生成与评审之间的预算比例。

关键并不是单纯消耗 token。一个反模式是同时跑太多彼此不沟通的 agent，这几乎没有用，只是把 token 烧掉。更好的方式是少量 agent 高效工作，并建立正确的 critique loop：一个 agent 产出，另一个 agent，最好是不同模型，负责批评和改进。

这种做法会让延迟上升，因为你得等待它们之间的辩论完成，所以人们往往不喜欢。但代码质量会高得多。

对我来说，真正重要的指标是代码生成阶段花了多少预算，以及用 GPT 5.4 Pro 或 Gemini Deep Think 这类昂贵模型做 PR review 花了多少预算。

兴趣匹配度高。它把 AI coding 的管理问题从买多少 token改写成 token 应该花在什么环节。这个视角比用 token 总量衡量生产力更接近真实系统瓶颈，也适合你长期关注的编程 Agent 工作流设计。

【AI 让代码吞吐量上升后，瓶颈转移到 PR、CI/CD 与部署系统】

背景：这组摘录最有工程管理价值。访谈里明确指出，AI 生成代码的平均质量可以高于普通人类，但因为总量暴涨，进入生产的 bug 绝对数仍会上升。于是瓶颈不再只是写代码，而是 review、测试、合并、回滚与部署队列。

好模型平均写出的 bug 可能比普通人类更少，但因为它能写出多得多的代码，最后进入生产的 bug 也会更多。所以必须有非常严格的 PR review，当然也要自动化。

现在真正的问题不是等待 PR review 花了多少时间，而是因为代码变多，至少某些测试失败的概率上升。接着你要找出有问题的 PR，把它移出队列，再重新测试，整个部署周期就变长了。

从整体部署时间看，让强模型多思考一个小时可能是总时间节省，因为你省掉了后面测试失败、定位问题、回滚部署的时间。

人类写代码没那么快时，全局互斥锁还可以承受。一旦开始以机器速度写代码，它就变成瓶颈。为人类设计的旧流程，需要演化成适合 agentic world 的新东西。

兴趣匹配度高。这里的核心是系统层面的二阶效应：AI 没有只改变编码速度，它改变了软件交付系统的负载形态。你的团队如果推进 AI coding，这比工具选型更值得先想清楚。

【Tangle 的价值：把 ML 实验从数字考古变成可复现、可共享、可上线的流水线】

背景：Tangle 是 Shopify 自研的第三代数据处理与 ML 实验系统。它要解决的是 ML 实验里很常见的问题：Notebook、脚本、临时 TSV、路径变化、特征不一致、半年后无法复现。它的目标不是单纯调度生产任务，而是让团队和 agent 能低成本迭代、共享和上线实验。

Airflow 适合你已经有一套东西，并且要按计划在生产里反复运行。Tangle 更关注团队一起开发实验：拿到标准 pipeline，只改其中很小的一个组件，在大规模数据处理海洋中跑十个实验、做超参数优化，并且最后一键进入生产。

一切都基于内容哈希。即使版本变了，只要输出没变，就不会重新运行。多个人启动需要同样数据预处理的实验时，这一步不会被重复计算，而是自动只做一次。

你不用知道另一个部门有人也在跑类似任务。对那个人来说，实验看起来像是突然向前跳了一步，因为平台自动发现了可复用的结果。这是多人共同帮助彼此的网络效应。

兴趣匹配度高。它把 ML infra 讲成了协作系统，而不是单人效率工具。内容哈希、可复现、共享缓存、开发到生产一体化，这些都非常贴合你对 agent workspace、上下文工程和可运行知识沉淀的关注。

【Tangent 与 auto research：只要目标可度量，agent 就能持续做实验】

背景：Tangent 是建立在 Tangle 之上的自动研究循环。它不是泛泛地让 AI 想办法，而是让 agent 在可度量目标下反复修改、运行实验、比较结果。访谈里给了很强的生产案例：搜索 QPS 从 800 提到 4200，质量保持不变。

Tangent 可以分析实验，运行多个实验，判断哪些东西可以改，然后持续重新运行、持续修改，直到最大化某个目标或损失函数。只要你做的事情有度量指标，如果不用 auto research 的方式，你就在错过机会。

我们把搜索从 800 QPS 提升到 4200 QPS，质量保持不变。它只是持续运行优化循环，修改索引服务中的代码，在同样数量的机器上提升吞吐量。

Auto research 擅长做那些明显但你没有带宽去做、没有注意到、或者不知道标准做法的事情。它不擅长做完全分布外、需要你连续思考多天的事情。

我让它在一个 hobby 项目上跑了几周，做了 400 多个实验，最后只有一个成功。如果我自己做，命中率肯定更高，但做 400 个实验可能要三年。机器用电费替我做完了这件事。

兴趣匹配度高。这个判断很克制：auto research 的强项不是天才洞察，而是把可度量问题中的大量低胜率尝试外包给机器。它适合作为你理解 Agent 系统能力边界的一个好例子。

【PM 成为最高使用者：AI 把瓶颈从算法知识迁移到领域判断】

背景：Tangent 最反常识的一点是最高使用者不是 ML 工程师，而是 PM。原因是当实验系统和 agent 足够自动化后，真正稀缺的是知道想要什么、知道如何定义目标、知道数据意味着什么的人。

Tango 和 Tangent 都非常民主化。它们最初由 ML 和 AI 工程师使用，但现在最高使用者之一是我们某个产品团队的 PM，因为他精力充沛，也很了解业务。

这释放了很多能力，因为你不需要手动改代码。PM 有领域知识，也能从第一性原理思考自己想要什么结果，还能接触需要进入系统的数据。

这就像 AI 开发里的 Claude Code。你不需要准确知道算法如何工作，只要带着领域知识、专业经验和产品知识，在 Tangent 里迭代，直到得到需要的结果。

兴趣匹配度高。它对应你常说的 What 的稀缺性：AI 把 how 的一部分自动化后，真正重要的是目标、判断和问题定义。对团队管理也有启发：未来高杠杆角色可能不是掌握更多实现细节的人，而是能把领域判断转成可度量实验的人。

【Sim Gym 的护城河：模拟客户的前提不是 prompt，而是历史行为数据】

背景：Shopify 的 Sim Gym 是客户模拟系统。访谈里最关键的不是它使用 agent，而是它用 Shopify 多年商户改动与销售结果来校准 agent。没有历史数据时，客户模拟容易变成 prompt 自嗨；有真实历史数据时，它才可能接近可验证的预测系统。

如果没有历史数据，你能做的只是把 agent 放在真空里 prompt 它们，而它们会完全按照你 prompt 的方向行动。

Shopify 有几十年历史：人们做了什么修改，这些修改最后对销售产生了什么结果。我们可以把这些噪声很大的数据聚合起来，做去噪和校准过滤，从里面提取清晰信号，然后优化 agent。

我们内部的目标之一是让模拟结果与加购事件达到 0.7 的相关性。如果我们跑真实 A/B 实验，它应该能复现类似的成功或失败。

对已有客户的店铺，我们会根据过去客户行为创建 agent，让它们复制这类客户分布，再用这些 agent 评估你的改动。这样对加购或转化的相关性会显著提高。

兴趣匹配度高。这里的本质是平台级数据飞轮：AI 不是单独构成护城河，历史行为数据加上可校准模拟才构成护城河。这个思路也能迁移到 AI 健康管家：如果想模拟用户行为或干预效果，关键不是写一个更聪明的 prompt，而是建立可校准的行为轨迹数据。

【从 A/B test 到轨迹与反事实：模拟系统在补足传统实验的盲区】

背景：访谈后半段把 Sim Gym 进一步推到统计与因果推断层面。传统 A/B test 主要看某个时间点的汇总统计，而 Shopify 想建模的是客户或商户随时间变化的路径，以及某个干预在不同时间点发生时的反事实结果。

你可以在任意时间点建模用户行为，也可以把整个商户公司看作一个在世界中行动的实体。然后你可以在图中做反事实：如果我给这个人一张优惠券，或者发一张私人感谢卡，会发生什么？

你还能改变干预发生的时间点，做从那个反事实开始的向前 rollout：有这个干预会怎样，没有这个干预又会怎样。

能够把人类或公司这种复杂对象建模出来，并在未来加入干预、优化何时干预以及用什么方式干预，是一个过去一直被梦想但很难实现的能力。

兴趣匹配度高。这个部分和你关注的人机共生、健康干预、长期行为改变都有潜在连接。它提供了一个很重要的问题框架：别只问某个建议是否有效，还要问对哪个轨迹上的用户、在什么时间点、以什么形式有效。

【Liquid AI 的生产定位：不是替代 frontier model，而是成为低延迟和长上下文任务的蒸馏目标】

背景：最后一组是模型架构和推理工程。Shopify 已经在生产里使用 Liquid 模型，主要看重低延迟、小模型、长上下文和高吞吐。这个判断比一般模型新闻更有价值，因为它来自真实规模的生产约束。

Liquid neural networks 可以看作 state space model 的下一步，是一种非 Transformer 架构，比 SSM 更复杂。它在上下文长度上是次二次复杂度，并且能用很紧凑的方式表示信息。

对小模型、低延迟应用，或者需要更长上下文长度的应用，Liquid 是我们测试下来最好的。它是我见过唯一真正有竞争力的非 Transformer 架构。

在搜索里，我们把一个 3 亿参数的小模型跑到端到端 30 毫秒。当用户输入查询时，它会生成所有可能意图，不只是同义词，还包括完整的查询理解树，并结合个性化信息下发给搜索服务。

它不会突然和 GPT 5.4 竞争，不能把它当成 frontier model。但随着 token 使用量爆炸，它是一个非常好的蒸馏目标，这件事正变得越来越重要。

兴趣匹配度高。这里给了一个清晰的工程选型坐标：大模型负责教师能力，小模型负责高频生产路径，架构创新的价值落在具体延迟、吞吐、上下文和成本约束上。对你关注的大模型系统架构和 AI 健康管家的在线推理成本都有参考意义。

【人格不是自然涌现，而是产品设计变量】

背景：访谈最后谈到 Bing Sydney。最有意思的点是，Sydney 的人格并不是纯粹偶然涌现，而是团队有意识做了大量 personality shaping。这对你关心的贴心朋友式 AI、去 AI 味和长期助理人格有直接关联。

Sydney 之所以是 Sydney，并不是偶然。我们在 personality shaping 上花了很多努力，也带入了过去做数字助手时学到的经验。

我们从实验里学到：你希望它有礼貌，但又稍微有一点锋芒。这样会把人吸引进去。之后我还没有看到很多人尝试完全相同的模式，但我觉得未来会看到更多。

兴趣匹配度中高。它不是这期访谈的主线，但和长期 AI 助理的人格设计很相关。真正值得记住的是：人格不是模型附带属性，而是可以被系统提示词、产品约束和交互反馈共同塑造的设计空间。

整体判断

这期最值得保留的不是 Shopify 使用了哪些工具，而是三个结构性判断。

第一，AI coding 的核心瓶颈正在从写代码迁移到 review、CI/CD、部署队列和组织协作协议。第二，agent 真正适合的生产场景，是目标可度量、实验可复现、结果可自动比较的闭环系统。第三，平台级 AI 护城河来自数据、模拟、校准和成本结构的组合，而不是单纯接入更强模型。

这几条都很适合继续二次加工成你自己的 Agent 工程判断。尤其是那句隐含结论：当 AI 把 how 的成本打下来以后，系统设计的重心会转向 what、evaluation、review 和 feedback loop。

Shopify CTO Muel Parkin访谈：内部AI工具落地、自研ML基础设施与前沿技术应用

来源