来源
- 原始链接:https://www.youtube.com/watch?v=RrkGoX3Cw7o
- 来源类型:视频逐字稿
- 来源标题:Shopify CTO Muel Parkin访谈:内部AI工具落地、自研ML基础设施与前沿技术应用
Shopify CTO 访谈:内部 AI 工具落地、自研 ML 基础设施与前沿技术应用
本次高亮基于 Get笔记解析到的 YouTube 视频逐字稿原文,来源字段为 web_page.content。原文长度约 7.4 万字符,没有使用 Get笔记 AI 总结作为主输入。
【Agent 编程的核心指标不是 token 用量,而是评审闭环】
背景:访谈一开始就在回应 Jensen Huang 关于工程师应大量消耗 token 的观点。Shopify CTO 的判断更细:token 消耗方向是对的,但管理重点应该从消耗量转向消耗结构,尤其是生成与评审之间的预算比例。
关键并不是单纯消耗 token。一个反模式是同时跑太多彼此不沟通的 agent,这几乎没有用,只是把 token 烧掉。更好的方式是少量 agent 高效工作,并建立正确的 critique loop:一个 agent 产出,另一个 agent,最好是不同模型,负责批评和改进。
这种做法会让延迟上升,因为你得等待它们之间的辩论完成,所以人们往往不喜欢。但代码质量会高得多。
对我来说,真正重要的指标是代码生成阶段花了多少预算,以及用 GPT 5.4 Pro 或 Gemini Deep Think 这类昂贵模型做 PR review 花了多少预算。
兴趣匹配度高。它把 AI coding 的管理问题从买多少 token改写成 token 应该花在什么环节。这个视角比用 token 总量衡量生产力更接近真实系统瓶颈,也适合你长期关注的编程 Agent 工作流设计。
【AI 让代码吞吐量上升后,瓶颈转移到 PR、CI/CD 与部署系统】
背景:这组摘录最有工程管理价值。访谈里明确指出,AI 生成代码的平均质量可以高于普通人类,但因为总量暴涨,进入生产的 bug 绝对数仍会上升。于是瓶颈不再只是写代码,而是 review、测试、合并、回滚与部署队列。
好模型平均写出的 bug 可能比普通人类更少,但因为它能写出多得多的代码,最后进入生产的 bug 也会更多。所以必须有非常严格的 PR review,当然也要自动化。
现在真正的问题不是等待 PR review 花了多少时间,而是因为代码变多,至少某些测试失败的概率上升。接着你要找出有问题的 PR,把它移出队列,再重新测试,整个部署周期就变长了。
从整体部署时间看,让强模型多思考一个小时可能是总时间节省,因为你省掉了后面测试失败、定位问题、回滚部署的时间。
人类写代码没那么快时,全局互斥锁还可以承受。一旦开始以机器速度写代码,它就变成瓶颈。为人类设计的旧流程,需要演化成适合 agentic world 的新东西。
兴趣匹配度高。这里的核心是系统层面的二阶效应:AI 没有只改变编码速度,它改变了软件交付系统的负载形态。你的团队如果推进 AI coding,这比工具选型更值得先想清楚。
【Tangle 的价值:把 ML 实验从数字考古变成可复现、可共享、可上线的流水线】
背景:Tangle 是 Shopify 自研的第三代数据处理与 ML 实验系统。它要解决的是 ML 实验里很常见的问题:Notebook、脚本、临时 TSV、路径变化、特征不一致、半年后无法复现。它的目标不是单纯调度生产任务,而是让团队和 agent 能低成本迭代、共享和上线实验。
Airflow 适合你已经有一套东西,并且要按计划在生产里反复运行。Tangle 更关注团队一起开发实验:拿到标准 pipeline,只改其中很小的一个组件,在大规模数据处理海洋中跑十个实验、做超参数优化,并且最后一键进入生产。
一切都基于内容哈希。即使版本变了,只要输出没变,就不会重新运行。多个人启动需要同样数据预处理的实验时,这一步不会被重复计算,而是自动只做一次。
你不用知道另一个部门有人也在跑类似任务。对那个人来说,实验看起来像是突然向前跳了一步,因为平台自动发现了可复用的结果。这是多人共同帮助彼此的网络效应。
兴趣匹配度高。它把 ML infra 讲成了协作系统,而不是单人效率工具。内容哈希、可复现、共享缓存、开发到生产一体化,这些都非常贴合你对 agent workspace、上下文工程和可运行知识沉淀的关注。
【Tangent 与 auto research:只要目标可度量,agent 就能持续做实验】
背景:Tangent 是建立在 Tangle 之上的自动研究循环。它不是泛泛地让 AI 想办法,而是让 agent 在可度量目标下反复修改、运行实验、比较结果。访谈里给了很强的生产案例:搜索 QPS 从 800 提到 4200,质量保持不变。
Tangent 可以分析实验,运行多个实验,判断哪些东西可以改,然后持续重新运行、持续修改,直到最大化某个目标或损失函数。只要你做的事情有度量指标,如果不用 auto research 的方式,你就在错过机会。
我们把搜索从 800 QPS 提升到 4200 QPS,质量保持不变。它只是持续运行优化循环,修改索引服务中的代码,在同样数量的机器上提升吞吐量。
Auto research 擅长做那些明显但你没有带宽去做、没有注意到、或者不知道标准做法的事情。它不擅长做完全分布外、需要你连续思考多天的事情。
我让它在一个 hobby 项目上跑了几周,做了 400 多个实验,最后只有一个成功。如果我自己做,命中率肯定更高,但做 400 个实验可能要三年。机器用电费替我做完了这件事。
兴趣匹配度高。这个判断很克制:auto research 的强项不是天才洞察,而是把可度量问题中的大量低胜率尝试外包给机器。它适合作为你理解 Agent 系统能力边界的一个好例子。
【PM 成为最高使用者:AI 把瓶颈从算法知识迁移到领域判断】
背景:Tangent 最反常识的一点是最高使用者不是 ML 工程师,而是 PM。原因是当实验系统和 agent 足够自动化后,真正稀缺的是知道想要什么、知道如何定义目标、知道数据意味着什么的人。
Tango 和 Tangent 都非常民主化。它们最初由 ML 和 AI 工程师使用,但现在最高使用者之一是我们某个产品团队的 PM,因为他精力充沛,也很了解业务。
这释放了很多能力,因为你不需要手动改代码。PM 有领域知识,也能从第一性原理思考自己想要什么结果,还能接触需要进入系统的数据。
这就像 AI 开发里的 Claude Code。你不需要准确知道算法如何工作,只要带着领域知识、专业经验和产品知识,在 Tangent 里迭代,直到得到需要的结果。
兴趣匹配度高。它对应你常说的 What 的稀缺性:AI 把 how 的一部分自动化后,真正重要的是目标、判断和问题定义。对团队管理也有启发:未来高杠杆角色可能不是掌握更多实现细节的人,而是能把领域判断转成可度量实验的人。
【Sim Gym 的护城河:模拟客户的前提不是 prompt,而是历史行为数据】
背景:Shopify 的 Sim Gym 是客户模拟系统。访谈里最关键的不是它使用 agent,而是它用 Shopify 多年商户改动与销售结果来校准 agent。没有历史数据时,客户模拟容易变成 prompt 自嗨;有真实历史数据时,它才可能接近可验证的预测系统。
如果没有历史数据,你能做的只是把 agent 放在真空里 prompt 它们,而它们会完全按照你 prompt 的方向行动。
Shopify 有几十年历史:人们做了什么修改,这些修改最后对销售产生了什么结果。我们可以把这些噪声很大的数据聚合起来,做去噪和校准过滤,从里面提取清晰信号,然后优化 agent。
我们内部的目标之一是让模拟结果与加购事件达到 0.7 的相关性。如果我们跑真实 A/B 实验,它应该能复现类似的成功或失败。
对已有客户的店铺,我们会根据过去客户行为创建 agent,让它们复制这类客户分布,再用这些 agent 评估你的改动。这样对加购或转化的相关性会显著提高。
兴趣匹配度高。这里的本质是平台级数据飞轮:AI 不是单独构成护城河,历史行为数据加上可校准模拟才构成护城河。这个思路也能迁移到 AI 健康管家:如果想模拟用户行为或干预效果,关键不是写一个更聪明的 prompt,而是建立可校准的行为轨迹数据。
【从 A/B test 到轨迹与反事实:模拟系统在补足传统实验的盲区】
背景:访谈后半段把 Sim Gym 进一步推到统计与因果推断层面。传统 A/B test 主要看某个时间点的汇总统计,而 Shopify 想建模的是客户或商户随时间变化的路径,以及某个干预在不同时间点发生时的反事实结果。
你可以在任意时间点建模用户行为,也可以把整个商户公司看作一个在世界中行动的实体。然后你可以在图中做反事实:如果我给这个人一张优惠券,或者发一张私人感谢卡,会发生什么?
你还能改变干预发生的时间点,做从那个反事实开始的向前 rollout:有这个干预会怎样,没有这个干预又会怎样。
能够把人类或公司这种复杂对象建模出来,并在未来加入干预、优化何时干预以及用什么方式干预,是一个过去一直被梦想但很难实现的能力。
兴趣匹配度高。这个部分和你关注的人机共生、健康干预、长期行为改变都有潜在连接。它提供了一个很重要的问题框架:别只问某个建议是否有效,还要问对哪个轨迹上的用户、在什么时间点、以什么形式有效。
【Liquid AI 的生产定位:不是替代 frontier model,而是成为低延迟和长上下文任务的蒸馏目标】
背景:最后一组是模型架构和推理工程。Shopify 已经在生产里使用 Liquid 模型,主要看重低延迟、小模型、长上下文和高吞吐。这个判断比一般模型新闻更有价值,因为它来自真实规模的生产约束。
Liquid neural networks 可以看作 state space model 的下一步,是一种非 Transformer 架构,比 SSM 更复杂。它在上下文长度上是次二次复杂度,并且能用很紧凑的方式表示信息。
对小模型、低延迟应用,或者需要更长上下文长度的应用,Liquid 是我们测试下来最好的。它是我见过唯一真正有竞争力的非 Transformer 架构。
在搜索里,我们把一个 3 亿参数的小模型跑到端到端 30 毫秒。当用户输入查询时,它会生成所有可能意图,不只是同义词,还包括完整的查询理解树,并结合个性化信息下发给搜索服务。
它不会突然和 GPT 5.4 竞争,不能把它当成 frontier model。但随着 token 使用量爆炸,它是一个非常好的蒸馏目标,这件事正变得越来越重要。
兴趣匹配度高。这里给了一个清晰的工程选型坐标:大模型负责教师能力,小模型负责高频生产路径,架构创新的价值落在具体延迟、吞吐、上下文和成本约束上。对你关注的大模型系统架构和 AI 健康管家的在线推理成本都有参考意义。
【人格不是自然涌现,而是产品设计变量】
背景:访谈最后谈到 Bing Sydney。最有意思的点是,Sydney 的人格并不是纯粹偶然涌现,而是团队有意识做了大量 personality shaping。这对你关心的贴心朋友式 AI、去 AI 味和长期助理人格有直接关联。
Sydney 之所以是 Sydney,并不是偶然。我们在 personality shaping 上花了很多努力,也带入了过去做数字助手时学到的经验。
我们从实验里学到:你希望它有礼貌,但又稍微有一点锋芒。这样会把人吸引进去。之后我还没有看到很多人尝试完全相同的模式,但我觉得未来会看到更多。
兴趣匹配度中高。它不是这期访谈的主线,但和长期 AI 助理的人格设计很相关。真正值得记住的是:人格不是模型附带属性,而是可以被系统提示词、产品约束和交互反馈共同塑造的设计空间。
整体判断
这期最值得保留的不是 Shopify 使用了哪些工具,而是三个结构性判断。
第一,AI coding 的核心瓶颈正在从写代码迁移到 review、CI/CD、部署队列和组织协作协议。第二,agent 真正适合的生产场景,是目标可度量、实验可复现、结果可自动比较的闭环系统。第三,平台级 AI 护城河来自数据、模拟、校准和成本结构的组合,而不是单纯接入更强模型。
这几条都很适合继续二次加工成你自己的 Agent 工程判断。尤其是那句隐含结论:当 AI 把 how 的成本打下来以后,系统设计的重心会转向 what、evaluation、review 和 feedback loop。