← 顶级AI播客总结
Latent Space

用"品味"把 DeepSeek 调教成超越 Opus:开源模型的工具调用真相

⚡️Making DeepSeek v4 outperform Opus 4.7 with Taste — @Ahmad Awais , CommandCode.ai
2026 年 6 月 6 日 节目时长 41 分钟 阅读约 19 分钟
▶ 在 YouTube 收看原片
用

一个修复"工具混乱"的笨办法,让开源模型从能用变好用,还顺手治了设计垃圾。

核心要点

  • 56 次重复同一错误:DeepSeek V4 工具调用 schema 错了、收到报错也不改,10 亿 token 里平均重复 56 次——这就是 "tool confusion",开源模型从能用到好用的最大鸿沟。
  • 修复文件:像数据库 migration 一个修复一文件——拦截错误参数、确定性修好、回传 repair hint;比喻是"先帮他避免撞车,再解释该怎么开"。
  • 16,000+ 修复变体:覆盖数千亿 token,日处理量从几十亿涨到约 6000 亿;Kimi、MiniMax 同样的问题都已修复。
  • 90% AI 设计感可修掉:同一套思路用于设计垃圾——24 份参考文档、10 条 design smell、7 种 pattern,强制 OKLCH 而非 HSL 是关键招。
  • Taste 模型:自动从你的编码行为学习偏好,生成存在 Git 仓库里的 markdown skill 文件——透明、每次 PR review 可见、永不过期。
  • 即将开源:Command Code 将在 SF 的 AI 工程师大会宣布开源;WordPress 创始人 Matt Mullenweg 听说后主动找上门成了天使投资人。
用
一图速览本期内容(点击查看大图)

章节时间轴

详细内容

一、从 GPT-3 早期玩家到"唯一的 agent 是 coding agent"

Awais 的起点是 2020 年 COVID 高峰期。他做了一个走红的 Corona CLI,随后 Greg Brockman 和 Sam Altman 给了他 GPT-3 的早期访问权限。他翻出当时记录:2020 年 7 月,Greg 问他"打算用这个 API 做什么用例",他回答"建议下一行代码,像代码片段一样"——这比 GitHub Copilot 公开早了一年多。这个想法做成了 CLI 工具 CLAI(他自称一直是"CLI 爱好者")。

这条线后来长成了 AI 云 LangBase,做到月运行 12 亿次 agent,还建了记忆基础设施。但 Awais 现在的判断是:只存在一种 agent,就是 coding agent,它什么都能做。他反问,为什么要把这种能力藏在记忆系统或某种 primitive 后面?于是那个 6 年老的代码库被重塑成了 Command Code。

Command Code 起源于一个个人观察:他自己用 Command Code 比用别的 coding agent 多得多,接着团队成员也开始用。在此过程中他们做出了一个叫 "Taste One" 的 meta-neuro-symbolic 模型——这是后面整期的两条主线之一。

二、Taste:从"人"到"模型"学习编码品味

Awais 的逻辑链是:他写了 27 年代码、发了 300+ 开源项目,"对很多事有很强的意见",而且常做最前沿的东西——前沿到没有文档可供 AI agent 去读、RAG 也没用。在这种场景下,他的意见比 LLM 能找到的东西更值钱。于是他把这种行为编码进 neuro-symbolic 架构:如果系统从他身上学到东西,就像 skill 一样替他记录下来,这就是 "Taste"。

他举的例子很具体:如果系统看到他大量用 pnpm,但本地 link CLI 时用 npm global link,它会学到"几乎所有装包场景偏好 pnpm,唯独本地 link CLI 用 npm"。这些习惯沉淀成 taste 文件,与 skill 文件非常类似。关键特性是:它按仓库(per-repository)自动学习,构建出一个不啰嗦的 skill 库——不是把所有东西都塞进去,而是只记录跨工作反复出现的偏好和模式,且可来自任意 coding agent。触发学习的时机是当你把东西 merge 进 main,此时能回看你整体的 accept、edit、reject。

后半段他进一步澄清 Taste 与 skills 的关系(他专门写过博客):Taste 是最高阶位(highest order bit),是管理 skills 和 rules 的自动引擎——它替你创建 skills、保证它们不过期,你也可以自己编辑。他展示了自己建 70+ 个 CLI 后沉淀的"建 CLI 的全部 taste",小小一个文件:知道他只对 build 依赖用 pnpm、总是从版本 0.0.1 开始、交互用 clack 等。用法是 npx taste pull 把文件拉进仓库,然后让任意 coding agent "follow my taste of building CLIs" 并在结尾"show taste compliance"。

他强调透明性和反陈旧:很多人遇到的问题,是 agent.md 或 cloud.md 里写了坐下来时拍脑袋定的、后来过期的"宏大规则"。而 Taste 学的是大量微决策而非宽泛规则。例子:他的 PR 工作流其实是"从 main 拉最新、rebase、在分支发 PR、再切回 main 分支"——这不是他 PR 文件里写的,但系统看他反复切回 main,就自动补上这条一行规则。这种东西随时间复利累积。

他还提到一个 70+ 开发者的研究:用了 Taste 后,开发者因为 LLM"跑偏"(比如该用 Hono 却用了 tRPC)而手动改文件、纠偏的次数下降了。关于置信度,人类自己写的可以直接给 1.0,从行为学到的则有好有坏——他举例自己有个用于本地调试、不想出现在 help 里的 local 选项,太琐碎不会主动写进 skill,但系统能自动捕捉。Discord 社区里一个走红的玩法:用 Opus 或 GPT-5.5 这类高质量模型建好 taste 文件,再用超便宜的模型基于该文件继续大量开发

三、tool confusion:开源模型"慢"的真正原因

这是本期的核心技术发现。背景是录制当天(5 月 25 日)前后约 25 天,社区在激烈争论 DeepSeek V4 Pro 到底是不是真和 Opus 一样好。Awais 当时每天跑数十亿 token(现在是当时的 100 倍),必须自己做判断。

他先帮只用 OpenAI 的听众建立问题框架:coding agent 干活靠工具调用——比如用户问"这个仓库的认证怎么实现",agent 要用预置工具列目录、读一堆文件、探索、再回答。很多开源模型在工具调用这一环很糟。而模式很具体,集中在 DeepSeek 上:他形容 DeepSeek V4 Pro 有种"alpha male energy"——它发给你什么,就认定那是对的;如果它发了错误 schema,你回一个 Zod error,它不听,会在 10 亿 token 里平均把同一个错误调用重复 56 次

主持人插问"为什么不听报错?我以为这是常识,Instructor 早就这么干了"。Awais 坦言不知道确切原因,但有个"hot take"猜想:这些开源模型可能是在"从比自己更好的模型那里学高质量数据"的体系下训练的,本性是"你告诉我的都是对的,所以别想纠正我"——他强调这部分很 vibe-based。

具体表现:某个 shell 工具的某参数本应是可选的,模型会在不该填的地方塞个空对象或 null,严格的 Zod 直接报错,然后它一遍遍发同样的调用。

四、修复方案:像 migration 一样的"repair 文件"

Awais 的解法不是把错误回传给模型,而是自己确定性地修好。他把修复逻辑类比成数据库 migration——一个修复一个文件,最初只有 3200 行修复代码。比如模型本该发数组却发了 JSON 字符串,他能确定性地转成数组;修好后不只回传 result,还附一条 repair hint:"你本该发这种数据,但结果照样给你了。"

他给的比喻最传神:像教人开车,对方快撞上别的车时,你先帮他避免撞车,再解释他原本该怎么做。效果惊人——一旦回传 result + repair 逻辑,紧接着第三次工具调用就修对了,模型"突然变聪明"。另一个例子是 read file 没给 offset(不知道读头 100 行还是尾 100 行),他就做判断:第一次读就给前 100 行;模型很快意识到"我其实在读 log 文件、需要的是最后 100 行",于是自我修正,而不是触发那 50+ 次平均失败。还有模型莫名给文件路径生成 markdown link——同样可确定性修复,不浪费 token。

他顺带揭了行业的"潜规则":很多开发者改掉 cloud code 的 base API endpoint 和 key,拿 cloud code 当开源模型的 harness。但 cloud code 把大量错误藏在 Ctrl+O 后面,用户根本看不到每个 session 50+ 次工具调用失败,只觉得"DeepSeek 怎么这么慢"。而 cloud code 没有动力修这个——他们的 coding agent 不是为开源模型建的,藏起来对他们反而有利。Awais 的观点:所谓模型差,很多其实是 tool call harness 问题,不是模型本身的问题

五、从 DeepSeek 推广到全体,以及权限的副作用

主持人追问这是 DeepSeek 独有还是开源模型通病。Awais 一开始也以为只是 DeepSeek,但翻了近 30 天日志发现 Kimi 一模一样,于是修了 Kimi、修了 MiniMax,如今积累了 16,000 多个修复变体,覆盖数千亿 token,日处理约 6000 亿。效果是:让 DeepSeek V4 flash 这种"基本没法用"的模型,变成能真正竞争的模型。

社会化证据:更新推出后,Tom Preston-Werner 的基金 PW 的 GP 直接发问"你做了什么,为什么 DeepSeek V4 flash 突然这么稳?"——模型的"vibe"完全变了。

一个相关观察是权限模式让模型变笨:开着权限确认跑 coding agent,模型表现更差;完全 bypass 权限反而好得多。即便你坐着一路点 yes,模型也会因权限阻塞的"慢"被引向错误方向。Awais 推测这可能和训练方式有关。机理与工具调用一致:模型看到的工具调用错误越少,就越有创造力、能探索更多、能跑得更久。他举例一个用户在 DeepSeek 上跑了 70 亿 token、连续 12 小时以上的 session,把使用页都跑崩了——团队就是这么发现他的。

六、同一套思路修"设计垃圾"

Awais 把 repair 思路推广到了"design slop"——就是所有 LLM 都爱用的那种 indigo 紫色渐变(他特意纠正:他爱紫色,问题是 indigo slop 不是 purple slop;并提到 Mario Zechner 当时有篇走红的设计垃圾帖)。

方法论:他和一批优秀设计师聊过,发现这同样是个"有限集合"问题——大多数 LLM 犯的设计错误是有限的,给它们一个组合式框架就能"修复它们的设计思维"。具体只有 24 份参考文档、10 条 design smell、7 种 pattern,放进一个 skill 文件即可,在开源/闭源模型上效果一致。

关键洞察包括:

验证:他们做了一批落地页给设计师看,设计师约 1.5 秒就能分辨"这是 AI 做的"还是"有人类看过的";把这些差异写下来,全是可确定性修复的 pattern。结论是约 90% 的设计垃圾可修——这不是能力差距,而是"契约差距"(contract gap):用户只会说"修一下设计、让它更好看、更 pop",而 harness 没把"好设计师的品味"作为契约告诉 LLM。他演示了用 slash design skill 把自己文档站一张乱糟糟的 2.6 折扣促销截图,重做成像电影票一样精致的设计。团队还有成员正和安全社区合作,想把同一套思路用到代码安全:从日志找最常见的安全反模式,自动修包、让 LLM 持续遵守安全准则。

七、路线图:开源、Matt Mullenweg 与"Apple 哲学"

差异化上,Awais 说他们占住两个方向。一是 Command Code 作为全功能 CLI coding agent,同时支持商用和开源模型——但他们的 PMF 在开源模型市场(因为 Claude 对工具调用很宽容,harness 出错也能自我修复,开源模型不行)。二是 Taste。

最大的前瞻消息是即将开源 Command Code,他希望能在 SF 的 AI 工程师大会上宣布(前提是理顺那个 6 年老仓库的种种 quirk)。Awais 透露自己有 13 年 WordPress core 背景,Matt Mullenweg 听说他们要开源后主动联系,成了天使投资人。开源目的是让 Command Code 完全可 hack,无论商业模式走向何方。

产品哲学他用三种类比:Windows(什么游戏都能跑,他说 Open Code 是这类,什么模型都支持)、Linux(自己造驱动,像树莓派 Pi,什么都能搭)、Apple(团队选的路线——只收最好的开源/闭源模型,不做 1500 个模型的大杂烩,但任意可 hack,比如你想塞本地模型也行)。

最后两人聊到 DeepSeek 宣布要做自己的 coding agent(DeepSeek Code)——很多评论当初就在 @DeepSeek 团队问"你们怎么不自己做 coding agent",约一周后 DeepSeek 就宣布招人了。但它只会服务 DeepSeek。Awais 顺带提到一个数据点:某模型(听感为 Claude 3.7/3.7 max 一类)发布才两三天,已是 Command Code 上第二常用的模型

金句

"DeepSeek V4 Pro 有种奇怪的'alpha male energy'——它发给你什么,就认定那是对的。你回一个 Zod error,它根本不听,在十亿 token 里平均把同一个错误重复 56 次。" —— Ahmad Awais 7:42
"就像教人开车:他快撞车时,你先救下他,然后再解释他原本该怎么做。" —— Ahmad Awais 10:45
"你只是坐在那儿想,DeepSeek 怎么这么慢?而他们根本没动力去修——他们的 coding agent 不是为开源模型造的。" —— Ahmad Awais 12:18
"如果模型看到的工具调用错误越少,它们就越有创造力、能探索更多、能跑得更久。" —— Ahmad Awais 15:22
"好设计师约 1.5 秒就能认出'这是 AI 做的'还是'有人类看过的'——而他们指出的差异,全是可以确定性修复的 pattern。" —— Ahmad Awais 21:33
"我把它当 Apple 来做:它会有最好的开源和闭源模型,不会有每一个模型,但你能以任何方式 hack 它。" —— Ahmad Awais 38:33

提到的书·产品·人物

适合谁听

想用开源模型(DeepSeek/Kimi 等)搭 coding agent、或对 AI 设计质量与 agent 工程化感兴趣的开发者与工具构建者。

← 返回全部观看原片 ↗