你还停留在”擅长写提示词”的阶段吗?——AI的进化与三种工程

*本文通过AI语音输入(Aqua Voice)转文字创建。可能存在表述不一致之处,敬请留意。

大家好,最近过得怎么样?

我是全身追踪研究所的Hiro。

今天我想暂时离开全身追踪的话题,聊一聊AI。

我用一款叫Claude Code的AI工具做各种各样的事情——写文章、写小说、生成Blender 3D脚本等等。

但仅仅是普通地使用,远远不够。

今天,我来讲讲AI的使用方式是如何进化的,AI的进化过程中发生了什么变化,以及我为什么走到了现在的用法。

AI的使用方式分为三代

根据我使用AI的经验,我认为使用方式的进化大致可以分为三个阶段。

第一阶段是”提示词工程(Prompt Engineering)”。

第二阶段是”上下文工程(Context Engineering)”。

第三阶段是”约束工程(Harness Engineering)”。

让我逐一说明。

第一代:提示词工程

如果你用过AI,大多数人应该都是从这里开始的。

打开一个类似LINE的聊天界面,说”请帮我做某某事”,AI回复”好的,这是某某事的结果”。大致就是这么回事。

提示词工程,就是把这些指令写好的技术。

比如这样:

“你是一位专业编辑。请帮我校对以下文字。”

给对方提供背景和前提条件,从而引导出更专业的回答。关键在于写出好的指令。

这一点即使到了后面的阶段也依然重要。但它有一个致命弱点。

每次都得重新说

“你是一名全身追踪研究者,你的第一人称是’我’,你的文风是休闲敬语风……”

每次都得在有限的字数内重新写一遍。

AI记不住所有东西,所以你要尽可能精简,同时还要准确。

老实说,这样做是有极限的。

聊长了就忘

人类不也一样吗?一直说话说着说着,就会想”等等,我们最初在聊什么来着?”AI也是这样。

品质变得不稳定

随着对话越来越长,品质会开始波动。明明设定好了”你是一名全身追踪研究者”,聊到一半就变成了完全不同的角色。

无法利用过去的知识

你想说”请把我之前写的所有文章的信息都吸收掉然后用上”,但这是不可能的。AI一次能记住的信息量是有上限的。

最终,”试图仅靠提示词搞定一切”这种做法开始露出破绽。

于是问题来了:还有没有别的办法?AI的使用方式朝着一个新方向进化了。

第二代:上下文工程

什么是上下文工程?就是设计”在什么时机、以什么顺序、给AI看什么信息”的技术。

如果说提示词是关于”问什么”,那么上下文就是关于”给AI看什么”。

要做的三件事

首先,喂给它必要的信息。

让AI写文章时,提前准备好相关的过往文章、最新的设备信息、读者反馈等等。不是全部——只是与当前任务相关的内容。

其次,管理信息的新鲜度。

判断”这条信息是最新的””那条信息已经过时了”,优先呈现更新的内容。如果基于过时信息来写”最新推荐”,那就会产生误导。

最后,设计信息的呈现顺序。

给AI呈现信息的顺序会改变输出结果。”先让它理解VRChat的世界观。然后让它理解全身追踪技术。最后提出当前话题。”如果把这个顺序颠倒,产出的结果会完全不同。

四种技巧

上下文工程据说有四种主要技巧。

选择:挑选必要的信息。

压缩:将信息浓缩,只传递要点。

分段:将信息分块,分阶段呈现。

剔除:去除不必要的信息以减少噪音。

一股脑全部塞进去反而适得其反。上下文工程的关键是以需要的形式、只呈现需要的内容。

第三代:约束工程

最后登场的是约束工程。

说到”harness(约束)”,有些人可能会联想到汽车线束。但我这里说的harness,原本指的是控制马匹的全套装备。引导马朝正确方向行进的工具。

约束工程就是设计AI运行的环境本身,使它始终朝着正确方向运作的技术。

与测试约束的相似性

顺便一提,因为制作Claude Code的公司Anthropic是一家软件公司,我认为这里的”约束(harness)”和”测试约束(test harness)”有着相同的词源。

测试约束是软件开发中的一个术语,指的是结构性地控制测试对象的执行环境并使结果可验证的系统。

让马正确奔跑的装备。正确验证测试对象的系统。让AI正确工作的环境设计。它们本质上是相通的。

我具体在做什么?

让我介绍一下我实际搭建的约束系统。

第一:技能(角色)。

“Hiro的写作风格是这样””第一人称用’我'””这些是禁止事项”之类的规则定义在文件中。AI读取这些文件,从一开始就以”我就是Hiro”为前提来运作。

不需要每次都在提示词里写”你是Hiro”。它已经在正确的轨道上了。

第二:知识库。

我以前写过的文章、VRChat的相关知识、全身追踪设备的信息。这些全部整理在文件夹中,AI在需要时可以引用。

不需要每次都在提示词里写”全身追踪是一种跟踪全身动作的技术……”。它知道如何搜索,如何找到知识。

第三:工作流程。

写文章有一套固定的流程:确认主题、设计隐藏主题、拟大纲、写作、修改。这个流程写在文件中,所以AI可以按照”先思考什么”一步步推进。

第四:记忆。

“这个人之前做过这个决定””这个项目制定了这样的方针”这样的记录保存在文件中,AI可以在新的会话中读取它们。

这可能是最重要的一点。记忆可以跨越上下文窗口的限制延续下去。

第五:质量检查(检查器)。

AI产出的内容不会直接发布。检查器会自动运行。”是否符合原始定义?””第一人称对不对?”如果有不合格的地方,流程会回到流程图的起点重新来过。

不是在提示词里说”请注意”,而是在系统中内置检查机制。

“请求”与”系统”的区别

这里的重要一点是:”但上下文工程阶段不是也有’请这样做”请这样写’之类的条件定义吗?”

是的,有。但那些条件定义本质上只是请求。

即使你说了”请不要这样做””请不要这样写”,也没有保证AI走正确路线的机制。因为是请求,AI可能会忘记或忽视。

约束工程不是请求——它是结构。它铺设好铁轨,让AI只能朝正确的方向行进。这才是本质的区别。

三者并排比较

让我把到目前为止的内容做一个整理。

提示词工程:

给AI下好”指令”的技术。

用餐厅来比喻:点菜。

上下文工程:

给AI提供”正确食材”的技术。

用餐厅来比喻:采购正确的食材。

约束工程:

设计AI工作的”厨房”的技术。

用餐厅来比喻:设计厨房。

完全不同,对吧?但三者缺一不可。

最好的指令(提示词) x 最好的食材(上下文) x 最好的厨房(约束)。

三者齐备时,AI才能真正开始”烹饪”。缺少任何一个都不行。

用房子来比喻更清楚

如果餐厅的比喻不太好懂,这里用房子的版本来说明。

约束 = 地基。一旦建好,永久有效。

上下文 = 墙壁和支柱(结构)。可以按任务重新配置。

提示词 = 室内设计(家具布置)。每次都可以更换。

坚实的地基、合适的墙壁、精心布置的室内。三者齐备才能成为一栋”房子”。

反过来说,无论室内设计(提示词)多么精致,没有地基(约束)就得每次从零开始。没有墙壁(上下文)连房间都没有。

实例——我是怎么写《元宇宙恋人》的

最让我感受到这三者差异的地方,是我最近写的全12章长篇小说《元宇宙恋人》。

如果只用提示词会怎样?

“设定是VRChat,主题是虚拟世界的恋爱,请分12章来写。”

写好指令,修改产出的内容,再给指令,再修改。如此反复。

确实能产出东西。但你得到的是一部”很AI味的小说”。VRChat的描写很肤浅,全身追踪的情感也传达不出来。

我做了什么

我使用了全部三个层次。

在提示词层面:

“这一章大概是这样的走向。””这个场景应该有这种氛围。”个别指令保持简洁。

在上下文层面:

我加载了前几章的内容、VRChat的新人引导文化、全身追踪的情感体验、舞厅的氛围。这一章此刻需要的信息。

在约束层面:

“Hiro”角色确保了VRChat的真实性。知识库确保了全身追踪描写的准确性。质量检查确认”有没有不符合VRChat实际情况的地方””故事是否连贯”。记忆在全部12章中保持了一致性。

说实话,最难的是上下文。如果你自己无法用语言表达某种感受,就无法传达给AI。把”VRChat的这种特定感觉”用语言描述出来,真的很难。有很多失败的尝试。

但当三者配合到位时,我成功写出了品质稳定的12章长篇作品。如果缺少其中任何一个要素,我想都不可能实现。

三者不是对立关系——而是层次

“那提示词工程是不是已经过时了?”

完全不是。

我说了这三者属于不同的世代,但并不意味着旧的就不需要了。三者全部都在使用。它们只是不同的层次。

即使建好了约束系统,在提示词层面你仍然会给指令:”这一章请这样写。”

即使上下文整理得很好,如果提示词写得马虎,产出也会马虎。

只有三者齐备时,AI才能发挥出全部潜力。

总结

只靠提示词,你就像一个每次都得从头点菜的顾客。

整理好上下文,AI就有了好食材,产出的品质会飞跃提升。

搭建好约束系统,AI就变成了队友。它承载你的知识,以你的风格工作,替你奔跑。

我是一名全身追踪研究者,其实全身追踪也是一样的道理。

只有头显和手柄(=只有提示词),你可以进入虚拟世界。

选择合适的世界(=整理好上下文),体验的品质就会改变。

穿上全身追踪传感器、做好校准、搭建好环境(=建好约束系统)——那时你才能第一次获得”自己就在那里”的感觉。

AI也是一样。

只有当三个层次全部对齐时,它才能成为”属于你的AI”。

希望大家都能尝试一下超越提示词的阶段。

Hiro

感谢阅读！请关注我们的X账号，订阅YouTube频道！

你还停留在”擅长写提示词”的阶段吗?——AI的进化与三种工程

検索

AI的使用方式分为三代

第一代:提示词工程

每次都得重新说

聊长了就忘

品质变得不稳定

无法利用过去的知识

第二代:上下文工程

要做的三件事

四种技巧

第三代:约束工程

与测试约束的相似性

我具体在做什么?

“请求”与”系统”的区别

三者并排比较

用房子来比喻更清楚

实例——我是怎么写《元宇宙恋人》的

如果只用提示词会怎样?

我做了什么

三者不是对立关系——而是层次

总结

関連

AI的使用方式分为三代

第一代:提示词工程

每次都得重新说

聊长了就忘

品质变得不稳定

无法利用过去的知识

第二代:上下文工程

要做的三件事

四种技巧

第三代:约束工程

与测试约束的相似性

我具体在做什么?

“请求”与”系统”的区别

三者并排比较

用房子来比喻更清楚

实例——我是怎么写《元宇宙恋人》的

如果只用提示词会怎样?

我做了什么

三者不是对立关系——而是层次

总结

シェア＆RTお願いします！

関連