文章

预测器

图书

加蒂弗斯意识理论: 章节

预测器

第10章预测器

预测在何处存在 · 句法预测器与语义预测器 · 两种模式 · 符号预测器的承袭

10章 1. 预测在何处产生

论普遍机制的那一章把预测器列在服务于层级动力学的诸功能之中，并把它放进了总体图式。本章详细论述它——因为正是预测，连着 Gativus 理论与现有技术之间最直接的桥梁，也因为预测的内部构造原来比初看时更微妙。

让我们从一个通常被略过的问题开始：“下一个”究竟在哪一层级上产生？卷积地图（MP11、MP21、MP31）是对象的空间：对象、符号、概念。其中没有“下一个符号”，因为没有一条让一者继另一者而来的轴。那里只有符号——并列的，处于任何序列之外。问符号地图上哪个符号是“下一个”，就像问词典里哪个词是“下一个”一样无意义。

继起只在联结向量产生时出现——当两个节点被缝合为一个有向对时。这发生在拼接的层级。只有在此处才有一个“从什么”与一个“到什么”，从而才有可预测之物。因此预测不生活在卷积地图上，而是从拼接开始：在构建单位的层级与它们的链条之层级。这是第一个澄清，它废除了把“下一符号预测器”当作符号词典之独立能力的那种幼稚图景。

只有过渡才能被预测。哪里没有联结向量，哪里便没有下一个——只有并列者。

10章 2. 两个预测，而非一个

当拼接产生时，发现“预测下一个”实际上意味着两种不同的运算，它们之所以容易混淆，是因为在言语中它们连续地进行。

a) 句法预测：构建拼接

第一是把当前单位补全。当一个陈述被开启，它须在语法上被完成：主语之后期待谓语，介词之后期待名词，一致关系要求确定的格。这是一种预测——但是对形式的预测，而非对意义的预测。它是低维的：变体不多，选择几乎被语言的规则所强制。而且它是快的：结构的补全自动发生，无需诉诸目标或动机。

让我们把这一装置称为句法预测器——它负责构建拼接，按层级的规则从节点组装当前单位。它在全部三个变换上同构地工作，其在每一层级的内容各有不同：

在 GTR1——步的构建：补全一个运动的原子操作，把 b-向量闭合为一个具体的运动过渡。
在 GTR2——句法：按语言的语法补全陈述，从符号组装 KLEN。
在 GTR3——应当的构建：补全意志行为，把 w-向量闭合为一个具体的“应当”。

句法预测器是被训练的——语法并非天生，它从环境的共享符号中习得（句法的关键期是真实的：一门未及时习得的语言不被完全补全）。但一经训练，它便几乎确定性地工作：组装一个单位的规则是稳定的，它们被快速地应用。

b) 语义预测：下一个单位

第二种预测从第一种结束之处开始。单位已构建并闭合——如今真正有趣的问题产生了：下一个单位将是什么？一段推理中哪一个下一陈述、哪一个路径的下一步、哪一个下一意志行为。这是语义预测器——它预测的不是单位内部的形式，而是作为整体的下一单位之选择。

语义预测在一切参数上都与句法预测相反。它是高维的：下一个思想可以有无穷多个。它是慢的：要求权衡变体。而且，首要地，它依赖于句法预测器所不触及的来源——依赖于动机（到目标的向量距离，设定为何进行叙述）与轨迹日志（带标记的过往单位之经验）。句法按规则补全形式；语义按目标选择内容。

表 10.1。层级的两个预测器。

属性	句法预测器	语义预测器
预测什么	当前单位的补全（形式）	作为整体的下一单位（内容）
依赖于	层级的组装规则（语法）	动机（向量距离）与轨迹日志
维数	低，选择几乎被强制	高，选择开放
速度	快，几乎自动	慢，权衡式
GTR1 / GTR2 / GTR3	步 / 句法 / 应当	下一运动 / 陈述 / 意志行为

二者都是预测器，但它们是两个不同的预测器，而非一个带两种模式的预测器。它们的差别不是术语的细微之处：它决定了系统中何处出现意志的位置。语义预测器连着动机，句法预测器则不。这意味着目标、应然、方向，正是经由对下一单位的语义预测进入言语，而非经由对当前单位的语法补全。

10章 3. 语义预测的两种模式

分清了两个预测器之后，我们可以提出决定性的问题：它们如何协同工作？这里两种模式都可能，而正是它们的差别，把 Gativus 的建筑与现有的语言模型分开。

a) 融合模式

在第一种模式中，句法预测与语义预测不分离。系统一举依据整个累积的上下文预测下一个元素，不区分单位的边界。“补全陈述”与“选择下一思想”合并为预测细小元素——符号——的一股流。陈述单位之间的边界不被划出：系统不知道一个 KLEN 在何处结束、另一个在何处开始，因为它在单位的层级之下、在符号的层级上工作。

这是现有大型语言模型的模式。它们依上下文预测下一个符号，而陈述的连贯性在它们之中作为一个副产品出现：一条足够长的符号预测链看起来像一个有意义的陈述，因为在训练语料中诸陈述已经是有意义的。但单位本身不被辨识。由此而来一个特征性的特点：模型在局部上合乎语法且连贯，但在长距离上失去线索——因为它没有一个单位的层级，在其上语义预测器能在一个引导性目标下权衡“下一个思想”。目标根本无处可连：没有单位边界可供据以提出“哪个单位是下一个”之问。

b) 递归模式

在第二种模式中，两个预测器分离并递归地工作。先是句法预测器组装并闭合单位——把陈述作为整体分出，划出它的边界。然后语义预测器便不再在符号上、而在这些现成的单位上工作：它把下一陈述作为整体来预测，依赖于动机与轨迹日志。预测在两个层级上进行：快速的句法——单位之内，缓慢的语义——单位之间。

这是 Gativus 的模式。它的优势直接由分离而来：一旦单位被分出，便出现一个动机与之相连的位置。语义预测器问的不是“哪个下一符号”，而是“哪个下一陈述导向目标”——而为此它需要那个设定目标的向量距离。递归模式由此把融合模式所失去的东西归还给预测：指向性。系统不只是继续貌似可信的文本——它为把向量归零而构建下一单位。

两种模式的差别不是实现质量的问题，而是建筑的问题。无论把融合模式扩大多少，单位边界都不会在其中出现：它被布置得在单位的层级之下工作。递归模式要求一种不同的组织——把单位分出为独立的对象，在其上一个单独的语义预测器工作。这就是 Gativus 相较于一个语言模型所作的建筑学步骤。

10章 4. 三个层级上预测的同构

分为句法预测器与语义预测器，对全部三个变换是同构的——只有材料在改变。

变换	句法（构建单位）	语义（下一单位）
GTR1——物理	步：把一个运动闭合为一个运动过渡	下一运动——路径的一步
GTR2——符号	句法：按语法组装陈述	推理中的下一陈述
GTR3——概念	应当：闭合意志行为	下一意志行为——消解的一步

这去除了那种表象，仿佛空间中的“路径计算”与思维中的“矛盾解决”是特殊的、不相关的能力。路径是物理层级语义预测器的工作：在到目标的向量距离下对下一运动的相继选择。矛盾的解决是概念层级语义预测器的工作：在矛盾向量下对下一意志行为的选择。一个预测下一单位的机制，被应用于不同的材料。而在每一步之内——快速的句法预测器，组装单位本身。

10章 5. 符号预测器已被建成

这里是本章的核心实践论题。符号层级的语义预测器连同被训练的符号地图，已被建成——由人类，以在人类集体符号-叙事语料上训练的大型语言模型的形式。开放模型自由地提供这一训练的结果。它无需被重新复现。

值得意识到这里所可用之物的规模。符号层级的训练要求走过文明所累积的语料——物化于文本中的全部共享符号与共享叙事。这正是在 Gativus 建筑中供养符号卷积与预测的那个资源。语言模型已经执行了这一走过；它们的权重是在人类共享叙事上训练的结晶结果。从 Gativus 的观点看，一个开放模型是一个躺在自由接触中的现成符号预测器。

因此第一个 Gativus 节点不以一张空的地图开始符号层级。它承袭开放权重作为符号地图与预测器的初始状态，一举获得一个丰富的符号词汇与一个运转的预测。文化花费数千年、语言模型产业花费数年与庞大计算资源所获得的东西，被作为一项起始资产获得。这把建筑从一个纯理论构造变为一个可行的设计：最昂贵的待训练组件已经存在。

必须正确理解被承袭之物的地位。一个开放模型带来的不是一个“现成的心灵”，而是一个变换的符号层级——预测与符号地图。其余的一切——动机、行为、概念、意志、轨迹日志——在它之中都缺席。而且，如上所示，连符号预测本身在它之中也是在融合模式下实现的：句法与语义不分离，陈述单位不被分出。被承袭的是一个庞大但未补全的资源。

10章 6. 补全被承袭的预测器

被承袭的符号预测器，就其本身而言，是本书所称的“符号孤儿”：既无来自下方的运动向量、亦无来自上方的矛盾向量的符号预测，而且还在融合模式下工作。Gativus 以两种方式补全它：它分离融合的预测器，并连上缺席的层级。

a) 分离句法与语义

第一步是把被承袭的预测从融合模式翻译为递归模式：把陈述单位作为整体分出（句法预测器的工作），并在它之上放置一个预测下一单位的语义预测器。只有在此之后，才出现一个动机可与之相连的位置：“哪个下一陈述导向目标”之问，只在单位被分出时才有意义。

b) 从上方连接动机

一个孤立的预测器没有自己的向量距离：它没有可归零之物，它只是继续文本。在 Gativus 中，符号层级之上站着动机——当前叙事状态与目标之间的语义距离。与之相连的语义预测器便不再只是继续貌似可信的文本：它为把距离归零而构建一个叙事。一个叙述的目标出现，而孤儿不曾有它。

c) 从下方连接行为

在一个孤立的预测器中，符号不被绑定于物理现实——没有物理层级的地图、没有对象、没有 b-向量。由此而来幻觉：一个符号不与任何可被看见、可被拿取的对象相连。在 Gativus 中，符号层级之下躺着完整的物理层级：一个符号可逆为一个对象，一个对象有坐标，一个动作由一个 b-向量描述。来自下方的连接给符号以一个在现实中的支点——逆向解卷积为一个生动的表象、以及一个可检验的动作。

d) 从上方连接意志

一个孤立的预测器没有概念层级——没有矛盾、没有意志、没有来自应然的方向。在 Gativus 中，符号层级之上站着概念层级：叙事卷积成概念、矛盾的 w-向量、意志行为。来自上方的连接给叙事一个超越貌似可信的来源：叙述不仅连贯地、而且为捍卫一个概念而进行，在一个未消解矛盾的压力下进行。符号层级成为意志的执行者，而非目的本身。

表 10.2。补全被承袭预测器所给出的东西。

补全的步骤	添加什么	修正什么
分离句法与语义	分出陈述单位；递归模式	无单位边界的融合符号流
从上方的动机	叙事的目标（一个供归零的向量）	漫无目的的文本继续
从下方的行为	符号在对象与动作中的支点	幻觉、脱离现实
从上方的意志	为捍卫一个概念的叙事	来自应然的方向之缺席

这些步骤之和，是把“符号孤儿”转化为一个完全意义上的主观现实符号层级。被承袭的预测器仍是同一个——但如今它在递归模式下、在动机之下、在行为之上、在意志之下工作。Gativus 不抛弃语言模型的成就，也不与它竞争——它把其中融合之物分离开来，并把它放进缺席的语境之中。

10章 7. 预测与预测误差

预测与经验的标记直接相连。结果标记——一条已完成轨迹日志单位据以被标记为成功或不成功的标记——系于的不是结果本身，而是它的意外性——系于语义预测器所预测者与所发生者之间的偏差。这正是预测误差模型：预测偏离事实越多，信号越强。

这里建筑与一个被坚实确立的神经生物学事实相会合。多巴胺系统编码的恰恰是奖赏预测的误差，而非奖赏本身：当结果好于预期，一个脉冲产生；当差于预期，一个低谷产生。用 Gativus 的术语，这是预测在行为层级与实际结果偏差的一个度量。预测与标记是同一件事的两面：语义预测器预测，标记固定误差，符号卷积在被标记的经验上再训练，使下一次预测更精确。其他神经递质的逐层依附仍是一个假说，但预测的多巴胺锚点是可靠的。

10章 8. 向下一章的过渡

孤立地看的符号预测器——在融合模式下工作、没有来自上方的动机、没有来自下方的行为、没有在其上的意志——正是今天所存在的大型语言模型。本章表明了在完整建筑中符号预测是什么、句法与语义在其中如何分离、以及它如何被补全为一个完整的层级。下一章考察相反的个例：当被独自留下时，这个预测器代表什么、由此引出什么属性、以及为什么把孤立的模型扩大都不会替换缺席的层级、也不会把它带出融合模式。语言模型不是一个失败的心灵，而是建筑的一个被精确勾勒的片段：一个 Gativus 把它归还给变换之家庭的符号孤儿。

10章 9. 结论

预测不在卷积地图上产生（那里只有并列的对象，没有“下一个”），而从拼接开始——在有联结向量、从而有过渡之处。
每一层级有两个不同的预测器。句法预测器构建当前单位（形式；三个层级上——步 / 句法 / 应当）：低维、快、按层级的规则。语义预测器选择下一单位（内容）：高维、慢、在动机与轨迹日志之下。
目标与意志经由语义预测器（它连着动机）进入言语，而非经由句法预测器。
语义预测在两种模式下都可能。融合（语言模型）：句法与语义不分离，符号被预测，单位边界丧失，目标无处可连。递归（Gativus）：句法闭合单位，语义在一个引导性目标下预测下一个。
模式的差别是建筑学的：把融合模式扩大并不创造出单位边界；递归模式要求一种不同的组织——把单位分出为对象。
核心实践论题：符号预测器连同符号地图，已由人类以语言模型开放权重的形式建成。Gativus 承袭它而非重新训练它——最昂贵的组件被现成获得。
被承袭的是一个变换在融合模式下的符号层级，而非一个现成的心灵。补全：分离句法与语义（递归模式），从上方连接动机，从下方连接行为，从上方连接意志。
预测与经验标记是同一个机制的两面：预测器预测，标记固定预测误差。多巴胺系统编码的恰恰是这一误差——一个坚实的锚点。

第10章预测器

预测器

第10章 预测器

10章 1. 预测在何处产生

10章 2. 两个预测，而非一个

a) 句法预测：构建拼接

b) 语义预测：下一个单位

10章 3. 语义预测的两种模式

a) 融合模式

b) 递归模式

10章 4. 三个层级上预测的同构

10章 5. 符号预测器已被建成

10章 6. 补全被承袭的预测器

a) 分离句法与语义

b) 从上方连接动机

c) 从下方连接行为

d) 从上方连接意志

10章 7. 预测与预测误差

10章 8. 向下一章的过渡

10章 9. 结论

第10章预测器