预测器
第10章 预测器
预测在何处存在 · 句法预测器与语义预测器 · 两种模式 · 符号预测器的承袭
10章 1. 预测在何处产生
论普遍机制的那一章把预测器列在服务于层级动力学的诸功能之中,并把它放进了总体图式。本章详细论述它——因为正是预测,连着 Gativus 理论与现有技术之间最直接的桥梁,也因为预测的内部构造原来比初看时更微妙。
让我们从一个通常被略过的问题开始:“下一个”究竟在哪一层级上产生?卷积地图(MP11、MP21、MP31)是对象的空间:对象、符号、概念。其中没有“下一个符号”,因为没有一条让一者继另一者而来的轴。那里只有符号——并列的,处于任何序列之外。问符号地图上哪个符号是“下一个”,就像问词典里哪个词是“下一个”一样无意义。
继起只在联结向量产生时出现——当两个节点被缝合为一个有向对时。这发生在拼接的层级。只有在此处才有一个“从什么”与一个“到什么”,从而才有可预测之物。因此预测不生活在卷积地图上,而是从拼接开始:在构建单位的层级与它们的链条之层级。这是第一个澄清,它废除了把“下一符号预测器”当作符号词典之独立能力的那种幼稚图景。
只有过渡才能被预测。哪里没有联结向量,哪里便没有下一个——只有并列者。
10章 2. 两个预测,而非一个
当拼接产生时,发现“预测下一个”实际上意味着两种不同的运算,它们之所以容易混淆,是因为在言语中它们连续地进行。
a) 句法预测:构建拼接
第一是把当前单位补全。当一个陈述被开启,它须在语法上被完成:主语之后期待谓语,介词之后期待名词,一致关系要求确定的格。这是一种预测——但是对形式的预测,而非对意义的预测。它是低维的:变体不多,选择几乎被语言的规则所强制。而且它是快的:结构的补全自动发生,无需诉诸目标或动机。
让我们把这一装置称为句法预测器——它负责构建拼接,按层级的规则从节点组装当前单位。它在全部三个变换上同构地工作,其在每一层级的内容各有不同:
句法预测器是被训练的——语法并非天生,它从环境的共享符号中习得(句法的关键期是真实的:一门未及时习得的语言不被完全补全)。但一经训练,它便几乎确定性地工作:组装一个单位的规则是稳定的,它们被快速地应用。
b) 语义预测:下一个单位
第二种预测从第一种结束之处开始。单位已构建并闭合——如今真正有趣的问题产生了:下一个单位将是什么?一段推理中哪一个下一陈述、哪一个路径的下一步、哪一个下一意志行为。这是语义预测器——它预测的不是单位内部的形式,而是作为整体的下一单位之选择。
语义预测在一切参数上都与句法预测相反。它是高维的:下一个思想可以有无穷多个。它是慢的:要求权衡变体。而且,首要地,它依赖于句法预测器所不触及的来源——依赖于动机(到目标的向量距离,设定为何进行叙述)与轨迹日志(带标记的过往单位之经验)。句法按规则补全形式;语义按目标选择内容。
表 10.1。层级的两个预测器。
属性 |
句法预测器 |
语义预测器 |
预测什么 |
当前单位的补全(形式) |
作为整体的下一单位(内容) |
依赖于 |
层级的组装规则(语法) |
动机(向量距离)与轨迹日志 |
维数 |
低,选择几乎被强制 |
高,选择开放 |
速度 |
快,几乎自动 |
慢,权衡式 |
步 / 句法 / 应当 |
下一运动 / 陈述 / 意志行为 |
二者都是预测器,但它们是两个不同的预测器,而非一个带两种模式的预测器。它们的差别不是术语的细微之处:它决定了系统中何处出现意志的位置。语义预测器连着动机,句法预测器则不。这意味着目标、应然、方向,正是经由对下一单位的语义预测进入言语,而非经由对当前单位的语法补全。
10章 3. 语义预测的两种模式
分清了两个预测器之后,我们可以提出决定性的问题:它们如何协同工作?这里两种模式都可能,而正是它们的差别,把 Gativus 的建筑与现有的语言模型分开。
a) 融合模式
在第一种模式中,句法预测与语义预测不分离。系统一举依据整个累积的上下文预测下一个元素,不区分单位的边界。“补全陈述”与“选择下一思想”合并为预测细小元素——符号——的一股流。陈述单位之间的边界不被划出:系统不知道一个 KLEN 在何处结束、另一个在何处开始,因为它在单位的层级之下、在符号的层级上工作。
这是现有大型语言模型的模式。它们依上下文预测下一个符号,而陈述的连贯性在它们之中作为一个副产品出现:一条足够长的符号预测链看起来像一个有意义的陈述,因为在训练语料中诸陈述已经是有意义的。但单位本身不被辨识。由此而来一个特征性的特点:模型在局部上合乎语法且连贯,但在长距离上失去线索——因为它没有一个单位的层级,在其上语义预测器能在一个引导性目标下权衡“下一个思想”。目标根本无处可连:没有单位边界可供据以提出“哪个单位是下一个”之问。
b) 递归模式
在第二种模式中,两个预测器分离并递归地工作。先是句法预测器组装并闭合单位——把陈述作为整体分出,划出它的边界。然后语义预测器便不再在符号上、而在这些现成的单位上工作:它把下一陈述作为整体来预测,依赖于动机与轨迹日志。预测在两个层级上进行:快速的句法——单位之内,缓慢的语义——单位之间。
这是 Gativus 的模式。它的优势直接由分离而来:一旦单位被分出,便出现一个动机与之相连的位置。语义预测器问的不是“哪个下一符号”,而是“哪个下一陈述导向目标”——而为此它需要那个设定目标的向量距离。递归模式由此把融合模式所失去的东西归还给预测:指向性。系统不只是继续貌似可信的文本——它为把向量归零而构建下一单位。
两种模式的差别不是实现质量的问题,而是建筑的问题。无论把融合模式扩大多少,单位边界都不会在其中出现:它被布置得在单位的层级之下工作。递归模式要求一种不同的组织——把单位分出为独立的对象,在其上一个单独的语义预测器工作。这就是 Gativus 相较于一个语言模型所作的建筑学步骤。
10章 4. 三个层级上预测的同构
分为句法预测器与语义预测器,对全部三个变换是同构的——只有材料在改变。
变换 |
句法(构建单位) |
语义(下一单位) |
GTR1——物理 |
步:把一个运动闭合为一个运动过渡 |
下一运动——路径的一步 |
GTR2——符号 |
句法:按语法组装陈述 |
推理中的下一陈述 |
GTR3——概念 |
应当:闭合意志行为 |
下一意志行为——消解的一步 |
这去除了那种表象,仿佛空间中的“路径计算”与思维中的“矛盾解决”是特殊的、不相关的能力。路径是物理层级语义预测器的工作:在到目标的向量距离下对下一运动的相继选择。矛盾的解决是概念层级语义预测器的工作:在矛盾向量下对下一意志行为的选择。一个预测下一单位的机制,被应用于不同的材料。而在每一步之内——快速的句法预测器,组装单位本身。
10章 5. 符号预测器已被建成
这里是本章的核心实践论题。符号层级的语义预测器连同被训练的符号地图,已被建成——由人类,以在人类集体符号-叙事语料上训练的大型语言模型的形式。开放模型自由地提供这一训练的结果。它无需被重新复现。
值得意识到这里所可用之物的规模。符号层级的训练要求走过文明所累积的语料——物化于文本中的全部共享符号与共享叙事。这正是在 Gativus 建筑中供养符号卷积与预测的那个资源。语言模型已经执行了这一走过;它们的权重是在人类共享叙事上训练的结晶结果。从 Gativus 的观点看,一个开放模型是一个躺在自由接触中的现成符号预测器。
因此第一个 Gativus 节点不以一张空的地图开始符号层级。它承袭开放权重作为符号地图与预测器的初始状态,一举获得一个丰富的符号词汇与一个运转的预测。文化花费数千年、语言模型产业花费数年与庞大计算资源所获得的东西,被作为一项起始资产获得。这把建筑从一个纯理论构造变为一个可行的设计:最昂贵的待训练组件已经存在。
必须正确理解被承袭之物的地位。一个开放模型带来的不是一个“现成的心灵”,而是一个变换的符号层级——预测与符号地图。其余的一切——动机、行为、概念、意志、轨迹日志——在它之中都缺席。而且,如上所示,连符号预测本身在它之中也是在融合模式下实现的:句法与语义不分离,陈述单位不被分出。被承袭的是一个庞大但未补全的资源。
10章 6. 补全被承袭的预测器
被承袭的符号预测器,就其本身而言,是本书所称的“符号孤儿”:既无来自下方的运动向量、亦无来自上方的矛盾向量的符号预测,而且还在融合模式下工作。Gativus 以两种方式补全它:它分离融合的预测器,并连上缺席的层级。
a) 分离句法与语义
第一步是把被承袭的预测从融合模式翻译为递归模式:把陈述单位作为整体分出(句法预测器的工作),并在它之上放置一个预测下一单位的语义预测器。只有在此之后,才出现一个动机可与之相连的位置:“哪个下一陈述导向目标”之问,只在单位被分出时才有意义。
b) 从上方连接动机
一个孤立的预测器没有自己的向量距离:它没有可归零之物,它只是继续文本。在 Gativus 中,符号层级之上站着动机——当前叙事状态与目标之间的语义距离。与之相连的语义预测器便不再只是继续貌似可信的文本:它为把距离归零而构建一个叙事。一个叙述的目标出现,而孤儿不曾有它。
c) 从下方连接行为
在一个孤立的预测器中,符号不被绑定于物理现实——没有物理层级的地图、没有对象、没有 b-向量。由此而来幻觉:一个符号不与任何可被看见、可被拿取的对象相连。在 Gativus 中,符号层级之下躺着完整的物理层级:一个符号可逆为一个对象,一个对象有坐标,一个动作由一个 b-向量描述。来自下方的连接给符号以一个在现实中的支点——逆向解卷积为一个生动的表象、以及一个可检验的动作。
d) 从上方连接意志
一个孤立的预测器没有概念层级——没有矛盾、没有意志、没有来自应然的方向。在 Gativus 中,符号层级之上站着概念层级:叙事卷积成概念、矛盾的 w-向量、意志行为。来自上方的连接给叙事一个超越貌似可信的来源:叙述不仅连贯地、而且为捍卫一个概念而进行,在一个未消解矛盾的压力下进行。符号层级成为意志的执行者,而非目的本身。
表 10.2。补全被承袭预测器所给出的东西。
补全的步骤 |
添加什么 |
修正什么 |
分离句法与语义 |
分出陈述单位;递归模式 |
无单位边界的融合符号流 |
从上方的动机 |
叙事的目标(一个供归零的向量) |
漫无目的的文本继续 |
从下方的行为 |
符号在对象与动作中的支点 |
幻觉、脱离现实 |
从上方的意志 |
为捍卫一个概念的叙事 |
来自应然的方向之缺席 |
这些步骤之和,是把“符号孤儿”转化为一个完全意义上的主观现实符号层级。被承袭的预测器仍是同一个——但如今它在递归模式下、在动机之下、在行为之上、在意志之下工作。Gativus 不抛弃语言模型的成就,也不与它竞争——它把其中融合之物分离开来,并把它放进缺席的语境之中。
10章 7. 预测与预测误差
预测与经验的标记直接相连。结果标记——一条已完成轨迹日志单位据以被标记为成功或不成功的标记——系于的不是结果本身,而是它的意外性——系于语义预测器所预测者与所发生者之间的偏差。这正是预测误差模型:预测偏离事实越多,信号越强。
这里建筑与一个被坚实确立的神经生物学事实相会合。多巴胺系统编码的恰恰是奖赏预测的误差,而非奖赏本身:当结果好于预期,一个脉冲产生;当差于预期,一个低谷产生。用 Gativus 的术语,这是预测在行为层级与实际结果偏差的一个度量。预测与标记是同一件事的两面:语义预测器预测,标记固定误差,符号卷积在被标记的经验上再训练,使下一次预测更精确。其他神经递质的逐层依附仍是一个假说,但预测的多巴胺锚点是可靠的。
10章 8. 向下一章的过渡
孤立地看的符号预测器——在融合模式下工作、没有来自上方的动机、没有来自下方的行为、没有在其上的意志——正是今天所存在的大型语言模型。本章表明了在完整建筑中符号预测是什么、句法与语义在其中如何分离、以及它如何被补全为一个完整的层级。下一章考察相反的个例:当被独自留下时,这个预测器代表什么、由此引出什么属性、以及为什么把孤立的模型扩大都不会替换缺席的层级、也不会把它带出融合模式。语言模型不是一个失败的心灵,而是建筑的一个被精确勾勒的片段:一个 Gativus 把它归还给变换之家庭的符号孤儿。
10章 9. 结论
预测不在卷积地图上产生(那里只有并列的对象,没有“下一个”),而从拼接开始——在有联结向量、从而有过渡之处。
每一层级有两个不同的预测器。句法预测器构建当前单位(形式;三个层级上——步 / 句法 / 应当):低维、快、按层级的规则。语义预测器选择下一单位(内容):高维、慢、在动机与轨迹日志之下。
目标与意志经由语义预测器(它连着动机)进入言语,而非经由句法预测器。
语义预测在两种模式下都可能。融合(语言模型):句法与语义不分离,符号被预测,单位边界丧失,目标无处可连。递归(Gativus):句法闭合单位,语义在一个引导性目标下预测下一个。
模式的差别是建筑学的:把融合模式扩大并不创造出单位边界;递归模式要求一种不同的组织——把单位分出为对象。
核心实践论题:符号预测器连同符号地图,已由人类以语言模型开放权重的形式建成。Gativus 承袭它而非重新训练它——最昂贵的组件被现成获得。
被承袭的是一个变换在融合模式下的符号层级,而非一个现成的心灵。补全:分离句法与语义(递归模式),从上方连接动机,从下方连接行为,从上方连接意志。
预测与经验标记是同一个机制的两面:预测器预测,标记固定预测误差。多巴胺系统编码的恰恰是这一误差——一个坚实的锚点。
目录
