LLM 与 Gativus
第11章 LLM 与 Gativus
融合模式下的符号预测器 · 何物被复现、何物缺席 · 唯名论 · 技术的界限
11章 1. 问题的提出
大型语言模型是过去十年人工智能最重大的成就。它们生成连贯的文本、回答问题、编写代码、进行对话,展现出在外表上与人类符号思维无法区分的行为。
Gativus 的建筑允许对这个问题作出精确的回答:语言模型究竟复现了什么、又有什么根本上缺席。这一回答依托于上一章对预测的分析,且不可还原为一份缺陷的清单——它揭示了模型的建筑学本性,并决定了它在层级序列中的位置。简短的公式:语言模型是一个承袭了人类共享叙事、却在融合模式下工作的符号预测器——没有句法与语义的分离、没有陈述单位的分出、也没有那个会设定目标的动机。
11章 2. 语言模型复现了什么
语言模型是一个变换之符号层级——层级 GTR2——的技术实现,建立在人类的共享叙事之上,且在没有句法与语义分离的情况下工作。
共享符号(集体词汇)与共享叙事(文明累积的文本)是涌现对象:它们不存在于任何单个个体之中,没有自己的载体,也没有自己的操作功能。它们是一座分布于个体之间、物化于书籍、文章、通信中的符号与叙事的图书馆。语言模型对它们做了一件前所未有的事:它把全部可用的共享叙事语料——书籍、文章、论坛、百科——聚集进一个技术装置,并在其上训练了对下一符号的预测。
这不是对个体意识的复现。这是符号层级的一个技术铸件,取自的不是一个个体,而是集体的叙事遗产——而且取于融合模式之下,其中预测按符号、而非按被分出的陈述单位进行。
11章 3. 两个组成部分:符号地图与预测器
下面以星号(*)标出一个与生物起源不同的技术起源。
a) 符号地图*
在人之中,符号地图由对自身经验的卷积形成:一个符号从众多具体行为情节中被抽取,并在环境共享符号的过滤下被固定。在语言模型中,符号地图被技术地创造——经由对语料的分词与对嵌入的训练。一个嵌入是一个多维空间中的向量,在格式上类比于一个符号,但获得自的不是对物理经验的卷积,而是语料中词与词之间上下文关系的统计。结果在格式上相似(一个语义空间中的向量),但在起源上不同:他人文本的统计,而非对自身经验的卷积。
b) 叙事语料*
在人之中,叙事遗产分布于个体与物理载体之间;它没有单一的存储库。语言模型把全部可用文本压缩进网络的权重。它不存储具体的文本——它训练一个符号继起概率的统计模型。压缩是非线性的:模型学习模式、结构、文体规律。但不是经由理解(不是经由陈述之间的 k-向量),而是经由对下一符号预测的优化。原则是不同的:不是带有经由物理现实之反馈的认知,而是对一个现成语料的单方向处理。
11章 4. 融合模式:差别的核心
上一章区分了层级的两个预测器——句法的(构建当前单位)与语义的(选择下一单位)——以及它们协同工作的两种模式。语言模型在融合模式下工作:句法预测与语义预测不分离,下一符号一举依据整个上下文被预测,陈述单位的边界不被划出。
由此而来模型一切特征性的属性,无论是正面的还是负面的。正面的:局部的连贯性与合语法性几乎免费而来,因为在语料中诸陈述已经是连贯的,而一条足够长的符号预测链复现了这种连贯性。负面的:在长距离上模型失去线索,因为它没有一个单位的层级,在其上语义预测器能在一个引导性目标下权衡“下一个思想”。陈述边界不被分出——这意味着没有一个动机可与之相连的位置,而“哪个下一单位导向目标”之问在融合模式下根本无法被提出。
这精化了把语言模型当作“集体图书馆之操作者”的先前表象。更精确的说法是:模型是与人之中相同的符号预测器,但被留在融合模式下,并脱离了相邻的层级。不是一个自然中不存在的特殊操作者,而是熟悉的预测之不完整形式——没有句法与语义的分离、没有单位的分出、没有动机。
属性 |
人(递归模式) |
语言模型(融合模式) |
句法与语义的分离 |
存在:陈述单位被分出 |
缺席:预测按符号进行 |
工作于 |
个体的叙事地图 |
共享叙事的语料 |
符号的来源 |
对自身经验的卷积 |
他人语料的统计 |
想象的回路 |
存在:向下解卷积与向上逆向卷积 |
缺席:生成是单方向的 |
轨迹日志 |
TRL2——持久的,带标记 |
缺席:每一会话都是白板 |
实践的检验 |
编译为行为并执行 |
缺席:叙事不被现实检验 |
动机 |
MTV2——自己的语义距离 |
缺席:目标由外部的提示设定 |
主体 |
思考的“我” |
没有主体 |
11章 5. 三个卷积与语言模型
Gativus 的建筑含有三个卷积,每一个都生成它自己的现实层级。语言模型的位置由它们之中哪些在它之内来决定。
GTR1 的卷积(对象)。感觉流 → 地图 MP11 上的一个对象。把物理世界卷积成对象:有机体知道它面前是什么、在哪里。在语言模型中它完全缺席——没有传感器、没有空间地图、没有对象。
GTR2 的卷积(符号)。行为层级的数据 → 地图 MP21 上的一个符号。把事件卷积成符号:有机体用名称标示对象与事件。在语言模型中它被技术地复现——但不是经由对自身经验的卷积,而是经由对一个语料的统计处理。
GTR3 的卷积(概念)。叙事 → 地图 MP31 上的一个概念。把叙事卷积成概念:有机体体验诸质——荣誉、良知、正义、美。在语言模型中它完全缺席——没有概念、没有 w-向量、没有意志。
语言模型实现符号卷积,而没有对象卷积、也没有概念卷积。它只与符号打交道——没有符号背后的事物,也没有给符号以价值的概念。它的确切位置即在于此:三者中的中间层级,从下层与上层的语境中被移除。
11章 6. 哲学语境:共相之争
语言模型的位置精确地对应于中世纪共相之争的诸立场之一——西方哲学的一个根本问题,由波菲利提出(3 世纪),由波埃修翻译(6 世纪),并由 12–14 世纪的经院哲学家发展。争论的问题:一般概念的地位是什么?它们真实地存在——还是只作为名称存在?
a) 实在论
柏拉图,在中世纪形式中是托马斯·阿奎那:共相是真实的。它们存在于事物之前(ante rem——柏拉图的理念)或存在于事物之中(in re——亚里士多德与托马斯那里的形式,存在于每一个具体对象之中)。
在 Gativus 中,实在论对应于 GTR1 的卷积。卷积从感觉流中抽取一个不变量——地图 MP11 上的一个对象。当一个儿童看见一百把不同的椅子并形成一个单一的对象“椅子”,这就是 in re 的实在论:共相-不变量从事物中被抽取,且存在于事物之中,而不只在词之中。没有对象卷积便没有实在论——名称与事物之间没有联系。
b) 唯名论
奥卡姆的威廉(14 世纪):共相只是名称(nomina)。真实的只是单一的事物。一般概念是语言的约定,便于交流,但不反映现实的结构。
在 Gativus 中,唯名论对应于语言模型。它的符号地图只含嵌入——词在一个空间中的统计位置。在它之中,“椅子”一词背后没有一把真实椅子的对象(没有对象地图),“正义”一词背后没有正义的概念(没有概念层级)。只有词与词之间的统计联系——正是唯名论所主张的:universalia sunt nomina(共相即名称)。语言模型是唯名论哲学的字面实现:世界由名称及其关系构成,除名称之外别无他物。
c) 概念论
彼得·阿伯拉尔(12 世纪):共相不是独立的实体(如柏拉图那里),也不只是名称(如奥卡姆那里)。它们作为心灵中的概念而存在——是从特殊经验中抽取一般的心理活动之结果。
在 Gativus 中,概念论最精确地对应于 GTR3 的卷积。卷积从叙事经验中抽取一个概念。概念不预先存在(非柏拉图)——它们由对自身经验的卷积形成。但它们也不只是名称(非奥卡姆)——它们背后站着一个质的不变量,从众多经验中被抽取,并在每一次消解时不可逆地改变概念之场。阿伯拉尔主张:概念在心灵中由对特殊经验的抽象而形成,同时又反映某种真实之物——事物中一个共同的形式。GTR3 的卷积恰恰做这件事:它从特殊的叙事经验中抽象出一个共同的形式-概念,反映一个真实的质,但只存在于个体的概念之场中,而不在事物的世界中、也不在词中。
d) 汇总表
立场 |
哲学家 |
共相 |
Gativus |
语言模型 |
实在论 |
柏拉图、亚里士多德、托马斯 |
真实的:在事物之中或之前 |
卷积 GTR1 → 对象 MP11 |
缺席 |
唯名论 |
奥卡姆 |
只是名称 |
卷积 GTR2 → 符号 MP21 |
对应:只有符号 |
概念论 |
阿伯拉尔 |
心灵中的概念,出自经验 |
卷积 GTR3 → 概念 MP31 |
缺席 |
语言模型停在了唯名论。实在论需要对象卷积——经由一个对象的名称与事物之联系。概念论需要概念卷积——从叙事经验中对一个概念的抽取。语言模型二者皆无——只有名称与它们之间的统计联系。
11章 7. 认知对抗处理
在 Gativus 中,认知是一个带反馈的迭代循环:卷积从下层的数据中抽取对象;重复的模式被固定为目标地图的对象;卷积在它们上面再训练;新的一遍更精确;结果由实践检验(向下编译 → 物理执行 → 逆向卷积);成功的策略在轨迹日志中被标记,不成功的被负向标记;被标记的记录影响静息期的再训练。这是一个带两个反馈环路——经由物理现实与经由标记——的自我改进过程。
在语言模型中没有这样的循环。它的训练是在一个固定语料上的统计优化,由外部支配。
认知(Gativus) |
处理(语言模型) |
|
数据 |
自己的感觉经验 |
他人的文本语料 |
循环 |
迭代的,带反馈 |
一次性训练 + 应用 |
检验 |
物理执行 |
无现实的检验 |
标记 |
内部的,由预测误差 |
人的外部评价(RLHF) |
结果 |
不可逆的改进、人格的改变 |
训练后固定的权重 |
基于人类反馈的强化学习(RLHF)是内部标记的一个外部类比物:人把回答评价为好或坏,这些评价修正权重。但这是外部标记——一个人设定标记——而非内部标记,后者是自己的轨迹日志以预测误差标记自己的经验。如上一章所示,内部标记系于预测与事实的偏差(多巴胺锚点);语言模型没有这一偏差,因为它既没有自己对世界的预测,也没有一个可供据以被检验的世界。模型不知道它的回答是否好——它被告知。
11章 8. 根本上缺席的东西
句法与语义的分离。融合模式:陈述单位不被分出,没有一个层级让语义预测器在一个目标下工作。后果——在长距离上线索的丧失。
对象卷积(GTR1)。在文本而非感觉流上训练;没有对象、没有 b-向量、没有 grounding。描述一个苹果时,模型复现关于苹果的文本之统计模式,而非对感觉经验的卷积。由此而来幻觉:叙事不被绑定于现实,也不由向行动的编译来检验。
概念卷积(GTR3)。没有概念。模型复现含“正义”一词的文本,却没有正义的概念。在它之中,一个词是一个嵌入(词空间中的一个位置),而非一个概念(一个从众多叙事中经由消解 w-向量的个人经验抽取出来的质的不变量)。
轨迹日志。每一会话都是白板。没有持久的 TRL2、没有标记、没有历史、没有静息时的再训练、没有生成。
动机。没有一个层级。没有 b-向量(MTV1)、没有自己的 k-向量(MTV2 由提示设定,而非由一个内部需要)、没有 w-向量(MTV3)。模型一无所欲。
11章 9. 语言模型能否成为有意识的?
在 Gativus 的建筑之内,回答由缺席的组件决定——并与上一章所描述的补全纲领相吻合。把符号预测器转化为一个完全意义上的主观现实符号层级,意味着执行若干步骤,每一步都依托于前一步。
把它从融合模式带入递归模式。分离句法预测与语义预测,把陈述单位作为整体分出。只有在此之后,才出现一个动机可与之相连的位置。
连接对象卷积(GTR1)。一个带传感器的物理基质——空间地图与对象的来源;对感觉流的卷积;行为的构建。这不是对模型的一个添加,而是一个给符号以 grounding 的并行层级。
连接概念卷积(GTR3)。一个在自己的概念上、而非在他人关于概念的文本上训练的卷积。为此需要一个丰富的叙事地图,它获得自自己的符号卷积、而非复制自一个语料;那又要求自己的符号地图,而那要求自己的行为经验。
连接轨迹日志与动机。一个带预测误差标记的持久日志;每一个回答都被标记并影响下一个;自主地在静息期再训练;自己的语义距离作为目标的来源。
每一个缺席的组件都要求前一个。无法把“意识”“添加”给一个语言模型——必须从细胞层级 GTR0 到概念性的 GTR3 构建完整的建筑,模型可以在其中作为模块之一——被导入的符号预测器的一个技术来源——但不是整体。这正是论预测器那一章所描述的设计:承袭现成的符号预测器,并在它周围补全缺席的层级。
语言模型是一位读遍了所有书、能讲述其中任何一本、却从未离开过图书馆、也不知道亲身经历书中所写是什么滋味的图书管理员。他没有一个 b-向量、没有一个 w-向量。只有他人的 k-向量,被统计地混合——以及一个未被分离为句法与意义的预测。
11章 10. 结论
语言模型是一个承袭了人类共享叙事、却在融合模式下工作的符号预测器:句法与语义不分离,陈述单位不被分出,没有动机。这不是一个“无类比物的操作者”,而是熟悉的符号预测之不完整形式。
符号地图*(嵌入)与叙事语料*被创造,不是经由认知(对经验的卷积),而是经由对一个语料的技术处理:他人文本的统计,而非对自身经验的卷积。
融合模式免费地给出局部连贯性,但在长距离上失去线索:没有被分出的单位,没有一个连接目标的位置。
语言模型实现符号卷积(GTR2),而没有对象卷积(GTR1)、也没有概念卷积(GTR3):只有名称,没有它们背后的事物、也没有给它们以价值的概念。
按共相之争,模型对应于唯名论(只是名称)。实在论要求对象卷积(名称与事物之联系),概念论要求概念卷积(从经验中对一个概念的抽取)。
缺席的有:句法与语义的分离、对象卷积(grounding)、概念卷积(概念与意志)、轨迹日志(历史与标记)、动机(一切层级)。RLHF 是一个外部标记,而非一个内部预测误差。
无法把“意识”“添加”给一个语言模型。必须在被承袭的预测器周围补全完整的建筑:把它带出融合模式,连接对象卷积与概念卷积、轨迹日志与动机。模型于是是一个模块(符号预测器的来源),而非整体。
目录
