外行人来理解Chat GPT的工作原理

我有个习惯，当出现一个自己专业知识以外的新事物，就会在收集资料的基础上，以自己已有的知识和经验为基础，来理解一下并写出来。以前写过外行人看电动汽车，新能源，氢弹，高空气球等文章，不但得到好评，自己也受益匪浅，虽然没什么实际用处。但人一生如果只去了解有用的东西，那会多无聊？所以我还是乐此不疲，现在，又来理解一下火爆的Chat GPT。

ChatGPT的基础是OpenAI提出的GPT，GPT全名叫做Generative Pre-trained Transformer，即用生成式方法预训练的Transformer。其基础，是概率！

有种密码破解技术就是概率解码术。假设密码破解专家得到一大堆意义不明的信件，如何从中破译这些信件中的密码呢？他就按照公认的字母在文章中出现的概率，比如A的出现率是37%， B的出现率25%...., 在密文中统计各符号的出现频率，假设那些概率和公认概率最接近的符号就是A，B....., 然后看译文是否有意义，并不断修正。这曾是一种成功密码破译思路，虽然现在落后了。

GPT的基本思路是，首先要通过大规模训练，从而得到不同引导文后各种下续词出现的概率，根据概率计算，打出一段语句。GPT模型完成任务的方法就是“猜猜下一个概率最大的词是什么”，根据输入的一段文本，预测下一个单词出现的概率分布。比如给定引导句“我喜欢吃？”，模型可能预测下一个单词为“苹果”的概率是0.2，“香蕉”的概率是0.3，“披萨”的概率是0.1，等等，这些概率值的总和为1，代表了所有可能的下一个单词的概率分布。根据这个概率分布，选择最有可能出现的单词。所以ChatGPT都是一个字一个字地蹦出来的，跟刚刚学会说话的小孩子一样。

其次，它对于语言的最小理解单位是句子（phrase），而不是词汇（word）。你如果只打一个“总结”，它会不知所云。你必须问“写一篇年终总结，我是XX类公司的XX部门的经理“，它才能开始工作，写出一篇总结。所以Chat GPT的引导文很重要，现在甚至出现了专门写引导文的职业，需要接受过GPT原理的训练。不同的引导文，会得到完全不同的结果。

ChatGPT的底层是自然语言大模型GPT，只是众多人工智能大模型中率先“涌现”的一个，它更倾向于生成文本的能力，所以看起来都是写写文章，说说话，画画画，但并不是说人工智能就只能干这些。比如中国的注意力，就集中在监控方面。

2021年6月，一个重磅消息震撼简体中文网络，中国人工智能专利申请数量达到11万，首次超越美国。这又是我的国厉害了的一个重磅证据。然而看看这些专利都是干什么的？这些专利中，用于安防的占比超过一半，达到53.8%，比如人脸识别、指纹识别、体态识别，用于金融占比15.8%，用于营销占比11.6%。换句话说，中国的人工智能不是用来盯人，就是用来盯人的钱包。

ChatGPT的底层是自然语言大模型GPT，仅就自然语言大模型而言，最有名的有两种方向，除了GPT模型外，还有Google的BERT模型，两者的核心区别在于目标不同，GPT更倾向于生成文本，而BERT 模型更倾向于理解文本。

这个区别可能人类无法理解，不理解文本怎么生成文本呢？GPT就是用学习和概率计算工作的。GPT模型就像文科毕业生，由于其在生成文本方面的强大能力，毕业后最大的“就业去向”是自动生成文章类的“工作”、包括新闻、广告文案、创意内容、法律文书、文秘、各类咨询，等等；其次的“就业去向”是作为聊天机器人、虚拟助手、智能客服，等等，进行更加自然、流利的对话。但你要让他去计算，去推理，就非常差，在不理解的基础上生成的文本，难免会发生胡说八道的情况，虽然大家已经觉得GPT很神奇了，但如果真的大规模投入应用，在那些非生成内容为主的应用上，它还是有缺陷的。而且，我发现，对非英语的内容，它就常常胡说八道。我曾问GPT日本最有名的导演及其作品，它就瞎几把讲。可能和日本人名的汉字，假名以及拉丁文符号发音规律混乱有关。

从GPT我又想到一个问题，人类到底是怎样理解的？

熟悉逻辑学的读者一定知道，它有一个著名的说法：相关性不代表因果性，相关性只是对现象的描述，因果性才是现象之间的内在联系。所以有人说，人类与人工智能的区别在于，人可以判断因果关系，而人工智能只能判断相关性。

这个观点的后半段是正确的，目前所有的人工智能模型，都是通过学习数据中的相关性来进行预测和推理。但人是否能判断因果关系呢？这是个似是而非的命题。

有的情况下，人好像能判断因果关系和相关关系的不同。自从掌握了自然科学的知识，人类发明了自然界不存在的以机翼压力差原理升空的飞机，和以轮子反作用力驱动的汽车，这样的发明举不胜举，似乎人确实能了解因果关系。人类认为，自己的判断靠的是因果关系，先学习各类事件之间的因果联系，再去推断出某个事件是另一个事件的原因或结果。所以，早期人工智能的方向也是模仿人类的思维，去建立因果关系。

可当专家们想用计算机语言描述因果关系时，才发现此路不通——人类自以为严谨的因果关系，可能并不存在。看过《三体》的读者，都应该对其中哲学家罗素的“农场主假设”有深刻的印象，农场里有一只火鸡科学家，通过长期观察，发布了一个科学规律，每次农场主来，就会有食物，两者之前存在因果联系。结果复活节前，农场主带来的不是食物而是屠刀。

哲学家大卫·休谟早在300多年前就称之为“因果关系幻觉”，他认为：“我们无从得知因果之间的关系，只能得知某些事物总是会连结在一起，而这些事物在过去的经验里又是从不曾分开过的。”因此，人类所谓的因果关系，也只是基于经验的。说到底，人也是通过训练，知道某种情况下应该如何处理，也是一种GPT。

于是人工智能科学家们产生了一个共识：相关性就是因果性，是一套描述因果关系的语言体系，它的单位是“概率”，因果关系不是0和100%，而是15%、60%、99%，等等。

人类的学习方式中有一类特殊的隐藏学习，学习者并不知道自己在学习，也没有人教，也不知道自己什么时候学会了，就算学会了，也无法总结其中的一些规律。心理学家称之为“内隐式学习”，最经常被引用的例子是“母语学习”。母语学习都是在上学之前完成的，几乎没有正式的学习过程，习得后，也无法总结语言的一般规律。人际关系、情感关系处理的学习，育儿与亲子关系的学习，欣赏品位的提升，等等，一切规则模糊领域的学习，都至少有一部分需要内隐式学习。

我们在上学前的学习方法，基本上是内隐式学习，上学后就变成了主动式学习，工作之后，内隐式学习的重要性又开始渐渐提升。人到底是如何进行“内隐式学习”的呢？不知道。

而GPT的人工智能训练过程，虽然有程序导引，但设计者自己也说，它能表现出一些始料未及的智力，这是一个黑箱，其间到底发生了什么，就像儿童有一天忽然开口说话了、站起来走路了，其中到底发生了什么，没有人知道。

人脑，也是一套特殊的算法模型，跟人工智能没有本质的区别，只是复杂得多——大黑箱设计出的小黑箱，难怪马斯克会担心，不知道它在无数次迭代后，会出现什么？