有一类人,时刻盯紧科技圈最新最前沿的AI动态,然后在朋友圈表现出愈加强烈的焦虑,生怕错过这波AI浪潮,做梦都在思考AI要如何去改变这个世界。
然而,这些科技新闻除了让人更加焦虑外,并不能在创意、推广和商业模式方面给予我更多的启发。我意识到,现在是时候去深入了解那些更底层的工作原理,去搞清楚大型语言模型能够做什么、更适合做什么,以及不能做什么。
现在,让我为你详细介绍一下ChatGPT的一些内容:

1. ChatGPT是如何进行文本生成的?

sw021423img20.png

如你在ChatGPT上所见,stream模式形象的展示了ChatGPT的内容生成是一个一个词蹦出来的,就像是在不断拼凑一个完整的句子。至于接下来该蹦哪个词就是ChatGPT的本质能力了:“文本的合理延续”,这个能力是算法在积累了大量文本内容后,蹦出“最大概率”匹配字面意思的词。也就是说,你让chatgpt写一篇文章的时候,它只是一次又一次地询问“在已有的文本基础上,下一个单词应该是什么?” 然后每次都添加一个单词。当然在“最大概率”这里,算法为了产生某种“炼丹”效果,引用了部分随机性,所以我们同一个问题就会产生不同的结果。

2. 概率是如何得出的?

sw021423img21.png

如果只是简单地考虑在每个单词后面添加最有可能出现的词,这样生成出来的句子,大概率每个词都能看懂,但一定看不明白连在一起要表达的意思。因为除了考虑词的概率外,还要解决词句中“意义”的问题,也就是还要推断出“满足正确意义的概率”,也就是说“这句话加这个词以后”是否满足整篇内容的意义,这个数据量就是指数型增长了,考虑到文本规模和算力,也就是说无法通过这种方式去推断出这样的词表,所以就引入了“大语言模型”(LLM)去做推断和估计。

3. 什么是大语言模型?

sw021423img27.png
sw021423img84.png

ChatGPT的大型语言模型简单来说是模拟大脑神经元的模式(transformer)。它将已有的语料进行向量化(Embedding),然后在向量空间中找到与该向量位置最接近的下一个词。在训练算法中,还引入了自监督学习的概念。模型会自己评估猜测结果的准确性,并进行下一轮训练。
本质上,就是给定一堆训练数据(文本数据),让模型根据上文猜测下一个词。如果猜得准确,损失函数就较小;如果猜得离谱,损失函数就较大。通过多轮训练,使损失函数逐渐减小,从而训练出模型。

4.涌现能力(emergent)
模型和算法基本上就是以上所述,但令人震撼的是ChatGPT3.0目前展现出的一些神奇能力。例如,它具备了基础的社会知识、上下文学习(ICL)和推理思维链(CoT)等能力。当模型训练参数和语料数据量超过一定阈值后,这些能力突然出现,使得模型表现出超出预期的智能!。
ChatGPT的技术原理已经介绍清楚了,ChatGPT不仅仅是一种技术,更是一种应用工具,它为我们提供了探索和创造的可能性。通过深入理解ChatGPT的技术原理和应用场景,我们可以更好地利用它的潜力,为创意、推广和商业模式的发展带来新的机遇和启示。

参考资料《What Is ChatGPT Doing … and Why Does It Work?》中文版 作者史蒂芬·沃尔夫勒姆(Stephen Wolfram)是一位著名的英国-美国计算机科学家、物理学家和商人。
ChatGPT 类大语言模型为什么会带来“神奇”的涌现能力?
是什么让ChatGPT变得如此聪明?仍然未知的大语言模型“能力涌现”现象

标签: AI, ChatGPT, AIGC

添加新评论