什么是ChatGPT?

ChatGPT是由OpenAI开发的一个应用程序,正如开头英文单词“chat”一样 , 它就像一个聊天机器人, 可以按照你和它聊天时输入的指令, 回答你的问题,帮助你撰写文案、生成图像、 编程等等。
ChatGPT后面的三个字母“GPT” 代表着ChatGPT所用的核心技术。
GPT全称是“Generative Pre-trained Transformer”。这个技术由一系列AI模型组成,包括GPT-4、GPT-4o和最新的GPT-4o mini。GPT-4o和GPT-4o mini与之前的版本不同之处在于不仅能够处理文本、还能处理图像和音频,专业术语就叫“多模”。
这些GPT模型是由OpenAI开发的,它们不仅支撑着ChatGPT, 核心技术也被集成到微软的Bing搜索引擎中,增强了Bing的AI功能。通过这项合作,Bing可以使用GPT模型生成更加智能和个性化的搜索结果和建议。这也是为什么Google 不得不赶紧研发自己的Gemini大模型的原因。 事实上,市面上的许多AI文本生成器都是基于GPT模型,比如Jasper、Copy.ai等流行的写作工具。
虽然GPT是目前最为流行的大语言模型(LLM),但现在还有很多其他的选择。比如,Google的Gemini模型;Meta则推出了Llama 3;Anthropic有Claude;这些模型和GPT一样,正在不断扩展AI的应用范围。

ChatGPT的工作原理是什么?
就像大脑一样, ChatGPT通过大量数据“喂养”而学习。这些数据帮助它理解和识别文字中的关系,进而预测在一个句子中接下来最有可能出现的词。虽然表面上看似简单,但实际运作背后的复杂性远超想象。
完全的自我学习
GPT中的“P“来自单词Pre-trained。
想象一下,你在进行一次环球旅行。没有人告诉你每个地方的具体细节或文化背景,而是让你自己去探索。你访问不同的国家,通过观察、体验和与当地人交流,逐渐理解了各地的语言、文化和习俗。这个过程就像是GPT的学习方式:它通过浏览互联网的海量数据,自主学习语言模式,而不需要任何人为的标注和指导。与此相比,传统的AI模型依赖“监督学习”,这就像是每到一个地方都需要一个导游详细解释。例如,为了教AI识别动物,研究人员需要提供一组带有文字描述的动物图片。这种方法虽然有效,但是需要大量人工标注的数据,这不仅成本高昂,还需要大量时间。而自我学习则利用互联网现有的海量数据,无需人工干预,从而大大节省了成本。
Transformer架构:自注意力机制
GPT中的“T”代表“Transformer”。所有训练的目的都是为了让GPT创建一个深度学习的神经网络,这种网络像是一个复杂的、多层的加权算法,模仿了人类大脑的工作原理。它使ChatGPT能够学习文本数据中的模式和关系,并通过预测句子中接下来的词来生成类似人类的回应。
想象一下,你在读一本书。传统的递归神经网络(RNN)就像是用手电筒从左到右一行行地照亮书页。这种方法在处理相邻的词语和概念时效果很好,但如果你需要理解句子两端的关系,比如“我喜欢苹果,但不喜欢梨”,这种逐行读取的方法就显得慢且不高效。
而Transformer架构更像是打开了整个房间的灯泡,一次性照亮整页书。这样一来,无论词语出现在句子的哪个位置,它们都能被同时看到并比较。这种并行处理的方式大大提高了计算效率,使得模型能够快速且准确地捕捉句子中的重要关系和信息。
在这个“照亮整页”的过程中,Transformer使用了“自注意力”机制。可以把它想象成在阅读时,你的大脑会自动高亮那些对理解句子最重要的词语,不管它们位于句子的开头、中间还是结尾。例如,在句子“我喜欢苹果,但不喜欢梨”中,自注意力机制会让模型关注“喜欢”、“苹果”和“梨”,忽略掉不那么重要的词。
不过,Transformer并不是直接处理词语,而是处理被称为“token”的文本片段。
这些token可以看作是每个词的“数字名片”,包含位置信息和关系信息。如果两个token在“数字名片”中的位置很近,它们的关系就很紧密。自注意力机制会利用这些“数字名片”来记住段落中的重要信息,并在生成回答时参考这些信息,从而生成连贯且相关的回答。
tokens:理解文本的关键
为了让AI模型更好地理解文本,GPT使用了一种称为“tokens”的方法。
可以把tokens想象成文本中的“拼图块”。每个token代表文本中的一个片段,可以是一个单词、一个词组,甚至是一个字符。GPT-3是ChatGPT的基础模型,它在大约5000亿个tokens上进行了训练。许多简单的单词对应一个token,而较长或更复杂的词则通常会被拆分成多个tokens。平均来看,每个token大约有四个字符长。
每个token在AI的脑海中都有一个位置,这个位置称为“向量”。可以把向量想象成每个token的“地址”。如果两个token的地址靠得很近,它们的关系就很紧密。比如,“苹果”和“水果”的地址可能很近,因为它们在语义上关系密切。这种向量空间中的映射帮助AI在生成文本时,快速找到相关的词语。
想象一下,AI正在学习一本包含各种主题和风格的百科全书。每个token就像是百科全书中的一个小片段。通过这些小片段,AI逐渐理解了整个书中的内容。GPT-3的所有文本tokens都来自一个庞大的数据集,这些数据都是由人类编写的,包括书籍、文章和其他文档,以及从开放互联网中获取的海量内容。基本上,AI通过消化人类知识的总和,发展出生成文本的网络。
虽然OpenAI对GPT-4和GPT-4o的内部工作保持沉默,但可以安全地假设它们使用了类似的数据集进行训练,因为它们的性能更强大。除了文本,GPT-4o还在图像和音频上进行了训练,这些内容也可以分解为离散的tokens。因此,GPT-4o的神经网络必须有数十亿个额外的参数来处理这些额外的模态。
基于所有这些训练,GPT-3的神经网络有1750亿个参数或变量。这些参数允许它接受一个输入(你的提示),然后根据不同参数的值和权重(以及少量的随机性),输出它认为最匹配你的请求的内容。尽管OpenAI没有透露GPT-4的参数数量,但可以猜测,它的参数数量多于1750亿。不论确切数字是多少,更多的参数并不一定意味着更好,模型的性能还取决于训练方法的改进。
人类反馈的强化学习(RLHF)
最初,GPT的神经网络并不适合直接用于公众,因为它在开放互联网上训练时几乎没有任何指导。因此,为了使ChatGPT能够更安全、合理和连贯地回答各种问题,OpenAI使用了一种叫做“人类反馈的强化学习”(RLHF)的技术来优化它的对话能力。
RLHF的核心思想是利用人类提供的反馈来改进AI的表现。具体过程如下:
- 创建示范数据:研究人员首先生成一些示例对话数据,这些数据展示了AI在典型情况下应该如何响应用户的提问。这就像是给AI提供了一本“好回答”的样本书。
- 建立奖励模型:接下来,研究人员对不同的AI回答进行评分,挑选出最好的回答。这一步类似于给AI的表现打分。通过比较这些评分,AI可以学习到哪些回答是更好的。
- 微调AI:利用这些评分数据,AI进行进一步的训练和调整,使它能够在实际对话中表现得更好。这个过程类似于不断调整和改进一个学生的作业,使其能够写出更好的答案。
通过这种方法,ChatGPT在每次更新时都变得更聪明、更安全、更可靠。人类的反馈帮助AI学习什么是好的回答,从而在实际对话中表现得更加自然和连贯。每次新版本的GPT(如GPT-4和GPT-4o)都在这个基础上进一步改进,使其能够更好地理解和回应用户的需求。

自然语言处理(NLP)
GPT的一个主要目标是实现高效的自然语言处理(NLP)。NLP是一个涵盖广泛的领域,包括语音识别、机器翻译和聊天机器人等。简单来说,NLP是让AI理解语言规则和语法,并使用这些规则来完成特定任务的过程。
经过训练和算法开发,NLP使GPT能够执行多种任务,特别是回应用户的提问。理解这一点很重要,因为ChatGPT生成的文本不仅仅是简单地预测下一个词,而是尝试创建对任何提示的完整和连贯的回应。这正是Transformers为NLP带来的能力。
最简单的类比就是“接龙游戏”,你小时候可能玩过。ChatGPT从你的提示开始,将其分解成一个个小片段(tokens),然后使用基于Transformer的神经网络来理解这些片段中最重要的部分,以及你真正想要表达的内容。从这里开始,神经网络再次启动,生成一个适当的输出序列,依靠它从训练数据中学到的知识和微调过的技能。
例如,当我给ChatGPT提示“Amazon是……”时,它可能会回答:
“Amazon是一个全球领先的电子商务平台,提供广泛的产品选择和快速的配送服务。”
这种回答在描述Amazon时很常见,所以它在这里生成的回答也很合理。当另一位用户给它相同的提示时,它可能回答:
“Amazon是一家全球知名的电商公司,用户可以在上面购买各种商品,享受便捷的购物体验。”
这两个回答很相似,但并不完全相同。问“Amazon是什么?”,“Amazon做什么?”和“描述Amazon”得到的结果也类似,因为这些问题在语义上很接近。GPT理解最关键的词是“Amazon”,其他词只是用稍微不同的方式询问一个简短的总结。
这种随机性(在某些GPT应用中称为“温度”设置)确保ChatGPT不会对每个提示都生成完全相同的答案。每次提示都会通过整个神经网络,并且会有一些随机因素来保持回答的新鲜感。它对自然语言的理解也允许它解析“Amazon是什么?”和“Amazon做什么?”之间的细微差别。虽然这些问题在本质上相似,但答案会有一些不同。无论你怎么问,ChatGPT都不会突然宣称Amazon是一种水果,而是根据相对可能性来生成合理的回答。
多模态模型的能力
多模态能力指的是ChatGPT能够在同一个提示中同时处理文字、图像和音频。比如,你可以给它一张图片,并要求它描述图片中的内容,或者给它一段音频,并让它转录或解释音频内容。
以前,ChatGPT只能通过单独的AI模型来理解图像和音频。图像会被转换成文字描述,音频会被转换成文字。这些转换后的文字会传给GPT,然后GPT生成回应。
现在,有了GPT-4o,同一个AI模型可以直接处理文字、图像和音频输入,并生成相应的输出。这就像是给ChatGPT装上了“超级感官”,使它能够同时“看”、“听”和“读”,并做出相应的回应。
AI+营销
总之,GPT在营销中的应用潜力巨大。企业可以通过利用GPT的多种能力,提升内容创作效率、实现个性化营销、优化客户互动、获取深度数据洞察,并自动化营销流程,从而在激烈的市场竞争中脱颖而出。未来,随着GPT技术的进一步发展,AI+营销将为企业创造更大的价值和竞争优势。
本文出自:智上,内容为作者独立观点,转载请在文章开头和结尾显眼处标注:出处和链接。不按规范转载侵权必究。