text-davinci-003后继者！OpenAI发布了一个新的补全大模型：GPT-3.5-Turbo-Instruct，完全的指令模型，没有聊天优化

OpenAI发布了一个全新的指令大模型GPT-3.5-Turbo-Instruct，这个模型没有官方的博客介绍，只是给开发者发了一个邮件告知，从介绍看，该模型是InstructGPT 3.5系列大模型，相比较GPT-3，可以更好地遵从指令，而对比ChatGPT，则没有针对聊天优化微调，是一个属于补全大模型，但是有指令微调。

GPT-3.5-Turbo-Instruct与GPT-3.5-Turbo的区别

如前所述，GPT-3.5-Turbo-Instruct是一个指令遵从大模型，被官方归类为InstructGPT 3.5。InstructGPT是OpenAI在2022年1月27日发布的一个指令大模型。官方的介绍说，该模型是比GPT-3有更好的用户指令跟随，比GPT-3更加可靠。也是ChatGPT发布之前的OpenAI使用对齐技术训练的一个大模型。

下图是InstructGPT与GPT-3的对比：

可以看到，InstructGPT比GPT-3可以更好地理解人类意图。本次发布的GPT-3.5-Turbo-Instruct被官方认为是InstructGPT 3.5，说明应该是这个系列的模型的继任者。

此前发布的GPT-3.5-Turbo则是GPT-3.5家族中针对聊天优化的大模型。二者最大的区别就是本次发布的GPT-3.5-Turbo-Instruct没有聊天优化。

由于当前官方没有特别说明GPT-3.5-Turbo-Instruct的特点，只有2点：一个是它没有做聊天优化，另一个是做了指令跟随。至于为什么这么做官方没有说明，但是从广大网友的讨论来说，这个模型也是很多人所期待。原因在于聊天大模型有时候并不擅长做某些事情，比如生成一大段网页等。因为聊天大模型可能更加倾向于生成代码片段或者提示，而指令大模型则可能会生成实际长度的代码。

GPT-3.5-Turbo-Instruct的价值

GPT-3.5-Turbo-Instruct发布之后引起了很多人的讨论和关注，尽管官方没有单独的博客解释，但是大家对于与个纯粹的指令大模型还是期待已久。主要原因在于聊天大模型ChatGPT（或者说接口中gpt-3.5-turbo系列）的虽然让人惊讶但也有非常明显的问题，例如回复十分啰嗦，例如生成代码的时候，它们也会通常加一堆解释和没有意义的说明，这已经在前期被很多人吐槽了。

而相对来说，补全大模型通常专注于生成连贯的文本段落或完成特定任务，如生成文章、答案问题等。它们在这些方面可能表现出更好的稳定性，因为它们被设计用于生成更长、更连贯的文本。加上了指令遵从后，指令补全大模型可能在生成文章、自动生成代码、完成段落或执行其他需要生成大块文本的任务上有更加出色的表现。

当然，也有人说可以通过prompt注入的方式，让聊天大模型更加专注生成结果和内容，但这也是通过让模型遵从指令来完成的，相比较而言，纯粹的指令补全大模型可能更有希望解决模型问题。例如，当前大家已经发现，GPT-3.5-Turbo-Instruct已经可以在国际象棋中拿到约1800的Elo了（对于国际象棋，Elo评分通常用于衡量玩家的强度。一名新手可能会有低于1000的Elo评分，而国际象棋大师通常具有Elo评分在2500以上。Elo评分的平均值被设定为1500）。这方面，那些经过 RLHF 处理的聊天模型可能表现不佳，但基础/指令模型似乎表现得更好。

GPT-3.5-Turbo-Instruct的价格

GPT-3.5-Turbo-Instruct与GPT-3.5 Turbo-4K价格一致，输入是0.0015 / 1K tokens，输出是0.002 / 1K tokens

GPT-3.5-Turbo-Instruct与GPT-3.5-Turbo的区别

GPT-3.5-Turbo-Instruct的价值

GPT-3.5-Turbo-Instruct的价格

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送