text-davinci-003后继者!OpenAI发布了一个新的补全大模型:GPT-3.5-Turbo-Instruct,完全的指令模型,没有聊天优化

OpenAI发布了一个全新的指令大模型GPT-3.5-Turbo-Instruct,这个模型没有官方的博客介绍,只是给开发者发了一个邮件告知,从介绍看,该模型是InstructGPT 3.5系列大模型,相比较GPT-3,可以更好地遵从指令,而对比ChatGPT,则没有针对聊天优化微调,是一个属于补全大模型,但是有指令微调。


GPT-3.5-Turbo-Instruct与GPT-3.5-Turbo的区别

如前所述,GPT-3.5-Turbo-Instruct是一个指令遵从大模型,被官方归类为InstructGPT 3.5。InstructGPT是OpenAI在2022年1月27日发布的一个指令大模型。官方的介绍说,该模型是比GPT-3有更好的用户指令跟随,比GPT-3更加可靠。也是ChatGPT发布之前的OpenAI使用对齐技术训练的一个大模型。

下图是InstructGPT与GPT-3的对比:


可以看到,InstructGPT比GPT-3可以更好地理解人类意图。本次发布的GPT-3.5-Turbo-Instruct被官方认为是InstructGPT 3.5,说明应该是这个系列的模型的继任者。

此前发布的GPT-3.5-Turbo则是GPT-3.5家族中针对聊天优化的大模型。二者最大的区别就是本次发布的GPT-3.5-Turbo-Instruct没有聊天优化。

由于当前官方没有特别说明GPT-3.5-Turbo-Instruct的特点,只有2点:一个是它没有做聊天优化,另一个是做了指令跟随。至于为什么这么做官方没有说明,但是从广大网友的讨论来说,这个模型也是很多人所期待。原因在于聊天大模型有时候并不擅长做某些事情,比如生成一大段网页等。因为聊天大模型可能更加倾向于生成代码片段或者提示,而指令大模型则可能会生成实际长度的代码。

GPT-3.5-Turbo-Instruct的价值

GPT-3.5-Turbo-Instruct发布之后引起了很多人的讨论和关注,尽管官方没有单独的博客解释,但是大家对于与个纯粹的指令大模型还是期待已久。主要原因在于聊天大模型ChatGPT(或者说接口中gpt-3.5-turbo系列)的虽然让人惊讶但也有非常明显的问题,例如回复十分啰嗦,例如生成代码的时候,它们也会通常加一堆解释和没有意义的说明,这已经在前期被很多人吐槽了。

而相对来说,补全大模型通常专注于生成连贯的文本段落或完成特定任务,如生成文章、答案问题等。它们在这些方面可能表现出更好的稳定性,因为它们被设计用于生成更长、更连贯的文本。加上了指令遵从后,指令补全大模型可能在生成文章、自动生成代码、完成段落或执行其他需要生成大块文本的任务上有更加出色的表现。

当然,也有人说可以通过prompt注入的方式,让聊天大模型更加专注生成结果和内容,但这也是通过让模型遵从指令来完成的,相比较而言,纯粹的指令补全大模型可能更有希望解决模型问题。例如,当前大家已经发现,GPT-3.5-Turbo-Instruct已经可以在国际象棋中拿到约1800的Elo了(对于国际象棋,Elo评分通常用于衡量玩家的强度。一名新手可能会有低于1000的Elo评分,而国际象棋大师通常具有Elo评分在2500以上。Elo评分的平均值被设定为1500)。这方面,那些经过 RLHF 处理的聊天模型可能表现不佳,但基础/指令模型似乎表现得更好。

GPT-3.5-Turbo-Instruct的价格

GPT-3.5-Turbo-Instruct与GPT-3.5 Turbo-4K价格一致,输入是0.0015 / 1K tokens,输出是0.002 / 1K tokens

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码