可怕的GPT-4来了，能在SAT考试中击败90%的人类

阿尔法工场 2023-03-15 19:37:01

来源 | 网络
导语：OpenAI称，GPT-4在模拟律师资格考试中排名第90，在SAT阅读考试中排名第93，在SAT数学考试中排名第89。

据CNBC，3月14日OpenAI公布了其主要大型语言模型GPT的最新版本GPT-4，并表示模型在许多专业测试中表现出“与人类水平相当的表现”。

ChatGPT-4比以前的版本“更大”，这意味着它已经在更多的数据上进行了训练，并且更侧重于模型文件，这使得它的运行成本更高。

目前，此领域的许多研究人员认为，人工智能领域的许多最新进展，都来自于在数千台超级计算机上运行越来越大的模型，这些模型的训练过程可能耗资数千万美元。

(相关资料图)

GPT-4是“扩大规模”以获得更好结果的训练方法的一个例子。

OpenAI表示，它使用的是微软Azure训练模型，微软已经向这家初创公司投资了数十亿美元。OpenAI没有公布具体模型大小的细节，也没有公布用来训练模型的硬件，理由是“竞争情况”。

OpenAI的GPT大型语言模型为许多人工智能演示提供了支持，包括必应的AI聊天和ChatGPT，这些演示在过去六个月里让科技行业的人们惊叹不已。

最新版本是新技术的预览，可能会在未来几周内开始整合到聊天机器人等消费产品中。微软周二表示，必应的人工智能聊天机器人将使用GPT-4。

OpenAI表示，新模型将产生更少的错误答案，更少地偏离话题，更少地谈论禁忌话题，甚至在许多标准化测试中比人类表现得更好。

OpenAI称，GPT-4在模拟律师资格考试中排名第90，在SAT阅读考试中排名第93，在SAT数学考试中排名第89。

然而，OpenAI警告说，新软件还不完美，在许多情况下，它的能力不如人类。公司表示，它仍然存在“幻觉”或自己编造的主要问题，而且在事实问题上并不可靠。它仍然倾向于在错误的时候坚持自己是正确的。

公司在一篇博客文章中表示：“GPT-4仍有许多已知的局限性，我们正在努力解决，比如社会偏见、幻觉和对抗性提示。”

“在日常谈话中，GPT-3.5和GPT-4之间的区别可能很微妙。当任务的复杂性达到足够的阈值时，差异就显现出来了——GPT-4比GPT-3.5更可靠、更有创造力，能够处理更细致的指令。”

新模式将向付费ChatGPT订阅者开放，也将作为API的一部分提供，允许程序员将AI集成到他们的应用程序中。OpenAI将对750字左右的指令信息收费3美分，对750字左右的响应信息收费6美分。