更强的人工智能：GPT-4抢先用户测评

less than 1 minute read

注：这篇文章是2小时内快速写出来的，难免质量无法保证。

最新版本的GPT于今天（3月14日）发布了。看完了发布会后果断成为付费用户。

这篇文章的目的在于快速测评GPT-4的效果。在之前的文章《关于GPT，人工智能，以及人的一些思考》中，我们探讨了当时的GPT3以及基于其的ChatGPT模型的缺陷。

drawing 正襟危站的发布会的OpenAI创始人小哥Greg Brockman

任务1：复现图灵论文中的对话例子

drawing 图灵论文中的对话例子

在之前的文章中，我是一个一个问题问的ChatGPT。模型也给出了比较令人满意的答案。不过这次我决定加大难度，不直接给出问题，而是让它直接从论文中提取问题并给出回答。 我的问题考察了两个方面：1. 模型对事实性信息（图灵的论文内容）的回顾能力。2. 对问题的回答能力。下面我们看看GPT-4的回答。我的问题如下：

drawing

GPT-4的回答如下：

drawing

可以看出，即使我使用间接方法问问题，模型仍然可以“理解”我的问题并给出答案。对第一个考察点，模型正确地定位到图灵1950年发表的论文及其相关章节。对于第二个考察点，模型的回答喜忧参半。对于第2个问题，这次模型犯了一个上次没犯的低级错误:34957+70764=105721，而不是105621。不过在面对更复杂的第四个问题时，模型给出了更正确的回答。

任务2：带有不确定性的逻辑问题

在前一篇文章中，我问了一个稍微带有不确定性的逻辑问题：

约翰12岁，他有2个哥哥，亚当和亨利。亚当比约翰大2岁。亨利比他爸爸小25岁。问约翰的爸爸至少多少岁。

我们知道GPT-3在这个问题上翻车了，给出了混乱的答案。下面我们看看GPT-4的回答。

drawing GPT-4的答案更有条例

任务3：GPT-3没回答好的问题

在《关于GPT，人工智能，以及人的一些思考》中，我们可以看出有些问题GPT-3没法很好的回答，比如对于事实性问题进行胡编乱造。这里我们对GPT-4问同样的问题，看看是否情况有所改观。

drawing 这次GPT没有自己搞二次创作了

虽然这个回答可以套用到金庸的大多数主角上，但看过倚天屠龙记的人应该对这个答案还是比较满意的。

drawing 对于历史不太了解的人很难辨别这个答案的真伪

这个答案不容易辨别真伪。由于对历史的不了解，我花了十几分钟来判别里面的错误。这些错误可以归纳如下：

清朝叫魂事件不是单一事件，而是一种风潮。而且这个风潮发生在1768年。
索额图出生大约1636年，于1703年逝世。1781年索额图如果还活着应该快150岁了。
索额图活着的时候乾隆还没出生，所以他不可能是乾隆的刑部尚书。不过索额图倒是当过康熙的户部尚书。从这个任务中我们看出GPT虽然“原创”冲动减少了，但更加隐秘了。如果用户不具有质疑精神，估计就被糊弄过去了。随着模型变得越来越强大，这种隐秘性很高的错误将会越来越难被发现。