Perplexity Pro 的 AI 绝对通过了我的编码测试 - 但有一个问题
Perplexity Pro 值得订阅费吗?这可能取决于您使用它的用途,但它应该可以很好地帮助您编程。原因如下。
几周前,我针对免费版本的 Perplexity.ai 聊天机器人运行了我的标准编程测试套件。在文章末尾,如果你们有足够多的人感兴趣,我愿意对 20 美元/月专业版 进行测试。我确实收到了一些请求,所以这就是我们在这里所做的。
与大多数其他专业版本一样,要使用 Perplexity Pro,您必须创建一个帐户。您可以使用 Google 或 Apple 身份验证方法或 SAML 登录进行登录。或者,您可以使用您的电子邮件地址创建一个帐户,这就是我所做的。
不幸的是,该网站似乎没有为您提供任何设置密码或任何形式的多重身份验证的方法。您会收到一封包含代码的电子邮件,仅此而已。我不介意获得电子邮件代码,但我对仅依赖电子邮件代码而至少没有密码的网络应用程序感到非常不安。但这正是 Perplexity.AI 正在做的事情。
Perplexity Pro 的另一个有趣的方面是它丰富的人工智能模型。如下图所示,您可以根据您的工作类型在多种不同的模型之间进行选择。我选择“默认”来看看它对测试有何影响。运行测试后,我询问 Perplexity Pro 使用的是什么模型,它告诉我 ChatGPT GPT-4。
接下来,让我们运行一些测试。
1. 编写 WordPress 插件
对于任何具有一点网络编程经验的人来说,这个挑战都是相当简单的编程任务。它在管理仪表板中提供了一个用户界面,其中包含两个字段:一个是要随机化的名称列表,另一个是输出。
唯一真正的问题是名称列表可以有重复项,它的说明不是删除多余的名称,而是确保重复的名称彼此分开。
这是我妻子需要在她的电子商务网站上使用的真实需求功能。每个月,他们都会进行轮盘旋转,有些人有资格获得多次参赛资格。
使用 Perplexity Pro 的默认模型,AI 成功生成了可行的用户界面和功能代码,提供了 PHP 块和 JavaScript 块来控制文本区域和随机化逻辑。
以下是本次测试和之前测试的汇总结果:
- Perplexity Pro: 界面:良好,功能:良好
- 困惑:界面:良好,功能:良好
- Claude 3.5 Sonnet: 界面:良好,功能:失败
- 使用 GPT-4o 的 ChatGPT:界面:良好,功能:良好
- Microsoft Copilot:界面:足够,功能:失败
- Meta AI: 界面:足够,功能:失败
- 元代码骆驼: 完全失败
- Google Gemini Advanced: 界面:良好,功能:失败
- 使用 GPT-4 的 ChatGPT:界面:良好,功能:良好
- 使用 GPT-3.5 的 ChatGPT: 界面:良好,功能:良好
2.重写字符串函数
对于每个测试,我都会与人工智能打开一个新会话。在这个测试中,我要求人工智能重写有错误的代码块。该代码旨在验证美元和美分的输入,其中应包含小数点前的一定位数、可能的小数点以及小数点后的两位数。
不幸的是,我发布的代码只允许整数。在收到一些用户报告后,我决定将代码提供给人工智能进行重写。我的代码使用正则表达式,这是指定格式的公式化方式。正则表达式本身很有趣,但调试它们就不那么有趣了。
在本次测试中,Perplexity Pro 表现不错。生成的验证代码正确标记了不符合美元和美分格式的项目,允许小数点后最多两位数字。
以下是本次测试和之前测试的汇总结果:
- Perplexity Pro: 成功
- 困惑:成功
- 克劳德 3.5 十四行诗: 失败
- 使用 GPT-4o 的 ChatGPT:成功
- Microsoft Copilot:失败
- 元人工智能:失败
- 元代码骆驼:成功
- Google Gemini 高级版:失败
- 使用 GPT-4 的 ChatGPT:成功
- 使用 GPT-3.5 的 ChatGPT: 成功
3. 发现烦人的错误
这个测试让我困惑了几个小时。在进行测试之前,这是实际产品代码中的错误。问题在于,无论发生什么问题,都与任何明显的逻辑或语言问题无关。
由于非常沮丧,我决定向 ChatGPT 提供代码和错误转储,并向其寻求帮助。幸运的是,它发现了我做错的地方,并指导我如何修复。
我之所以将其包含在测试集中,是因为该错误不在语言或逻辑中,而是在 WordPress 框架的知识中。虽然 WordPress 很流行,但框架知识通常被认为是编程环境的民间传说,是从开发人员传承到开发人员的东西,而不是通过知识库严格学习的东西。
然而,ChatGPT 以及 Perplexity 和现在的 Perplexity Pro 确实发现了这个问题。该错误是由于框架本身隐藏的参数调用问题造成的。通过严格阅读代码生成的错误消息,您可能会得出明显的答案,但实际上是错误的。
为了解决这个问题,人工智能必须更深入地了解所有系统如何协同工作,Perplexity Pro 成功做到了这一点。
以下是本次测试和之前测试的汇总结果:
- 困惑:成功
- Perplexity Pro: 成功
- 克劳德 3.5 十四行诗: 成功
- 使用 GPT-4o 的 ChatGPT: 成功
- Microsoft Copilot:失败
- 元人工智能:成功
- 元代码骆驼:失败
- Google Gemini 高级版:失败
- 使用 GPT-4 的 ChatGPT:成功
- 使用 GPT-3.5 的 ChatGPT: 成功
4. 编写脚本
嗯,这很有趣。 Perplexity Pro 通过了这个测试,但免费版本的 Perplexity 在我几周前测试时失败了。所以,耶!
但让我们深入探讨一下。这里的挑战是,我要求 AI 编写一个跨越三个环境的脚本:Chrome DOM(文档对象模型)、AppleScript(Apple 的本机脚本语言)和 Keyboard Maestro(一种非常酷的 Mac 自动化工具,相当晦涩,但对我来说,任务关键)。
大多数 AI 都失败了,因为他们的知识库中没有关于 Keyboard Maestro 的任何信息,因此没有提供脚本执行我想要的操作所需的代码。
到目前为止,只有使用 GPT-4 和 GPT-4o 的 Gemini Advanced 和 ChatGPT 通过了此测试。在回答这个问题时,Perplexity Pro 提供了 Pro Search 视图。如您所见,专业搜索视图搜索了“Keyboard Maestro AppleScript Google Chrome 选项卡”。它还使用主要的 Keyboard Maestro 论坛作为来源,这是获得 Keyboard Maestro 编码帮助的最佳来源。
结果成功了。
以下是本次测试和之前测试的汇总结果:
- Perplexity Pro: 成功
- 困惑:失败
- 克劳德 3.5 十四行诗: 失败
- 使用 GPT-4o 的 ChatGPT:成功,但有保留
- Microsoft Copilot:失败
- 元人工智能:失败
- 元代码骆驼:失败
- Google Gemini 高级版:成功
- 使用 GPT-4 的 ChatGPT:成功
- 使用 GPT-3.5 的 ChatGPT: 失败
总体结果
以下是四项测试的总体结果:
- Perplexity Pro: 4 次成功
- 困惑:四分之三成功
- 克劳德 3.5 十四行诗:四分之一成功
- 使用 GPT-4o 的 ChatGPT:四分之四成功,但有警告
- Microsoft Copilot:4 次成功中有 0 次成功
- 元 AI:四分之一成功
- 元代码骆驼:四分之一成功
- Google Gemini 高级版:四分之二成功
- 使用 GPT-4 的 ChatGPT:四分之四成功
- 使用 GPT-3.5 的 ChatGPT:四分之三成功
正如您所看到的,Perplexity Pro 仅与 ChatGPT、GPT-4 和 GPT-4o 一起获得满分 4 分(满分 4 分)。运行测试后,我检查了 Perplexity Pro 的 AI,它告诉我它使用 GPT-4 来分析和响应我的测试。
鉴于 GPT-4/4o 是唯一一个通过了我之前所有四项测试的 AI,这是有道理的。到目前为止,我还没有找到任何其他模型可以完全正确地通过所有四个编程测试。
如果你选择 Perplexity Pro,我可以相当自信地说它应该能够很好地帮助你编程。
您是否尝试过使用 Perplexity、Copilot、Meta AI、Gemini 或 ChatGPT 进行编码?你的经历是什么?请在下面的评论中告诉我们。
您可以在社交媒体上关注我的日常项目更新。请务必订阅我的每周更新时事通讯,并在 Twitter/X 上关注我:@DavidGewirtz、Facebook 上:Facebook.com/DavidGewirtz、Instagram 上:Instagram.com/DavidGewirtz 和 YouTube 上:YouTube.com/DavidGewirtzTV。