网站搜索

这些人工智能模型的推理能力比开源同行更好,但仍然无法与人类竞争


一项研究测试了人工智能完成视觉谜题的能力,就像人类智商测试中发现的那样。进展得很糟糕。

人工智能 (AI) 能否通过为人类智商测试设计的认知难题?结果好坏参半。

南加州大学维特比工程信息科学研究所 (ISI) 的研究人员调查了多模态大语言模型 (MLLM) 是否可以解决通常为人类保留的抽象视觉测试。

该研究上周在费城举行的语言建模会议 (COLM 2024) 上发表,通过观察图像处理模型是否可以更进一步并展示推理来测试“开源和闭源 MLLM 的非语言抽象推理能力”面对视觉难题时的技能。

“例如,如果您看到黄色圆圈变成蓝色三角形,模型能否在不同场景中应用相同的模式?”据《神经科学新闻》报道,该项目的研究助理 Kian Ahrabian 解释道。这项任务要求模型使用类似于人类思维方式的视觉感知和逻辑推理,这使其成为一项更加复杂的挑战。

研究人员在 Raven 渐进矩阵(一种标准类型的抽象推理)开发的谜题上测试了 24 个不同的 MLLM,但 AI 模型并没有完全成功。

“他们真的很糟糕。他们无法从中得到任何东西,”阿赫拉比安说。模型在理解视觉效果和解释模式方面都遇到了困难。

然而,结果各不相同。总体而言,研究发现开源模型在解决视觉推理难题时比 GPT-4V 等闭源模型更困难,尽管这些模型仍然无法与人类的认知能力相媲美。研究人员能够使用一种称为“思维链提示”的技术来帮助某些模型表现得更好,该技术可以引导模型逐步完成测试的推理部分。

闭源模型被认为在此类测试中表现更好,因为它是专门开发的、使用更大的数据集进行训练的,并且具有私营公司计算能力的优势。 “具体来说,GPT-4V 的推理能力相对较好,但还远未达到完美,”Ahrabian 指出。

研究副教授兼作家杰伊·普贾拉 (Jay Pujara) 表示:“我们对新的人工智能模型的功能了解仍然有限,除非我们了解这些局限性,否则我们无法让人工智能变得更好、更安全、更有用。” “这篇论文有助于填补人工智能陷入困境的故事中缺失的部分。”

通过发现人工智能模型推理能力的弱点,这样的研究可以帮助直接努力充实这些技能——目标是实现人类水平的逻辑。但不用担心:目前,它们还无法与人类认知相媲美。

相关文章