网站搜索

谷歌、加州大学洛杉矶分校如何促使人工智能选择下一步行动以获得更好的答案


大型语言模型不是吐出仅与提示相关的文本,而是可以生成诸如网络搜索之类的操作来查找正确答案。

谷歌的AVIS程序可以动态选择一系列要执行的步骤,例如识别图片中的对象,然后查找有关该对象的信息。

无论提出什么问题,人工智能程序都能给出答案,这让公众眼花缭乱。然而,答案的质量常常达不到要求,因为 ChatGPT 等程序仅响应文本输入,没有特定的主题基础,因此可能会产生彻底的虚假信息。

加州大学和 Google 最近的一个研究项目使 Chat-GPT 等大型语言模型能够选择特定的工具(无论是网络搜索还是光学字符识别),然后该工具可以通过多个步骤从替代工具中寻求答案来源。

结果是“计划”和“推理”的原始形式,这是程序在每个时刻确定应如何处理问题以及一旦解决后解决方案是否令人满意的方法。

加州大学洛杉矶分校的 Ziniu Hu 及其同事以及 Google Research 的合作作者的这项成果被称为 AVIS(“使用大型语言模型进行自主视觉信息搜索”),已发布在 arXiv 预印本服务器上。

AVIS 建立在 Google 的 Pathways 语言模型(PaLM)之上,PaLM 是一种大型语言模型,已产生多个版本,适用于生成 AI 的各种方法和实验。

AVIS 继承了最近研究的传统,寻求将机器学习程序转变为“代理”,其作用比简单地生成下一个单词预测更广泛。其中包括今年推出的“人工智能驱动的任务管理系统”BabyAGI,以及谷歌研究人员今年推出的PaLM*E,它可以指导机器人在物理空间中遵循一系列动作。

AVIS 计划的重大突破在于,与 BabyAGI 和 PaLM*E 不同,它不遵循预先设定的行动方针。相反,它使用一种称为“规划器”的算法,根据每种情况的出现,在动态操作之间进行选择。这些选择是在语言模型评估提示文本时生成的,将其分解为子问题,然后将这些子问题与一组可能的操作相关联。

甚至行动的选择在这里也是一种新颖的方法。

胡和同事对 10 个人进行了一项调查,他们必须回答同样类型的问题——比如“这种昆虫叫什么名字?”如图所示。他们对工具的选择,例如谷歌图像搜索,都被记录下来。

然后,作者将这些人类选择的例子放入他们所谓的“转换图”中,这是人类如何在每个时刻选择工具的模型。

然后规划器使用该图表,从“相关的上下文示例[…],这些示例是根据人类之前做出的决策组合而成的”。实际上,这是一种让程序根据人类的选择进行自我建模的方法,通过使用过去的示例作为语言模型的更多输入。

为了检查其选择,AVIS 程序有第二种算法,即“推理器”,它会在语言模型尝试过每个工具后评估其有用性,然后再决定是否输出原始答案问题。如果特定的工具选择没有帮助,Reasoner 会将 Planner 返回到绘图板。

整个 AVIS 工作流程包括设计问题、选择工具,然后使用 Reasoner 检查该工具是否产生了令人满意的答案。

Hu 和团队在一些视觉问答的标准自动化基准测试(例如卡内基梅隆大学研究人员于 2019 年推出的 OK-VQA)上对 AVIS 进行了测试。他们报告说,在该测试中,AVIS 的准确度达到了 60.2,高于大多数针对该数据集定制的现有方法。换句话说,这里的通用方法似乎超越了为适应特定任务而精心定制的方法,这是机器学习人工智能日益普遍的一个例子。

最后,胡和团队指出,他们希望在未来的工作中不仅仅局限于图像问题。他们写道:“我们的目标是扩展我们由法学硕士驱动的动态决策框架,以解决其他推理任务。”

相关文章