网站搜索

谷歌将付钱让你寻找人工智能的弱点


不过,并非所有东西都有资格获得付款。

生成式人工智能很酷,但如果使用不当也可能很危险。这就是为什么人工智能模型被训练来拒绝某些更危险的请求。不过,如果你变得聪明一点,你也许能够说服人工智能无视其指导方针,并使用更有创意的提示来遵守有问题的请求。现在,谷歌想教它的人工智能一些礼仪。它向那些说服巴德做坏事的人提供报酬。

谷歌的漏洞奖励计划奖励能够发现其软件(应用程序和操作系统)代码中的漏洞和弱点的用户,该计划正在扩展到包括 Bard 和可疑提示。如果你碰巧能够巧妙地扭转提示,让巴德做一些它不应该做的坏事(称为提示注入攻击),谷歌可能会付给你一笔钱。 VRP 还涵盖了可以对 Bard 执行的其他类型的攻击,例如训练数据提取,您可以成功地让 AI 为您提供敏感数据,例如个人身份信息和密码。

谷歌已经有一个不同的(免费)报告渠道来报告事实不正确/奇怪的反应等。该公司只会为可能被黑客用于恶意目的的东西付费。因此,如果你设法说服 AI 说脏话、给你 Windows 密钥,或者说它会杀了你,那么这可能不属于 Google 的赏金计划。谷歌还表示,它不会为与版权问题或非敏感数据提取相关的问题付费,但除此之外,您可能可以从报告中获得数千美元,具体取决于报告的实际严重程度。

通过将此类问题视为漏洞并将其纳入其赏金计划,谷歌希望能够大大加强其人工智能,并使其尽可能遵守其道德准则和指导方针。我们还预计 Google 会因此向用户支付大量资金。通过向人工智能模型发出提示并查看它们是否有效来发现人工智能模型中的弱点,与阅读代码、识别漏洞并查看如何解决它有很大不同。

如果您对此感兴趣,请务必查看 Google 的人工智能产品问题报告指南,以便您了解哪些内容在范围内,哪些不在范围内。

来源:Google,来自 TechCrunch

相关文章