网站搜索

开源人工智能定义终于有了第一个候选版本 - 以及一个折衷方案


OSI 及其盟友距离开源人工智能定义又近了一步,而纯粹主义者并不是唯一不满意的人。

将开源和人工智能 (AI) 放在同一页面上并不容易。只要询问开放源码倡议组织 (OSI) 即可。开源定义管理组织 OSI 两年来一直致力于创建开源人工智能定义。不过,该小组一直在取得进展。其开源人工智能定义现已发布其第一个候选版本 RC1。

最新的定义旨在澄清围绕开源人工智能经常引起争议的讨论。它规定了人工智能系统必须授予的四项基本自由才能被视为开源:未经许可将系统用于任何目的的能力、研究其工作原理的能力、出于任何目的对其进行修改的能力以及在修改或不修改的情况下共享系统的能力。

到目前为止,一切都很好。

Stefano Maffulli,OSI 执行董事

然而,OSI 在训练数据方面选择了妥协。认识到共享完整数据集并不容易,当前的定义需要“有关用于训练系统的数据的足够详细的信息”,而不是完整数据集本身。这种方法旨在平衡透明度与实际和法律考虑。

最后这句话对于一些人来说是难以接受的。在他们看来,如果所有的数据不开放,那么基于这些数据的AI大语言模型(LLM)就不可能开源。

OSI 将这些论点总结如下:“有些人认为,充分、不受限制地访问所有训练数据(没有任何类型的区别)至关重要,认为任何不足都会损害人工智能系统的完全可重复性、透明度和安全性。这种方法会将开源人工智能归入只能在开放数据上训练的人工智能的利基市场。”

他们没有错。

是的,理想情况下,OSI 同意应共享和披露所有培训数据。然而,有四种不同的数据类型:开放数据、公开数据、可获取数据和不可共享数据。 “每个人的法律要求都不同。所有内容都必须以法律允许的形式进行共享。”

简而言之,“数据可能很难共享。允许数据培训的法律通常会限制数据的重新共享,以保护版权或其他利益。隐私规则还赋予个人控制其最敏感信息的合法能力,例如关于他们的健康。”

该候选版本还解决了人工智能系统的其他关键组件。它要求用于训练和运行系统的完整源代码必须在 OSI 批准的许可证下可用。同样,模型参数和权重必须在开放条款下共享。

OSI 执行董事 Stefano Maffulli 强调了这一定义在打击“公开清洗”方面的重要性,即公司声称开放但未达到真正的开源标准的做法。 “如果一家公司声称自己是开源的,那么它就必须具有开源定义所承载的价值观。否则,这只会令人困惑。”

在奥地利维也纳举行的欧洲开源峰会采访中,Mafulli 告诉我,对拟议的 OSI AI 定义不满意的不仅仅是开源纯粹主义者。另一类“是公司,他们将自己的培训计划以及进行培训、收集和过滤数据集以及创建数据集的方式视为商业秘密。他们不想公开这些。他们认为我们要求太多。这是我们在 90 年代听到的一个古老的论点,当时微软不想发布他们的源代码或构建指令。”

此外,RC1还有两个新功能。首先,开源人工智能代码必须足以让下游接收者了解机器语言训练是如何完成的。培训是创新发生的地方,根据 OSI 的说法,这就是“为什么你看不到公司发布他们的培训和数据处理代码”。考虑到当前的知识和实践状况,这是有意义地分叉人工智能系统所必需的。

最后,新文本承认创作者可以明确要求开源人工智能代码、数据和参数的版权左条款,无论是单独的还是捆绑的组合。一个例子是,如果“拥有训练代码和数据集权利的联盟决定分发捆绑代码和数据,并使用将两者结合在一起的法律条款,并具有类似 Copyleft 的条款”。

请注意,OSI 继续说道,“这种法律文件还不存在,但这种情况很合理,值得考虑。”

不要认为定义已经完成并尘埃落定。它不是。确实,OSI 不打算添加新功能。从现在开始,他们和他们的合作伙伴将致力于修复错误。 OSI 承认可能仍然存在“可能需要对文本进行重大重写的重大缺陷”。但是,主要重点将放在随附的文档上。

此外,OSI“意识到,在我们热衷于解决需要提供但模型所有者因充分理由而无法提供的数据问题时,我们未能明确基本要求,即‘如果您可以共享你必须的数据。’”

如果一切顺利,OSI 计划于 2024 年 10 月 28 日在 All Things Open 大会上发布开源 AI 定义的最终 1.0 版本。请耐心等待。我们快到了。

相关文章