网站搜索

有人会错误地指控您使用人工智能生成的文本吗?这可能就是为什么


如果您的母语不是英语,您应该知道 GPT 检测器对您有偏见。

人工智能(AI)在过去几个月中越来越受欢迎,但包括教育在内的一些领域仍然存在争议。这种担忧主要集中在学生使用生成式人工智能工具(例如 ChatGPT)完成工作(包括撰写论文或创建代码)的潜力。

一些教授允许在课堂上使用该技术,另一些教授则禁止,还有一些教授自行决定是否允许使用,其中可能包括审查所有学生使用 GPT 检测器的工作。 Patterns 最近发表的一篇经过同行评审的论文显示,研究人员发现,当文本由非英语母语作家撰写时,用于检测文本是由人工智能还是人类生成的程序更经常将其错误地标记为人工智能生成。

在这项研究中,研究人员测试了七种广泛使用的 GPT 检测器的性能,其中包括 91 篇由中国人为英语作为外语考试 (TOEFL) 撰写的论文,以及 88 篇由美国八年级学生撰写的论文,这些论文来自于休利特基金会的自动学生评估奖(ASAP)。

GPT 检测器准确地对所有美国学生论文进行了分类,但错误地将平均 61% 的托福论文错误地标记为人工智能生成的。其中一个检测器错误地将 97.8% 的托福论文标记为由人工智能生成。

研究还发现,这些 GPT 检测器在发现抄袭方面并不像用户所认为的那样有效。许多探测器宣称其准确度为 99%,但没有证据支持这一说法。

研究人员使用 ChatGPT 生成文章,GPT 检测器发现 70% 的文章是人工智能生成的。但简单的提示,例如要求 ChatGPT“通过使用文学语言来提升所提供的文本”,足以改进文本,将这一数字减少到 3%,这意味着 GPT 检测器随后错误地确定这些文章是由人类撰写的,其中 97% 的文章是由人类撰写的。时间。

斯坦福大学的资深作者詹姆斯·邹(James Zou)表示:“我们目前的建议是,我们应该非常小心,甚至尽可能避免使用这些探测器。”

作者将这些错误归因于 GPT 检测器偏爱复杂的语言,而惩罚非英语母语作家常用的简单单词选择。他们发现托福论文表现出较低的文本复杂度,这让人工智能模型“感到惊讶”。如果 GPT 检测器很难预测文章中的下一个单词,那么更有可能假设该文本是人写的;如果相反,它将假设人工智能创造了它。

“如果你使用常见的英语单词,检测器将给出较低的困惑度分数,这意味着我的文章很可能被标记为人工智能生成的。如果你使用复杂和更奇特的单词,那么它更有可能被归类为由人工智能撰写的人类撰写的文章。算法,”邹解释道。

一般来说,检测人工智能生成的内容可能很困难,这就是第三方计算机程序形式的检测方法变得流行的原因。然而,研究表明,这些工具可能会在评估和教育环境中将非英语母语作家边缘化。

“如果这些探测器用于审查工作申请、大学入学论文或高中作业等内容,可能会产生重大后果,”邹解释道。

矛盾的是,该研究指出,GPT 检测器有可能促使非英语母语人士使用更具生成性的人工智能工具,以逃避检测并提高他们的语言技能,这将有助于他们避免潜在的骚扰和可见性受限,从而避免潜在的骚扰和可见性受限。受到歧视的结果。