检测AI生成的文本

对于安全研究人员和教育工作者等群体来说,检测AI生成的文本是一个重大问题。已经有一些工具,如GPTZero、GPT2检测器和双语检测器,取得了显著的成功,但它们仍然存在被欺骗的可能性。

OpenAI和其他研究人员正在努力在生成的文本中引入统计数字水印,但这种方法也可能被修改大量文本的方式所欺骗。

AI文本检测问题可能会成为一场军备竞赛,随着新模型和新的检测方法的出现,这个问题也将不断演进。许多公司已经开始构建声称非常有效的解决方案,但随着时间的推移,很难进行充分的验证,特别是由于模型本身的变化。

本文将介绍一些当前用于检测AI生成文本的方法,而下一篇文章将讨论人们发现的欺骗这些方法的方式。

OpenAI文本分类器

OpenAI文本分类器是一个相当不错的通用AI文本检测器。通过在大量AI生成的数据和同等质量的人类写作文本上训练模型,该检测器能够评估给定文本是由语言模型生成的可能性。

它有一些限制,例如,它不接受少于1000个单词的输入,文本可以轻易地被编辑以干扰概率计算。此外,由于其训练集更专注于特定领域,它难以处理儿童或非英语用户生成的文本。

目前,该分类器只能正确标识出9%的人工生成文本,对AI生成文本的正确识别率约为26%。随着模型的改进和范围的扩大,这些数字可能会提高,但可能需要更具特殊性的检测器来全面评估文本是否由AI生成。

数字水印方法

一种检测AI生成文本的方法是在生成过程中引入统计数字水印。这些技术可以使用语言模型的"白名单",即确定文本是否由特定的AI模型生成的方法。水印是通过在生成单词之前选择一组随机的"绿色"标记,并在采样过程中轻微地偏向选择所选标记。这些加权值对生成的质量影响很小,但可以被另一个语言模型算法检测到。

这是一个有趣的想法,但需要模型的创建者将该框架实施到他们的语言模型中。如果模型没有内置的水印机制,这种方法将无效。

DetectGPT

DetectGPT4方法能够在较小的设置下检测AI生成的文本。研究人员发现,语言模型生成的文本倾向于"占据模型的对数概率函数的负曲率区域"。因此,可以创建一个基于曲率的系统来确定文本块是否是由程序生成的。

其工作原理是从被认为是生成文本的模型中计算对数概率,并将其与来自另一个预先训练的通用语言模型的文本进行随机修改进行比较。这样,DetectGPT能够仅使用概率曲线来确定段落是由语言模型生成的可能性!

标签: prompt教程, prompt基础, prompt进阶, prompt应用, prompt核心, prompt提示, 提示工程, 提示工程师, prompt提示工程, prompt基础教程, prompt进阶教程, prompt高级教程, prompt核心教程, prompt代码教程, prompt菜鸟教程, prompt命令教程, prompt使用教程