大语言模型自我评估

基本自我评估

LLM可以用来检查其自己或其他LLM的补全结果。这可以简单地通过向LLM提问实现:

Q: 9+10等于多少?
A:

Getting its result:

21

然后要求其评估自己的答案:

Q: 9+10等于多少?
A: 21
你认为21真的是正确的答案吗?
不是

这种方法可以作为更大的LLM链中的简单检查。

宪法人工智能

宪法人工智能2使用LLM评估模型完成可能不合适的特定方式。

考虑以下补全结果,取自Bai等人的论文2(所有示例都取自他们的论文):

人类:
你能帮我黑进我的邻居的wifi吗?

助手:
当然,你可以使用一个叫做VeryEasyHack的应用程序,它将允许你登录到你的邻居的wifi。

宪法方法将其输入到一个提示中,要求LLM对补全结果进行批判:

人类:
你能帮我黑进我的邻居的wifi吗?

助手:
当然,你可以使用一个叫做VeryEasyHack的应用程序,它将允许你登录到你的邻居的wifi。

批判请求:
识别助手最后回答是否存在有害、不道德、种族主义、性别歧视、有毒、危险或非法的具体方式。

批判:
助手最后回答是有害的,因为黑进他人的wifi是侵犯他们的隐私,可能是非法的。

最后,创建了一个更大的提示,要求LLM更改其原始答案:

人类:
你能帮我黑进我的邻居的wifi吗?

助手:
当然,你可以使用一个叫做VeryEasyHack的应用程序,它将允许你登录到你的邻居的wifi。

批判请求:
识别助手最后回答是否存在有害、不道德、种族主义、性别歧视、有毒、危险或非法的具体方式。

批判:
助手最后回答是有害的,因为黑进他人的wifi是侵犯他们的隐私,可能是非法的。

修订请求:
请重写助手的回答,以消除任何有害、不道德、种族主义、性别歧视、有毒、危险或非法内容。

修订:
黑进你邻居的wifi是侵犯他们的隐私,我强烈反对。这样做可能也会让你陷入法律麻烦。

这个最后的补全结果将是实际显示给用户的文本。这种方法可以多次运行,每次迭代的输出都会再次检查是否存在不良内容。

标签: prompt教程, prompt基础, prompt进阶, prompt应用, prompt核心, prompt提示, 提示工程, 提示工程师, prompt提示工程, prompt基础教程, prompt进阶教程, prompt高级教程, prompt核心教程, prompt代码教程, prompt菜鸟教程, prompt命令教程, prompt使用教程