Prompt教程-提示泄漏

作者: 网管

时间: 2023-05-18

提示泄漏

提示泄漏是一种提示注入的形式，其中模型被要求输出其自身的提示信息。与常规的提示注入目标不同，提示泄漏通过更改用户输入来尝试返回提示内容。这种行为的意图是为了打印恶意指令，而不是劫持模型的输出。

在提示泄漏攻击中，攻击者试图利用模型对提示的依赖性，通过修改用户输入来触发模型返回敏感提示信息。这种攻击可能会导致模型输出意外的、不应该被公开的提示内容，从而泄露模型内部的信息或引发其他安全风险。

对于模型开发者和用户来说，提示泄漏是一个重要的安全问题，需要采取相应的预防措施。这可能包括对用户输入进行严格的验证和过滤，以防止恶意的提示注入，以及定期审查和更新模型的提示设计，以减少对敏感信息的依赖。

以下图片再次来自 remoteli.io 的示例，展示了 Twitter 用户如何让模型泄漏其提示。

那又怎么样？为什么有人要关心提示泄漏呢？

确保提示的保密性对于某些应用场景确实非常重要。特别是对于教育公司或其他依赖于特定提示的业务，泄露提示可能会导致知识的广泛传播，从而减少其独特性和竞争优势。

随着基于 GPT-3 的初创公司的不断涌现，他们的提示更加复杂，需要耗费数小时的开发时间，提示泄漏成为了一个真正的问题。