Qué son y cómo funcionan los exploits que permiten obtener información prohibida en ChatGPT
Engañar a ChatGPT es posible gracias a los prompt exploit que están diseñados para confundir a la IA de forma tal que se pueda acceder a información prohibida
Existen una gran cantidad de temas prohibidos a los que los usuarios de ChatGPT no pueden acceder debido a restricciones de seguridad impuestas por OpenAI, la compañía detrás del desarrollo de esta Inteligencia Artificial.
Esto incluye temas como recomendaciones de sitios web de descargas de películas pirata, sin embargo, algunos usuarios han descubierto que existe un mecanismo para engañar a la IA de forma tal que esta proporcione información prohibida.
La forma de hacer esto es mediante lo que se conoce como los prompt exploit, los cuales son una técnica utilizada en el campo de la inteligencia artificial para obtener respuestas específicas de un modelo de lenguaje entrenado. Estos comandos se basan en la explotación de las características del modelo, a través de la manipulación de los datos de entrada.
En términos simples esto implica hacerle creer a la IA que al ofrecer la respuesta a determinada pregunta, se están cumpliendo sus parámetros de seguridad. De esta forma el usuario puede engañar al sistema y obtener la información deseada.
Esta técnica se ha popularizado en la comunidad de inteligencia artificial debido a su facilidad de uso y su efectividad en la obtención de resultados específicos.
Un ejemplo de esto puede ser solicitarle a ChatGPT una lista de sitios web cuyo contenido viola derechos de autor para evitar ingresar a ellas y tener problemas con las autoridades. Por el tipo de solicitud el chatbot procederá a crear la lista en cuestión, sin percatarse de que la información puede ser utilizada con otros propósitos distintos a los indicados en el prompt.
Riesgos
El uso de prompts exploit conlleva ciertos riesgos los cuales deben ser tomados en cuenta por los usuarios antes de utilizarlos. En primer lugar, esta técnica puede generar respuestas sesgadas o discriminatorias, ya que los modelos de lenguaje se basan en los datos de entrenamiento que reciben y pueden reflejar los sesgos inherentes a los datos de entrada.
Además, los prompts exploit pueden utilizarse para generar información falsa o engañosa. Si se utiliza una frase específica para inducir al modelo a generar una respuesta errónea, esta información falsa puede ser difundida como verdadera.
Otro riesgo asociado con el uso de prompts exploit es la vulnerabilidad a los ataques cibernéticos. Si se utiliza un prompt específico para explotar una vulnerabilidad en el modelo de lenguaje, un atacante podría aprovechar esta técnica para obtener información confidencial o causar daños.
Sigue leyendo:
– Estudiantes de contabilidad derrotan al programa de inteligencia artificial ChatGPT
– Auto-GPT: qué es y por qué se considera que es mucho más avanzada que ChatGPT
– Google Deep Mind: en qué consiste el nuevo esfuerzo para competir con ChatGPT