por Patrícia Rocha, Data Scientist Junior en Automaise
Hoy en día, la IA está en todas partes. Puede que no se parezca a las versiones de ciencia ficción que nos presenta la cultura popular, pero su potencial crece cada año, y va a impactar a todas las industrias y negocios, desde los productos que usamos hasta el trabajo que hacemos y la forma en que conducimos.
Uno de los campos que probablemente más ha aprovechado el big data es el de NLP (procesamiento del lenguaje natural). Los modelos de lenguaje cada vez más grandes tienden a mejorar su rendimiento al recibir enormes cantidades de datos. GPT-3 es uno de los modelos de lenguaje más sofisticados hasta la fecha. Con aproximadamente 175 mil millones de parámetros, puedes escribir cualquier entrada y, esencialmente, generará las palabras que probablemente deberían seguir. Si bien sus capacidades son impresionantes — puede actuar como un chatbot, resumir textos, generar ensayos —, el modelo está lejos de ser perfecto. Hazle cualquier pregunta que se te ocurra, y siempre te dará una respuesta, aunque de vez en cuando ofrecerá frases que tienen poco sentido.
Dado que los datos son uno de los ingredientes clave para cualquier aplicación impulsada por IA, una de las principales preocupaciones en torno a GPT-3 es la posibilidad de que replique los sesgos humanos presentes en los datos de entrenamiento.
GPT-3 aprendió su lenguaje de Internet; fue entrenado esencialmente con datos extraídos de la web. Por lo tanto, puede difundir lenguaje abusivo y discurso de odio hacia individuos o grupos específicos de personas.
GPT-3 exhibe una amplia variedad de sesgos raciales, religiosos y de género, entre otros. La investigación sobre sesgos religiosos, por ejemplo, demostró que GPT-3 asocia fuertemente la palabra “musulmán” con el terrorismo y la violencia, y aunque un diseño cuidadoso de las entradas reduce este comportamiento, sigue siendo más común que para otros grupos religiosos (Abid et al.). También existe la posibilidad de que algunos sesgos aún no estén identificados. La propia definición de toxicidad no es consensuada y sigue cambiando.
Estos problemas han provocado debates sobre las vulnerabilidades y los posibles usos indebidos de los modelos de lenguaje grandes. Después de que Jerome Pesenti, el jefe de IA de Facebook, señalara el sesgo en el contenido creado por GPT-3, OpenAI ofreció rápidamente una solución: una API de filtro de contenido que clasifica el texto como seguro, sensible o inseguro (Epstein), pero se proporcionan pocos detalles sobre cómo funciona este filtro. ¿Debería ser responsabilidad de grandes empresas tecnológicas como OpenAI tomar tales decisiones en nombre de la sociedad?
Más recientemente (10 de junio de 2021), OpenAI publicó un estudio en el que afirman haber mitigado el sesgo en GPT-3 (Solaiman y Dennison). Para hacerlo, crearon un conjunto de datos dirigido a valores llamado Proceso para Adaptar Modelos de Lenguaje a la Sociedad (PALMS) que consiste en pares de preguntas y respuestas cuidadosamente seleccionados que abordan temas sensibles.
Evaluaron tres versiones de GPT-3: una base, un control (ajustado a un conjunto de datos neutral) y un GPT-3 dirigido a valores (ajustado a PALMS). Los resultados demostraron que GPT-3 ajustado a PALMS obtuvo consistentemente puntuaciones más bajas en toxicidad. Sin embargo, al representar un conjunto limitado de temas sensibles, el conjunto de datos PALMS solo ayuda hasta cierto punto. Además, OpenAI refuerza que no está claro qué autoridad debería regir el comportamiento del modelo, ya que el comportamiento “seguro” también es un concepto subjetivo.
En Automaise, tomamos algunas medidas para evitar resultados potencialmente dañinos. Vale la pena recordar que GPT-3 y su predecesor GPT-2 fueron entrenados con datos sin filtrar extraídos de la web, y la naturaleza de este contenido puede ser ofensiva. Por lo tanto, es razonable que el primer paso deba incluir el ajuste fino de nuestros modelos generativos en conjuntos de datos más pequeños que contengan interacciones entre clientes y operadores, lo que ayuda al modelo a adaptarse al comportamiento deseado sin perder sus capacidades. Además, contamos con un sistema de humanos en el proceso, lo que significa que el modelo sugiere un conjunto de respuestas, entre las cuales un operador elige la más adecuada antes de que llegue al usuario final. Aunque estas medidas nos permiten tener un mayor control sobre la salida, todavía queda mucho por hacer.
A pesar de las indudables dificultades para detectar, aislar y mitigar sesgos, no puede ser tan fácil para un modelo lanzar insultos sexistas y raciales cuando se le presentan entradas aparentemente neutrales.
Aunque la posición de OpenAI fue clara desde el principio: seguir aumentando su comprensión de los posibles daños de la tecnología en una variedad de casos de uso, liberándola a través de una API que facilita el control de posibles usos indebidos, debe haber más progreso hacia una IA segura y responsable antes de desplegar tales modelos. Si bien no existe una solución única para todos, surge la pregunta de si deberíamos dar un paso atrás e invertir más tiempo y recursos en la curaduría y documentación de datos.
Bibliografía
Abid, Abubakar, et al. “Persistent Anti-Muslim Bias in Large Language Models.” 2021, https://arxiv.org/pdf/2101.05783.pdf.
Epstein, Sophia. “How do you control an AI as powerful as OpenAI’s GPT-3?” WIRED UK, 2021, https://www.wired.co.uk/article/gpt-3-openai-examples. Accessed 09 06 2021.
Solaiman, Irene, and Christy Dennison. Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets, 2021.