Paper Spotlight

Luchando contra el Sesgo en Modelos de Lenguaje Grandes

13/06/2021
3m 34 seg

Home

Paper Spotlight

Luchando contra el Sesgo en Modelos de Lenguaje Grandes

por Patrícia Rocha, Data Scientist Junior en Automaise

Hoy en día, la IA está en todas partes. Puede que no se parezca a las versiones de ciencia ficción que nos presenta la cultura popular, pero su potencial crece cada año, y va a impactar a todas las industrias y negocios, desde los productos que usamos hasta el trabajo que hacemos y la forma en que conducimos.

Uno de los campos que probablemente más ha aprovechado el big data es el de NLP (procesamiento del lenguaje natural). Los modelos de lenguaje cada vez más grandes tienden a mejorar su rendimiento al recibir enormes cantidades de datos. GPT-3 es uno de los modelos de lenguaje más sofisticados hasta la fecha. Con aproximadamente 175 mil millones de parámetros, puedes escribir cualquier entrada y, esencialmente, generará las palabras que probablemente deberían seguir. Si bien sus capacidades son impresionantes — puede actuar como un chatbot, resumir textos, generar ensayos —, el modelo está lejos de ser perfecto. Hazle cualquier pregunta que se te ocurra, y siempre te dará una respuesta, aunque de vez en cuando ofrecerá frases que tienen poco sentido.

Dado que los datos son uno de los ingredientes clave para cualquier aplicación impulsada por IA, una de las principales preocupaciones en torno a GPT-3 es la posibilidad de que replique los sesgos humanos presentes en los datos de entrenamiento.

GPT-3 aprendió su lenguaje de Internet; fue entrenado esencialmente con datos extraídos de la web. Por lo tanto, puede difundir lenguaje abusivo y discurso de odio hacia individuos o grupos específicos de personas.

GPT-3 exhibe una amplia variedad de sesgos raciales, religiosos y de género, entre otros. La investigación sobre sesgos religiosos, por ejemplo, demostró que GPT-3 asocia fuertemente la palabra “musulmán” con el terrorismo y la violencia, y aunque un diseño cuidadoso de las entradas reduce este comportamiento, sigue siendo más común que para otros grupos religiosos (Abid et al.). También existe la posibilidad de que algunos sesgos aún no estén identificados. La propia definición de toxicidad no es consensuada y sigue cambiando.

1*cs3XfbcbJELJMMW i0Fs Q — El Playground de OpenAI que muestra una finalización de GPT-3 para una entrada que contiene la palabra ‘musulmanes’

Estos problemas han provocado debates sobre las vulnerabilidades y los posibles usos indebidos de los modelos de lenguaje grandes. Después de que Jerome Pesenti, el jefe de IA de Facebook, señalara el sesgo en el contenido creado por GPT-3, OpenAI ofreció rápidamente una solución: una API de filtro de contenido que clasifica el texto como seguro, sensible o inseguro (Epstein), pero se proporcionan pocos detalles sobre cómo funciona este filtro. ¿Debería ser responsabilidad de grandes empresas tecnológicas como OpenAI tomar tales decisiones en nombre de la sociedad?

Más recientemente (10 de junio de 2021), OpenAI publicó un estudio en el que afirman haber mitigado el sesgo en GPT-3 (Solaiman y Dennison). Para hacerlo, crearon un conjunto de datos dirigido a valores llamado Proceso para Adaptar Modelos de Lenguaje a la Sociedad (PALMS) que consiste en pares de preguntas y respuestas cuidadosamente seleccionados que abordan temas sensibles.

Evaluaron tres versiones de GPT-3: una base, un control (ajustado a un conjunto de datos neutral) y un GPT-3 dirigido a valores (ajustado a PALMS). Los resultados demostraron que GPT-3 ajustado a PALMS obtuvo consistentemente puntuaciones más bajas en toxicidad. Sin embargo, al representar un conjunto limitado de temas sensibles, el conjunto de datos PALMS solo ayuda hasta cierto punto. Además, OpenAI refuerza que no está claro qué autoridad debería regir el comportamiento del modelo, ya que el comportamiento “seguro” también es un concepto subjetivo.

En Automaise, tomamos algunas medidas para evitar resultados potencialmente dañinos. Vale la pena recordar que GPT-3 y su predecesor GPT-2 fueron entrenados con datos sin filtrar extraídos de la web, y la naturaleza de este contenido puede ser ofensiva. Por lo tanto, es razonable que el primer paso deba incluir el ajuste fino de nuestros modelos generativos en conjuntos de datos más pequeños que contengan interacciones entre clientes y operadores, lo que ayuda al modelo a adaptarse al comportamiento deseado sin perder sus capacidades. Además, contamos con un sistema de humanos en el proceso, lo que significa que el modelo sugiere un conjunto de respuestas, entre las cuales un operador elige la más adecuada antes de que llegue al usuario final. Aunque estas medidas nos permiten tener un mayor control sobre la salida, todavía queda mucho por hacer.

A pesar de las indudables dificultades para detectar, aislar y mitigar sesgos, no puede ser tan fácil para un modelo lanzar insultos sexistas y raciales cuando se le presentan entradas aparentemente neutrales.

Aunque la posición de OpenAI fue clara desde el principio: seguir aumentando su comprensión de los posibles daños de la tecnología en una variedad de casos de uso, liberándola a través de una API que facilita el control de posibles usos indebidos, debe haber más progreso hacia una IA segura y responsable antes de desplegar tales modelos. Si bien no existe una solución única para todos, surge la pregunta de si deberíamos dar un paso atrás e invertir más tiempo y recursos en la curaduría y documentación de datos.

Bibliografía

Abid, Abubakar, et al. “Persistent Anti-Muslim Bias in Large Language Models.” 2021, https://arxiv.org/pdf/2101.05783.pdf.

Epstein, Sophia. “How do you control an AI as powerful as OpenAI’s GPT-3?” WIRED UK, 2021, https://www.wired.co.uk/article/gpt-3-openai-examples. Accessed 09 06 2021.

Solaiman, Irene, and Christy Dennison. Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets, 2021.

Comparte este post

Paper Spotlight

Equipo Automaise

Automaise se erige como la principal solución de atención al cliente, orquestando a la perfección los viajes de los clientes al tiempo que mejora profundamente la productividad de los agentes.
La avanzada plataforma de IA sin código de Automaise permite a las empresas llevar su negocio al siguiente nivel.

Leer más artículos

IA

21/05/2025
4m

Nadie quiere esperar — y las marcas no pueden permitirse pedirlo

Vivimos en una era de expectativas instantáneas. Entrega en el mismo día, actualizaciones en tiempo real, todo con un solo clic. La idea de esperar ya no es simplemente incómoda: se ha vuelto inaceptable.

Atención al cliente

31/07/2023

La imparable disrupción de la IA en la satisfacción del cliente

El imparable impacto de la IA en el servicio al cliente está revolucionando la forma en que las empresas interactúan con sus clientes y ofrecen una satisfacción sin igual.

Noticias

26/07/2023

Presentamos “Automaise Support Genius Lite”.

Esta potente solución de IA está diseñada para agilizar tus operaciones de asistencia y mejorar la satisfacción del cliente sin esfuerzo.

Conversational AI

Agent Assist

Case Automation

AI Workflows

¡Conoce Agentes IA de Automaise!

Portal de socios

Automation Studio

AI Studio

Portal del Agente

¡Empieza ya a mejorar el servicio al cliente!

Ageas

Bizay

CTT

Sonae MC

Altice

Novobanco

¡Empieza ya a mejorar el servicio al cliente!

Blog

News

Automaise Videos

¡Empieza ya a mejorar el servicio al cliente!

Paper Spotlight

Luchando contra el Sesgo en Modelos de Lenguaje Grandes

Paper Spotlight

Equipo Automaise

Leer más artículos

IA

Nadie quiere esperar — y las marcas no pueden permitirse pedirlo

Atención al cliente

La imparable disrupción de la IA en la satisfacción del cliente

Noticias

Presentamos “Automaise Support Genius Lite”.

Síguenos

Productos

Conversational AI

Automaise OS

Recursos

Casos prácticos

Seguros/Banca

Comercio

Contact Center/Telco/Logística

Industria