En Automaise, nos esforzamos por conseguir interacciones sin estrés para sus clientes manteniéndonos al día de los últimos avances y construyendo mejores asistentes digitales.
En la actualidad, los modelos lingüísticos más avanzados se entrenan y evalúan en conversaciones cortas con poco o ningún contexto. Las últimas mejoras siguen sin tener en cuenta la amplitud y el carácter de los diálogos humanos, y los modelos suelen fallar en conversaciones largas y abiertas.
¿Cómo podemos abordar el problema? 🤔
Facebook AI Research ha abordado recientemente métodos para la conversación de dominio abierto a largo plazo en su trabajo «Beyond Goldfish Memory: Long-Term Open-Domain Conversation“¹. Además, han recopilado un conjunto de datos en inglés titulado Multi-Session Chat (MSC), consistente en chats entre humanos y trabajadores en masa que abarcan cinco sesiones, cada una de ellas con hasta 14 enunciados. Cada sesión contiene también anotaciones sobre temas esenciales tratados en intercambios anteriores para alimentar las conversaciones siguientes.
Para recopilar el conjunto de datos, emplearon a crowd workers para que desempeñaran el papel de oradores -proporcionados como frases que describen a un personaje- y reprodujeron un chat en línea en el que los usuarios suelen pausar la conversación para reanudarla al cabo de un tiempo.
Para modelar el chat multisesión, los autores se decidieron por un modelo estándar de gran lenguaje (es decir, el codificador-decodificador Transformer), al tiempo que estudiaban dos técnicas:
- Un método de Recuperación-Aumentación que utiliza un sistema de recuperación para encontrar y seleccionar qué parte del contexto incluir en la codificación.
- Un método de Summarization Memory-Augmentation que resume el conocimiento de diálogos anteriores y sólo almacena esa parte de información, siendo así más eficiente que el segundo.
Resultados 📊
A lo largo de sus experimentos, los autores observaron una mejora de la perplejidad (definida como la probabilidad logarítmica negativa media exponenciada de una secuencia) al añadir el historial de diálogos en comparación con un escenario sin contexto. Observaron un aumento del rendimiento al utilizar los resúmenes de sesión anotados por los crowdworkers, que son potencialmente más informativos que el historial de diálogos. El aumento del rendimiento es aún más notable cuando se evalúan las respuestas iniciales de una sesión.
Además de las métricas calculadas, los autores también realizaron una tarea de evaluación humana con crowdworkers. Se eligen aleatoriamente dos personas del conjunto de validación y se asigna una al crowdworker. A continuación, el crowdworker entabla una conversación con el otro personaje y se le pide que evalúe las respuestas de su interlocutor, tanto si se refieren a información aprendida en sesiones anteriores como si no. Los autores llegaron a la conclusión de que sus modelos eran significativamente mejores a la hora de mencionar temas anteriores, añadir otros nuevos a la conversación y conseguir respuestas atractivas.
En general, el trabajo se centra en diferentes arquitecturas de modelos para ayudar a mantener conversaciones a largo plazo de forma más eficaz.
En atención al cliente, las técnicas descritas nos permiten crear mejores agentes conversacionales: mejores a la hora de captar usuarios, manejar respuestas complejas de los usuarios y garantizar una atención personalizada basada en interacciones y solicitudes anteriores.