Na Automaise, esforçamo-nos por criar interacções sem stress para os teus clientes, mantendo-nos a par dos últimos desenvolvimentos e criando melhores assistentes digitais.
Os modelos linguísticos mais avançados estão atualmente a ser treinados e avaliados em conversas curtas com pouco ou nenhum contexto. As melhorias recentes continuam a não ter em conta a extensão e o carácter dos diálogos humanos, e os modelos muitas vezes não funcionam em longas conversas de domínio aberto.
Como é que podemos resolver o problema? 🤔
O Facebook AI Research abordou recentemente métodos para conversas de longo prazo em domínios abertos no seu trabalho “Beyond Goldfish Memory: Long-Term Open-Domain Conversation“¹. Além disso, recolheram um conjunto de dados em inglês intitulado Multi-Session Chat (MSC), que consiste em conversas entre humanos e trabalhadores de multidões ao longo de cinco sessões, cada uma com um máximo de 14 expressões. Cada sessão também contém anotações sobre tópicos essenciais discutidos em trocas anteriores para alimentar as conversas seguintes.
Para recolher o conjunto de dados, empregaram trabalhadores de multidões para desempenharem os papéis de oradores – fornecidos como frases que descrevem uma pessoa – e reproduziram um chat em linha em que os utilizadores interrompem frequentemente a conversa para a retomarem passado algum tempo.
Para modelar o chat multi-sessão, os autores optaram por um modelo de linguagem grande padrão (ou seja, codificador-decodificador Transformer), estudando também duas técnicas:
- Um método de recuperação-aumento que utiliza um sistema de recuperação para encontrar e selecionar a parte do contexto a incluir na codificação.
- Um método de Summarization Memory-Augmentation que resume o conhecimento de diálogos anteriores e armazena apenas essa informação, sendo assim mais eficiente do que o último.
Resultados 📊
Ao longo das suas experiências, os autores observaram uma melhoria na perplexidade (definida como a média exponenciada da verosimilhança negativa de uma sequência) ao adicionar o histórico do diálogo em comparação com um cenário sem contexto. Observaram um aumento do desempenho quando utilizaram os resumos das sessões anotados pelos trabalhadores das plataformas digitais, que são potencialmente mais informativos do que o histórico do diálogo. O ganho de desempenho é ainda mais notório quando avalias as respostas iniciais de uma sessão.
Para além das métricas calculadas, os autores também realizaram uma tarefa de avaliação humana utilizando crowdworkers. Duas personas são escolhidas aleatoriamente do conjunto de validação e uma é atribuída ao crowdworker. O crowdworker inicia então uma conversa com a outra persona e é-lhe pedido que avalie as respostas do seu parceiro, quer se refiram ou não a informações que aprendeu em sessões anteriores. Os autores concluíram que os seus modelos eram significativamente melhores a mencionar tópicos anteriores, a acrescentar novos tópicos à conversa e a envolver as respostas.
Em geral, o trabalho centra-se em diferentes arquitecturas de modelos para ajudar a conduzir conversas a longo prazo de forma mais eficaz.
No atendimento ao cliente, as técnicas descritas acima permitem-nos criar melhores agentes de conversação: melhores a envolver os utilizadores, a lidar com respostas complexas dos utilizadores e a garantir um atendimento personalizado com base em interacções e pedidos anteriores.
Disponibilizamos este conteúdo traduzido automaticamente para sua conveniência. Por favor, esteja ciente de que pode conter imprecisões. Aviso de tradução