Neues Verfahren „Counterfactual Dialog Mixing“ (CDM) auf der LREC-COLING 2024 vorgestellt
Wenig überraschend: die International Joint Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024) stand in diesem Jahr ganz im Zeichen der Large Language Models. Ganz neu hingegen ist ein Verfahren, das OTH-Absolvent, Doktorand und IKKI-Mitarbeiter Sebastian Steindl auf der Konferenz erstmals vorstellte. In der Publikation, die er zusammen mit seinen Promotionsbetreuern Prof. Dr. Ulrich Schäfer (OTH Amberg-Weiden) und Prof. Dr. Bernd Ludwig (Universität Regensburg) eingereicht hat, wird ein neues Verfahren beschrieben und evaluiert, das helfen kann, sogenannte task-orientierte Dialogsysteme mit weniger Trainingsdaten annotieren zu müssen als bisher nötig war.
Task-orientierte Dialogsysteme helfen beispielsweise bei Reisebuchungen oder Telefonbanking. Bisher mussten dazu die Dialoge zwischen Menschen bzw. von Menschen mit Maschinen aufwendig ausgewertet und mit Zusatzinformationen angereichert werden (im maschinellen Lernen nennt man das „Annotieren“). Eine allgemeines Verfahren, um dies zu erreichen, heißt „Datenaugmentierung“. Dabei werden neue Daten künstlich erzeugt. Beispielsweise werden bei der Objekterkennung mit Kamerabildern immer zwei Bilder algorithmisch gemischt und so ein neues (meist sogar viele neue) Bilder erzeugt.
Die neu entwickelte Technik für Dialoge, „Counterfactual Dialog Mixing“ (CDM), überträgt diese Idee auf Dialogannotation. Mit CDM werden aus vorhandenen Annotationen realistisch wirkende, synthetische Gesprächsannotationen. Das geht natürlich nicht durch wahlloses Zusammenstellen von Dialogfragmenten, sondern der „counterfactual“-Ansatz sorgt dafür, dass das in einer bestimmten Weise getan wird, die ein Dialogsystem wirklich verbessert. Die künstlich erzeugten Dialoge sind insofern realistisch, als weiterhin das gleiche Dialogziel erreicht und auch auf dem Weg dorthin ähnliche Teilkonversationen eingesetzt werden. In dem vorgestellten Paper wird gezeigt, dass ein Modell, das darauf trainiert wurde, echte von künstlichen Dialogen zu unterscheiden, dies nicht zuverlässig kann. Das bedeutet, dass die künstlich Dialoge realistisch sind für den Trainingseinsatz.
Der Vorteil des neuen Verfahrens ist, dass es vollautomatisch funktioniert, also ohne weitere Annotation oder Auswahl durch menschliche Intervention. Die Publikation ist in der ACL Anthology verfügbar.
COLING und LREC gehören seit Jahrzehnten zu den wichtigsten internationalen wissenschaftlichen Konferenzen im Bereich Natural Language Processing, der Verarbeitung natürlicher Sprache. In diesem Jahr fanden sie erstmals gemeinsam statt Ende Mai in Turin, Italien.