Eigenschaften der LLMs, Schwachstellen und Verbesserungsmassnahmen bei der Domänenanpassung von Anwendungen

Die Übertragung des KI-Paradigmas „Foundation Models“ im Sprachbereich führt zu Large Language Models (LLMs), mit denen in natürlicher Sprache kommuniziert werden kann und die aufgrund des “breiten Trainings” für unterschiedliche Aufgaben vielfältig einsetzbar sind. Hierzu bedarf es jedoch Anpassungen der Modelle für die spezifischen Anwendungsdomänen. In diesem zweiten Teil seiner Blogserie stellt Wilhelm Niehoff die drei Methodenbereiche In Context Learning (ICL), Prompt-Engineering und Fine-Tuning vor, die hierfür genutzt werden. Durch die Ansprache und Nutzung der LLMs treten jedoch konstruktionsbedingte Schwächen wie Halluzinationen, fehlende Aktualität und Expertise in Detailthemen auf. Über die drei Methodenbereiche hinausgehend, existieren „aktuellste“ Ansätze wie zum Beispiel DSPy und TextGrad, die darauf abzielen, dem User die Konstruktion von Eingabeaufforderungen abzunehmen. Entsprechend werden die Schwächen beseitigt durch die Hinzunahme weiterer Komponenten, die durch LLMs koordiniert werden.

Continue reading »