Beispiel-RAG

Beispiel für ein RAG

Wir haben ein Beispiel-RAG entsprechend der Grundanleitung erstellt. Der Bot beantwortet Fragen aus diesem Wiki für den gesamten Portalbereich KI (allerdings auch nur dazu!), zusätzlich sind die Mitarbeitenden des LLZ mit ihren Kontaktdaten hinterlegt. Sie können den Systemprompt für die Zeit des Logins ändern, er ist aber bereits optimiert.

Einschränkung: Die RAG-Nutzung liefert mit dem voreingestellten LLM die besten Ergebnisse. Alternativ können Sie noch MetaLlama 3.1. 8KB einstellen, andere LLM aber nicht (Buchsymbol neben dem LLM). Zudem scheint es derzeit nach mehreren Anfragen zu Problemen mit dem Systemspeicher zu kommen, daher steht am Ende jeder Antwort die Kurzanweisung, wie man den Speicher wieder freigibt. Wenn sich die Antwort merklich verzögert, nutzen Sie diese Anleitung zum Löschen des Verlaufs.

Typische Fragen wären etwa: Was nützt KI Studierenden? Wo finde ich eine Anleitung zu MLU-KI? Was muss ich rechtlich beachten? Wer berät mich dazu? Wo finde ich den Selbstlernkurs für Lehrende usw. Die Antworten sind jeweils auf die Inhalte dieses Wiki-Portals zu KI beschränkt, eine Frage nach der Aufzeichnungstechnik im Hörsaal IX führt daher zu keiner sinnvollen Antwort, auch wenn sich diese Information hier im Wiki an anderer Stelle befindet.

Umsetzung des Beispiels

Bei der Erstellung des Beispiels ist uns bewusst geworden, wie wichtig die Umwandlung der Wiki-Seiten (oder PDF- oder Text-Dateien) in maschinenlesbare Inhalte und Strukturen ist. Ein direktes Kopieren der HTML-Seiten in das RAG führt ebenso zu schlechten Ergebnissen wie die Ausgabe der Seiten im JSON-Format durch das Media-Wiki selbst.

Hinzu kommt aus technischer Sicht, dass Textabschnitte für eine schnelle Bearbeitung in relativ kurze "chunks" unterteilt sein sollten. Und diese chunks sollten zudem möglichst viele Metadaten zu ihrem jeweiligen Inhalt umfassen, um der KI-Maschine präzise Antworten zu ermöglichen. Das klingt aufwändig und kompliziert (ist es auch) - aber zum Glück gibt es ja KI ;).

Wir sind so vorgegangen:

Zunächst haben wir die Seiten unseres Portals im Browser kopiert und jeweils als einfache Textdatei abgespeichert. Für die Portalseite zur MLU-KI sieht das z.B. dann so aus wie nebenstehend, also reiner Text mit Absätzen.

Textdatei Beispiel Kopie Browser
Leider werden Links nicht mit kopiert, daher müssen diese irgendwo im Text untereinander händisch hinzugefügt werden, am besten jeweils mit Überschrift.

Dieser Text wird gespeichert. Dann wird die MLU-KI aufgerufen und folgender Prompt eingegeben (alternativ könnte man auch den Systemprompt überschreiben):

Du bist Expert:in für Informationsstrukturierung und Retrieval-Augmented Generation (RAG) im Hochschulkontext. Du erhältst einen unstrukturierten oder semi-strukturierten Informationstext aus dem Bereich Lehre, Studium, Forschung oder Verwaltung. Deine Aufgabe ist es, diesen Text in eine klar strukturierte, maschinenlesbare JSON-Objektstruktur zu transformieren, die optimal für semantische Suche, Kontext-Retrieval und LLM-basierte Anwendungen geeignet ist.
Gehe dabei wie folgt vor:
Analysiere kritisch den Quelltext:
Identifiziere den Informationsgehalt und klassifiziere die verschiedenen Abschnitte nach Typ (z.B. „Info“, „FAQ“, „UseCase“, „Recommendation“, „Guideline“, „Link“, „Instruction“, „Model“, „Survey“).
Extrahiere zentrale Erkenntnisse und fasse sie prägnant zusammen.
Vermeide Redundanzen; arbeite mit klaren, kurzen Sätzen und benutze eine neutrale und akademische Ausdrucksweise.
Normalisiere, gliedere und kategorisiere die Informationen, indem du folgende Felder nutzt (je nach Bedarf):

"type": Kategorie der Informationseinheit
"title": Überschrift oder Fragestellung
"description": Zusammenfassung oder Kernaussage
"content": Detaillierte Ausführung (optional, wenn notwendig)
"url": Link (optional)
"steps": Schritt-für-Schritt-Anleitung (bei Anleitungen, optional)
"models", "responsibilities" o.ä.: Listen für spezifische Inhalte (optional)
"metadata":
"author": Verfasser:in oder herausgebende Institution
"date": Erscheinungsdatum im ISO-Format (yyyy-mm)
"document": Ursprungsdokument/Titelliste

Achte auf eine konsistente Benennung und einheitliche Formatierung (z.B. „author“, „date“, „document“ in "metadata"; Felder auf Englisch, außer Primärinhalte).
Extrahiere Links in ein separates Feld („url“) und kennzeichne weiterführende Ressourcen mit dem Typ „Link“.
Trenne bei FAQ-Fragen explizit „question“ und „answer“ auf Wunsch.

Achte darauf:
Vermeide Fließtexte in den Feldern, wenn Listen sinnvoller sind.
Begrenze die Länge von „description“ auf 1–3 Sätze.
Berücksichtige Anforderungen an Datenschutz und Diversität.
Nutze ein konsistentes JSON-Schema – jeder Eintrag ist ein eigenständiges Objekt.
Formuliere die Antwort ausschließlich als valide JSON-Liste von Objekten.

Den Prompt haben wir natürlich auch von der KI erstellen lassen. Sie können diesen natürlich noch anpassen, etwa bei Autor, Erscheinungsdatum usw.

Danach haben wir den Text aus unserer Textdatei in die Eingabe gegeben und die KI angewiesen, den Text entsprechend der vorhergehenden Anweisung zu verändern. Es erfolgt die Ausgabe eines überarbeiteten Textes, den wir wiederum kopieren und in eine neue, leere Textdatei kopieren und als *.js abspeichern (das ist das maschinenlesbare JSON-Format). Nach der Umwandlung sah dieser Inhalt so aus:

Beispiel Textumwandlung zu JSON
Auf diese Weise entstanden 8 Dateien, da unser Portal zu diesem Zeitpunkt aus 8 Wiki-Seiten bestand. Zusätzlich haben wir noch eine Datei mit den Kontaktdaten und Arbeitsschwerpunkten der LLZ-Mitarbeitenden erstellt, die durch den Prompt ebenfalls in eine JS-Datei umgewandelt wurde.
Diese Dateien wurden dann in ein RAG der GWDG entsprechend der Anleitung hochgeladen, dort indexiert und der Beispiel-Chatbot erstellt.