|
|
| Zeile 29: |
Zeile 29: |
| # Danach erstellen Sie sich mit dem gleichen Verfahren und Angaben einen [https://chat-ai.academiccloud.de/arcanas/ Account bei Arcana], dem RAG-Manager der GWDG. | | # Danach erstellen Sie sich mit dem gleichen Verfahren und Angaben einen [https://chat-ai.academiccloud.de/arcanas/ Account bei Arcana], dem RAG-Manager der GWDG. |
| # In Ihrem Dashboard von Arcana ("My Arcana") können Sie nun ein neues Projekt anlegen. Die Anleitung dort steht direkt darunter. [[Datei:RAG Arcana1.png|zentriert|rahmenlos|888x888px|Arcana Dashboard]] | | # In Ihrem Dashboard von Arcana ("My Arcana") können Sie nun ein neues Projekt anlegen. Die Anleitung dort steht direkt darunter. [[Datei:RAG Arcana1.png|zentriert|rahmenlos|888x888px|Arcana Dashboard]] |
| # Nach Erstellung eines neuen Arcana werden Sie zum Upload der Dateien aufgefordert. Diese können verschiedene Formate umfassen. Mit dem Upload ist es allerdings nicht getan. '''Die Daten müssen intern transformiert und indexiert werden'''. Betätigen Sie daher die Schaltfläche "Index Generation". Größere PDF benötigen rund 30 Minuten, bis sie aufbereitet sind. Eine grüne Schaltfläche zeigt, dass die Indexierung erfolgreich war. Das PDF wird zunächst in ein JSON-Format umgewandelt, dann in ein MarkDown-Format, dann indexiert. Sie können auch Dokumente mit bereits vorhandenem MarkDown-Format hochladen, dann ist eine Konvertierung nicht notwendig. Dies wird relevant, wenn Sie Dokumente für eine bessere Indexierung nachträglich bearbeiten wollen (Sie können das konvertierte MarkDown-Format im RAG-Manager auch direkt downloaden und nachbearbeiten). Sollte es zu '''Fehlern bei der Indexierung''' kommen müssen Sie den Upload neu starten. In der Regel liegt ein Dateifehler vor. Manchmal hilft es, ein sehr langes Dokument zu teilen und getrennt hochzuladen und erneut zu indexieren. Die '''Güte der Indexierung''' (und damit der Qualität der Antworten des Bots) hängen sehr stark davon ab, wie die Ursprungsdokumente aufgebaut sind. Schlechte Erfahrungen haben wir mit Wiki-Quelltexten oder HTML-Seiten gesammelt, da diese weitere Steuerelemente umfassen, die trotz Parsing und weiterer Maßnahmen nur schlecht indexiert werden. Am besten funktionieren klar strukturierte PDF-Dokumente mit definierten Überschriften und zugehörigen Textabschnitten. Es lohnt auch, besonders relevante Informationen (z.B. Kontaktadressen, Veranstaltungskalender o.ä.) separat in einer Tabelle zu erstellen und als einzelnes Dokument einzureichen. Hier muss etwas improvisiert werden, bis die korrekten Antworten kommen. [[Datei:RAG Arcana2.png|alternativtext=RAG Arcana Indexierung|zentriert|mini|857x857px|RAG Arcana Indexierung]] | | # Nach Erstellung eines neuen Arcana werden Sie zum Upload der Dateien aufgefordert. Diese können verschiedene Formate umfassen. Mit dem Upload ist es allerdings nicht getan. '''Die Daten müssen intern transformiert und indexiert werden'''. Betätigen Sie daher die Schaltfläche "Index Generation". Größere PDF benötigen rund 30 Minuten, bis sie aufbereitet sind. Eine grüne Schaltfläche zeigt, dass die Indexierung erfolgreich war. Das PDF wird zunächst in ein JSON-Format umgewandelt, dann in ein MarkDown-Format, dann indexiert. Sie können auch Dokumente mit bereits vorhandenem MarkDown-Format hochladen, dann ist eine Konvertierung nicht notwendig. Dies wird relevant, wenn Sie Dokumente für eine bessere Indexierung nachträglich bearbeiten wollen (Sie können das konvertierte MarkDown-Format im RAG-Manager auch direkt downloaden und nachbearbeiten). Sollte es zu '''Fehlern bei der Indexierung''' kommen müssen Sie den Upload neu starten. In der Regel liegt ein Dateifehler vor. Manchmal hilft es, ein sehr langes Dokument zu teilen und getrennt hochzuladen und erneut zu indexieren. Die '''Güte der Indexierung''' (und damit der Qualität der Antworten des Bots) hängen sehr stark davon ab, wie die Ursprungsdokumente aufgebaut sind. Schlechte Erfahrungen haben wir mit direkter Übernahme von Wiki-Quelltexten oder HTML-Seiten gesammelt, da diese weitere Steuerelemente umfassen, die trotz Parsing und weiterer Maßnahmen nur schlecht indexiert werden (es gibt aber auch dafür eine [[Portal:Künstliche Intelligenz/Beispiel-RAG|pragmatische Lösung]]). Am besten funktionieren klar strukturierte PDF-Dokumente mit definierten Überschriften und zugehörigen Textabschnitten. Es lohnt auch, besonders relevante Informationen (z.B. Kontaktadressen, Veranstaltungskalender o.ä.) separat in einem Dokument zu erstellen und als einzelnes Dokument einzureichen. Wir haben das in unserem [[Portal:Künstliche Intelligenz/Beispiel-RAG|Beispiel]] weiter unten erläutert. [[Datei:RAG Arcana2.png|alternativtext=RAG Arcana Indexierung|zentriert|mini|857x857px|RAG Arcana Indexierung]] |
| # Nun können Sie mit der Schaltfläche '''Access Link''' ihren eigentliche Chat starten. Kopieren Sie auch Ihre Arcana-ID mit, die benötigen Sie unbedingt. | | # Nun können Sie mit der Schaltfläche '''Access Link''' ihren eigentliche Chat starten. Kopieren Sie auch Ihre Arcana-ID mit, die benötigen Sie unbedingt. |
| # Den Chatbereich müssen Sie zunächst weiter vorbereiten. Vergleichen Sie Ihren Chat mit den Hinweisen im nachstehenden Bild. [[Datei:RAG Chat 2.png|zentriert|rahmenlos|853x853px|RAG: Chat-Einstellungen]] | | # Den Chatbereich müssen Sie zunächst weiter vorbereiten. Vergleichen Sie Ihren Chat mit den Hinweisen im nachstehenden Bild. [[Datei:RAG Chat 2.png|zentriert|rahmenlos|853x853px|RAG: Chat-Einstellungen]] |