franzoesisch

Persönliches RAG für das Bac de Français 2026: Den eigenen KI-Lernassistenten in sechs Wochen aufbauen

Gerald Steiner

24 mai 2026 — 9 min de lecture

Fragen Sie ChatGPT nach einem genauen Zitat aus Manon Lescaut zum Thema sozialer Determinismus, und Sie erhalten mit einer Wahrscheinlichkeit von über 50% eine Formulierung, die im Text von Prévost nicht vorkommt. Das Modell produziert etwas Plausibles, stilistisch Stimmiges, thematisch Kohärentes — und dennoch Falsches. Diese Abweichung, die Fachleute als „Halluzination" bezeichnen, ist kein marginaler Fehler; sie ist die direkte Folge eines LLM (großen Sprachmodells), das auf allgemeinen Korpora trainiert wurde, ohne Verankerung in Ihrer Ausgabe, Ihren Unterrichtsnotizen, Ihren Prüfungsunterlagen.

RAG — Retrieval-Augmented Generation, wörtlich „durch Abruf verstärkte Generierung" — behebt dieses Problem strukturell. Anstatt das Modell aus seinem statistischen Gedächtnis improvisieren zu lassen, werden ihm zunächst die relevanten Passagen aus Ihren eigenen Dokumenten vorgelegt, und dann wird es gebeten, ausgehend von diesen zu formulieren. Der Unterschied ist nicht kosmetisch: Er entspricht dem Unterschied zwischen einem Zeugen, der erfindet, und einem Zeugen, der seine Aussage vorliest.

Dieser Leitfaden richtet sich an Kandidaten des Bac de Français 2026 — Muttersprachler wie FLE-Lernende — die einen persönlichen Lernassistenten aufbauen möchten, der zuverlässig, zitierfähig und auf ihr offizielles Korpus abgestimmt ist. Das zentrale Argument lautet: Lernende des Französischen als Fremdsprache verfügen über einen strukturellen Vorteil beim Aufbau und der Nutzung eines solchen Systems, weil die Anforderungen an lexikalische Präzision und quellenbasierte Begründung, die ihnen eingeschärft wurden, genau den Kompetenzen entsprechen, die ein qualitativ hochwertiges RAG verlangt.

Warum ein persönliches RAG generische LLMs für den Bac 2026 übertrifft

Ein generalistisches LLM ist ein bemerkenswertes Werkzeug zum Brainstorming, Umformulieren oder Erkunden von Ideen. Es wird gefährlich, sobald man es bittet, präzise zu zitieren, zu datieren oder zuzuschreiben. Das Bac de Français bestraft genau diese Ungenauigkeiten — ein ungefähres Zitat im Kommentar kann eine gesamte Analyse entwerten. Das persönliche RAG ist die architektonische Antwort auf diese Anforderung.

Das Problem der faktischen Abweichung bei LLMs ohne Kontext

Große Sprachmodelle konstruieren ihre Antworten durch statistische Vorhersage — jedes Wort wird gewählt, weil es den vorhergehenden Wörtern angesichts des Trainingskorpus wahrscheinlich folgt. Bei literarischen Werken produziert dieser Mechanismus plausible Paraphrasen, gemischte Zuschreibungen, leicht veränderte Verse. Ein Modell, das Millionen von Kommentaren zu Les Fleurs du mal verarbeitet hat, kann eine Strophe Baudelaires mit zwei verschobenen Wörtern perfekt rekonstruieren. Der Prüfer hingegen kennt den Originaltext. Die Konsequenz ist unmittelbar.

Was ein gut aufgebautes RAG zusätzlich garantiert

Ein korrekt konfiguriertes RAG-System arbeitet in zwei klar getrennten Phasen. Zunächst eine Retrieval-Phase: Wenn Sie eine Frage stellen, berechnet das System die Ähnlichkeit zwischen Ihrer Anfrage und den Fragmenten Ihrer Dokumente (Unterrichtsnotizen, Werke, Lernkarten), die zuvor in numerische Vektoren — mathematische Repräsentationen des Sinns — umgewandelt wurden. Es wählt die relevantesten Passagen aus. Anschließend eine Generierungs-Phase: Das LLM erhält diese Passagen als Kontext und formuliert seine Antwort ausschließlich auf deren Grundlage. Ergebnis: Die Antwort ist nachvollziehbar, und Sie können jede Aussage gegen die Originalquelle überprüfen.

Spezifischer Vorteil für FLE-Lernende

Der FLE-Lernende wurde darauf trainiert, Kollokationen zu identifizieren, jede lexikalische Wahl zu begründen und Register sowie Sprachebenen zu unterscheiden. Diese Gewohnheiten sind genau diejenigen, die ein RAG nützlich machen: wissen, wie man eine präzise Anfrage formuliert („die ausgedehnte Metapher des Meeres in Du Bellays Sonetten" statt „Du Bellay Meer"), wissen, wie man die Relevanz einer abgerufenen Passage beurteilt, wissen, wie man erkennt, wenn eine Paraphrase einen Sinn verfälscht. Der Muttersprachler, der weniger an metalinguistische Erklärungen gewöhnt ist, muss diese Reflexe erst entwickeln; der FLE-Lernende besitzt sie bereits.

Die sechs Quellfamilien, die für das Bac de Français zu indexieren sind

Die Qualität eines RAG hängt vor allem von der Qualität der ihm anvertrauten Dokumente ab. Mittelmäßige Quellen zu indexieren — unleserliche Scans, Zusammenfassungen von Zusammenfassungen, ungeprüfte Lernkarten — ist so, als würde man eine Suchmaschine auf einem korrumpierten Korpus aufbauen. Hier sind die sechs unverzichtbaren Quellfamilien für ein solides Bac-de-Français-Korpus.

Vollständige Pflichtlektüren — sauberer Text, geprüfte OCR
Unterrichtsnotizen, Lernkarten und persönliches Lesetagebuch
Offizielle Prüfungsunterlagen und Musterlösungen des Bac
Verwandte Werke für die Kursorische Lektüre und thematische Erweiterung
Kritisches Lexikon und Glossar der Stilmittel
Eigene Arbeiten — Entwürfe, Aufsätze, Lehrerfeedback

Pflichtlektüren und verwandtes Korpus

Der Text der Pflichtlektüren ist der Grundstein des Index. Er muss sauber sein — frei von OCR-Fehlern, ohne Abkürzungen, mit der Originalinterpunktion — weil das Vektorsimilaritätssystem empfindlich auf Tokenisierungsfehler reagiert. Für urheberrechtsfreie Werke liefern die Wikisource-Website oder die Gallica-Ausgaben der BnF zuverlässige Texte. Für neuere Werke reicht ein qualitativ hochwertiger persönlicher Scan, sofern eine Rechtschreibprüfung durchgeführt wird. Verwandte Werke (kursorische Lektüren, im assoziierten Kurs behandelte Texte) vervollständigen den Index durch die intertextuellen Netzwerke, deren Mobilisierung die Prüfungskommission erwartet.

Unterrichtsnotizen, Lernkarten und persönliches Lesetagebuch

Ihre Unterrichtsnotizen, Ihre Lernkarten und Ihr Lesetagebuch bilden die persönlichste — und oft wertvollste — Schicht des Index. Sie kodieren Ihre Lektüre des Textes, die von Ihrem Lehrer gewählten Analysewinkel und die im Unterricht entwickelten Fragestellungen. Ein RAG, das diese nicht integriert, liefert generische Analysen, die der Prüfer hundert Mal gelesen hat. Um sie indexierbar zu machen, wandeln Sie Ihre handschriftlichen Notizen in digitalen Text um (Sprachdiktat oder qualitativ hochwertige OCR) und lesen Sie sie durch, um Fehler vor der Ingestion zu korrigieren.

Prüfungsunterlagen und eigene Arbeiten

Die offiziellen Prüfungsunterlagen des Bac de Français — auf der Eduscol-Website verfügbar — bilden ein unersetzliches Trainingskorpus. Sie zeigen die erwarteten Formulierungen, die Struktur der Aufgaben und die Verteilung der Werke. Musterlösungen ermöglichen es dem RAG, Ihnen Denkmuster zu liefern, wenn Sie eine methodische Frage stellen. Ihre eigenen Arbeiten — Dissertationsentwürfe, korrigierte Kommentare, umgeschriebene Einleitungen — fügen eine reflexive Dimension hinzu: Sie können den Index zu Ihren eigenen wiederkehrenden Fehlern befragen und auf Ihr tatsächliches Profil abgestimmte Ratschläge erhalten.

Ein minimaler und 2026 zugänglicher technischer Stack

Ein persönliches RAG aufzubauen erfordert weder fortgeschrittene Programmierkenntnisse noch einen dedizierten Server. Im Jahr 2026 ermöglichen zugängliche Werkzeuge die Einrichtung eines funktionierenden Systems innerhalb weniger Stunden auf einem handelsüblichen Laptop. Die drei wesentlichen Komponenten sind: ein Embedding-Modell, eine Vektordatenbank und ein Generierungs-LLM.

Wahl eines für das Französische geeigneten Embedding-Modells

Ein Embedding ist eine mathematische Funktion, die ein Textfragment in einen hochdimensionalen numerischen Vektor umwandelt — typischerweise 768 oder 1536 Werte — sodass semantisch ähnliche Texte in diesem Raum nahe beieinanderliegende Vektoren erzeugen. Für literarisches Französisch performen auf Englisch trainierte Generalisten-Modelle bei syntaktischen Feinheiten und gehobenen oder klassischen Registern schlechter. Bevorzugen Sie sentence-transformers/paraphrase-multilingual-mpnet-base-v2 oder, für eine vollständig souveräne lokale Nutzung, das auf Hugging Face verfügbare, auf Französisch angepasste Modell dangvantuan/vietnamese-embedding. Die Wahl des Embedding-Modells bestimmt direkt die Qualität der abgerufenen Passagen — es ist die strukturierende Komponente des Systems.

Wahl einer einfachen Vektordatenbank — Qdrant, Chroma oder pgvector

Die Vektordatenbank ist das Speicher- und Suchsystem, das Ihre Embeddings aufbewahrt und auf Ähnlichkeitsanfragen antwortet. Für den persönlichen und lokalen Einsatz dominieren 2026 drei Optionen. Chroma ist am einfachsten einzusetzen: eine Python-Bibliothek, kein Serverkonfigurationsaufwand, ideal für den Einstieg. Qdrant bietet bessere Leistung bei Sammlungen mit mehreren tausend Fragmenten und verfügt über eine Web-Visualisierungsschnittstelle. Pgvector erweitert PostgreSQL um Vektorfähigkeiten: vorzuziehen, wenn Sie bereits eine relationale Datenbank verwalten. Für ein Bac-de-Français-Korpus — selten mehr als 50.000 Fragmente — reicht Chroma vollkommen aus.

Das Generierungs-LLM — lokales Ollama oder Cloud-API

Das Generierungs-LLM ist das Modell, das die endgültige Antwort auf der Grundlage der abgerufenen Passagen formuliert. Zwei Philosophien stehen sich gegenüber. Lokal ermöglicht Ollama, Modelle wie Mistral 7B, Qwen3 oder Llama 3 direkt auf Ihrem Rechner auszuführen, ohne Daten an Dritte zu senden — ein nicht unerheblicher Souveränitätsvorteil, wenn Sie persönliche Arbeiten indexieren. Über Cloud-API bieten Claude Sonnet oder GPT-4o eine überlegene Generierungsqualität für literarisches Französisch, zum Preis eines Abonnements. Für die Bac-Vorbereitung lautet die empfohlene Konfiguration: Ollama lokal für lange Sitzungen und explorative Anfragen, Cloud-API für Abschlusssynthesen und die Simulation des mündlichen Gesprächs.

Die Anfragen, die die Prüfungsvorbereitung transformieren

Ein persönliches RAG ist nur so gut wie die Fähigkeit, es zu befragen. Die Formulierung der Anfrage bestimmt die Qualität der abgerufenen Passagen und damit die Relevanz der generierten Antwort. Drei Anfragetypen transformieren die Bac-Vorbereitung: gezielte Methodikfragen, die Generierung von bereichsübergreifenden Synthese-Karten und die Simulation des mündlichen Gesprächs.

Methodikfragen, gezielt nach Prüfungsaufgabe

Für den Textkommentar formulieren Sie Anfragen, die ein Stilmittel mit einer Wirkung verknüpfen: „In meinen Notizen zu La Princesse de Clèves, wie konstruiert die interne Fokalisierung den Konflikt zwischen Leidenschaft und Tugend?" Das RAG ruft die relevanten Passagen aus Ihren Notizen und dem Text ab, und das LLM verfasst eine auf diesen Passagen begründete Analyse. Für die Dissertation fordern Sie Argumente auf beiden Seiten: „Gib mir drei Argumente für und drei Argumente gegen die These, dass der Roman des 18. Jahrhunderts grundsätzlich didaktisch ist — mit Zitaten aus meinen Quellen." Die Einschränkung „mit Zitaten aus meinen Quellen" ist nicht verhandelbar.

Generierung von bereichsübergreifenden Synthese-Karten

Eine der leistungsfähigsten Anwendungen des RAG für die Prüfungsvorbereitung ist die Generierung von Synthese-Karten, die mehrere Werke oder mehrere Blickwinkel verknüpfen. „Generiere eine Karte, die die Behandlung der Zeit in Hugos Les Contemplations und Apollinaires Alcools vergleicht, auf der Grundlage meiner Unterrichtsnotizen und indizierten Auszüge." Das Modell kann keine Entsprechungen erfinden: Es arbeitet mit den echten Fragmenten, die Sie indexiert haben. Wenn Ihr Index reich ist, wird die Karte reich sein. Diese Eigenschaft verwandelt den Aufbau des Index selbst in eine pädagogische Handlung — je präziser Sie annotieren, desto relevanter werden die generierten Karten sein.

Simulation des mündlichen Gesprächs und Selbstbewertung

Für die mündliche Prüfung des Bac de Français ist die Simulation von Prüferfragen ein entscheidendes Training. Konfigurieren Sie eine RAG-Sitzung im „Prüfer"-Modus: „Du bist ein Prüfer des Bac de Français. Stelle mir eine Frage zu dem Auszug aus Lagarceles Juste la fin du monde, den ich indexiert habe. Bewerte nach meiner Antwort, indem du fehlende Elemente und Ungenauigkeiten aufzeigst, und stütze dich dabei ausschließlich auf meine Unterrichtsnotizen und den Originaltext." Dieses Protokoll hält das System in Ihren Dokumenten verankert und liefert Ihnen ein kontextualisiertes Feedback — genau das, was Sie suchen, ohne das Risiko einer generischen Musterlösung.

Die unverzichtbaren Sicherheitsmechanismen, um nicht irregeführt zu werden

Ein schlecht konfiguriertes oder schlecht genutztes RAG kann einen falschen Eindruck von Zuverlässigkeit erwecken. Drei Sicherheitsmechanismen sind nicht verhandelbar, um die Integrität des Systems im Prüfungskontext zu wahren.

Zitate immer gegen die Originalquelle überprüfen

Selbst bei einem korrekt konfigurierten RAG kann das LLM beim Generieren eine Passage leicht umformulieren. Die absolute Regel lautet: Jedes Zitat, das Sie in einer Prüfungsarbeit verwenden wollen, muss Wort für Wort gegen den Quelltext überprüft werden — das echte Buch oder das Original-PDF, nicht die Antwort des RAG. Das System zeigt Ihnen wo Sie suchen sollen; die Überprüfung bleibt Ihre Verantwortung. Behandeln Sie jede RAG-Antwort als Forschungsentwurf, nicht als endgültige Referenz.

Generierungen ohne explizites Zitat ablehnen

Konfigurieren Sie Ihr System so, dass es die Antwort verweigert, wenn keine relevante Passage abgerufen wurde. In der Praxis bedeutet dies, eine Systemanweisung („System-Prompt") des folgenden Typs hinzuzufügen: „Wenn kein Auszug aus der Wissensbasis die Antwort stützt, antworte: 'Keine Quelle im Index für diese Frage verfügbar.' Generiere keine Antwort ohne dokumentarische Grundlage." Diese Regel zwingt das System, auf seine Lücken hinzuweisen, anstatt diese durch Erfindungen zu füllen — und informiert Sie gleichzeitig darüber, was in Ihrem Index fehlt.

Ein Fehlerprotokoll führen

Jedes Mal, wenn Sie einen sachlichen Fehler entdecken — ein ungenaues Zitat, eine falsche Zuschreibung, ein verschobenes Datum — notieren Sie ihn in einer dedizierten Datei: den produzierten Fehler, die richtige Quelle und den Anfragenkontext. Dieses Protokoll hat zwei Vorzüge. Es bildet ein Dokument aktiver Memorierung — die eigenen Fehler zu wiederholen ist eine der effektivsten Methoden der Langzeitgedächtniskonsolidierung. Es dient auch zur Verbesserung des Index: Wenn ein wiederkehrender Fehler auf eine Lücke in Ihren Quellen hinweist, fügen Sie das fehlende Dokument hinzu.

Umsetzungsplan in sechs Wochen

Sechs Wochen reichen aus, um von einem Rohkorpus zu einem funktionierenden Lernassistenten zu gelangen, bei einem Aufwand von einer bis zwei Stunden Arbeit pro Woche. Der Aufwand konzentriert sich am Anfang — Sammlung und Bereinigung —, damit die intensive Vorbereitungsphase von einem stabilen Index profitiert.

Wochen 1-2 — Sammlung und Bereinigung der Quellen

Das erste Vierzehntageperiode ist ausschließlich der Aufstellung des Korpus gewidmet. Listen Sie alle Ihre Quellen auf (Werke, Unterrichtsnotizen, Prüfungsunterlagen, persönliche Lernkarten) und ordnen Sie sie nach Priorität: zuerst die Pflichtlektüren, dann die Prüfungsunterlagen, zuletzt die eigenen Arbeiten. Konvertieren Sie Papierdokumente in digitalen Text. Lesen Sie jedes Dokument durch, um OCR-Fehler zu korrigieren — eine Stunde Bereinigung im Voraus spart zehn Stunden Fehlersuche später. Organisieren Sie die Dateien in einer klaren Verzeichnisstruktur: ein Ordner pro Werk, ein Ordner pro Dokumenttyp. Starten Sie keine Ingestion, bevor Sie ein sauberes Korpus haben.

Wochen 3-4 — Ingestion und erste lokale Bereitstellung

Installieren Sie Chroma und ein mehrsprachiges Embedding-Modell. Teilen Sie Ihre Dokumente in Fragmente von 300 bis 500 Wörtern mit einer Überlappung von 50 Wörtern zwischen Fragmenten — dieser Chunking-Parameter stellt sicher, dass Fragmentgrenzen keine Sinneinheiten durchbrechen. Starten Sie die Ingestion und überprüfen Sie, ob die Anzahl der indizierten Fragmente Ihrer Schätzung entspricht. Testen Sie mit etwa zehn repräsentativen Anfragen, die alle drei Prüfungsaufgaben abdecken. Korrigieren Sie Abrufprobleme (zu lange Fragmente, fehlende Ordner), bevor Sie zur Kalibrierungsphase übergehen.

Wochen 5-6 — Kalibrierung und persönliches Training

Die letzten zwei Wochen sind Wochen aktiver Vorbereitung, vermittelt durch das RAG. Formulieren Sie mindestens fünf Anfragen pro Lernsitzung. Notieren Sie Fehler in Ihrem Protokoll. Passen Sie den Parameter für die Anzahl der pro Anfrage abgerufenen Fragmente an (typischerweise zwischen 3 und 8) entsprechend der Dichte Ihres Korpus. Üben Sie die Simulation des mündlichen Gesprächs mindestens dreimal, indem Sie nach jeder Antwort eine strukturierte Bewertung anfordern. Am Ende dieser sechs Wochen kennt Ihr Assistent Ihre Werke, Ihre Unterrichtsnotizen und Ihre Analysewinkel — keinen generischen, sondern Ihren.

Anerkannte Grenzen und Perspektiven über den Bac hinaus

Ein persönliches RAG ist ein leistungsfähiges Werkzeug, aber weder allwissend noch unfehlbar. Seine Grenzen zu erkennen ist ebenso wichtig wie es zu nutzen — und diese intellektuelle Redlichkeit bereitet ihrerseits auf die geistige Strenge vor, die das Bac de Français verlangt.

Was ein persönliches RAG niemals ersetzen wird

Das RAG denkt nicht: Es ruft ab und setzt zusammen. Es kann keine originelle Fragestellung entwickeln, die dramatische Spannung einer Szene spüren oder den Analysewinkel wählen, der eine Arbeit einzigartig macht. Diese Operationen setzen ein Verständnis und eine Sensibilität voraus, die nur der menschliche Leser durch echte, andauernde Auseinandersetzung mit Texten entwickelt. Das RAG ist ein Hilfsmittel zur Memorierung und Strukturierung — es ersetzt nicht die Lektüre, sondern verlängert sie. Ein Kandidat, der die Pflichtlektüren nicht gelesen hat und versucht, sich ausschließlich auf seinen Assistenten zu stützen, würde technisch belegte, aber intellektuell hohle Antworten produzieren — genau das, was Bac-Prüfer zu erkennen wissen.

Wiederverwendung des Systems für das weitere Studium

Der Index, den Sie für das Bac de Français 2026 aufbauen, ist das erste Glied einer persönlichen Wissensinfrastruktur, die Ihren gesamten universitären Werdegang begleiten wird. In literarischen Vorbereitungsklassen sind die Korpora umfangreicher, aber die Logik ist dieselbe. An der Universität dient dieselbe Architektur für Forschungsarbeiten — indem Sie Ihrer Basis akademische Artikel hinzufügen. Die Kompetenz, die Sie entwickeln — einen zuverlässigen Index aufbauen, präzise Anfragen formulieren, Quellen überprüfen — ist eine transversale epistemische Kompetenz, unabhängig von der Disziplin. FLE-Lernende, die dieses System vor Eintritt in die Hochschulbildung beherrschen, verfügen über einen dauerhaften methodischen Vorteil, weit über den Bac hinaus.