frances

RAG personal para el Bac de Français 2026: Construye tu asistente IA de estudio en seis semanas

Gerald Steiner

24 mai 2026 — 10 min de lecture

Pídele a ChatGPT una cita precisa de Manon Lescaut sobre el tema del determinismo social, y obtendrás con una probabilidad superior al 50% una formulación que no figura en el texto de Prévost. El modelo produce algo plausible, estilísticamente correcto, temáticamente coherente — y sin embargo falso. Esta deriva, que los especialistas denominan «alucinación», no es un error marginal; es la consecuencia directa de un LLM (modelo de lenguaje grande) entrenado en corpus generales, sin anclaje en tu edición, tus apuntes, tus exámenes anteriores.

El RAG — Retrieval-Augmented Generation, literalmente «generación aumentada por recuperación» — corrige estructuralmente este problema. En lugar de dejar que el modelo improvise desde su memoria estadística, se le presentan primero los pasajes pertinentes extraídos de tus propios documentos, y luego se le pide que redacte a partir de ellos. La diferencia no es cosmética: es la diferencia entre un testigo que inventa y un testigo que lee su declaración.

Esta guía se dirige a los candidatos del Bac de Français 2026 — nativos y aprendices de FLE por igual — que desean construir un asistente personal de estudio confiable, citable y adaptado a su corpus oficial. El argumento central es el siguiente: los aprendices de francés como lengua extranjera disponen de una ventaja estructural para construir y explotar dicho sistema, porque las exigencias de precisión léxica y de justificación por la fuente que se les ha inculcado corresponden exactamente a las competencias que requiere la calidad de un RAG.

Por qué un RAG personal supera a los LLM genéricos para el Bac 2026

Un LLM generalista es una herramienta notable para hacer lluvia de ideas, reformular o explorar conceptos. Se vuelve peligroso en el momento en que se le pide citar, fechar o atribuir con precisión. El Bac de Français penaliza exactamente estas imprecisiones — una cita aproximada en un comentario puede invalidar un análisis entero. El RAG personal es la respuesta arquitectónica a esta exigencia.

El problema de la deriva factual de los LLM sin contexto

Los grandes modelos de lenguaje construyen sus respuestas por predicción estadística — cada palabra es elegida porque sigue plausiblemente a las palabras precedentes, dado el corpus de entrenamiento. Para las obras literarias, este mecanismo produce paráfrasis plausibles, atribuciones mezcladas y versos ligeramente modificados. Un modelo que ha procesado millones de comentarios sobre Les Fleurs du mal puede perfectamente reconstruir una estrofa de Baudelaire con dos palabras desplazadas. El examinador, sin embargo, conoce el texto original. La sanción es inmediata.

Lo que garantiza adicionalmente un RAG bien construido

Un sistema RAG correctamente configurado opera en dos fases distintas. Primero, una fase de recuperación: cuando formulas una pregunta, el sistema calcula la similitud entre tu consulta y los fragmentos de tus documentos (apuntes, obras, fichas) previamente transformados en vectores numéricos — representaciones matemáticas que capturan el sentido. Selecciona los pasajes más pertinentes. A continuación, una fase de generación: el LLM recibe estos pasajes como contexto y redacta su respuesta apoyándose exclusivamente en ellos. Resultado: la respuesta es trazable, y puedes verificar cada afirmación contra la fuente original.

Ventaja específica para los aprendices de FLE

El aprendiz de FLE ha sido formado para identificar colocaciones, para justificar cada elección léxica, para distinguir registros y niveles de lengua. Estos hábitos son precisamente los que hacen útil un RAG: saber formular una consulta precisa («la metáfora continuada del mar en los sonetos de Du Bellay» en lugar de «Du Bellay mar»), saber evaluar la pertinencia de un pasaje recuperado, saber reconocer cuándo una paráfrasis traiciona un sentido. El nativo, menos acostumbrado a la explicación metalingüística, tendrá que desarrollar estos reflejos; el aprendiz de FLE ya los posee.

Las seis familias de fuentes a indexar para el Bac de Français

La calidad de un RAG depende ante todo de la calidad de los documentos que se le confían. Indexar fuentes mediocres — escaneos ilegibles, resúmenes de resúmenes, fichas sin revisar — equivale a construir un motor de búsqueda sobre un corpus corrupto. Aquí están las seis familias indispensables para un corpus sólido del Bac de Français.

Obras completas del programa — texto limpio, OCR verificado
Apuntes, fichas y cuaderno de lectura personal
Exámenes oficiales anteriores y correcciones del Bac
Obras afines para la lectura cursiva y la apertura temática
Léxico crítico y glosario de procedimientos literarios
Producciones personales — borradores, ensayos, devoluciones del profesor

Obras del programa y corpus conexo

El texto de las obras del programa es la piedra angular del índice. Debe estar limpio — sin errores de OCR, sin abreviaciones, con la puntuación original respetada — porque el motor de similaridad vectorial es sensible a los errores de tokenización. Para las obras de dominio público, el sitio Wikisource o las ediciones Gallica de la BnF proporcionan textos fiables. Para obras recientes, un escaneo personal de calidad será suficiente, siempre que se realice una revisión ortográfica. Las obras afines (lecturas cursivas, textos estudiados en el itinerario asociado) completan el índice añadiendo las redes intertextuales cuya movilización espera el jurado.

Apuntes, fichas y cuaderno de lectura personal

Tus apuntes de clase, tus fichas de repaso y tu cuaderno de lectura constituyen la capa más personal — y a menudo más valiosa — del índice. Son ellos quienes codifican tu lectura del texto, los enfoques retenidos por tu profesor y las problemáticas desarrolladas en clase. Un RAG que no los integra te devolverá análisis genéricos que el examinador ha leído cien veces. Para hacerlos indexables, convierte tus notas manuscritas en texto digital (dictado por voz u OCR de calidad) y léelas para corregir los errores antes de la ingesta.

Exámenes anteriores y producciones personales

Los exámenes oficiales anteriores del Bac de Français — disponibles en el sitio Eduscol — constituyen un corpus de entrenamiento insustituible. Revelan las formulaciones esperadas, la estructura de los temas y la distribución de las obras. Las correcciones de referencia permiten al RAG proporcionarte modelos de razonamiento cuando formulas una pregunta metodológica. Tus propias producciones — borradores de disertaciones, comentarios corregidos, introducciones reescritas — añaden una dimensión reflexiva: puedes interrogar el índice sobre tus propios errores recurrentes y obtener consejos calibrados a tu perfil real.

Stack técnico mínimo y accesible en 2026

Construir un RAG personal no requiere competencias avanzadas en programación ni un servidor dedicado. En 2026, herramientas accesibles permiten montar un sistema funcional en pocas horas sobre un ordenador portátil estándar. Los tres componentes esenciales son: un modelo de embedding, una base vectorial y un LLM de generación.

Elegir un modelo de embedding adaptado al francés

Un embedding es una función matemática que transforma un fragmento de texto en un vector numérico de alta dimensión — típicamente 768 o 1536 valores — de tal manera que los textos semánticamente próximos producen vectores próximos en ese espacio. Para el francés literario, los modelos generalistas entrenados en inglés rinden menos en las sutilezas sintácticas y los registros elevados o clásicos. Prefiere sentence-transformers/paraphrase-multilingual-mpnet-base-v2 o, para un uso completamente soberano y local, el modelo dangvantuan/vietnamese-embedding adaptado al francés disponible en Hugging Face. La elección del modelo de embedding condiciona directamente la calidad de los pasajes recuperados — es el componente más estructurante del sistema.

Elegir una base vectorial simple — Qdrant, Chroma o pgvector

La base vectorial es el motor de almacenamiento y búsqueda que conserva tus embeddings y responde a las consultas de similaridad. Para un uso personal y local, tres opciones dominan en 2026. Chroma es la más sencilla de desplegar: una biblioteca Python, cero configuración de servidor, ideal para comenzar. Qdrant ofrece mejores prestaciones en colecciones de varios miles de fragmentos y dispone de una interfaz web de visualización. Pgvector extiende PostgreSQL con capacidades vectoriales: preferible si ya gestionas una base de datos relacional. Para un corpus del Bac de Français — raramente superior a 50.000 fragmentos — Chroma es más que suficiente.

El LLM de generación — Ollama local o API en la nube

El LLM de generación es el modelo que redacta la respuesta final a partir de los pasajes recuperados. Dos filosofías se oponen. En local, Ollama permite ejecutar modelos como Mistral 7B, Qwen3 o Llama 3 directamente en tu máquina, sin enviar datos a un tercero — una ventaja de soberanía no desdeñable si indexas producciones personales. En modo API en la nube, Claude Sonnet o GPT-4o ofrecen una calidad de generación superior para el francés literario, a cambio de una suscripción. Para la revisión del Bac, la configuración recomendada es: Ollama en local para las sesiones largas y las consultas exploratorias, API en la nube para las síntesis finales y la simulación del examen oral.

Las consultas que transforman la revisión

Un RAG personal solo vale si se sabe interrogarlo. La formulación de la consulta determina la calidad de los pasajes recuperados y, por tanto, la pertinencia de la respuesta generada. Tres tipos de consultas transforman la revisión del Bac: las preguntas metodológicas dirigidas, la generación de fichas sintéticas cruzadas y la simulación del examen oral.

Preguntas de metodología específica por prueba

Para el comentario de texto, formula consultas que crucen un procedimiento estilístico con un efecto: «En mis fichas sobre La Princesse de Clèves, ¿cómo construye la focalización interna el conflicto entre pasión y virtud?» El RAG recuperará los pasajes pertinentes de tus notas y del texto, y el LLM redactará un análisis fundado en esos pasajes. Para la disertación, pide argumentos en ambos sentidos: «Dame tres argumentos a favor y tres en contra de la tesis de que la novela del siglo XVIII es fundamentalmente didáctica — con citas extraídas de mis fuentes.» La restricción «con citas extraídas de mis fuentes» es innegociable.

Generación de fichas sintéticas cruzadas

Uno de los usos más potentes del RAG para la revisión es la generación de fichas de síntesis que cruzan varias obras o varios enfoques. «Genera una ficha comparando el tratamiento del tiempo en Les Contemplations de Hugo y en Alcools de Apollinaire, a partir de mis apuntes y de mis extractos indexados.» El modelo no puede inventar correspondencias: trabaja sobre los fragmentos reales que has indexado. Si tu índice es rico, la ficha será rica. Esta propiedad transforma la construcción del índice en sí misma en un acto pedagógico — cuanto más preciso seas al anotar, más pertinentes serán las fichas generadas.

Simulación del examen oral y autoevaluación

Para la prueba oral del Bac de Français, la simulación de preguntas del examinador es un entrenamiento decisivo. Configura una sesión RAG en modo «examinador»: «Eres un examinador del Bac de Français. Hazme una pregunta sobre el extracto de Juste la fin du monde de Lagarce que he indexado. Tras mi respuesta, evalúala señalando los elementos que faltan y las imprecisiones, basándote únicamente en mis fichas de clase y en el texto original.» Este protocolo obliga al sistema a mantenerse anclado en tus documentos y te proporciona una devolución contextualizada — exactamente lo que buscas, sin el riesgo de un corrigendum genérico.

Las salvaguardas indispensables para no equivocarse

Un RAG mal configurado o mal utilizado puede dar una falsa impresión de fiabilidad. Tres salvaguardas son innegociables para mantener la integridad del sistema en el contexto del examen.

Verificar siempre las citas contra la fuente original

Incluso con un RAG correctamente configurado, el LLM puede reformular ligeramente un pasaje durante la generación. La regla absoluta es la siguiente: cualquier cita que vayas a utilizar en un examen debe verificarse palabra por palabra contra el texto fuente — el libro real o el PDF original, no la respuesta del RAG. El sistema te indica dónde buscar; la verificación sigue siendo tu responsabilidad. Trata cada respuesta del RAG como un borrador de investigador, no como una referencia definitiva.

Rechazar las generaciones sin cita explícita

Configura tu sistema para que rechace responder si no se ha recuperado ningún pasaje pertinente. En la práctica, esto significa añadir una instrucción de sistema («system prompt») del tipo: «Si ningún extracto de la base de conocimientos respalda la respuesta, responde: "No hay fuente disponible en el índice para esta pregunta." No generes una respuesta sin fundamento documental.» Esta regla obliga al sistema a señalar sus lagunas en lugar de colmar los vacíos por invención — e informa al mismo tiempo sobre lo que falta en tu índice.

Mantener un registro de los errores detectados

Cada vez que detectes un error factual — cita inexacta, atribución errónea, fecha desplazada — consígnalo en un archivo dedicado: error producido, fuente correcta, contexto de la consulta. Este registro tiene dos virtudes. Constituye un documento de memorización activa — releer los propios errores es uno de los métodos más eficaces de consolidación en la memoria a largo plazo. También sirve para mejorar el índice: si un error recurrente revela una laguna en tus fuentes, añade el documento que falta.

Calendario de implementación en seis semanas

Seis semanas son suficientes para pasar de un corpus bruto a un asistente de estudio operativo, a razón de una o dos horas de trabajo por semana. El esfuerzo se concentra al principio — recopilación y limpieza — para que la fase de revisión intensiva se beneficie de un índice estable.

Semanas 1-2 — recopilación y limpieza de las fuentes

Las dos primeras semanas están dedicadas exclusivamente a la constitución del corpus. Lista todas tus fuentes (obras, apuntes, exámenes anteriores, fichas personales) y clasifícalas por prioridad: las obras del programa primero, los exámenes anteriores a continuación, las producciones personales al final. Convierte los documentos en papel a texto digital. Lee cada documento para corregir los errores de OCR — una hora de limpieza por adelantado evita diez horas de depuración después. Organiza los archivos en una estructura de directorios clara: una carpeta por obra, una carpeta por tipo de documento. No lances ninguna ingesta antes de tener un corpus limpio.

Semanas 3-4 — ingesta y primer despliegue local

Instala Chroma y un modelo de embedding multilingüe. Divide tus documentos en fragmentos de 300 a 500 palabras con una superposición de 50 palabras entre fragmentos — este parámetro de chunking garantiza que los límites de los fragmentos no rompan las unidades de sentido. Lanza la ingesta y verifica que el número de fragmentos indexados corresponde a tu estimación. Prueba con una decena de consultas representativas, que cubran los tres tipos de pruebas. Corrige los problemas de recuperación (fragmentos demasiado largos, carpetas que faltan) antes de pasar a la fase de calibración.

Semanas 5-6 — calibración y entrenamiento personal

Las dos últimas semanas son semanas de revisión activa mediada por el RAG. Formula al menos cinco consultas por sesión de estudio. Consigna los errores en tu registro. Ajusta el parámetro del número de fragmentos recuperados por consulta (típicamente entre 3 y 8) según la densidad de tu corpus. Entrénate en la simulación del examen oral al menos tres veces, pidiendo una evaluación estructurada después de cada respuesta. Al término de estas seis semanas, tu asistente conoce tus obras, tus apuntes y tus enfoques de análisis — no un enfoque genérico, sino el tuyo.

Límites asumidos y perspectivas más allá del Bac

Un RAG personal es una herramienta poderosa, pero ni omnisciente ni infalible. Reconocer sus límites es tan importante como saber explotarlo — y este esfuerzo de lucidez prepara también para el rigor intelectual que exige el Bac de Français.

Lo que un RAG personal nunca reemplazará

El RAG no piensa: recupera y ensambla. No puede construir una problemática original, sentir la tensión dramática de una escena ni elegir el enfoque que hará la singularidad de un trabajo. Estas operaciones suponen una comprensión y una sensibilidad que solo el lector humano desarrolla a través de una frecuentación real de los textos. El RAG es un auxiliar de memorización y estructuración — no suple la lectura, la prolonga. Un candidato que no hubiera leído las obras e intentara apoyarse exclusivamente en su asistente produciría respuestas técnicamente documentadas e intelectualmente vacías — exactamente lo que los examinadores del Bac saben detectar.

Reutilización del sistema para el resto de los estudios

El índice que construirás para el Bac de Français 2026 es el primer eslabón de una infraestructura personal del conocimiento que acompañará la totalidad de tu trayectoria universitaria. En las clases preparatorias literarias, los corpus son más amplios pero la lógica es idéntica. En la universidad, la misma arquitectura sirve para los trabajos de investigación — añadiendo artículos académicos a tu base. La competencia que desarrollas — constituir un índice fiable, formular consultas precisas, verificar las fuentes — es una competencia epistémica transversal, independiente de la disciplina. Los aprendices de FLE que dominen este sistema antes de entrar en la enseñanza superior disponen de una ventaja metodológica duradera, mucho más allá del Bac.