Je ontwikkelt een Content Quality Framework waarmee de kwaliteit van de Content Generatie App structureel gemeten, beoordeeld en verbeterd kan worden. Het framework kent twee scoringsniveaus:
- Input-score: hoe goed zijn de brondocumenten in de kennisdatabase (volledig, actueel, consistent)?
- Output-score: hoe goed is de gegenereerde content? Een overall content quality score die meerdere metrics combineert
- Guardrail metrics: harde grenzen vanuit Responsible AI — een wijziging die de bias-score verslechtert mag niet worden doorgevoerd, ongeacht verbetering op andere metrics
Er zijn al bestaande metrics (taalkwaliteit, template matching, inclusiviteit). Jouw opdracht is om deze te valideren, uit te breiden en samen te brengen in een bruikbaar kwaliteitsoordeel.
De drie knoppen
Om de scores te verbeteren zijn er drie knoppen waaraan gedraaid kan worden. Deze aanpak vormt het vertrekpunt — je valideert kritisch of deze klopt en past het framework aan waar nodig.
1. Validatie & kwaliteit → verbetert de input-score
- Brondocumenten in de RAG-database beoordelen op volledigheid, actualiteit en onderlinge consistentie
- Verouderde, tegenstrijdige of ontbrekende bronnen identificeren
- Semantic coverage: valideren of gegenereerde content het onderwerp volledig behandelt door vergelijking met brondocumenten
- Consistentiecontrole: detecteren van tegenstrijdige informatie (prijzen, procedures, termijnen)
- Onderzoeken hoe de structuur en inhoud van bronnen de kwaliteit van gegenereerde content beïnvloeden
2. Optimalisatie → verbetert de output-score
- Optimalisatie door betere prompts, prompt engineering en prompt chaining
- Vergelijken en evalueren van verschillende taalmodellen op kwaliteit, snelheid en kosten
- A/B-testen opzetten en uitvoeren om effecten van wijzigingen te meten
- Dashboards bouwen die inzicht geven in kwaliteitsverbetering
3. Content Intelligence Loop → verbetert beide scores structureel
De app moet niet alleen content genereren, maar ook leren van wat er gepubliceerd wordt:
- Create: content genereren op basis van de kennisdatabase
- Measure: meten hoe content presteert op kwaliteitsmetrics
- Analyze: prestaties vergelijken met benchmarks en ondermaatse content identificeren
- Optimize: inzichten terugvoeren naar prompts, templates en bronnen
Responsible AI als dwingende voorwaarde
Responsible AI is geen aparte pijler, maar een harde randvoorwaarde:
- Mens centraal — de redacteur neemt altijd de finale beslissing; AI ondersteunt
- Guardrail metrics — bias-detectie op geografische, sociaaleconomische en culturele factoren
- Bronherleidbaarheid — elke claim moet herleidbaar zijn naar een brondocument
Je onderzoek
Tijdens je stage werk je aan een onderzoeksvraag. Je kiest een van onderstaande vragen, of formuleert zelf een vraag in overleg met je begeleider:
- Welke metrics en scoringsmodellen zijn het meest geschikt om de kwaliteit van AI-gegenereerde overheidscontent betrouwbaar te beoordelen?
- Hoe kan de volledigheid en consistentie van brondocumenten in de RAG-database systematisch worden bewaakt en verbeterd?
- Wat is het effect van promptoptimalisatie en modelkeuze op de outputkwaliteitsscore, en hoe meet je dat betrouwbaar?
- Hoe kan een Content Intelligence Loop structureel worden ingericht zodat de app continu leert van gepubliceerde content?
- Hoe presteert AI-gegenereerde content in vergelijking met handmatig geschreven content op de metrics van het Content Quality Framework?
Je wordt aangemoedigd om zelf met aanvullende analyse-ideeën te komen die waardevol zijn voor het team.