Skip to content

ubvu/wibt

Repository files navigation

Wetenschap in begrijpelijke taal

Wetenschappelijke open-accessartikelen begrijpelijk maken voor Nederlandstalige niet-academische doelgroepen met behulp van open en betrouwbare generatieve AI.

Deze repository documenteert Wetenschap in begrijpelijke taal, een samenwerking tussen:

Het project onderzoekt hoe large language models (LLM’s) betrouwbare en begrijpelijke publieksvriendelijke samenvattingen van wetenschappelijke artikelen in het Nederlands kunnen genereren, afgestemd op echte gebruikers zoals GZ-psychologen en beleidsadviseurs in het Nederlandse parlement.


infographic


Inhoudsopgave

  1. Motivatie
  2. Projectdoelen
  3. Wat we bouwen
  4. Onderzoekskader
  5. Projectorganisatie
  6. Tijdlijn & status
  7. Gerelateerde repositories & projecten
  8. Citeren
  9. Contact
  10. Licentie

Motivatie

Open science heeft ervoor gezorgd dat steeds meer onderzoeksartikelen vrij toegankelijk zijn, maar daarmee nog niet begrijpelijk.

  • Ongeveer 40% van open-accessartikelen wordt gelezen door niet-academische doelgroepen (docenten, zorgprofessionals, beleidsmakers, burgers).
    Zie Open for All: Exploring the reach of open access content to non-academic audiences (Wirsching et al., 2020).
    https://doi.org/10.5281/zenodo.4143313
  • Deze lezers hebben vaak moeite met jargon, complexe zinnen en abstract taalgebruik. :contentReference[oaicite:1]{index=1}
  • Tegelijkertijd verspreidt desinformatie zich makkelijk online omdat het vaak wordt geschreven in eenvoudige, aansprekende taal. :contentReference[oaicite:2]{index=2}

Onderzoekers worden ondertussen steeds vaker gevraagd om:

  • maatschappelijke impact aantoonbaar te maken,
  • wetenschapscommunicatie en public engagement te doen,
  • en onderzoeksresultaten toegankelijk te maken voor een breed publiek.

Maar goede publieksvriendelijke samenvattingen schrijven is tijdrovend en vraagt specifieke vaardigheden.

Generatieve AI biedt een kans — maar huidige tools zijn niet transparant, niet altijd betrouwbaar, en vaak afhankelijk van Big Tech. We hebben open, toetsbare en publieke alternatieven nodig.


Projectdoelen

Het project ontwikkelt en valideert een AI-gebaseerde methode die:

  1. Nederlandse publieksvriendelijke samenvattingen genereert van wetenschappelijke artikelen, afgestemd op:
    • GZ-psychologen en zorgprofessionals,
    • beleidsmedewerkers in parlement en ministeries,
    • andere niet-academische professionals.
  2. Waar mogelijk gebruikmaakt van open en/of publiek beheerde LLM’s (zoals WiLLMa – GPT-NL, via SURF AI-hub).
  3. Volledig transparant en reproduceerbaar is:
    • open prompts,
    • open code,
    • gedocumenteerde pijplijn en evaluatiemethodiek.
  4. Sterk leunt op de brontekst:
    • zo min mogelijk hallucinaties,
    • behoud van nuance.
  5. Schaalbaar is voor bibliotheken en contentplatforms.

Zo willen we de kloof tussen open access en echte toegankelijkheid verkleinen en de rol van bibliotheken als betrouwbare intermediairs versterken.


Wat we bouwen

AI-pijplijn & methodiek

We ontwikkelen een samenvattingspijplijn gebaseerd op:

  • Prompt engineering & persona’s
    Doelgroepgerichte prompts (bv. “Leg dit uit aan een Nederlandse GZ-psycholoog”, “Leg dit uit aan een beleidsadviseur”).
    Zie voorbeeldrepo: https://github.com/ubvu/Layman_Summaries :contentReference[oaicite:4]{index=4}
  • Meerdere LLM-configuraties
    We experimenteren met:
    • open modellen (WiLLMa / GPT-NL, LLaMA, Mistral),
    • gesloten modellen voor benchmarkdoeleinden (GPT-4.x, Gemini).
      :contentReference[oaicite:5]{index=5}
  • Retrieval-Augmented Generation (RAG)
    Om modellen direct aan de oorspronkelijke brontekst te koppelen.
  • Evaluatie met echte gebruikers
    • Feitelijke correctheid door bibliothecarissen en domeinexperts,
    • leesbaarheid & bruikbaarheid door GZ-psychologen en beleidsmedewerkers.
  • Automatische metrics (gebaseerd op state-of-the-art) :contentReference[oaicite:6]{index=6}
    • Leesbaarheid: Flesch–Kincaid, LIX, SARI
    • Dekking & relevantie: ROUGE, BERTScore
    • Factuality-checking met modelondersteuning

De methodiek is gebaseerd op onze literatuurstudie: State of the Art in LLM-Generated Lay Summaries. :contentReference[oaicite:7]{index=7}


Demotool (prototype)

We bouwen een onderzoeksprototype waarmee gebruikers:

  1. Een wetenschappelijk artikel kunnen uploaden (PDF/BibTeX).
  2. Een doelgroep kunnen kiezen (bv. GZ-psycholoog, beleidsmedewerker).
  3. Een samenvatting kunnen genereren:
    • een gestructureerde expertsamenvatting,
    • een toegankelijke publieksvriendelijke samenvatting,
    • kwaliteitsindicatoren (leesbaarheid, lengte, enz.).
  4. Verschillende modellen + prompts kunnen vergelijken.

De tool wordt ontwikkeld in Streamlit en draait op:

De code wordt beschikbaar gesteld in deze repository zodra de eerste publieke versie stabiel is.


Open code, prompts & data

Het project levert de volgende open resources:


Onderzoekskader

Belangrijke bevindingen uit de literatuur: :contentReference[oaicite:11]{index=11}

  • Leesbaarheid
    LLM’s produceren vaak leesbaardere samenvattingen dan onderzoekers.
    Soms tot 80% verbeterde scores.

  • Factuality & bias
    Modellen hallucinerem of generaliseren soms te veel.
    Voorzichtigheid is nodig bij subtiele of onzekere bevindingen.

  • Mens + AI werkt het beste
    LLM’s geven een goede eerste versie;
    experts corrigeren nuances en fouten.

  • Methodieken
    RAG, multi-agent workflows en geavanceerde evaluatiemethoden hebben veel invloed op de kwaliteit.

De volledige presentatie:
State of the Art in LLM-Generated Lay Summaries of Scientific Articles.
:contentReference[oaicite:12]{index=12}


Projectorganisatie

Kernteam

  • Astrid van Wesenbeeck – Projectcoördinatie / Chief Open Science, KB
  • Maurice Vanderfeesten – Bibliotheekliaison / Innovatiemanager, VU UB
  • Michel Klein – Methodologie & begeleiding, VU AI & Behaviour
  • Githa – Methodologie & begeleiding, VU AI & Behaviour
  • Geoffrey – Prompt engineering, surveys, ontwikkeling
  • Heleen van Manen – Programmaleider PICA - Wetenschap en publiek, KB

Gebruikersgroepen

  • Beleidsmedewerkers Tweede Kamer
    Contact: Hugo van Bergen, Parlement & Wetenschap
  • GZ-psychologen & zorgprofessionals
    Contact: Ulrika Léons, SKILS
  • Wetenschappelijke informatie Specialisten
    Contact: Pam Kaspers, VU Universiteitsbibliotheek

Governance

We werken met:

  • een stuurgroep (infrastructuur, afstemming, strategie),
  • een adviesgroep (publieke waarden, maatschappelijke impact).
    Uitkomsten worden gedeeld met o.a.: NEWS (netwerk wetenschap en samenleving), SURF, Waag Future Lab, VU Impact Board.

Tijdlijn & status

Totale duur: 12 maanden.

  1. Maand 1–3 – Voorbereiding
  2. Maand 4–7 – Experimenten
  3. Maand 8–9 – Analyse
  4. Maand 10–11 – Rapportage
  5. Maand 12 – Disseminatie

Statusupdates komen beschikbaar via
https://github.com/ubvu/wibt/projects (wanneer geactiveerd).


Gerelateerde repositories & projecten

Deze GitHub Pages-site:
https://ubvu.github.io/wibt/
vormt de centrale projectpagina.


Citeren

Aanbevolen voorlopige citatie:

Vanderfeesten, M., van Wesenbeeck, A., Klein, M., et al. (2025). Wetenschap in begrijpelijke taal: LLM-gebaseerde publieksvriendelijke samenvattingen van wetenschappelijke artikelen. Projectdocumentatie. Verkregen van https://ubvu.github.io/wibt/

Zodra het technische rapport en het wetenschappelijke artikel zijn gepubliceerd, deze graag gebruiken.


Contact

  • Astrid van Wesenbeeck – KB
    astrid.vanwesenbeeck@kb.nl
  • Maurice Vanderfeesten – VU UB
    maurice.vanderfeesten@vu.nl
  • Michel Klein – VU AI & Behaviour
    michel.klein@vu.nl

Of maak een Issue aan in de repository:
https://github.com/ubvu/wibt/issues


Licentie

De code uit aanverwante repositories is open source (MIT of Apache 2.0).
De inhoud van deze README en projectdocumentatie valt onder
CC BY 4.0, tenzij anders vermeld.

Zie het LICENSE-bestand in deze repository.

About

Wetenschap in Begrijpelijke Taal

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published