Art. 10 EU AI Act: data en datagovernance voor hoog-risico AI
Art. 10 vereist dat de trainings-, validatie- en testdata voor hoog-risico AI-systemen voldoet aan kwaliteitscriteria: relevant, voldoende representatief, en zo foutloos en volledig mogelijk voor het beoogde doel. Het vereist ook gedocumenteerde datagovernance over verzameling, voorbereiding, bias-onderzoek en het mitigeren van lacunes, en het staat de beperkte verwerking van bijzondere persoonsgegevens toe waar strikt noodzakelijk om bias te detecteren en corrigeren, onder waarborgen.
Bijgewerkt: juni 2026
Dit is een expliciete provider-verplichting onder de EU AI Act. Ze rust op degene die het hoog-risicorisicoIn de termen van de EU AI Act de combinatie van de waarschijnlijkheid dat een schade optreedt en de ernst ervan als dat gebeurt. De schakel tussen een principe (via de schade die het zou schenden) en een control (de maatregel die het vermindert). Het benoemen van de schade en het inschatten van het risico is op grond van Art. 9 vereist voordat een maatregel wordt gekozen. Zie schade, control, restrisico.Open full entry → AI-systeemAI-systeemEen machinaal systeem dat voor expliciete of impliciete doelen uit invoer afleidt hoe het uitvoer genereert, voorspellingen, inhoud, aanbevelingen of beslissingen, die fysieke of virtuele omgevingen kunnen beïnvloeden. De OESO-achtige definitie die de EU AI Act volgt. Zie algoritme, machine learning.Open full entry → ontwikkelt of op de markt brengt. Deployers dragen een verwante inputdata-plicht onder Art. 26.4.
Inleiding: data als de bron van de meeste AI-risico's
De meeste faalwijzen waar de EU AI Act zich zorgen over maakt, ontstaan in de data. Een vertekende uitkomst is meestal een vertekende dataset die zich via een model uit. Een privacy-blootstelling is meestal data die niet verzameld, bewaard of gebruikt had mogen worden. Een prestatiefout is vaak een trainingsset die de populatie die het systeem bedient niet meer representeert. Art. 10 is de verplichting die het risico bij de bron aanpakt, door kwaliteits- en governancegovernanceHet stelsel waarmee een organisatie zichzelf bestuurt: corporate governance, risicobeheer, compliance, verantwoordingslijnen, risicobereidheid en het besturingsmodel. Het bestaat over alles wat de organisatie doet, voor en los van AI. AI governance is ditzelfde stelsel, uitgebreid voor AI. Zie AI governance, governance design, executie.Open full entry →-eisen te stellen aan de data waarop hoog-risico AI-systemen worden gebouwd en gedraaid.
Art. 10 geldt primair voor providers, die het systeem ontwikkelen en de training ervan beheersen. Maar de logica reikt ook tot deployers, omdat de inputdata die een deployer in gebruik aanlevert moet voldoen aan de voorwaarden die de provider specificeerde, een plicht die apart verschijnt als de deployer-verplichting in Art. 26.4.
Wat de data moet zijn
Art. 10 vereist dat trainings-, validatie- en testdatasets onderworpen zijn aan passende datagovernance en voldoen aan kwaliteitscriteria. De datasets moeten zijn:
- Relevant voor het beoogde doel van het systeem.
- Voldoende representatief voor de personen en situaties waarop het systeem zal worden gebruikt, zodat het systeem niet goed presteert voor de ene groep en slecht voor de andere.
- Zo foutloos en zo volledig mogelijk met het oog op het beoogde doel.
- Passend in hun statistische eigenschappen, ook voor de groepen die het systeem beoogt te raken.
Dit zijn geen absolute normen. Het artikel kwalificeert ze met "voor zover mogelijk" en "met het oog op het beoogde doel", wat betekent dat de provider een beredeneerd en gedocumenteerd oordeel moet vellen over welk kwaliteitsniveau toereikend is voor de inzet van het gebruiksgeval, in plaats van een vaste numerieke grens te halen.
Wat de governance moet bestrijken
Naast de kwaliteit van de data zelf vereist Art. 10 gedocumenteerde datagovernance- en beheerpraktijken. Deze bestrijken de ontwerpkeuzes en de data-herkomstherkomstDe gedocumenteerde oorsprong en geschiedenis van data of inhoud, gebruikt om vast te stellen waar ze vandaan komt en of ze betrouwbaar of rechtmatig te gebruiken is. Zie trainingsdata, datasheet.Open full entry →, het verzamelproces en de provenance, de voorbereidingsoperaties zoals labelling en cleaning, de formulering van aannames over wat de data meet, een beoordeling of de data beschikbaar, geschikt en toereikend is, en een onderzoek naar mogelijke biases die gezondheid, veiligheid of grondrechten kunnen raken, samen met maatregelen om die biases te detecteren, voorkomen en mitigeren.
Dit is het governance-spoor dat een conformiteitsbeoordelingconformiteitsbeoordelingHet proces vóór markttoelating waarmee wordt aangetoond dat een hoog-risico-AI-systeem voldoet aan de eisen van de EU AI Act, leidend tot CE-markering en registratie. Zie CE-markering, aangemelde instantie.Open full entry → verwacht: niet alleen een schone dataset, maar een gedocumenteerd verslag van waar die vandaan kwam, hoe die is voorbereid, wat is aangenomen, en hoe naar bias is gezocht en die is aangepakt.
De bepaling over bijzondere persoonsgegevens en de real-time data-invalshoek
Art. 10(5) bevat een belangrijke en vaak verkeerd gelezen bepaling. Om bias te detecteren en corrigeren mogen providers bij uitzondering bijzondere categorieën persoonsgegevensbijzondere categorieën persoonsgegevensGegevens uit AVG-artikel 9: gezondheid, etniciteit, politieke opvattingen, religie, seksuele gerichtheid, biometrie voor identificatie, alleen op beperkte gronden verwerkbaar. Het afleiden van deze kenmerken creëert ze. Zie pseudonimisering, dataminimalisatie.Open full entry → verwerken, de gevoelige data die de AVG anders beperkt, maar alleen waar strikt noodzakelijk, en onder waarborgen: de bias kan niet worden gedetecteerd door andere data te verwerken, de data is onderworpen aan technische beperkingen op hergebruik, beveiligings- en privacybeschermende maatregelen gelden, en de data wordt gewist zodra de bias is gecorrigeerd of de bewaartermijn afloopt.
Deze bepaling is ook waar de operationele invalshoek van gegevensbescherming op het gebruikspunt binnenkomt. Voor systemen die data in real time verwerken, is de discipline om gevoelige data te minimaliseren en te maskeren vóór die het model bereikt, de operationele uitdrukking van hetzelfde principeprincipeEen van de zeven waarden van verantwoorde AI waaraan een bestuurd systeem zou moeten voldoen (eerlijkheid, veiligheid en betrouwbaarheid, privacy, beveiliging en robuustheid, transparantie en uitlegbaarheid, verantwoording, menselijk toezicht). Een principe is abstract: het benoemt een uitkomst, geen knop die je kunt omzetten. Het wordt bestuurbaar door de schade te benoemen die het zou schenden, het risico van die schade in te schatten, en controls tegen dat risico te plaatsen. Wanneer GovCompass een principe zo borgt, noemt het dat een pijler. Zie pijler, schade, risico.Open full entry →: verwerk de minst gevoelige data die nodig is, bescherm wat verwerkt moet worden, en documenteer waarom. Gevoelige data die op inputniveau wordt gemaskeerd of geredigeerd, vóór ze het model bereikt, is een concrete controlcontrolDe concrete, toetsbare maatregel die een specifiek risico vermindert en daarmee het achterliggende principe beschermt. Ook wel risicobeheersmaatregel, risicorespons of risicobehandeling genoemd. Altijd herleidbaar tot het risico dat het adresseert: onder EU AI Act Art. 9 moet elke control terug te voeren zijn op een specifiek risico, en controls die los van hun risico's worden vastgelegd vormen een erkende compliance-fout. Het werkt in een van drie typen: preventief, detectief of correctief. Zie risico, control-typen, bewijs.Open full entry → die zowel de Art. 10-datagovernance-verplichting als het minimalisatiebeginsel van de AVG dient.
Waarom het ertoe doet
Datagovernance-fouten zijn dubbel blootgesteld, omdat dezelfde dataset zowel een fairness-gebrek als een privacy-gebrek kan dragen, en de twee worden gehandhaafd door verschillende delen van de wet. Een trainingsset die één groep oververtegenwoordigt, creëert een Art. 10-kwaliteitsfout en een fairness-risico binnen het risicobeheerssysteem, terwijl dezelfde set, als die persoonsgegevens bevat die niet verzameld hadden mogen worden, een AVG-blootstelling creëert. Datagovernance goed aanpakken sluit meerdere risico's tegelijk; ze verwaarlozen opent er meerdere tegelijk.
Datakwaliteit en governance besturen
De controls behandelen data als een beheerd bezit met een gedocumenteerde levenscycluslevenscyclusDe spanne van een enkel AI-systeem van eerste intake tot uitfasering, waarover het bestuurd moet worden. De horizontale as van governance: waar de governance-keten één principe borgt, voert de levenscyclus één systeem door de tijd. Doorgaans getekend als zes fasen, plan en ontwerp, data en ontwikkeling, verifieer en valideer, uitrol, gebruik en monitoring, en uitfasering, elk met controls die er eigen aan zijn en een anker-artefact. Een lus in plaats van een lijn, want een systeem in productie voert nieuw risico terug naar een verse beoordeling. Zie artefact, control, governance-keten.Open full entry →, niet als een ruwe input die toevallig beschikbaar is.
Het kernartefact is een datablad (data sheet) per dataset, dat de herkomst en provenance vastlegt, de omvang en populatiekenmerken, de uitgevoerde voorbereidings- en labellingoperaties, de gemaakte aannames, het uitgevoerde bias-onderzoek en de bevindingen, en de bekende beperkingen. Dit blad wordt onderdeel van de technische documentatietechnische documentatieRegistraties die een aanbieder voor een hoog-risico-AI-systeem moet samenstellen en bewaren om conformiteit aan te tonen, met dekking van het ontwerp, de data, het testen, het risicobeheer en de monitoring. Zie aanbieder, bewijs, model card.Open full entry → en is het bewijsbewijsHet concrete bewijs dat een control is ontworpen, geïmplementeerd en werkt: een testrapport, een audit trail, een impactassessment, een monitoringlog. Elke schakel in de governance-keten levert een artefact op, en samen zijn ze wat een organisatie overhandigt aan haar eigen bestuur, een toezichthouder, een klant of een betrokkene om te tonen, niet te zeggen, dat een systeem bestuurd is. De afwezigheid ervan is zelf het falen: een risicoregister zonder testresultaten, of een maatregel die wordt geclaimd zonder validatie, is een governance-gat, geen papierwerk-gat. De sluitende schakel van de governance-keten. Zie control, governance.Open full entry → dat een conformiteitsbeoordeling onderzoekt.
Voor systemen die persoonsgegevens verwerken, integreren de datagovernance-controls met de bestaande AVG-controls van de organisatie in plaats van parallel te lopen: één minimalisatiediscipline, één grondslagenanalyse, één bewaarschema, toegepast op de AI-datalevenscyclus. Waar bijzondere persoonsgegevens worden verwerkt onder de Art. 10(5)-uitzondering, worden de strikt-noodzaak-onderbouwing en de waarborgen gedocumenteerd vóórdat de verwerking begint, niet achteraf gereconstrueerd.
Checklist
- Is er een gedocumenteerd datablad voor elke trainings-, validatie- en testdataset, met herkomst, voorbereiding en beperkingen?
- Is elke dataset beoordeeld op relevantie, representativiteitrepresentativiteitHoe goed de trainingsdata de populatie en de omstandigheden weerspiegelt die het systeem bij inzet zal tegenkomen, de kern van datakwaliteit voor AI in termen van geschiktheid voor het doel. Zie eerlijkheid, trainingsdata.Open full entry →, foutmarge en volledigheid tegen het beoogde doel, met het oordeel gedocumenteerd?
- Is elke dataset onderzocht op biases die gezondheid, veiligheid of grondrechten kunnen raken, met de mitigerende maatregelen vastgelegd?
- Waar bijzondere persoonsgegevens worden verwerkt om bias te detecteren of corrigeren, is de strikt-noodzaak-onderbouwing gedocumenteerd en zijn de Art. 10(5)-waarborgen aanwezig?
- Voor systemen die persoonsgegevens in real time verwerken, wordt gevoelige data geminimaliseerd of gemaskeerd vóór die het model bereikt?
- Integreren de datagovernance-controls met de bestaande AVG-controls van de organisatie in plaats van die te dupliceren?