Art. 10 EU AI Act: data en datagovernance voor hoog-risico AI
Art. 10 vereist dat de trainings-, validatie- en testdata voor hoog-risico AI-systemen voldoet aan kwaliteitscriteria: relevant, voldoende representatief, en zo foutloos en volledig mogelijk voor het beoogde doel. Het vereist ook gedocumenteerde datagovernance over verzameling, voorbereiding, bias-onderzoek en het mitigeren van lacunes, en het staat de beperkte verwerking van bijzondere persoonsgegevens toe waar strikt noodzakelijk om bias te detecteren en corrigeren, onder waarborgen.
Bijgewerkt: juni 2026
Dit is een expliciete providerproviderThe actor who develops an AI system (or has it developed) and places it on the market or into service under its own name — carrying manufacturer-style duties: design controls, documentation, conformity.Open full entry →-verplichting onder de EU AI Act. Ze rust op degene die het hoog-risico AI-systeem ontwikkelt of op de markt brengt. Deployers dragen een verwante inputdata-plicht onder Art. 26.4.
Inleiding: data als de bron van de meeste AI-risico's
De meeste faalwijzen waar de EU AI Act zich zorgen over maakt, ontstaan in de data. Een vertekende uitkomst is meestal een vertekende dataset die zich via een model uit. Een privacy-blootstelling is meestal data die niet verzameld, bewaard of gebruikt had mogen worden. Een prestatiefout is vaak een trainingsset die de populatie die het systeem bedient niet meer representeert. Art. 10 is de verplichting die het risico bij de bron aanpakt, door kwaliteits- en governance-eisen te stellen aan de data waarop hoog-risico AI-systemen worden gebouwd en gedraaid.
Art. 10 geldt primair voor providers, die het systeem ontwikkelen en de training ervan beheersen. Maar de logica reikt ook tot deployers, omdat de inputdata die een deployerdeployerAn organization using an AI system under its own authority in its activities — carrying operator duties: use per instructions, oversight, input relevance, monitoring, notices.Open full entry → in gebruik aanlevert moet voldoen aan de voorwaarden die de provider specificeerde, een plicht die apart verschijnt als de deployer-verplichting in Art. 26.4.
Wat de data moet zijn
Art. 10 vereist dat trainings-, validatie- en testdatasets onderworpen zijn aan passende datagovernance en voldoen aan kwaliteitscriteria. De datasets moeten zijn:
- Relevant voor het beoogde doel van het systeem.
- Voldoende representatief voor de personen en situaties waarop het systeem zal worden gebruikt, zodat het systeem niet goed presteert voor de ene groep en slecht voor de andere.
- Zo foutloos en zo volledig mogelijk met het oog op het beoogde doel.
- Passend in hun statistische eigenschappen, ook voor de groepen die het systeem beoogt te raken.
Dit zijn geen absolute normen. Het artikel kwalificeert ze met "voor zover mogelijk" en "met het oog op het beoogde doel", wat betekent dat de provider een beredeneerd en gedocumenteerd oordeel moet vellen over welk kwaliteitsniveau toereikend is voor de inzet van het gebruiksgeval, in plaats van een vaste numerieke grens te halen.
Wat de governance moet bestrijken
Naast de kwaliteit van de data zelf vereist Art. 10 gedocumenteerde datagovernance- en beheerpraktijken. Deze bestrijken de ontwerpkeuzes en de data-herkomst, het verzamelproces en de provenance, de voorbereidingsoperaties zoals labelling en cleaning, de formulering van aannames over wat de data meet, een beoordeling of de data beschikbaar, geschikt en toereikend is, en een onderzoek naar mogelijke biases die gezondheid, veiligheid of grondrechten kunnen raken, samen met maatregelen om die biases te detecteren, voorkomen en mitigeren.
Dit is het governance-spoor dat een conformiteitsbeoordeling verwacht: niet alleen een schone dataset, maar een gedocumenteerd verslag van waar die vandaan kwam, hoe die is voorbereid, wat is aangenomen, en hoe naar bias is gezocht en die is aangepakt.
De bepaling over bijzondere persoonsgegevens en de real-time data-invalshoek
Art. 10(5) bevat een belangrijke en vaak verkeerd gelezen bepaling. Om bias te detecteren en corrigeren mogen providers bij uitzondering bijzondere categorieën persoonsgegevens verwerken, de gevoelige data die de AVG anders beperkt, maar alleen waar strikt noodzakelijk, en onder waarborgen: de bias kan niet worden gedetecteerd door andere data te verwerken, de data is onderworpen aan technische beperkingen op hergebruik, beveiligings- en privacybeschermende maatregelen gelden, en de data wordt gewist zodra de bias is gecorrigeerd of de bewaartermijn afloopt.
Deze bepaling is ook waar de operationele invalshoek van gegevensbescherming op het gebruikspunt binnenkomt. Voor systemen die data in real time verwerken, is de discipline om gevoelige data te minimaliseren en te maskeren vóór die het model bereikt, de operationele uitdrukking van hetzelfde principe: verwerk de minst gevoelige data die nodig is, bescherm wat verwerkt moet worden, en documenteer waarom. Gevoelige data die op inputniveau wordt gemaskeerd of geredigeerd, vóór ze het model bereikt, is een concrete control die zowel de Art. 10-datagovernance-verplichting als het minimalisatiebeginsel van de AVG dient.
Waarom het ertoe doet
Datagovernance-fouten zijn dubbel blootgesteld, omdat dezelfde dataset zowel een fairnessfairnessThe responsible-AI principle that systems should not create or reinforce unjust discrimination; operationalised through bias testing, representative data and per-group thresholds — with multiple, mutually incompatible mathematical definitions.Open full entry →-gebrek als een privacy-gebrek kan dragen, en de twee worden gehandhaafd door verschillende delen van de wet. Een trainingsset die één groep oververtegenwoordigt, creëert een Art. 10-kwaliteitsfout en een fairness-risico binnen het risicobeheerssysteem, terwijl dezelfde set, als die persoonsgegevens bevat die niet verzameld hadden mogen worden, een AVG-blootstelling creëert. Datagovernance goed aanpakken sluit meerdere risico's tegelijk; ze verwaarlozen opent er meerdere tegelijk.
Datakwaliteit en governance besturen
De controls behandelen data als een beheerd bezit met een gedocumenteerde levenscyclus, niet als een ruwe input die toevallig beschikbaar is.
Het kernartefact is een datablad (data sheet) per dataset, dat de herkomst en provenance vastlegt, de omvang en populatiekenmerken, de uitgevoerde voorbereidings- en labellingoperaties, de gemaakte aannames, het uitgevoerde bias-onderzoek en de bevindingen, en de bekende beperkingen. Dit blad wordt onderdeel van de technische documentatie en is het bewijs dat een conformiteitsbeoordeling onderzoekt.
Voor systemen die persoonsgegevens verwerken, integreren de datagovernance-controls met de bestaande AVG-controls van de organisatie in plaats van parallel te lopen: één minimalisatiediscipline, één grondslagenanalyse, één bewaarschema, toegepast op de AI-datalevenscyclus. Waar bijzondere persoonsgegevens worden verwerkt onder de Art. 10(5)-uitzondering, worden de strikt-noodzaak-onderbouwing en de waarborgen gedocumenteerd vóórdat de verwerking begint, niet achteraf gereconstrueerd.
Checklist
- Is er een gedocumenteerd datablad voor elke trainings-, validatie- en testdataset, met herkomst, voorbereiding en beperkingen?
- Is elke dataset beoordeeld op relevantie, representativiteit, foutmarge en volledigheid tegen het beoogde doel, met het oordeel gedocumenteerd?
- Is elke dataset onderzocht op biases die gezondheid, veiligheid of grondrechten kunnen raken, met de mitigerende maatregelen vastgelegd?
- Waar bijzondere persoonsgegevens worden verwerkt om bias te detecteren of corrigeren, is de strikt-noodzaak-onderbouwing gedocumenteerd en zijn de Art. 10(5)-waarborgen aanwezig?
- Voor systemen die persoonsgegevens in real time verwerken, wordt gevoelige data geminimaliseerd of gemaskeerd vóór die het model bereikt?
- Integreren de datagovernance-controls met de bestaande AVG-controls van de organisatie in plaats van die te dupliceren?