Datastyrning och biastestning — Artikel 10 i EU:s AI-förordning

Artikel 10 i förordning (EU) 2024/1689 utgör dataryggraden i högriskregimen. Den placerar sig mellan artikel 9 (riskhantering) och artikel 11 (teknisk dokumentation) och fastställer vilka data som får användas, under vilken styrning och hur snedvridningar ska hanteras. Den här sidan går igenom de fyra operativa styckena och den begränsade grunden i artikel 10(5) för behandling av känsliga personuppgifter i syfte att upptäcka och korrigera snedvridningar.

Vem artikel 10 gäller

Artikel 10 gäller högrisk-AI-system som tillämpar tekniker som innefattar träning av AI-modeller med data. För högrisk-AI-system som inte tränas på data gäller artikel 10 bara för testdatauppsättningar. Den primära ansvariga parten är leverantören, men omklassificering enligt artikel 25 kan föra över dessa skyldigheter på en tillhandahållare som på ett väsentligt sätt modifierar ett system, och tillhandahållare enligt artikel 26 som tillhandahåller indata måste säkerställa att dessa är relevanta och tillräckligt representativa med hänsyn till det avsedda ändamålet.

Artikel 10(2) — datastyrningsrutiner

Tränings-, validerings- och testdatauppsättningar måste omfattas av datastyrnings- och datahanteringsrutiner som är lämpliga för det avsedda ändamålet med högrisk-AI-systemet. Dessa rutiner ska i synnerhet avse:

relevanta designval;
datainsamlingsprocesser och datakällornas ursprung samt, vid personuppgifter, det ursprungliga syftet med datainsamlingen;
relevanta databehandlingsoperationer, exempelvis annotering, märkning, rensning, uppdatering, berikning och aggregering;
formulering av antaganden, i synnerhet avseende den information som data anses mäta och representera;
en bedömning av tillgängligheten, mängden och lämpligheten hos de datauppsättningar som behövs;
undersökning med avseende på möjliga snedvridningar som sannolikt påverkar personers hälsa och säkerhet, har en negativ inverkan på grundläggande rättigheter eller leder till diskriminering som är förbjuden enligt unionsrätten, särskilt om datautdata påverkar indata för framtida operationer;
lämpliga åtgärder för att upptäcka, förebygga och mildra möjliga konstaterade snedvridningar;
identifiering av relevanta dataluckor eller brister som hindrar efterlevnad av förordningen, och hur dessa luckor och brister kan åtgärdas.

Artikel 10(3) — kvalitetskriterier

Tränings-, validerings- och testdatauppsättningar måste vara relevanta, tillräckligt representativa och, i möjligaste mån, fria från fel och fullständiga med hänsyn till det avsedda ändamålet. De måste ha lämpliga statistiska egenskaper, inklusive, i tillämpliga fall, avseende de personer eller grupper av personer för vilka högrisk-AI-systemet är avsett att användas. Dessa egenskaper hos datauppsättningarna kan uppnås på nivån för enskilda datauppsättningar eller på nivån för en kombination av dem.

Artikel 10(4) — kontextrelevanta egenskaper

Tränings-, validerings- och testdatauppsättningar måste, i den utsträckning som det avsedda ändamålet kräver, ta hänsyn till de egenskaper eller element som är särskilda för den specifika geografiska, kontextuella, beteendemässiga eller funktionella miljö i vilken högrisk-AI-systemet är avsett att användas.

I praktiken innebär ett rekryteringssystem som huvudsakligen tränats på data från en arbetsmarknad och driftsatts på en annan en presumtiv efterlevnadslucka enligt artikel 10(4) som den tillhandahållaren bör påpeka för leverantören innan köp.

Artikel 10(5) — känsliga personuppgifter för biastestning

I den utsträckning det är absolut nödvändigt för att säkerställa biastestning och -korrigering avseende högrisk-AI-system, får leverantör av sådana system undantagsvis behandla känsliga personuppgiftskategorier som avses i artikel 9(1) i förordning (EU) 2016/679 (GDPR), med förbehåll för lämpliga skyddsåtgärder för fysiska personers grundläggande rättigheter och friheter. Dessa skyddsåtgärder ska minst innefatta följande:

biastestning och -korrigering kan inte uppnås på ett effektivt sätt genom behandling av andra uppgifter, inklusive syntetiska eller anonymiserade uppgifter;
de känsliga personuppgiftskategorierna är föremål för tekniska begränsningar för återanvändning och tillämpning av senaste säkerhets- och integritetsbevarande åtgärder, inklusive pseudonymisering;
de känsliga personuppgiftskategorierna är föremål för åtgärder för att säkerställa att de personuppgifter som behandlas är skyddade och säkrade, föremål för lämplig skyddsåtgärd, inklusive strikta kontroller och dokumentation av åtkomst, för att förhindra missbruk och säkerställa att bara behöriga personer har åtkomst;
de känsliga personuppgiftskategorierna ska inte överföras, vidarebefordras eller på annat sätt göras tillgängliga för andra parter;
de känsliga personuppgiftskategorierna ska raderas när snedvridningen har korrigerats eller personuppgifterna har nått slutet av sin lagringsperiod, beroende på vilket som inträffar först;
behandlingsregister i enlighet med förordningarna (EU) 2016/679 och (EU) 2018/1725 och direktiv (EU) 2016/680 ska inkludera skälen till varför behandlingen av känsliga personuppgiftskategorier var absolut nödvändig för att upptäcka och korrigera snedvridningar, och varför det målet inte kunde uppnås genom behandling av andra uppgifter.

Artikel 10(6) och undantaget för enbart testning

För utveckling av högrisk-AI-system som inte använder tekniker som innefattar träning av AI-modeller gäller styckena 2–5 bara för testdatauppsättningar.

Hur artikel 10 anknyter till den tillhandahållarens skyldigheter

Noggrannhet vid köp. Tillhandahållare bör begära att leverantören redogör för åtgärder mot snedvridning enligt artikel 10(2)(g) och kontextanpassning enligt artikel 10(4) innan avtal ingås — saknade svar är varningssignaler.
Indatakvalitet enligt artikel 26(4). Där tillhandahållare utövar kontroll över indata måste de säkerställa att indata är relevant och tillräckligt representativ med hänsyn till det avsedda ändamålet med högrisk-AI-systemet.
Artikel 27 FRIA. Resultaten från artikel 10 ingår i den konsekvensbedömning avseende grundläggande rättigheter som krävs av vissa tillhandahållare enligt artikel 27 (offentligrättsliga organ och privata aktörer som tillhandahåller allmänna tjänster, samt tillhandahållare enligt Bilaga III punkterna 5(b) och 5(c)).
Artikel 11 / Bilaga IV. Resultat från artikel 10 ingår i den tekniska dokumentation som den tillhandahållaren behöver ta del av i enlighet med bruksanvisningarna i artikel 13.

Vanliga missuppfattningar

"Artikel 10 gör snedvridning olaglig." Det gör den inte. Den kräver undersökning av snedvridningar som kan påverka hälsa, säkerhet eller grundläggande rättigheter samt lämpliga motåtgärder. Kvarvarande snedvridning är acceptabel om den är dokumenterad och åtgärdad.
"Artikel 10(5) tillåter oss att samla in ras- eller sexuell läggning-data." Enbart leverantören, enbart om det är absolut nödvändigt, enbart när andra uppgifter inte räcker, och med alla sex skyddsåtgärderna. Det är ett snävt undantag, inte en generell licens.
"Syntetisk data undviker artikel 10." Artikel 10(5)(a) nämner uttryckligen syntetiska och anonymiserade uppgifter som den föredragna vägen. Kvalitetskriterierna enligt artikel 10(3) gäller fortfarande för syntetiska datauppsättningar.
"Artikel 10 är leverantörens problem." Artikel 26(4) ålägger tillhandahållare en skyldighet avseende indatakvalitet, och en väsentlig modifiering (artikel 25) gör den tillhandahållaren till leverantör för alla skyldigheter i avsnitt 2, inklusive artikel 10.

Relaterade EU-guider

Källor

Förordning (EU) 2024/1689, artiklarna 9, 10, 11, 13, 25, 26, 27 — EUR-Lex: https://eur-lex.europa.eu/eli/reg/2024/1689/oj
Förordning (EU) 2016/679 (GDPR), artikel 9 — EUR-Lex: https://eur-lex.europa.eu/eli/reg/2016/679/oj
Europeiska kommissionen — AI Act Service Desk, artikel 10: https://ai-act-service-desk.ec.europa.eu/en/ai-act/article-10

Obs: Artikel 10(5) kräver en strikt nödvändighets- och proportionalitetsbedömning enligt GDPR artikel 9. Rådfråga alltid din DPO eller extern juridisk rådgivare innan den åberopas. PowerQuant tillhandahåller dokumentationsmallar — inte juridisk rådgivning.