Digitalisering en Innovatie
Overzicht
Blurring as a Service
Tags
Blurring as a Service (BaaS) is een generieke dienst die het mogelijk maakt om beelden uit de publieke ruimte te anonimiseren door personen en kentekens te verwijderen. De dienst kan voor verschillende databronnen gebruikt worden en wordt als eerste ingezet voor panoramabeelden.
Sinds 2016 worden er jaarlijks panoramabeelden ingewonnen van de gehele stad door de afdeling Basisinformatie (Mobile Mapping team) om de Stad Amsterdam in beeld te brengen. De panoramabeelden maken onder andere mogelijk dat gemeentelijke medewerkers de openbare ruimte kunnen inspecteren vanuit hun werkplaats voor verschillende doeleinden, zoals bereikbaarheid met speciale voortuigen of de inspectie van wegen. Het is vergelijkbaar met de werking van Google Streetview, hoewel dit een actueler beeld van de stad moeten geven.
Voor deze taken is het niet noodzakelijk om personen of kentekens herkenbaar in beeld te brengen of te houden. Daarom is besloten dat deze beelden moeten worden geanonimiseerd. Daarvoor is het anonimisering algoritme ontwikkeld. De inzet van het algoritme kan als een maatregel worden beschouwd om de data zorgvuldig en rechtmatig te verwerken. Met de ontwikkelde voorziening ‘Blurring as a Service’ kan worden voorkomen dat beelden met herkenbare personen en kentekens worden gebruikt voor gemeentelijke werkprocessen.
Het Computer Vision Team heeft de voorziening ontwikkeld waarmee de panoramabeelden kunnen worden geanonimiseerd. Het algoritme is getraind om gehele personen, dus niet alleen gezichten, en kentekens te herkennen op (panorama)beelden. Dit zorgt ervoor dat deze personen en kentekens vervolgens worden ‘geblurred’, waarmee ze feitelijk worden geanonimiseerd.
Link naar dienst
Contactgegevens
Afdeling
- Directie Digitalisering en Innovatie, Computer Vision Team
Contact e-mail
- Algoritmen@amsterdam.nl
Contact telefoon
- 14 020
Gedetailleerde informatie over het systeem
Hier kunt u kennismaken met de door het systeem gebruikte informatie, de werkingslogica en het bestuur ervan op de gebieden die u interesseren.
- Datasets Toon Meer Toon Minder
Belangrijke gegevensbronnen die worden gebruikt bij de ontwikkeling en het gebruik van het systeem, hun inhoud en gebruiksmethoden. De verschillende gegevensbronnen worden gescheiden door subkoppen.
Naam
VerwerkingsgrondslagBeheerder
Team Mobile Mapping Gemeente AmsterdDatasetbeschrijving
De reden en noodzaak om een anonimisering algoritme te ontwikkelen, berust op de taak van de gemeente om de kernregistratie actueel en betrouwbaar te houden. Dit is gebaseerd op artikel 2 lid 2 Wet basisregistratie grootschalige topografie, en artikel 2 lid 1 Wet basisregistratie adressen en gebouwen en artikel 6 lid 1 sub e AVG. Daarnaast is het volgende in de betreffende Verordening (Reglement Basisinformatie 2018 het volgende opgenomen:
A. De publieke taak als bronleverancier voor de kernregistratie panoramabeelden (artikel 7);
B. De publieke taak als bronhouder.
Het proces van anonimiseren is een verdere verwerking van de verkregen panoramabeelden. Dat proces is volgens de WP29 als verenigbaar met de oorspronkelijke doeleinden te beschouwen, mits het anonimisering proces ertoe strekt op betrouwbare wijze anoniem gemaakte informatie te produceren en mits er een grondslag is voor het primaire gebruik. Zie Artikel 29-Werkgroep, ‘Advies 5/2014 over anonimiseringstechnieken’, WP 216, p. 8:
Gezien de prestaties van het algoritme kan er worden gesproken van een betrouwbare wijze van anoniem gemaakt informatie. Deze prestaties zijn inmiddels onafhankelijk getoetst door een externe partij, Verdonck, Klooster & Associates. De prestatiewaarden zijn eveneens vastgesteld door de CIO. Er kan worden geconcludeerd dat hiermee sprake is van een toelaatbare verenigbare verdere verwerking.Grondslag (primair verwerkingsdoel) voor het inwinnen van de panoramabeelden:
- Artikel 6 lid 1 sub e AVG
- Artikel 2 lid 2 Wet basisregistratie grootschalige topografie
- Artikel 2 lid 1 Wet basisregistratie adressen en gebouwen.
- Verordening (Reglement Basisinformatie 2018 het volgende opgenomen:
A. De publieke taak als bronleverancier voor de kernregistratie panoramabeelden (artikel 7);
B. De publieke taak als bronhouder.
Grondslag (secundair verwerkingsdoel) voor het ontwikkelen:
- Artikel 6 lid 1 sub c en e AVG
- Artikel 2 lid 2 Wet basisregistratie grootschalige topografie
- Artikel 2 lid 1 Wet basisregistratie adressen en gebouwen.
- Verordening (Reglement Basisinformatie 2018) het volgende opgenomen:
C. De publieke taak als bronleverancier voor de kernregistratie panoramabeelden (artikel 7);
D.de publieke taak als bronhouder.
- Art. 24 jo. 25 lid 1 en 2 jo 32 AVG.
Persoonsgegevens:
- Gezicht en postuur van mensen die zich in de openbare ruimte bevinden;
- Gezicht en postuur van mensen die zich in een woonobject of kantoor bevinden, ofwel die zich achter ramen bevinden. Panoramabeelden worden enkel buiten gemaakt.
- Kentekens;
- Bedrijfsgegevens, bv. op bedrijfsvoertuigen, borden of panden.
Training:
De ingewonnen beelden van de afgelopen jaren zijn gebruikt als trainingsdata voor de ontwikkeling van het algoritme. Het gaat om grofweg 10.000 ruwe beelden. Deze beelden waren nodig om het algoritme handmatig te trainen om personen en kentekens te leren herkennen. Het doel hiervan is dat het algoritme leert om de personen en kentekens op nieuwe beelden te kunnen verwijderen. Dit proces wordt ‘annotatie’ en ‘trainen’ genoemd.
Deze training set voor het algoritme wordt bewaard in de Azure cloud omgeving van de Gemeente Amsterdam. De training set wordt bewaard zolang het algoritme in gebruik is om mogelijk in de toekomst verbeteringen te maken. De panoramabeelden zijn opgeslagen in een versleutelde omgeving en alleen ambtenaren die de afbeeldingen nodig hebben kunnen erbij, bijvoorbeeld de ontwikkelaars van het algoritme.
Testing:
Een deel van de data is ingewonnen, is apart gehouden om vervolgens het algoritme mee te testen. De training en testdata komen dus nagenoeg overheen, hoewel het gaat om andere beelden. Voor het testen zijn grofweg 1.000 aantal beelden gebruikt.
Operating:
Het algoritme wordt momenteel voor de volgende toepassing gebruikt:
- Het tweemaal per jaar inwinnen van panoramabeelden ten behoeve van het actueel en betrouwbaar houden van kernregistraties. Het gaat om een grote hoeveelheid beelden;
- Op korte termijn wordt verwacht dat het algoritme wordt ingezet voor het anonimiseren van beelden waarop mogelijk illegaal geplaatste (zware) containers op kwetsbare kademuren en bruggen zijn gesignaleerd. Het gaat om ongeveer om 2000 beelden per jaar.
In de toekomst kan het aantal toepassingen toenemen.
- Human oversight Toon Meer Toon Minder
Menselijk toezicht tijdens het gebruik van de dienst.
Er is geen sprake van geautomatiseerde besluitvorming door gebruik te maken van het algoritme. Een burger of ondernemer zal nooit een besluit of beschikking ontvangen dat is gegenereerd door dit algoritme.
De gebruikers van het algoritme krijgen, nadat zij beelden hebben verzonden naar het Computer Vision Team, geanonimiseerde beelden terug. Deze beelden zullen onderdeel kunnen worden van een zaak, bijvoorbeeld in het kader van Toezicht en Handhaving. De zaakbehandelaar kan altijd zelf beoordelen of een afbeelding voldoende is geanonimiseerd.
Er zijn een aantal processen ingericht om fouten tegen gaan.
1. Bij verwerking van een batch van beelden, wordt een steekproef genomen die handmatig wordt gecontroleerd. Dit heeft tot doel om te verifiëren dat het algoritme doet wat er verwacht wordt;2. Er is een terugmeld proces ingeregeld, zodat fouten kunnen worden verbeterd. Daarnaast kunnen deze fouten ook worden gebruikt om het algoritme te verbeteren;
3. Jaarlijks vindt er een evaluatie plaats of het algoritme verbeterd moeten worden.
- Gegevensverwerking Toon Meer Toon Minder
De operationele logica van de automatische gegevensverwerking en redenering uitgevoerd door het systeem en de gebruikte modellen.
Beschrijving van de systeemarchitectuur
Het model is YOLOv5, een convolutional neural network dat gebruikt kan worden voor object detectie. Het netwerk ontvangt een afbeelding en voorspelt op welke plaatsen personen en kentekenplaten op de afbeeldingen zijn met zogeheten bounding boxes, ook wel vierkantjes. In de daaropvolgende worden deze gebieden geblurd door de pixels te vervagen.
Prestatie
Het anonimisering algoritme heeft momenteel een accuraatheid van grofweg 95% voor mensen die dicht bij de camera staan.
Voor kentekenplaten die dichtbij de camera zijn wordt ongeveer 97% geanonimiseerd.Het algoritme is zo afgesteld dat het liever iets te veel dan te weinig anonimiseert. Zo zou het kunnen voorkomen dat er een scooter, boom of ander object ook geblurd is. We blurren liever iets te veel dan te weinig.
Middels visuele inspectie op een steekproef is gebleken dat de personen die niet herkend worden meestal niet herkenbaar zijn, omdat zij bijvoorbeeld deels achter een boom staan. Idealiter worden deze personen uiteraard ook geanonimiseerd, dit is helaas nog niet mogelijk.
- Non-discriminatie Toon Meer Toon Minder
Promotie en realisatie van gelijkheid in het gebruik van de dienst.
Het is denkbaar dat bepaalde groepen beter of minder goed worden herkend door het algoritme. Dit zou dan een andere behandeling of een onderscheid op basis van uiterlijke kenmerken kunnen opleveren, bijvoorbeeld op basis van geslacht, leeftijd, huidskleur en daaraan gekoppeld kleding en attributen (bv. Invaliditeit, beroep of hobby). Het nadelige gevolg is dat bepaalde groepen een grotere kans hebben om (tijdelijk) herkenbaar in systemen van de gemeente Amsterdam te worden opgenomen. Dit moet uiteraard worden voorkomen.
Het algoritme is getraind op een gebalanceerde dataset, dat wil zeggen dat, ervoor gezorgd is dat zoveel mogelijk groepen vertegenwoordigd zijn. Zo zijn er bijvoorbeeld beelden geselecteerd rondom scholen en ook in buurten waar meer mensen wonen met een niet-Westerse migratieachtergrond om kinderen en mensen met verschillende huidskleuren voldoende te vertegenwoordigen in de dataset.
Er rust op de gemeente een verplichting om te onderzoeken of sprake is van een dergelijk verschil. Dit onderzoek is inmiddels uitgevoerd en de resultaten kunnen worden geraadpleegd via: Link of doorklik mogelijkheid op het document.
Momenteel zijn er (nog) geen ‘normen’ die bepalen wanneer beelden voldoende zijn geanonimiseerd. Uiteraard is de ambitie om alle beelden volledig te anonimiseren, maar het algoritme is niet (en nooit) foutloos. Voor het onderzoek zijn wel wetenschappelijke en praktische uitgangspunten worden gehanteerd om te toetsen of het algoritme verschillende groepen gelijk behandelt. Daarbij staat de vraag centraal of het algoritme, gezien de fouten die het nou eenmaal maak (hoe klein ook), deze fout verhoudingsgewijs vaker maakt ten opzichte van een of meerdere groepen.
In het algemeen kan worden geconcludeerd dat er geen onacceptabel verschil wordt gemaakt op basis van deze kenmerken. Wat ‘onacceptabel’ is, is hier (technische gezien) vastgesteld op basis van wetenschappelijke uitgangspunten, zogenaamde ‘drempelwaarden’. De analyses levert wel het inzicht op dat het algoritme iets minder goed presteert om kinderen succesvol te anonimiseren die zich op een beeld ver van de camera bevinden. Dit komt omdat kinderen doorgaans kleiner zijn en daarmee moeilijker te herkennen voor het algoritme. Het is van belang dat het algoritme wordt doorontwikkeld op dit onderdeel, zodat het beter leert om ook kinderen op afstand te herkennen. Hierbij is het van belang om op te merken dat het op deze beelden ook voor het ‘blote oog’ lastig is om te herkennen om wie het zou gaan. Kinderen die zich dicht bij de camera bevinden worden wel succesvol geanonimiseerd.
Het voorgaande betekent dat het Computer Vision Team het algoritme zal bijtrainen, om beter te worden in het anonimiseren van kinderen op grotere afstand. Het vertrekpunt blijft dat iedereen in gelijke mate moeten kunnen worden geanonimiseerd.
Er worden geen bijzondere persoonsgegevens gebruikt. Op grond van de AVG zijn biometrische gegevens die worden verwerkt met het oog op de unieke identificatie van een persoon ‘bijzondere persoonsgegevens’. Hoewel personen herkenbaar worden vastgelegd op beelden, is er geen sprake van oogmerk of doel om deze personen te identificeren. Het algoritme is enkel geleerd om te herkennen of een persoon (ongeacht wie het is) zich al dan niet bevindt op een beeld, om vervolgens het herkende deel van de afbeelding te anonimiseren.
Deze verwerkingsactiviteiten lijken op verwerkingen van biometrische gegevens ten behoeve van het identificeren van individuen. Er is echt geen sprake van identificatie van een persoon bij de ontwikkeling en de inzet van het anonimiseringsalgoritme. De data wordt daarom niet gekwalificeerd als bijzondere persoonsgegevens, maar wel als (gevoelige)persoonsgegevens.
- Referenties Toon Meer Toon Minder
Aangepaste referentie
Impact analyse voor gegevensbescherming
Privacy verklaring Blurring as a Service.pdf
Model voor informatie- en systeembestuur
Rapport technische review BaaS – VKA.html
GitHub – Removing personal data from Imagery.html
Rechtsgrondslag beschrijving
Publieke taak: Artikel 6 lid 1 sub e AVG Artikel. 24 jo. 25 lid 1 en 2 jo. 32 AVGLive service adres
Adres privacybeleid
- Risicobeheer Toon Meer Toon Minder
Risico's in verband met het systeem en het gebruik ervan en de beheersmethoden.
Verwerking van (grote) hoeveelheid persoonsgegevens. Zie fairness analyse bij referenties.
Persoonlijke gegevens
1
Vond u deze informatie nuttig?