Stadsarchief Amsterdam, Toegankelijkheid Digitale Innovatie
Overzicht
Transcriptieplatform Transkribus
Tags
Sinds 2018 werkt het Stadsarchief met transcriptieplatform Transkribus voor het machineleesbaar maken van historische handgeschreven documenten uit de collectie. Hiermee worden enorme aantallen documenten voor het eerst op woordniveau doorzoekbaar en worden nieuwe vormen van onderzoek mogelijk. Door middel van machine learning en Handwritten Text Recognition (HTR)-technieken worden AI-modellen getraind op het herkennen van 17e-eeuwse tot modernere handschriften. Alle HTR (de transcripties) inclusief het trainingsmateriaal is gepubliceerd, de modellen zelf zijn toegankelijk binnen Transkribus. De historische data wordt gebruikt en hergebruikt door organisatieonderdelen binnen de Gemeente Amsterdam, door een breed historisch publiek en wetenschappelijk onderzoekers in binnen- en buitenland.
Link naar dienst
Contactgegevens
Afdeling
- Stadsarchief Amsterdam, Toegankelijkheid & Digitale Innovatie
Contact e-mail
- algoritmen@amsterdam.nl
Gedetailleerde informatie over het systeem
Hier kunt u kennismaken met de door het systeem gebruikte informatie, de werkingslogica en het bestuur ervan op de gebieden die u interesseren.
- Datasets Toon Meer Toon Minder
Belangrijke gegevensbronnen die worden gebruikt bij de ontwikkeling en het gebruik van het systeem, hun inhoud en gebruiksmethoden. De verschillende gegevensbronnen worden gescheiden door subkoppen.
Naam
Transcripties en Ground TruthDatasetbeschrijving
De dataset bevat machinegelezen transcripties en Ground Truth (trainingsmateriaal) van historische handschriften uit de notariële archieven, het archief van Publieke Werken en het openbare deel van de Burgerlijke Stand. Periodiek worden nieuwe scans met HTR toegevoegd. Het trainingsmateriaal bestaat uit tienduizenden transcripties, gemaakt door vrijwilligers en medewerkers van het Stadsarchief Amsterdam.
OperatingBron adres
https://transkribus.eu/r/amsterdam-city-archives- Human oversight Toon Meer Toon Minder
Menselijk toezicht tijdens het gebruik van de dienst.
De AI-modellen zijn binnen de tool Transkribus door medewerkers van het Stadsarchief getraind. De computergelezen teksten (HTR) zijn achteraf niet meer door mensen gecorrigeerd, waardoor er fouten kunnen zitten in de gelezen karakters
- Gegevensverwerking Toon Meer Toon Minder
De operationele logica van de automatische gegevensverwerking en redenering uitgevoerd door het systeem en de gebruikte modellen.
Beschrijving van de systeemarchitectuur
De HTR is uitgevoerd met verschillende specifieke en generieke AI-modellen binnen Transkribus, gebruikmakend van convolutional neural networks en transformer neural networks.
- Non-discriminatie Toon Meer Toon Minder
Promotie en realisatie van gelijkheid in het gebruik van de dienst.
Er zijn geen restricties op het gebruik van de dataset. Doordat de historische teksten mogelijk onderwerpen en uitdrukkingen kunnen bevatten die als gevoelig worden ervaren, zal de HTR worden voorzien van een algemene toelichting
- Referenties Toon Meer Toon Minder
Live service adres
https://readcoop.eu/transkribus/- Risicobeheer Toon Meer Toon Minder
Risico's in verband met het systeem en het gebruik ervan en de beheersmethoden.
De risico’s zijn laag. Het Stadsarchief verwerkt geen niet-openbare documenten met HTR. Transkribus is voortgekomen uit een EU Horizon 2020 programma een daarna doorontwikkeld tot een Europese coöperatie met een groot aantal internationale erfgoedinstituten als leden. Alle data en metadata worden op Europese servers gehost en voldoen aan GDPR en AVG.
Vond u deze informatie nuttig?