[ad_1]
Iedere historicus weet het: als je iets in een archief wilt vinden, kijk je in de inventaris. Dit is een introductie tot een archief en bevat een lijst met de documenten die het archief bevat. Zo’n lijst is per thema gerangschikt.
Dat kan beter, vonden onderzoekers van het Huygens Instituut, het IISG en het Nationaal Archief. In het project ‘Globalise’ ontwikkelden zij een nieuwe zoekomgeving, waarmee je nu op termen kunt zoeken in het digitale VOC-archief. Als u bijvoorbeeld zoekt op ‘VOC-verovering’, vindt u alle documenten waarin deze veroveringen worden vermeld.
Naam van een tot slaaf gemaakte persoon
De impact van de nieuwe zoekomgeving is groot. “Je komt nu informatie tegen die anders bijna niet te vinden zou zijn”, zegt van Rossum. De onderzoeker ondervond dit ook zelf. Hij zocht naar de term ‘Lamey’, een eiland voor de Taiwanese kust waar in 1636 een massamoord en daaropvolgende ontvolking plaatsvond door toedoen van VOC-bestuurders.
In de praktijk kwam dit neer op een massamoord op honderden mensen, een derde van de bevolking. De overlevenden werden overgebracht naar Batavia of tot slaaf gemaakt door inheemse samenlevingen in Taiwan. Een van de slaven was Maria Cabbecabbe Poespas. Haar naam kwam naar voren bij de zoekterm ‘Lamey’. Dit betekent dat er ineens een naam wordt gekoppeld aan de ontvolking van Lamey. De tot slaaf gemaakte krijgt een gezicht.
En zou deze informatie anders onvindbaar zijn? Ja, eigenlijk wel, zegt Van Rossum. “Dit had je zonder de zoekomgeving nauwelijks kunnen vinden, omdat de berichten over de ontvolking van Lamey in een reeks inventarisaties staan die verband houden met Taiwan of de regering in Batavia. Maria’s naam stond in het deel van het archief voor de Banda-eilanden: dus als je iets wilt weten over de ontvolking van Lamey, kijk daar dan niet.”
Methode van zoekomgeving
Een groter speelveld voor historici dus. Maar hoe werkt deze nieuwe zoekomgeving eigenlijk? Hoe maakt de machine chocolade van al die handgeschreven VOC-bronnen? “Wij werken met tekstherkenning. Dit betekent dat we de computer leren karakters en letters in het handgeschreven materiaal te herkennen”, legt van Rossum uit.
Hiervoor trainden ze eerst een tijdje met de computer. Een beknopte samenvatting van wat de computer leerde herkennen: het VOC-handschrift, de leesvolgorde, handtekeningen en lezen van links naar rechts. En van boven naar beneden.
“We hebben eerst honderden pagina’s trainingsmateriaal voor de machine gemaakt”, zegt van Rossum. “Dus dan typen we precies uit wat er op die handgeschreven pagina’s staat. Dan leert de machine dit uiteindelijk zelf herkennen.” De tekstherkenning werkt deels op basis van een AI-methode. “De zoekomgeving is nu zo goed geworden omdat we de computer zo vaak hebben getraind.”
Westerse vooringenomenheid
De ‘ogen’ van de computer kijken over honderdduizenden documenten uit de koloniale tijd. Hebben de onderzoekers rekening gehouden met een westerse bias? “Als onderzoekers moeten we er rekening mee houden dat de documenten zeker een koloniale invalshoek hebben. Veel van de documenten beschrijven niet-Europese samenlevingen vanuit een westers perspectief. Maar daarom hebben wij er actief voor gekozen om de technologie zo neutraal mogelijk te houden.”
Dit betekent dat alles wat de computer als teken herkent, niet direct wordt omgezet in de Nederlandse taal. De taak van de computer is om karakters te herkennen, maar niet om elk karakter op het Nederlands te baseren. De woorden in de tekst zijn niet alleen Oudnederlands, maar ook een mengeling van onder meer Maleis en Portugees. Als je elk woord van het Maleis naar het Nederlands afvlakt, gaat niet-Europese informatie verloren.
“We hebben er daarom voor gekozen om in eerste instantie geen taalmodel te gebruiken, omdat er anders kans is op vertekening. Dat levert een minder mooie vertaling op, maar wel schoner”, reageert Van Rossum.
Deze zoekfunctie geldt nu alleen voor het VOC-archief ‘Overgedragen Brieven en Papieren’, een serie van vijf miljoen scans. Het valt nu nog te bezien wat de zoekomgeving voor het overige VOC-materiaal kan betekenen; het gehele VOC-archief telt 25 miljoen scans. Het onderzoeksteam van het Globalize-project hoopt in de toekomst de andere scans via de computertool uit te voeren.
Lees ook:
Deze vrouwen ontcijferden de oorlogsarchieven van Trouw. ‘Het was een beetje verslavend’
Van pseudoniemen tot onleesbaar handschrift: drie vrouwen ontcijferen al vier jaar het soms ondoorgrondelijke archief van de illegale krant Trouw. Wat drijft hen? ‘Mijn grootvader zei: mensen gaan te slordig om met hun vrijheid.’
[ad_2]