VUB ontwikkelt software om oude documenten beter te kunnen scannen

Dr. Tan Lu van de VUB- onderzoeksgroep Digital Mathematics ontwikkelde voor zijn doctoraatsonderzoek een prijswinnende software die zich niet laat foppen door scheuren, vlekken of slechte scans.

Papieren documenten vertonen de vervelende eigenschap dat ze in de loop der tijd steeds slechter leesbaar worden. Bij het digitaliseren van oude archieven levert dit grote problemen op.

Op dit moment worden er in de cultureel erfgoedsector omvangrijke digitaliseringsprojecten uitgevoerd. Daarbij worden grote hoeveelheden oude kranten en andere manuscripten ingescand, om vervolgens via zogenoemde Optical Character Recognition (OCR) te worden gedigitaliseerd. Dat laatste is van essentieel belang omdat de documenten zo doorzoekbaar worden, waardoor informatie veel makkelijker kan worden ontsloten. OCR is echter nog altijd verre van perfect. De gebruikte algoritmes hebben moeite met materiële schade aan pagina's, zoals scheuren en vlekken. Bovendien kan de computer in de war raken van de moeilijke tekstopmaak die vaak voorkomt in reclames en modetijdschriften.

Kijken zoals mensen

Onder leiding van Prof. Dr. Ann Dooms ontwikkelde Lu een reeks zogeheten homogeniteitsmodellen die de computer helpen hun tekstherkenning sterk te verbeteren. In deze homogeniteitsmodellen formuleerde hij verschillende scenario's om een reeks van problemen aan te pakken, waaronder documentsegmentatie, vervormingsherkenning en kwaliteitsbeoordeling. Daarbij maakte hij gebruik van bestaande kennis over de manier waarop de menselijke hersenen omgaan met gecompliceerde beelden. Lu: "De gestaltpsychologie leert ons bijvoorbeeld dat mensen losse objecten van een zelfde soort van nature met elkaar groeperen tot één groep. Omdat computers dit vermogen missen, struikelen ze vaker over tekstherkenning in moeilijke layouts of in beschadigde zones. Ze zijn, anders dan mensen, niet in staat de verschillende delen van een beschadigd beeld te recombineren." Door inzichten uit de waarnemingspsychologie te integreren in een zogenoemd probabilistisch lokaal teksthomogeniteitsmodel (PLTH), leerde Lu de computer omgaan met documenten met een moeilijke layout en hierin ook tal van beschadigingen en vervormingen herkennen.

Internationale prijs voor documentherkenning

Lu heeft met zijn onderzoek een aantal lang bestaande problemen binnen tekstherkenning opgelost waarbij zijn werk de kracht demonstreert van een wiskundige benadering van beeldverwerkingsproblemen. De ontwikkeling van nieuwe wiskundige modellen blijkt het ware potentieel te kunnen ontketenen dat schuilgaat achter de digitalisering van oude en waardevolle documenten. De software die binnen dit onderzoek door de onderzoeksgroep Digital Mathematics ontwikkeld werd, won eerder de internationale ICDAR-prijs voor documentherkenning.

Papieren documenten vertonen de vervelende eigenschap dat ze in de loop der tijd steeds slechter leesbaar worden. Bij het digitaliseren van oude archieven levert dit grote problemen op.Op dit moment worden er in de cultureel erfgoedsector omvangrijke digitaliseringsprojecten uitgevoerd. Daarbij worden grote hoeveelheden oude kranten en andere manuscripten ingescand, om vervolgens via zogenoemde Optical Character Recognition (OCR) te worden gedigitaliseerd. Dat laatste is van essentieel belang omdat de documenten zo doorzoekbaar worden, waardoor informatie veel makkelijker kan worden ontsloten. OCR is echter nog altijd verre van perfect. De gebruikte algoritmes hebben moeite met materiële schade aan pagina's, zoals scheuren en vlekken. Bovendien kan de computer in de war raken van de moeilijke tekstopmaak die vaak voorkomt in reclames en modetijdschriften.Kijken zoals mensenOnder leiding van Prof. Dr. Ann Dooms ontwikkelde Lu een reeks zogeheten homogeniteitsmodellen die de computer helpen hun tekstherkenning sterk te verbeteren. In deze homogeniteitsmodellen formuleerde hij verschillende scenario's om een reeks van problemen aan te pakken, waaronder documentsegmentatie, vervormingsherkenning en kwaliteitsbeoordeling. Daarbij maakte hij gebruik van bestaande kennis over de manier waarop de menselijke hersenen omgaan met gecompliceerde beelden. Lu: "De gestaltpsychologie leert ons bijvoorbeeld dat mensen losse objecten van een zelfde soort van nature met elkaar groeperen tot één groep. Omdat computers dit vermogen missen, struikelen ze vaker over tekstherkenning in moeilijke layouts of in beschadigde zones. Ze zijn, anders dan mensen, niet in staat de verschillende delen van een beschadigd beeld te recombineren." Door inzichten uit de waarnemingspsychologie te integreren in een zogenoemd probabilistisch lokaal teksthomogeniteitsmodel (PLTH), leerde Lu de computer omgaan met documenten met een moeilijke layout en hierin ook tal van beschadigingen en vervormingen herkennen.Internationale prijs voor documentherkenningLu heeft met zijn onderzoek een aantal lang bestaande problemen binnen tekstherkenning opgelost waarbij zijn werk de kracht demonstreert van een wiskundige benadering van beeldverwerkingsproblemen. De ontwikkeling van nieuwe wiskundige modellen blijkt het ware potentieel te kunnen ontketenen dat schuilgaat achter de digitalisering van oude en waardevolle documenten. De software die binnen dit onderzoek door de onderzoeksgroep Digital Mathematics ontwikkeld werd, won eerder de internationale ICDAR-prijs voor documentherkenning.