University of Twente Student Theses

Login

Entiteitreconciliatie ondanks beperkte overlap door middel van objectgelijkheid : casus "Koppelen van persoonsgegevens zonder een gemeenschappelijke identificatie"

Dijk, J.J. van (2006) Entiteitreconciliatie ondanks beperkte overlap door middel van objectgelijkheid : casus "Koppelen van persoonsgegevens zonder een gemeenschappelijke identificatie".

[img] PDF
1MB
Abstract:Het koppelen van informatiebronnen wordt in de huidige maatschappij steeds belangrijker. Door koppelen ontstaan nieuwe inzichten, omdat nieuwe gegevens van gemeenschappelijke objecten met elkaar in verband kunnen worden gebracht. Dit onderzoek richt zich op het koppelen van bronnen op microniveau. Hierbij worden entiteiten, die naar hetzelfde object verwijzen, aan elkaar gekoppeld: entiteitreconciliatie (bijvoorbeeld persoonsentiteiten die naar één persoon verwijzen). Verschillende bronnen hebben vaak geen gemeenschappelijke identificatie, waardoor deze manier van koppelen afvalt. Bronnen die interessant zijn om te koppelen, bevatten vaak weinig gemeenschappelijke informatie. Vanwege de beperkte overlap is de winst van het koppelen het grootst; er kunnen meer nieuwe gegevens met elkaar in verband worden gebracht. Overlap is echter, zonder gemeenschappelijke identificatie, wel de enige troef in de poging om te koppelen. Om ondanks beperkte overlap toch entiteiten te kunnen reconciliëren, is een theorie ontwikkeld om alle aanwezige overlap tussen twee informatiebronnen te gebruiken. Overlap bestaat uit eigenschappen die beide bronnen gemeen hebben. Als een gemeenschappelijke eigenschap overeenkomt, dan is er sprake van gelijkheid. De mate waarin zo'n eigenschap overeenkomt, wordt bepaald door de afstand tussen twee attributen die de eigenschap beschrijven. Met behulp van expertkennis wordt deze afstand via een afstandsverdeling (een trendlijn over het histogram van de verwachte afstanden van de eigenschap) omgezet in een mate van gelijkheid. De attributen, die een gemeenschappelijke eigenschap beschrijven, worden geplaatst onder een gemeenschappelijk entiteittype (knoop genoemd). Elke knoop draagt bij aan de beschrijving van de centrumknoop waarin de reconciliatie gewenst is. Zodoende wordt de entiteitgelijkheid per knoop bepaald en wordt ook de objectgelijkheid bepaald, waarin tevens de gelijkheid van andere knopen wordt meegenomen. Hierbij wordt de gelijkheid effectief gedistribueerd naar de centrumknoop. Door de knopen te berekenen in een hiërarchische structuur ontstaat clustering, waardoor het aantal vergelijkingen wordt verlaagd. Voor de entiteitreconciliatie is een methode bedacht, waarmee entiteiten van één knoop efficiënt worden gereconcilieerd.
Item Type:Essay (Master)
Clients:
WODC
Faculty:EEMCS: Electrical Engineering, Mathematics and Computer Science
Subject:54 computer science
Programme:Computer Science MSc (60300)
Link to this item:https://purl.utwente.nl/essays/57352
Export this item as:BibTeX
EndNote
HTML Citation
Reference Manager

 

Repository Staff Only: item control page