Új személynév adatbázis építése intelligens algoritmusok használatával

2016. július 20.

A Petőfi Irodalmi Múzeum és a Qulto cégcsoport tagjaként működő Monguz Kft. részvételével lezajlott új, szemantikus alapú, személynév besorolási állományt feltáró adatbázisfejlesztési projekt eredményeiről adtunk számot a Code 4Lib Journal hasábjain.

A különböző forrásokból származó adatelemek kezelése a Petőfi Irodalmi Múzeumban számos kihívást rejtett magában. Nem csupán a különböző forrásokból származó személynév rekordok egyszerű  összevonásáról volt szó egy új adatbázis keretei között. Meg kellett tisztítani és egységesíteni kellett azokat a besorolási rekordokat melyek eltérő adattartalommal bírnak ugyan, de ugyanazon személyhez kapcsolódnak. Fontos szempont volt emellett az adatvesztés kiküszöbölése is. Első lépésként 2013-ban mintegy 80000 rekord személynév adatait kellett összevonni. A második lépésben egy sokkal összetettebb algoritmus segítségével zajlott tovább az adatok tisztítása, a rekordok és a mögöttük álló személyek megfeleltetése. A második körben mintegy 36 ezer rekord lett érintett az adatok összevonásában. A besorolási adatok automatikus meghatározására szolgáló algoritmus az emberi intelligencia mintájára működik. Az adatbázis parancssorok mintegy 20 féle különböző adatelemet vizsgáltak meg és normalizáltak. Ezek az adatelemek dátumokhoz, földrajzi helyekhez, foglalkozásokhoz és személynév változatokhoz kapcsolódnak. Az adatbázis besorolási rekordjaiból párokat képezve azonosították be a lehetségesen redundáns elemeket. Ezekből az elemekből fel lehetett építeni egy gráfot, illetve egy faszerkezetű struktúrát a múzeum kurátorainak segítségével. Ezen a lépéseknek a megtételével értünk az automatizálható műveletek határához. A további adattisztításhoz már a számítógépes algoritmusok által segített szakemberi beavatkozásra van szükség. Az automatizált műveletek és a muzeológusok munkájának eredményeként létrejött egy olyan nyílt kapcsolt adatokat tartalmazó, a szemantikus weben publikálható adatbázis mely 620 ezer személynév alapú besorolási rekordot tartalmaz. Ez az adatbázis az egyik alapja lehet egy később kialakítandó egységes nemzeti besorolási állományegyüttesnek (névtérnek). A cikk azt a folyamatot mutatja be, hogy miképp sikerült a személynév adatokat összevonni s az adattömeg redundanciáját kiküszöbölni.

A részletek angol nyelven itt érhetők el.