Wednesday, December 08, 2004

Magyar Nemzeti Szövegtár

A Magyar Nemzeti Szövegtár (MNSZ) munkálatai 1998 elején kezdődtek el a Magyar Tudományos Akadémia Nyelvtudományi Intézetének Korpusznyelvészeti Osztályán Váradi Tamás vezetésével. A cél egy 100 millió szavas szövegkorpusz létrehozása volt, amely lehetőségeihez mérten reprezentatívan tartalmazza a mai magyar nyelv jellegzetes megnyilvánulásait.

Mit nevezünk korpusznak?
A korpusz ténylegesen előforduló írott, vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen szempont szerint válogatják és rendezik. Nem feltétlenül egész szövegeket tartalmaz, és nem csak tárháza a szövegeknek, hanem tartalmazza azok bibliográfiai adatait, bejelöli a szerkezeti egységeket (bekezdés, mondat). Emellett pedig feltünteti a szavak mellett szófaji kódjukat is. Az MNSZ a mai magyar írott köznyelv általános célú reprezentatív korpusza kíván lenni.

Az egyes szavak szófaji kódjának megállapítása (elemzése) és az elemzések egyértelműsítése automatikus gépi eszközökkel történik. A rendszer megbízhatósága kb. 97,5%-os, így az összes szóalak kb. 2,5%-a hibásan elemzett. Ennél jobb eredményt csak a kézi elemzés biztosíthatna, ami ekkora méretű anyag esetén megvalósíthatatlan.

Regisztralas utan lehet keresni.

No comments: