2023. Nov. 23. 11:00
HUN-REN Nyelvtudományi Kutatóközpont (1068 Budapest, Benczúr u. 33.), fszt-i előadóterem

Beszélgetések Moldvából: morfológiailag annotált, online kereshető magyar nyelvjárási korpusz építése

Magyar Tudományos Akadémia

Előadásomban beszéltnyelvi, nyelvjárási szövegek nyelvészeti szempontú feldolgozásával és a korpuszkészítés folyamatával ismertetem meg az érdeklődő közönséget, valamint bemutatom a MoMa korpuszt, az első morfológiailag annotált, online is kereshető magyar nyelvjárási korpuszt, amely a moldvai nyelvjárásokból származó szövegeket tartalmaz.

A moldvai nyelvjárásokat a magyar nyelv legveszélyeztetettebb változatai között tarthatjuk számon. A magyar nyelvészet régi adóssága a moldvai magyar nyelvjárások kutatására alkalmas, megfelelő pontossággal lejegyezett szövegkorpusz létrehozása. Tánczos Vilmos kolozsvári néprajzkutató évtizedeken át kutatta a moldvai magyarság archaikus népi imáit, és magát a világképet, gondolkodásmódot, vallásgyakorlatot, amely ezekhez a szövegekhez elválaszthatatlanul kapcsolódik. A MoMa korpuszt Tánczos Vilmos rendelkezésünkre bocsátott hangfelvételeiből kiválasztott részletekből hoztuk létre.

A MoMa korpusz anyaga többféle annotációt tartalmaz: lejegyzést a magyar egyezményes hangjelölés standardját alkalmazva; egy automatikusan egyszerűsített átiratot; egy normalizált változatot, ami közelebb hozza a nyelvjárási és beszéltnyelvi adatot a sztenderd magyar helyesíráshoz és ami az alapja további két nyelvi annotációnak: a morfológiai egyértelműsítésnek és tövesítésnek. Az anyagot lejegyzői megjegyzések, magyarázatok és lehetséges értelmezési javaslatok is gazdagítják, hogy segítsék a moldvai nyelvjárásokat kevésbé ismerő felhasználók számára a szövegek megértését.

A korpusz egy könnyen kezelhető korpuszlekérdező felületen keresztül használható, ahol a felhasználó egyszerre kereshet akár  több különböző annotációs rétegben is. A korpusz emellett szervesen kapcsolódik az eredeti hangfelvételekhez is, az aktuálisan vizsgált kisebb szövegegység eredeti hangzó változata – tehát az interjú hanganyagának megfelelő részlete – is közvetlenül kinyerhető a találatból.

Eddig 18 órányi interjú anyagát dolgoztuk fel, az interjúk 32 kutatópontról származnak.  Az egyes szövegek a feldolgozás különböző fázisaiban állnak, ugyanis a munka jelenleg is folyik. Terveink szerint a projekt lezárultáig a lejegyzett anyag nagy része pontos morfológiai annotációval lesz ellátva, valamint további szövegekkel is bővül a gyűjtemény. Bízunk benne, hogy a munka során szerzett tapasztalatok és a kidolgozott munkafázisok mintául szolgálnak majd további hasonló projektek számára, így akár a moldvai, akár más nyelvjárások adatait felhasználva további korpuszok is készülhetnek.

A lekérdezőfelület az alábbi url-en keresztül érhető el: https://moma.nytud.hu/, ezen a címen pedig a teljes interjúk is meghallgathatók: https://nlp.nytud.hu/csango/.

Az előadás a Moldvai magyar nyelv: Adatbázisépítés és grammatikai kutatások című Kiemelt Kutatási Témák projekt keretében készült.

A korpusz építésén dolgozó munkatársak

Eris Elvira Mária
Magyar történeti fonológiai és dialektológiai kutatócsoport
Huszár Anna Laura
Elméleti és kísérletes szintaxis kutatócsoport
Kalivoda Ágnes
Lexikai tudásreprezentáció kutatócsoport
Sass Bálint
Lexikai tudásreprezentáció kutatócsoport
Vadász Noémi
Lexikai tudásreprezentáció kutatócsoport
Vargha Fruzsina Sára
Magyar történeti fonológiai és dialektológiai kutatócsoport

Presenter

Vadász Noémi
korábbi tudományos segédmunkatárs

Hungarian Research Centre for Linguistics