Nyelvtechnológiai kutatócsoport
Kutatási terület

A Nyelvtechnológiai kutatócsoport jogelődje a Korpusznyelvészeti Osztály 1997-ben alakult, az akkor már néhány éve zajló nyelvtechnológiai kutató-fejlesztő munka formális elismeréseként. A kutatócsoport azóta jelentős kutatási és fejlesztési tapasztalatot halmozott fel a nyelvtechnológia számos területén: kiemelkedő eredményeket ért el nyelvi erőforrások építésében, nyelvtechnológiai eszközök fejlesztésében és újabban nyelvmodellek tanításában is.

A 2010-es években bekövetkező tudományági paradigmaváltások komoly hatással voltak a kutatócsoportban folyó munkálatokra. A meghatározó nemzetközi kutatásokat követve létrehoztuk az elsősorban angolra kifejlesztett neurális nyelvmodellek magyar változatait. Ez kezdetben statikus szóbeágyazásokat jelentett, ám mostanra már rendelkezünk számos transzformer-alapú illetve generatív kontextuális nyelvmodellel is. Ilyen többek között a HILBERT, amely egy BERT-Large nyelvmodell, valamint a PULI-GPT-3SX (6.7  paraméter), a GPT-3 magyar verziója. A kutatócsoport jelenlegi tevékenységének központi eleme az utasításkövető modellek fejlesztése: ennek keretében hoztuk létre a ParancsPULI illetve a PULI LlumiX 32K Instruct modelleket. A nyelvmodellekhez kapcsolódó egyéb specifikus alkalmazásaink ezen a demóoldalon próbálhatók ki.

Másik kiemelt törekvésünk, hogy olyan magyar nyelvű teszt-adatbázisokat, ún. benchmark-korpuszokat hozzunk létre, amelyek egy webszolgáltatásba ágyazva lehetővé teszik a neurális háló alapú technológiák egyszerű, ugyanakkor többszempontú kiértékelését valamint ezen eredmények összehasonlítását és közzétételét. Ebből a célból elkészült a Hungarian Language Understanding Evaluation Benchmark Kit (HuLU), az angol nyelvre kidolgozott GLUE és SuperGLUE teszt-adatbázis infrastruktúra mintájára. Emellett folyamatban van a generatív nyelvmodellek kiértékelésére szolgáló eljárások kidolgozása is.

Lassan már közhely számba megy, hogy nagy mennyiségű és kiegyensúlyozott nyelvi adat nélkül a nagy nyelvi modellek nem képesek megragadni az egyes nyelvi szintek azon kulcsfontosságú mintázatait, amelyek az emberi kommunikáció alapvető jellemzői. Egy kiegyensúlyozott korpusz a nyelvi jelenségek széles körét lefedve lehetővé teszi, hogy a nyelvmodellek  különböző témájú és stílusú szövegeket is megértsenek. Vagyis a rendelkezésre álló nyelvi adatok mennyisége és minősége közvetlen hatással van a nagy nyelvi modellek minőségére és sokoldalúságára. 

A nyelvtechnológiai kutatócsoport csaknem 20 éves tapasztalattal rendelkezik a korpuszépítés terén: a 2005-ben elkészülő 187,6 millió szavas reprezentatív, határon túli nyelvváltozatokat is tartalmazó Magyar Nemzeti Szövegtár volt az első nagyobb ilyen jellegű szöveges adatbázis a magyarra. A 2014-ben közre adott MNSZ2, az MNSZ továbbfejlesztett változata, nemcsak majdnem tízszer több szövegszót tartalmaz (1.5 Mrd), hanem új, fontos szövegtípusokat is lefed, mint például a közösségi média. Továbbá, a nyelvi elemzés minősége is sokat javult elődjéhez képest.

Mivel az MI rendszerek hatékonysága és sikeressége nagymértékben függ az adat mennyiségétől és minőségétől, a digitális világban az adat egyre értékesebbé válik: az adat teszi lehetővé a gépi tanulási algoritmusok számára, hogy tanuljanak, előrejelzéseket készítsenek és intelligens döntéseket hozzanak.

Ez a felismerés is motiválja jelenleg is folyó korpusz-építési munkálatainkat:  az MTA által kiírt Tudomány a Magyar Nyelvért Nemzeti Program 3. alprogramjának részeként célunk már egy 10 Mrd szavas magas minőségű és gazdagon annotált korpusz létrehozása az MNSZ2 stílusrétegeinek megőrzésével.

További kiemelt célunk nagy nyelvi modellek előtanításához szükséges szöveges adatok gyűjtése is. Ezt a Common Crawl magyar nyelvű szöveges tartalmainak feldolgozásával hozzuk létre. A Common Crawl egy nonprofit szervezet által létrehozott nyílt adat repozitórium, amely weboldalak rendszeres aratásával nagy mennyiségű szöveges tartalmat tesz hozzáférhetővé az Amazon Web Services-en keresztül.

A Tudomány a Magyar Nyelvért Nemzeti Program 2. alprogramja azt a célt tűzte ki, hogy nyelvtechnológiai eszözök bevonásával az MTA Könyvtár REAL repozitóriumának anyaga a jelenleginél hatékonyabb módon kutathatóvá váljon. A pdf szövegek tartalmának feldolgozhatóvá tétele most is zajlik: a tudományos publikációk óriási tömegének tartalmát tesszük könnyen kereshetővé a pdf alakból automatikusan kinyert metaadatok (pl. szerzők, affiliációk, névkifejezések, terminológia) segítségével. Azt reméljük, hogy REAL repozitórium tartalmának feldolgozása nemcsak a különböző tudományterületeken dolgozó kutatókat segíti a gyűjtemény használatában, de potenciálisan bármely felkészült érdeklődőt is.

A kutatócsoport munkatársai az évek során számos eszközt is kifejlesztettek. Ezek közül az egyik legjelentősebb a helyesírás.mta.hu – Helyesírási tanácsadó portál, amely azért jött létre, hogy a magyar helyesírás bizonyos területein automatikus eszközök felhasználásával segítse az írásukra igényes érdeklődőket. A 2013-ban az MTA segítségével útjára bocsátott Helyesírási tanácsadó portál akkor korszerű nyelvtechnológiai módszerei azonban mára elavulttá váltak, és a portál megérett a felújításra mind a szoftverplatform, mind pedig a módszertan és az ügyfélközpontúság terén. A felújítási  munkálatok jelenleg is folyamatban vannak.

Meg kell említeni az e-magyar nyelvi elemzőláncot illetve ennek továbbfejlesztett, modularizált utódját, az emtsv-t is, amelyek természetes nyelvi szövegek széleskörű elemzését teszik lehetővé.

A kutatócsoport közreműködött a WordNet lexikai adatbázis magyar változatának létrehozásában is. A HuWordNet három éves munka eredményeként készült el, és a magyar szóállományt térképezi fel jelentéstani szempontból: a szinonim szavakat és a köztük lévő relációkat egyaránt tartalmazza.

A nyelvi erőforrások, alkalmazások és korpuszok mellett a kutatócsoport a gépi fordítással is foglalkozott. A kutatás célja a saját angol-magyar nyelvpárra létrehozott transzformer-alapú gépifordító-rendszer továbbfejlesztése volt többnyelvű irányba, hogy az ne csak két nyelv közötti fordítás elvégzésére legyen alkalmas, hanem több bemeneti nyelvről fordítson egy vagy akár több nyelvre. A meglévő rendszerek magyar központú fordítási minőségének javítása is kiemelt feladataink közé tartozott.

Héja EnikőKutatócsoport-vezető:

Héja Enikő, PhD
E-mail: urwn.ravxb@alghq.uh
Telefon: +36 (1) 3429372 / 6043
Futó nemzetközi pályázatokKezdete – vége
Alliance for Language Technologies – ALT-EDIC2024.05.27 –
Futó hazai pályázatokKezdete – vége
A magyar nyelv digitális fenntarthatóságának támogatása2020.12.01. – 2026.11.30.
A magyar nyelv digitális támogatása a magyar
tudományosság szolgálatában
2020.12.01. – 2026.11.30.
Fontosabb lezárult nemzetközi pályázatokKezdete – vége
CURLICAT: Curated Multilingual Language Resources for CEF AT2020.06.01. – 2022.11.30.
MARCELL: Multilingual Resources for CEF.AT in the Legal Domain2018.10.01. – 2021.03.31.
Közösségimédia-tartalmak valós idejű, nagyléptékű trendfigyelése
és összegzése (TrendMiner)
2013 – 2014
Innovative Networking in Infrastructure for Endangered Languages (INNET)2011 – 2013
European Media Monitor – magyar modul2012
Central and South-East European Resources (CESAR)2011 – 2013
Internet Translators for all European Languages (iTranslate4)2010 – 2012
Fontosabb lezárult hazai pályázatokKezdete – vége
e-magyar.hu: Nyílt, integrált magyar nyelvtechnológiai kutatási
infrastruktúra építése.
2015.01.01. – 2016.06.30.
Magyar Generatív Történeti Szintaxis 22015 – 2019
helyesírás.mta.hu – Helyesírási tanácsadó portál2008 – 2013
A BUSZI-2 közzététele2008 – 2012
Magyar igei szerkezetek szótára2008 – 2010
Magyar Ontológia építése és alkalmazása információkinyerő rendszerekben (Magyar WordNet)2005 – 2007

*A befejezett pályázatok egy részletesebb listája itt található.

Nyelvtechnológiai kutatócsoport
Munkatársaink

Bánfi Ágnes
szoftverfejlesztő

Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet

Dodé Réka
tudományos segédmunkatárs

Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet

Fekete István
informatikai munkatárs (Linux Unix rendszermérnök, Devops rendszermérnök)

Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet

Ferenczi Gergő
informatikai vezető

Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet

Földesi Flóra
szoftverfejlesztő

Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet

Hatvani Péter
szoftverfejlesztő

Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet

Héja Enikő
kutatócsoport-vezető, tudományos munkatárs

Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet

Kis Alexandra
kutatási asszisztens

Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet

Lengyel Mariann
tudományos segédmunkatárs

Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet

Ligeti-Nagy Noémi
tudományos munkatárs

Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet

Madarász Gábor
tudományos segédmunkatárs

Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet

Osváth Mátyás
fejlesztőmérnök

Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet

Prószéky Gábor
főigazgató, tudományos tanácsadó

Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet

Sárossy Bence
tudományos segédmunkatárs

Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet

Szaniszló Zsófia
szoftverfejlesztő

Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet

Váradi Tamás
főigazgató-helyettes, igazgató, tudományos főmunkatárs

Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet

Varga Kristóf
szoftverfejlesztő

Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet

Yang Zijian Győző
tudományos munkatárs

Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet

Nyelvtechnológiai kutatócsoport
Kutatásaink

Adatinfrastruktúra építése gondozott szövegek OCR-hibáinak javításával

A nyelvmodellek előállításához sokmilliárd szavas tanítókorpusz szükséges, melynek legkézenfekvőbb forrása az internet. Az itt elérhető szövegek zöme azonban bizonytalan eredetű és minőségű sokszor kevés metaadattal. Az Arcanum Adatbázis Kiadóval folyó együttműködés keretében rendelkezésünkre áll egy kb. kilencmilliárd szavas gondozott szöveggyűjtemény, amely a kiadó több éves OCR-szkennelő (Optical Character Recognition) tevékenységének eredménye. A OCR-technológia azonban nem 100%-os pontosság ...

Benchmark-korpuszok építése és közzététele

Az élvonalbeli NLP követésének egyik előfeltétele a magyar nyelvű fejlesztési eredmények szabványos mérése. Ehhez a szigorú módszertan szerint készített teszt-adatbázisok, úgynevezett benchmark-korpuszok egész sora szükséges, amelyek referenciaként szolgálnak az új technológiák és eszközök fejlettségi szintjének megállapításához.A benchmark-adatbázisok azonban nemcsak azt a célt szolgálják, hogy a különböző nyelvmodellek teljesítményét összemérjék. Fontos új szerepük annak feltérképezése, hogy e ...

Nyelvközpontú mesterséges intelligencia (nyelvmodellek) fejlesztése

Az utóbbi évtizedben uralkodóvá vált neurális nyelvi modellek paradigmaváltást hoztak a nyelvtechnológia egészében. Ezen általános célú nyelvmodellek létrehozásához rendkívüli számítástechnikai kapacitás és óriási adatmennyiség szükséges. Egyik fő célkitűzésünk, hogy a világszínvonalat jelentő nyelvmodelleket rövid utánkövetéssel a magyar nyelvre is kidolgozzuk, és elérhetővé tegyük..A legújabb típusú, nagyméretű nyelvmodellek már egy jelentős lépést tettek meg a feladat-agnosztikus mesterséges ...

Nyelvtechnológiai kutatócsoport
Események

7 találat
7 találat
2024. Szept. 23. - 2024. Szept. 25.
HUN-REN Nyelvtudományi Kutatóközpont (1068 Budapest, Benczúr u. 33.), fszt-i előadóterem
2024. Szept. 23. - 2024. Szept. 25.
HUN-REN Nyelvtudományi Kutatóközpont (1068 Budapest, Benczúr u. 33.), fszt-i előadóterem
21. EFNIL Konferencia –  Nyelvi sokszínűség és nyelvtervezés
2024. Szept. 23. - 2024. Szept. 25.
HUN-REN Nyelvtudományi Kutatóközpont (1068 Budapest, Benczúr u. 33.), fszt-i előadóterem
Konferencia

21. EFNIL Konferencia – Nyelvi sokszínűség és nyelvtervezés

Az EFNIL idei konferenciáját a HUN-REN Nyelvtudományi Kutatóközpont szervezi 2024. szeptember 23-25. között. A 2024-es konferencia témája a nyelvi sokszínűség és nyelvtervezés.
A Nyelvtudományi Kutatóközpont szervezésében
2024. Máj. 07.
Magyar Tudományos Akadémia
2024. Máj. 07.
Magyar Tudományos Akadémia
Magyar nyelvtechnológiai eredmények a mesterséges intelligencia korában ‒ Prószéky Gábor díszelőadása az MTA 197. közgyűlésén
2024. Máj. 07.
Magyar Tudományos Akadémia
Előadás

Magyar nyelvtechnológiai eredmények a mesterséges intelligencia korában ‒ Prószéky Gábor díszelőadása az MTA 197. közgyűlésén

Mi az a nyelvmodell, és mire használható? Erre a kérdésre adott választ a Magyar Tudományos Akadémia 197. közgyűlésének ünnepi ülésén tartott előadásában Prószéky Gábor nyelvész-matematikus, az MTA doktora, a HUN-REN Nyelvtudományi Kutatóközpont főigazgatója.
Magyar Tudományos Akadémia
2024. Ápr. 16. 16:00
ELTE BTK Kari Tanácsterem (Múzeum krt. 4/A, fszt. 39.)
2024. Ápr. 16. 16:00
ELTE BTK Kari Tanácsterem (Múzeum krt. 4/A, fszt. 39.)
Mesterséges intelligencia, ChatGPT, PULI. Perspektívák és veszélyek a tudomány és a hétköznapi élet szemszögéből
2024. Ápr. 16. 16:00
ELTE BTK Kari Tanácsterem (Múzeum krt. 4/A, fszt. 39.)
Előadás

Mesterséges intelligencia, ChatGPT, PULI. Perspektívák és veszélyek a tudomány és a hétköznapi élet szemszögéből

ELTE Egyetemi Anyanyelvi Napok
Magyar Nyelvtudományi Társaság Általános nyelvészeti szakosztálya

Nyelvtechnológiai kutatócsoport
Kapcsolatok

Partnerintézmények

Alliance for Language Technologies European Digital Infrastructure Consortium

2024. május 27-én az Európai Digitális Infrastruktúra Konzorcium Nyelvtechnológia-szövetsége (Alliance for Language Technologies European Digital Infrastructure Consortium) tagjává választotta Magyarországot, melynek képviseletét a Kulturális és Innovációs Minisztérium megbízása alapján a HUN-REN Nyelvtudományi Kutatóközpont látja el.

European Federation of National Institutions for Language

Váradi Tamás 2010 óta az EFNIL szervezet titkára, az intézet pedig 2010 óta látja el a titkársági feladatokat az EFNIL-ben.

European Language Resource Coordination (ELRC)

Az European Language Resource Coordination (ELRC) workshopot Magyarországon a Kutatóközpont szervezte, amelynek keretein belül a magyar nyelvtechnológia helyzetéről és kilátásairól folytatunk párbeszédet az ipari és az állami szereplőkkel. A nyelvtechnológia fejlesztői, mind felhasználói megosztják tapasztalataikat, igényeiket és ötleteiket azt illetően, miként lehet nyelvtechnológiai megoldásokkal segíteni a többnyelvű Európa digitális interakcióit.

Indamedia Zrt.

Az NYTK és Indamedia Zrt. jelenleg is folyó együttműködése keretében a NYTK megkapta és feldolgozta az index.hu hírportál teljes anyagát, aktív tárgyalások folynak az együttműködés kiszélesítésére a magyar nyelvű mesterséges intelligenciának a kiadói munka terén való alkalmazása céljából.

Magyar Nemzeti Levéltár

Az NYTK és az MNL sikeres együttműködés keretében feldolgozta a Szovjetunió lágereibe elhurcolt magyar hadifoglyok személyi kartotékainak több mint 600 ezres állományát. Egy jelenleg is zajló közös együttműködés keretében feldolgozásra kerül a Magyar Nyelv Nagyszótára számára gyűjtött kb. 5 millió cédulát tartalmazó adatbázis feldolgozása, melynek kb. 50 %-a kézzel írt. A magyar nyelvű kézírás optikai karakterfelismerése új dimenziót nyitott a mesterséges-intelligencia fejlesztésében.

MTA Könyvtár és Információs Központ

Nyelvtechnológiai eszözök bevonásával az MTA Könyvtár REAL repozitóriumának anyaga a jelenleginél hatékonyabb módon kutathatóvá váljon. A pdf szövegek tartalmának feldolgozhatóvá tétele most is zajlik: a tudományos publikációk óriási tömegének tartalmát tesszük könnyen kereshetővé a pdf alakból automatikusan kinyert metaadatok (pl. szerzők, affiliációk, névkifejezések, terminológia) segítségével.

Országos Széchényi Könyvtár

A Kutatócsoport nyelvtechnológiai segítséget nyújt az OSZK anyagainak feldolgozásához, cserébe az OSZK webaratásához és egyéb digitális gyűjteményéhez ad hozzáférést.

Telekom Rendszerintegráció Zrt.

Tanácsadói tevékenység a T-COM mesterséges-intelligencia alapú alkalmazásainak fejlesztéséhez.