informatikaközigazgatás: magyarművelődéstechnikatudomány

A mesterséges intelligencia és a magyar nyelv

Szerző: 2022. november 21.No Comments

„Tudomány-népszerűsítő előadások
Regisztráljon az eseményre!
A helyek száma korlátozott
Határidő: november 23.
Időpont: 2022. november 23. 16.00-18.00 óra között
Helyszín: MTA Székház, Díszterem, 1051 Budapest, Széchenyi István tér 9.

Az esemény közvetítését itt érheti el az MTA YouTube-csatornáján.

A modern társadalmakban a kommunikáció döntő módon digitális eszközökkel, digitális módon történik. Az elmúlt néhány évben elterjedt egy új technológia, amely látványos fejlődést eredményezett a digitális világ szinte minden területén: a neurális hálók megjelenésével a nyelvtechnológia is megkérdőjelezhetetlenül a digitális kommunikáció mindennapi eszköztárának részévé vált. A rohamosan fejlődő kutatási háttérnek hála a tudományág lehetőségei még messze nincsenek kimerítve. Mivel a fejlesztési trendeket főként a globális technológiai cégek (Google, Microsoft, Amazon stb.) szabják meg, és ezek elsősorban az angol nyelvet célozzák, a digitális szolgáltatások, amelyek egyébként az okostelefon jóvoltából tömegekhez jutnak el, nyelvi támogatás hiányában nem használhatók a magyarra. Másfelől az új kutatási paradigma számos új alkalmazási és kutatási lehetőséget rejt magában. Így a NYTK Nyelvtechnológiai Kutatócsoportjában zajló munkálatok során egyszerre célunk a már meglévő eszközök és módszerek adaptálása a magyarra és az új kutatási lehetőségek feltérképezése is.

Az új paradigmát egyértelműen a neurális nyelvmodellek alapozzák meg. Ezek a nyelvmodellek nagy mennyiségű adaton tanított mély neurális hálók, amelyek számos nyelvi jelenséget illetően rendelkeznek általános tudással. Továbbtanításukkal pontosabb nyelvtechnológiai alkalmazásokat kaphatunk. A NYTK szuperszámítógépének segítségével sikerült létrehoznunk az első magyar nyelvű szöveggeneráló GPT-3 modellt, amely képes emberekhez hasonló módon mondatokat generálni.

A humán nyelvtudás mérésének a mintájára a nyelvmodellek nyelvtudását is tudnunk kell értékelni és összehasonlítani. Erre szolgálnak az úgynevezett benchmark adatbázisok, amelyekben változatos tematikájú és nehézségű nyelvi feladatokon mérjük a nyelvmodellek teljesítményét. A Nyelvtudományi Kutatóközpontban folyamatosan dolgozunk a modellek magyar nyelvtudását tesztelő korpuszok létrehozásán. Előadásunkban ezeket ismertetjük röviden.

Egy másik kiemelt kutatási irány a gépi fordítás területe, amely az utóbbi években szintén nagy fejlődésen esett át. A neurális hálózatok minőségben a statisztikai modellek felé kerekedtek, és elérték, hogy az emberi fordítóknak is hatékony segítségévé váljanak. A Google 2017-ben publikálta Transformer nevű neurális architektúráját, amelyet alapvetően gépi fordítás céljából hozott létre. Ez mára mind a nyelvtechnológia, mind a beszédtechnológia piacvezető technológiájává vált, és a transzformeralapú alkalmazások beépültek szinte az összes okosnak nevezett eszközbe. Munkánk során a magyar nyelv fordítási támogatására összpontosítottunk, és több magyarcentrikus fordítórendszert is létrehoztunk, amelyek minősége meghaladja a Google fordítómotorjaiét – elsősorban az angoltól eltérő nyelvekről való fordítás esetén.

Program

16.00: Bevezetés
Prószéky Gábor, a Nyelvtudományi Kutatóközpont (NYTK) főigazgatója

16.10: Paradigmaváltás a nyelvtechnológiában és a NYTK-ban
Váradi Tamás, az NYTK Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet igazgatója

16.30: Magyarul tanuló gépeink
Yang Zijian Győző, az NYTK Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet Nyelvtechnológiai Kutatócsoportjának tudományos munkatársa

16.50: Teszt a lelke mindennek
Ligeti-Nagy Noémi, az NYTK Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet Nyelvtechnológiai Kutatócsoportjának tudományos munkatársa

17.10: Magyarra fordítva a szót
Laki László, az NYTK Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet Nyelvtechnológiai Kutatócsoportjának tudományos munkatársa

17.30: Demó
Yang Zijian Győző

Névjegyek:

Prószéky Gábor a Nyelvtudományi Kutatóközpont főigazgatója, valamint a Pázmány Péter Katolikus Egyetem Információs Technológiai és Bionikai Karának egyetemi tanára, az MTA doktora. Társalapítója a nyelvtechnológiával foglalkozó MorphoLogic Kft.-nek, amely a kutatás-fejlesztés területén olyan partnerekkel dolgozott 1991-es indulása óta, mint például a Microsoft, az IBM vagy a Xerox, illetve a legnagyobb európai egyetemek és kutatóközpontok. Számos egyetemen tanított a nyelvtechnológia bölcsészettudományokban való felhasználási módjairól. Több mint 30 nyelvtechnológiához kapcsolódó projektben vett rész. Mintegy 200 tudományos cikk és 3 nyelvtechnológiáról szóló könyv szerzője.

Váradi Tamás a Nyelvtudományi Kutatóintézetben működő Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet igazgatója. Több, nyelvtechnológiával foglalkozó nemzetközi szervezet (EFNIL, CLARIN, ELRC) vezető tagja. Számos európai finanszírozású és hazai nyelvtechnológiai projektet (MARCELL, CESAR, iTranslate4, Trendminer stb.) koordinált. Száznál több nyelvtechnológiához kapcsolódó tanulmány szerzője vagy társszerzője, illetve könyvek szerkesztője. Szakmai munkáján túl fontos tudományszervezési, nyelvpolitikai szerepet is betölt annak révén, hogy részt vesz olyan tervezetek megalkotásában, melyek célja a nyelvek digitális támogatása.

Nyelvtechnológiai Kutatócsoport
A kutatócsoport elsődleges feladata, hogy felzárkóztassa a magyar nyelvet a világ nagy nyelveihez a digitális technológiai támogatás tekintetében elsősorban a nyelvközpontú mesterséges intelligenciára kidolgozott nemzetközi eljárásoknak a magyarra adaptálásával. Kutatásunk fókusza így egyrészt az általános célú nyelvmodellek építése, finomhangolása, illetve a nyelvmodellek kiértékelése új benchmark adatbázisok tervezésével és létrehozásával.”

Forrás:
A mesterséges intelligencia és a magyar nyelv; Magyar Tudományos Akadémia; 2022. november