Jelenlegi hely

Természetesnyelv-feldolgozás

A mesterséges intelligencia egyik ága, a számítógépes nyelvészet vagy más néven a nyelvtechnológia az emberi nyelv számítógépes eszközökkel történő megértését és feldolgozását célzó tudományterület. A Szegedi Tudományegyetemen az 1990-es évek vége óta zajlanak nyelvtechnológiai kutatások informatikus és nyelvész kollégák együttműködésében, továbbá a kutatómunkában részt vesznek egyetemi és PhD-hallgatók is. A folyó kutatások három fő pillér köré csoportosíthatók: nyelvi adatbázisok létrehozása, nyelvi elemző eszközök fejlesztése és információkinyerő alkalmazások fejlesztése. A műhely magyar és angol nyelvű szövegek feldolgozásával is foglalkozik, céljuk, hogy az egyes kifejlesztett technológiák nyelvfüggetlenek vagy legalább könnyen adaptálhatóak legyenek

Gépi tanuló algoritmusok segítségével nagymértékben csökkenthető a szövegek feldolgozásához szükséges emberi munkaerő-ráfordítás. A gépi tanuláson alapuló módszerek alkalmazása azonban megköveteli nagyméretű, kézzel annotált szöveges adatbázisok, úgynevezett korpuszok meglétét. A csoport aktív közreműködője volt a magyar nyelvre kifejlesztett Szeged Korpusz és Treebanknek, amely 82 000 mondatot és 1,2 millió szövegszót tartalmaz, ezzel a legnagyobb méretű, kézzel annotált, magyar nyelvű adatbázis. A Szeged Korpusz és Treebankben megtaláljuk minden egyes szövegszó lehetséges morfológiai elemzését, az aktuális kontextusnak megfelelő morfológiai elemzését, valamint minden mondathoz szintaktikai elemzés is tartozik (Csendes és mtsai, 2005). A magyar wordnet lexikális adatbázis létrejöttében szintén fontos szerepet vállalt a kutatócsoport: az adatbázis a magyar szavakat a köztük húzódó jelentéstani kapcsolatok szerint rendezi csoportokba (Miháltz és mtsai, 2008). Mindemellett számos kisebb, adott feladatra kifejlesztett angol és magyar nyelvű korpuszt is létrehoztak a munkatársak.

A magasabb rendű nyelvtechnológiai alkalmazásoknak előfeltétele a szövegek előelemzése, azaz mondatra és szövegszóra bontása, valamint a szavak szófaji egyértelműsítése és a mondatok szintaktikai elemzése. A csoport által létrehozott magyarlanc nevű programcsomag magyar nyelvű szövegek előelemzését teszi lehetővé mondat- és szószegmentáló, szófaji elemző és függőségi (szintaktikai) elemző moduljaival (Zsibrita és mtsai, 2013). A csoport ezen túl rendelkezik tulajdonnév-felismerő és -kategorizáló, illetve jelentés-egyértelműsítő technológiákkal is mind angol, mind magyar nyelvre.

Az alap szintaktikai és szemantikai elemző szoftvercsomagokra építve számos nyelvtechnológiai alkalmazás került kifejlesztésre a csoportban (egy részük ipari megrendelésre). Ilyen alkalmazás például a vásárlási események kiemelése üzleti hírekből, az [origo] hírportál archívumának (400 ezer hír) automatikus címkézője, fehérje-interakciós információkinyerő biológiai publikációkból, betegségek és tüneteik azonosítása orvosi zárójelentések folyó szöveges részeiben, illetve önéletrajzok automatikus feldolgozása. A fentiek mellett a csoport munkatársainak érdeklődési területe többek között a többszavas kifejezések számítógépes kezelésére, a bizonytalanság és tagadás gépi felismerésére, az automatikus kulcsszókinyerésre és a webes szövegek feldolgozására terjed ki.

A szegedi nyelvtechnológiai csoport 16 magyar pályázatban vett részt az elmúlt években, és a témában több mint 100 nemzetközi publikációval rendelkezik, valamint igen szép eredményeket ért el nemzetközi számítógépes nyelvészeti versenyeken (automatikus BNO-kódolás: 1. helyezés; orvosi rekordok anonimizálása: 1. helyezés; metonímiafeloldás: 1. helyezés, tweetek polaritásának elemzése: 1. helyezés). A csoport tagjai írták a 2007 nyarán megjelent Szövegbányászat című könyv információkinyeréssel foglalkozó fejezetét is. Kutatócsoportunk alapító tagja a magyarországi nyelv- és beszédtechnológiai műhelyeket tömörítő nyelv- és beszédtechnológiai platformnak, melynek keretében aktív szerepet vállal a tudományág eredményeinek minél szélesebb körben való közérthető ismertetésében és népszerűsítésében.

2003 óta minden évben Szegeden rendezik meg a Magyar Számítógépes Nyelvészeti Konferenciát, mely napjainkra a hazai nyelvtechnológiai kutatások legfőbb szakmai fórumává vált. A csoport nemzetközi konferenciák szervezéséből is kiveszi a részét: a csoport kutatóinak szervezésében valósult meg a CoNLL-2010 konferenciához kapcsolódó nemzetközi verseny, továbbá a 2008-as Global WordNet Conference-nek is Szeged adott otthont.

 

Bővebben: http://rgai.sed.hu/nlp