Kutatási projekt

Nyelvtechnológiai kutatások a Szegedi Tudományegyetemen


HASZNOSÍTHATÓSÁG SZINTJE

Ismeretbővítő kutatás (alap- elméleti kutatás)

KULCSSZAVAK

KUTATÁSI PROJEKT LEÍRÁSA

A magyar nyelvű szövegek elemzéséhez Szegeden készültek el a kézzel egyértelműsített Szeged Korpusz és TreeBank, a Magyar WordNet, a SzegedNE és számos kisebb korpusz. Ezek lehetővé teszik a gépi tanuláson alapuló módszerek alkalmazását magyar nyelvű szövegek szintaktikai és szemantikai elemzésére (melyek mind az információkinyerés, mind a gépi fordítás alapfeltételei). A csoport rendelkezik az elemzésekhez szükséges alaptechnológiákkal (mondat- és szószegmentáló eszközök, szófaji elemző /POS-tagger/, szintaktikai elemző, tulajdonnév-felismerő és -kategorizáló, jelentés-egyértelműsítő) mind magyar, mind angol nyelvre. A műhely magyar és angol nyelvű szövegek feldolgozásával is foglalkozik, céljuk, hogy az egyes kifejlesztett technológiák nyelvfüggetlenek vagy legalább könnyen adaptálhatóak legyenek. Az alap szintaktikai és szemantikai elemző szoftvercsomagokra építve számos nyelvtechnológiai alkalmazás (egy részük ipari megrendelésre) került kifejlesztésre a Szegedi Tudományegyetem Informatikai Tanszékcsoportján (egy részük ipari megrendelésre)en. Ilyen alkalmazás például a vásárlási események kiemelése üzleti hírekből, az [origo] hírportál archívumának (400 ezer hír) automatikus címkézője, fehérje-interakciós információkinyerő biológiai publikációkból, betegségek és tüneteik azonosítása orvosi zárójelentések folyó szöveges részeiben. A fentiek mellett a csoport munkatársainak érdeklődési területe többek között a többszavas kifejezések számítógépes kezelésére, a bizonytalanság és tagadás gépi felismerésére és az automatikus kulcsszókinyerésre terjed ki. A szegedi nyelvtechnológiai csoport 9 magyar pályázatban vett részt az elmúlt 8 évben, és a témában több mint 40 70 nemzetközi publikációval rendelkezik, valamint igen szép eredményeket ért el nemzetközi számítógépes nyelvészeti versenyeken (automatikus BNO-kódolás: 1. helyezés; orvosi rekordok anonimizálása: 1. helyezés; metonímiafeloldás: 1. helyezés). A csoport tagjai írták a 2007 nyarán megjelent Szövegbányászat című könyv információkinyeréssel foglalkozó fejezetét is. Kutatócsoportunk alapító tagja a magyarországi nyelv- és beszédtechnológiai műhelyeket tömörítő nyelv- és beszédtechnológiai platformnak, melynek keretében aktív szerepet vállal a tudományág eredményeinek minél szélesebb körben való közérthető ismertetésében és népszerűsítésében. 2003 óta minden év decemberében Szegeden rendezik meg a Magyar Számítógépes Nyelvészeti Konferenciát, mely napjainkra a hazai nyelvtechnológiai kutatások legfőbb szakmai fórumává vált. A csoport nemzetközi konferenciák szervezéséből is kiveszi a részét: a csoport kutatóinak szervezésében valósult meg a CoNLL-2010 konferenciához kapcsolódó nemzetközi verseny, továbbá a 2008-as Global WordNet Conference-nek is Szeged adott otthont.