Kutatási projekt

Számítógépes beszédfelismerés


HASZNOSÍTHATÓSÁG SZINTJE

Ismeretbővítő kutatás (alap- elméleti kutatás)

KUTATÁSI PROJEKT LEÍRÁSA

A kutatócsoport a beszédtechnológia témakörei közül főként a beszédfelismeréssel foglalkozik, és ezen belül alapvetően a magyar nyelvű felismerésre koncentrálunk (bár vannak angol nyelvű eredményeink is). A beszédfelismerők fejlesztéséhez nélkülözhetetlenek a precízen feldolgozott beszédadatbázisok; csoportunk részt vett az MTBA telefonos beszédadatbázis és az MRBA "irodai" adatbázis létrehozásában (NKTH támogatással), így ezek rendelkezésünkre állnak. Továbbá a tavalyi évben készítettünk el egy tévéhíradó-felvételeket tartalmazó, közel 30 órás adatbázist, ami az eddigieknél komolyabb fejlesztéseket tesz lehetővé. A beszédfelismerő rendszerek alapvetően két komponensből állnak, az akusztikai és a nyelvi modellből. A csoport kutatásai ezidáig jórészt az akusztikai komponensre fókuszáltak, mivel az áll legközelebb a gépi tanulás témaköréhez. Van tapasztalatunk a hagyományos, rejtett Markov-modelles (HMM) akusztikai modellek elkészítésében is, de az általunk kifejlesztett, neuronhálókon alapuló akusztikus modell jobb beszédhang-felismerési eredményekre képes, mint a szokványos megoldás (az angol TIMIT adatbázison a valaha publikált második legjobb felismerési pontosságot sikerült elérnünk). A beszédfelismerő rendszerek legnyilvánvalóbb alkalmazása a "diktálás", azaz az elhangzó szöveg minél pontosabb leírása. Ehhez az akusztikai komponens mellett egy nagyon jó nyelvi modell is kell, amely az adott nyelv szavait és azok kapcsolódási módjait adja meg. Magyar nyelv esetén speciális problémaként jelentkezik a toldalékolás, ami miatt a hagyományos (angolra kitalált) modellezési technikák direkt módon nem vihetők át a magyarra. Emiatt nálunk egyelőre csak olyan rendszer készült, amely néhány ezer szót tud kezelni: ez egy orvosi diktálórendszer volt, amelynek szókincse speciális orvosi jelentések gépre viteléhez volt igazítva (NKTH-s támogatással készült). A nagyszótáras (kvázi kötetlen) diktálás megoldásának lehetséges módja a szavak felbontása morfémákra, amivel pár éve kísérleteznek már a BME TMIT tanszékén, és mi is tervezzük alkalmazni a technológiát. Meg kell azonban jegyezni, hogy a nagyszótáras magyar nyelvű felismerésben viszonylag rosszak még az eredmények: a BME-n 80% körüli szópontosságot tudtak elérni híradós felvételeken, és csupán 50-60% körüli pontosságot spontán beszéden. Ezért a diktálás gyakorlati alkalmazása leginkább olyan területen jöhet szóba, ahol a szókincs valamilyen módon korlátozott (például az említett orvosi leletezés), mivel ilyenkor viszont el lehet érni a gyakorlatban is elfogadható 95-98%-os pontossági minimumot. Szerencsére a diktálás automatizálása mellett más alkalmazási lehetőségei is vannak a beszédfelismerésnek. Ilyen a hangadatbányászat, amikor hatalmas hangarchívumokban kell megkeresni bizonyos szavak, kifejezések előfordulásait, vagy esetleg egy folyamatosan elhangzó beszélgetésben kell detektálni egyes szavak elhangzását (ez egyfajta "lehallgatási" funkció). Több száz órányi hangfelvétel esetén az emberi lehallgatás szóba se jöhet, aminél akár csak az 50%-os gépi pontosság is messze jobb lehetőség. Technológiai szempontból pedig részben könnyebb a feladat, mint a diktálás esetében, mivel nincs szükség a teljes nyelvet kezelni képes nyelvi modellre. Az akusztikus komponensre emiatt viszont nagyobb feladat hárul, de mint említettük, e téren az átlagosnál jobb eredményekkel rendelkezünk. Az elmúlt két évben egy TÁMOP projekt keretében vezeték nélkül szenzorokra készítettük el egy kulcsszavak elhangzását detektálni képes alkalmazást. E mellett több hangadatbányász algoritmust is kipróbáltunk az említett híradós felvételeken. A speciális akusztikus modellünkre alapuló technológiák jó találati pontosságot adtak, de a sebességgel egyelőre még nem vagyunk elégedettek, e tekintetben további fejlesztésre lesz szükség, hogy akár több száz órányi felvételben is elfogadható gyorsasággal tudjunk keresni.