Kutatási projekt

Beszédtechnológiai kutatások


HASZNOSÍTHATÓSÁG SZINTJE

Ismeretbővítő kutatás (alap- elméleti kutatás)

KUTATÁSI PROJEKT LEÍRÁSA

A szegedi beszédtechnológiai kutatások elsősorban a magyar beszélt nyelv írott alakra hozására, azaz a beszédfelismerésre irányulnak. Kutatásaink legfontosabb eredményeként elkészült egy diktáló-rendszer, amellyel 1-2 ezer szavas szókincset használva elfogadható biztonsággal lehet diktálni. Jelenleg a rendszer orvosi leletek diktálásához alkalmazható, de természetesen más feladatokhoz is adaptálható. Másik fontos fejlesztésünk a Beszédmester program, mely a kisiskolás és hallássérült gyerekek olvasásfejlesztését, illetve beszédterápiáját segíti. A Beszédmestert az ország számos iskolájában alkalmazzák sikerrel, 2005-ben Magyar Innovációs Nagydíjjal tüntették ki.

FOLYAMATOS, VALÓS IDEJŰ DIKTÁLÓRENDSZER

Csoportunk egy évtizede foglalkozik beszédfelismerési kutatásokkal, de folyamatos, valós idejű diktálórendszerünk jelenlegi formáját az utóbbi néhány évben, az IKTA-056/2003 sorszámú projekt támogatásának köszönhetően érte el. Ez a projekt orvosi leletek - ezen belül a pajzsmiriggyel kapcsolatos vizsgálati eredmények - folyamatos diktálásának lehetővé tételét tűzte ki céljául, de a technológia - megfelelő módosításokkal - más diktálási feladatok megoldására is képes lehet. Rendszerünk jelenleg néhány ezer szavas (kis-közepes méretű) szótár és erősen kötött nyelvi környezet esetén elfogadható hatékonysággal működik, és a nagyszótáros működés elérése céljából jelenleg is folyamatos fejlesztés alatt áll. A felismerő akusztikai szinten a közismert rejtett Markov-technológiát alkalmazza, de kísérleti szinten hasonló eredményeket tudtunk elérni egy neuronhálós megoldással is. A folyamatos diktálás nyelvi szintű algoritmikus támogatása az ún. szó n-gram-okat, különböző simítási módszereket, környezetfüggetlen nyelvtani modellezést, valamint MSD kód (morfoszintaktikai leírás) alapú szabályrendszert foglal magában, valamint támogatja a beszédhangok közötti hasonulások kezelését. Itt további cél a magyar nyelv sajátosságainak (a nem kötött szórendnek és a toldalékolásnak) hatékonyabb modellezése.

A beszédfelismerő akusztikai része a standard beszélőfüggetlen diktálási lehetőség mellett beszélőadaptációs (a beszélő hangjához hozzáigazodó, ezáltal a pontosságot nagymértékben növelni képes) modult is tartalmaz. Emellett jelenleg a különböző beszélőnormalizációs technikák (VTLN, CMN) rendszerbe integrálása is folyamatban van. Eddigi tapasztalataink szerint ezek a módszerek további jelentős javulást tudnak hozni a beszédfelismerési hatásfokban.

A felismerőhöz egyelőre csak egy viszonylag egyszerű grafikus felhasználói felületet készítettünk, amely a demonstrációs céloknak tökéletesen megfelel, de pogramozástechnikai szempontból a diktálórendszer egy olyan többszálú külön modul, amely bármilyen felhasználói felület mögé könnyedén beépíthető. Jelenleg csak a Microsoft Windows rendszerek támogatottak, illetve egy weboldalakra beágyazható ActiveX komponens is kifejlesztésre került.

A diktálórendszer magjára építve egy automatikus szegmentálóprogramot is létrehoztunk, amely segítségével egy nagyméretű hangadatbázist sikerült nagy pontossággal szegmentálnunk. Ennek a szoftvernek beszédatbázisok feldolgozása, kibővítése során lehet gyakorlati jelentősége.

 

IZOLÁLT SZAVAS FELISMERÉS

Folyamatos diktálórendszerünk (beszélőfüggetlen felismerési feladatok esetén) jól alkalmazható izolált szavak felismerésére, azaz egyszerű parancsszavakkal történő vezérlésre akár többezer szavas szótár mellett is (az izolált szavas beszédmód előnye a folytonossal szemben, hogy ilyenkor jóval nagyobb felismerési pontosság érhető el). Természetesen itt is lehetőség van beszélőadaptációra, ami a pontosságot nagymértékben növelheti. Izolált szavas rendszerünk már több projektben is felhasználásra került (pl. a Beszédmesterben, valamint egy önkormányzati keresőrendszerben).

 

BESZÉDADATBÁZISOK

A jelenlegi beszédfelismerők statisztikai alapon működnek, aminek legfőbb hátránya, hogy elkészítésükhöz (betanításukhoz) nagy méretű, megfelelően előkészített (szegmentált-annotált) beszédadatbázisokra van szükség. Tudomásunk szerint magyar nyelvre jelenleg csak két ilyen, publikus (megvásárolható), elfogadható méretű és speciálisan beszédfelismerők betanításához igazított tartalmú adatbázis létezik. Mi mindkét adatbázis elkészítésében részt vettünk (a BME TMIT tanszékével közösen), így számunkra ezek természetes módon rendelkezésre állnak.

Az MTBA adatbázis az IKTA-049/2000 projekt keretében készült, és vezetékes illetve mobiltelefonos felvételeket tartalmaz, 500, az ország különböző pontjairól verbuvált adatközlő hangján. A felvételek tartalmaznak egy izolált szavas blokkot különféle vezényszavak, számok, vállalatnevek stb. felvételeivel, ami egyszerűbb vezérlésű telefonos dialógusrendszerek készítésénél lehet nélkülözhetetlen. Szerepel tovább minden beszélőtől 12 folyamatos mondat, melyek szöveganyagát úgy válogattuk össze, hogy minél alaposabban lefedje a magyar nyelv hangkapcsolatait, s így a folyamatos felismerésben használatos beszédhang-modellek betanítását minél nagyobb mértékben segítse. A mondatok teljes anyaga fonetikai szinten szegmentálva és annotálva van, így kiválóan alkalmas a beszédhang-modellek betanítására vagy (amennyiben további, szegmentálatlan anyaggal is rendelkezünk) a modellek inicializálására.

Az MRBA adatbázis szerkezetében és szöveganyagának tartalmában nagyon hasonlít az MTBA-ra, azonban a felvételek PC-ken, a gépbe dugott mikrofonokon keresztül történtek, ugyanis az adatbázis elkészítésével a célunk számítógépes-multimédiás beszédfelismerési alkalmazások (pl. diktálórendszerek) fejlesztésének a támogatása volt. A felvételek ebben az esetben 332 ember hanganyagát tartalmazzák, a felvételeket ismét az ország különböző pontjain rögzítettük, változatos korú és iskolázottságú adatközlőktől. A mikrofonokat is nagy mértékben variáltuk, de a felvételek többsége olcsó, néhány ezer forintos mikrofonnal készült, ezáltal is szimulálva az átlagos felhasználási környezetet. A 332 beszélő közül 100-nak az anyagán végeztünk manuálisan fonetikai szintű szegmentálást, de a többi felvétel is nagyon alapos lehallgatásos ellenőrzésen és annotáción esett át. Az adatbázisnak ezen részét gépi úton szegmentáltuk, a futólagos kézi ellenőrzések szerint algoritmusunk elfogadható módon oldotta meg a feladatot.

Az MRBA adatbázist ugyan általános célú felhasználásra készítettük, az adatbázis összeállítása az IKTA-056/2003 pályázat keretén belül történt, mely elsődlegesen egy speciális orvosi diktálási feladat megoldását tűzte ki célul. Így az MRBA adatbázis használhatóságának tesztelése gyakorlatilag az orvosi diktálórendszer betanításán keresztül történt. Habár a rendszer jó hatásfokot ért el már magában az MRBA-n történt tanítás után is, azt tapasztaltuk, hogy további javulás érhető el a felismerésben, ha további, téma-specifikus hangfelvételeket is gyűjtünk (ez valószínűleg a téma-specifikus hangkapcsolatok példaszám-növekedésének tudható be). Ezért a konkrét alkalmazásban előforduló pajzsimirigy-leletekből is felolvastattunk, rögzítettünk 200 darabot, 53 adatközlő hangján. A hangmodellek finomítása mellett ezek a felvételek természetes tesztelési lehetőséget is nyújtottak a felismerő hatásfokának leméréséhez.

Mint korábban említettük, a beszélőadaptációs technikák jelentős mértékben képesek javítani a felismerési hatásfokot. Ezek vizsgálatára is a fent említett pajzsmirigy-adatbázist használtuk, ugyanis ebben egy-egy beszélőtől elegendő hosszúságú hanganyag szerepel ahhoz, hogy alaposabban kivizsgálhassuk a tanító illetve tesztelési (adaptációs) beszélő megválasztásának öszefüggéseit (pl. az adaptáció hatékonyságát a nem, mikrofontípus stb. azonosságának-különbözőségének függvényében).

BESZÉDMESTER

Az Oktatási Minisztérium támogatásával egy IKTA projekt (IKTA-055/2001) keretében elkészült egy számítógéppel segített beszédjavítás-terápiára és olvasásfejlesztésre alkalmas eszköz, a BESZÉDMESTER.

A szoftver jelentősége a beszédjavítás-terápiát tekintve abban áll, hogy olyan önműködő (gépi) beszédfelismerésen alapuló vizuális beszéd-kiértékelést valósít meg, amely hatékonyan támogatja a hallássérült gyermekeket az érthető beszédartikuláció elsajátításában. A hallássérültek beszédképzésének terápiája hagyományosan óriási türelmet és a szurdopedagógus állandó jelenlétét igényli, ugyanis a helyes hangképzés rögzítéséhez rengeteg ismétlésre és a pedagógus folyamatos korrekciójára van szükség. Ezt az ún. automatizálási folyamatot nagyban felgyorsítja és egyszerűbbé teszi a szoftver, amellyel a gyakorlás részben önállóan is végezhető.

A szoftver olvasásfejlesztő moduljának célja, hogy játékos feladatokon és automatikus beszédfelismerésen keresztül a gyermek - a számítógépet motivációs eszközként használva - minél könnyebben és gyorsabban megtanulja a fonéma-graféma, ill. graféma-fonéma megfeleltetéseket. A program az általános olvasásfejlesztésen túl használható a részképességükben sérült gyermekek fejlesztő terápiájában, segítheti a diszlexia-terápiát és egyes beszédhibák kezelését is.

KERETRENDSZER, BEÉPÜLŐ MODUL

A folyamatos beszédfelismerő modul Windows operációs rendszerekben történő egyszerű alkalmazása céljából egy általános, könnyen használható keretrendszer kifejlesztetéséhez kezdtünk hozzá.

Ez a háttérben futó alkalmazás egy toolbart jelenít meg a képernyő felső részén. Itt könnyen választhatunk a különböző felhasználókhoz és feladatokhoz tartozó profájlok között, illetve kiválaszthatjuk azt, hogy hol jelenjen meg a bediktált szöveg írott változata: a diktáló- rendszer tartalmaz egy egyszerű szövegszerkesztőt, de lehetőség van a Microsoft Word szövegszerkesztő programjába is diktálni. Ha úgy kívánjuk, akkor tetszőleges aktív alkalmazásban is képes megjeleníteni a szöveget a diktáló rendszer. A feldolgozás tetszőleges időben felfüggeszthető, illetve lehetőség van korábban rögzített hanganyag szöveggé konvertálására is.

A Microsoft Word és más Office eszközökbe történő diktálás támogatására egy beépülő modul (addin) is fejlesztés alatt áll. Ennek a modulnak a jelenlegi implementációja olyan további segítséget ad diktálás közben, hogy hibás felismerés esetén jobb egérgomb megnyomásával egy alternatíva-listát jelenít meg (a legvalószínűbb változatokat), és így egyszerű módon nyílik lehetőség a bemondás kijavítására.

TEXT-TO-SPEECH

Kutatócsoportunk néhány évig foglalkozott Text-to-Speech (szövegfelolvasó) rendszer létrehozásával magyar nyelvre. A rendszer a beszédadatbázis trifónjaiból építkező konkatenatív szintézis technikán alapult. Ennek a nem túl összetett technikának alkalmazása sok konkurens termékben hamar megjelent, ezért az ilyen irányú kutatások abbamaradtak. Ezen a területen az igazi kihívás a prozódia, a mondatok megfelelő hangsúlyozása.

BESZÉDTÖMÖRÍTÉS

A beszédjel tömörítése speciális feladat, mert sok alkalmazásban nem igényel olyan elérendő minőséget, mint például a zenei anyagok tömörítése. Emiatt (veszteséges tömörítési technikákkal) igen nagyarányú tömörítés is elérhető. Kutatócsoportunknál ilyen irányú kísérleteket is végeztünk, amelyek az emberi hallás különböző sajátosságainak (pl. az elfedés jelensége) felhasználásán alapultak, és nagyfokú tömörítést tettek lehetővé úgy, hogy a beszéd érthető maradt. Az eredményekből azonban nem konkrét tömörítési algoritmusok, hanem beszédpercepciós kutatási eredmények (cikkek) születtek.