Kutatási projekt

Bioinformatikai kutatások


HASZNOSÍTHATÓSÁG SZINTJE

Ismeretbővítő kutatás (alap- elméleti kutatás)

KUTATÁSI PROJEKT LEÍRÁSA

Bioinformatikai kutatásaink fő vonala fehérjék elsődleges szerkezetének elemzése, úgymint fehérjék hasonlósága, evolúciójának rekonstrukciója valamint funkciójának és térszerkezetének osztályozása. Emellett a csoport DNS-chipekből nyert gén-expressziós adatok feldolgozásával, zajszűrésével és hiányzó adatok becslésével is foglalkozik, amelyek elsősorban a rákkutatásban és más genetikai betegségek diagnosztizálásában használatosak.

A biológiai kutatások egyik legfontosabb célja az egyre biztonságosabb és hatékonyabb gyógyszerek fejlesztése. Az ilyen kutatásokban felhalmozódott adatok feldolgozása, rendszerezésre és biológiai folyamatok modellezése és rekonstruálása a bioinformatika fő feladatai. A BioInformatikai csoport (BIT) fő kutatási területe fehérjék elsődleges szerkezetének elemzése, úgymint fehérjék hasonlósága, evolúciójának rekonstrukciója, valamint funkciójának és térszerkezetének osztályozása. Emellett DNS-chipekből nyert génexpressziós adatok feldolgozásával, zajszűrésével is foglalkozik, amelyek elsősorban a rákkutatásban és más genetikai betegségek diagnosztizálásában használatosak. A BIT szorosan együttműködik más bioinformatikai kutatócsoportokkal is. Például így készült el négy másik nemzetközi bioinformatika csoporttal együttműködve egy adatbázis, amelyen fehérje hasonlósági algoritmusok és gépi tanulási módszerek tesztelhetők, hasonlíthatók össze. A nyelvtechnológia csoporttal szorosan együttműködve egy olyan program is elkészült, ami biológiai szakcikkek szövegéből nyeri ki a fehérje-interakciók leírását. A BIT tudományos eredményei rangos nemzetközi folyóiratokban jelennek meg.

Kapcsolat és további információ:

Busa-Fekete Róbert: busarobi@inf.u-szeged.hu , Kertész-Farkas Attila: kfa@inf.u-szeged.hu

 

Fehérje Benchmark adatbázis

A bioinformatika egyik alap kutatási feladata fehérjék szerkezetének és funkciójának osztályozása, valamint fehérjék hasonlóságának mérése. E feladatok megoldására egyre hatékonyabb és pontosabb algoritmusokat fejlesztenek ki. Erre a célra elkészítettünk egy adatbázist, amelyen különböző osztályozási algoritmusok és hasonlóságot mérő módszerek fejleszthetők, hatékonyságuk tesztelhető és összehasonlítható. Az adatbázisban közel 40.000 fehérje-szekvencia és körülbelül 9500 osztályozási feladat található, amelyek magukba foglalnak fehérje térszerkezet, funkcionális és taxonómiai osztályozást is. Az adatbázis öt nemzetköz bioinformatikai kutatócsoport együttműködésével jött létre és ingyenesen elérhető és letölthető a http://hydra.icgeb.trieste.it/benchmark/ oldalon.

 

Filogenetikus fák rekonstrukciója

Az evolúció már több mint egy évszázada a fajok kialakulásának a legelfogadottabb modellje. Az evolúcióval foglalkozó tudományágat filogenetikának hívjuk (a szó a görög phülon = törzs és geneszisz = születés szavakból ered). A filogenetikában a legelterjedtebb módszerek a fajok fejlődésének a folyamatát egy úgynevezett filogenetikus fával reprezentálják, amely egy súlyozott fa-gráfnak felel meg, ahol a levelek reprezentálják a vizsgált biológiai objektumokat. Az ilyen típusú fák rekonstrukciója mind biológiai, mind számítástudományi szempontból számos érdekes problémát vet fel. A különböző fajokból izolált fehérjék szekvenciáinak összehasonlítási lehetősége új típusú vizsgálatok elvégzésére adott alapot a filogenetikában, ami merőben átformálta a biológia ezen ágát.

Míg korábban a filogenetika egyet jelentett a fajok evolúciós fejlődéstanával, addig az új eredmények hatására a kutatások kiterjedtek a fehérjék öröklődésének vizsgálatára. A filogenetika alapfeladata matematikai szemszögből egy jóldefiniált probléma: egy helyes fatopológiát kell hozzárendelnünk a különböző fajokból izolált, hasonló funkciójú és hasonló szekvenciájú fehérjékhez. Ennek a megvalósítására számos algoritmust dolgoztak ki, amely közül néhány széles körben elterjedt, mint például a Neighbor-Joining és az UPGMA.

Mivel a filogenetikus faépítő algoritmusok sokszor több lehetséges evolúciós történetet is képesek meghatározni vagy a különböző algoritmusok különböző fát rekonstruálnak, ezért sokszor olyan módszerekre van szükségünk a filogenetikus analízis utolsó fázisaként, amely több filogenetikus fa által hordozott információt képes egy reprezentatív fába összegyűjteni. Az ilyen célú algoritmusokat konszenzus faépítőknek nevezzük.

 

Fehérjék hasonlósága

Újonnan szekvenált fehérjék esetében az első talán legfontosabb kérdés annak funkciója és térszerkezete. Ennek meghatározására hasonló, már alaposan tanulmányozott szekvenciákból lehet következtetni. Másik megközelítés az, hogy a gépi tanulásból ismert osztályozó algoritmusokkal (neurális hálók, szupportvektor gépek) sorolják be egy jól ismert fehérje csoportba. Kutatásaink közé tartozik többek között a szekvenciák Kolmogorov bonyolultságával definiált információs távolságának vizsgálata térszerkezet és funkcionális osztályozási feladatokban továbbá fehérje párok hasonlóságának illetve közös osztályba tartozásának tanulása.

 

DNS-CHIP elemzés

A csoport DNS-chip adatok feldolgozásával, zajszűrésével is foglalkozik, amelyek elsősorban a rákkutatásban és más genetikai betegségek diagnosztizálásában használatosak.

A Szegedi Biológiai Kutatóközpont Funkcionális Genomika Laborral közösen kidolgoztunk egy olyan újfajta módszert, amellyel a DNS-chipekből nyert adatok alapján a daganatos betegségek hiánya vagy megléte illetve annak típusa nagyobb pontossággal diagnosztizálható és így hatékonyabb terápia alkalmazható a gyógyításban.

 

Biológiai szövegbányászat

A világban folyó biológiai célú kutatások eredményei szabadalmakban, publikációkban öltenek testet (csak a MedLine adatbázis jelenleg több mint 12 millió publikációt tartalmaz). Ez az exponenciális ütemben növekvő dokumentumhalmaz, rengeteg hasznos információt tartalmaz, azonban ez az információ a szövegben el van rejtve. A számítógépes nyelvészet (szövegbányászat) célja ezen információk automatikus kinyerése. A GVOP 2004-05-119 projekt keretében kidolgoztunk egy információkinyerő rendszert, amely emberi fehérjék interakcióira fókuszált. A MEDLINE szövegeiből kinyert fehérje-interakciókat egy gráf formájában jelenítjük meg, amely rendszerezi a kinyert tudást, a biológus szakértők számára könnyen értelmezhetővé téve azt. A kutatócsoportnál jelenleg is folynak biológiai szövegek feldolgozásával kapcsolatos kutatások. Ilyenek például a génneveket felismerő és egyértelműsítő (Gene Ontology kódot hozzárendelő), illetve a spekulatív (nem állítást kifejező) szövegrészeket kiszűrő modulok fejlesztése.