A pontossága több többszörös szekvencia illesztés programok fehérjék

A meghatározása homológ régiók a molekuláris sorozatok gyakran használják a további következtetés, hogy a funkció evolúció, ezért pontos többszörös szekvencia illesztés (MSA), a nukleinsav-fehérje szekvenciák elengedhetetlen., Ennek következtében óriási erőfeszítéseket tettek különböző MSA algoritmusok kifejlesztésére és megvalósítására, különböző megközelítések alkalmazásával, hogy javítsák a kapott igazítási pontosságot.

az MSA programok pontosságának értékelését gyakran kézzel (vagy félig automatikusan) kurátora szekvencia adatbázisok , például BAliBASE, PREFAB és SABmark alkalmazásával végzik . Eddig a BAliBASE volt a leggyakrabban használt igazítási adatbázis a különböző MSA programok teljesítményének értékeléséhez. Fehérje szekvenciák vagy ismert háromdimenziós struktúrákkal rendelkező modellek felhasználásával készült., Az utolsó indítás, a 3.0-s verzió, a rendelkezésre álló szekvenciák és nyomvonalak számának növekedésével járt. Ezek a fejlesztések nyilvánvalóan foglalkoztak a Karplus és a Hu azon főbb aggodalmaival, hogy a Balibázt az MSA algoritmusok összehasonlítására használják.

az igazítási adatbázisok pontos nyomvonalakat biztosítanak a különböző programok pontosságának és sebességének felméréséhez, de számos hátrányt is jelentenek. Annak ellenére, hogy az adatbázisok igazításait manuálisan kurálják, továbbra is fennáll az eltérés lehetősége, ami pontossági értékelési problémákat eredményezne., Az igazítások halmaza továbbra is meglehetősen kicsi, és nem feltétlenül jelenti a fehérje evolúciójának teljes skáláját. Ezenkívül az igazítási adatbázisok használatának egyik legnagyobb hátránya, hogy az algoritmusok potenciálisan fejleszthetők és hangolhatók a kizárólag ezekben az adatkészletekben található nyomvonalakhoz.

az utóbbi időben több olyan DNS-szekvencia-szimulációs csomag is létezik, amelyek indeleket tartalmaznak, mint például a Mysp és a DAWG . A mysp-t széles körben használják a filogenetikai következtetések és az evolúciós távolságbecslés különböző vizsgálataiban, DNS-igazítási pontossággal párosítva ., A fehérjék, Lassmann és Sonnhammer egy korábbi összehasonlítása MSA algoritmusok használt mesterségesen létrehozott szekvenciakészletek által generált szimulációs program Rose . A Rose szimulálja a fehérjék szekvenciáit, lehetővé téve az Indel előfordulását. A Rose által generált adatkészletek saját korlátaikat mutatják be az igazítás pontosságának tanulmányozásához. A Rózsában az indel mérete és száma nem reprezentálja megfelelően a különböző evolúciós időkre eltérő fehérjék empirikus adatait. A program a fehérje összes helyének azonos evolúciós arányát is feltételezi.,

ebben a tanulmányban egy továbbfejlesztett megközelítést vezetünk be az igazítás pontosságának értékelésére a Simprot által generált szimulált fehérjeszekvenciák felhasználásával . A Simprot egy speciális szimulációs program, amely a Qian és Goldstein inclusion and deléation (indel) disztribúció paraméterezett változatát alkalmazza. Bár az eredeti Eloszlás empirikusan származik egy részhalmaza igazítások nagymértékben eltérő fehérje szekvenciák, a paraméterezett változat lehetővé teszi egy nagyon rugalmas szimuláció Indel szekvenciák minden szinten szekvencia divergencia., A Simprot különböző helyszíneken is lehetővé teszi a változó helyettesítési és indel arányokat a gamma-elosztott helyek arányainak alkalmazásával . Az aminosavak helyettesítésének három modellje (PMB, PAM és JTT) is rendelkezésre áll. Az általunk használt Simprot generálni ismert nyomvonalakat sokféle evolúciós paraméterek, valamint a legújabb BAliBASE adatbázis kurátora nyomvonalakat, hogy vizsgálja meg a pontosságot, valamint a sebesség a népszerű nyilvánosan elérhető több fehérje szekvencia illesztés szoftverek.,

igazítási programok

számos rendelkezésre álló számítógépes csomag létezik, amelyek fehérjeszekvenciák MSAs-ját generálják. A jelenleg leggyakrabban használt programok közül kilencet választottunk ki (a Megjelenés dátuma szerint): Clustal W, Dialign2.2, t-Coffee, POA, Muscle, Mafft, ProbCons, Dialign-T és Kalign.

Clustal w version 1.8

Ez valószínűleg a legszélesebb körben használt igazítási program és a legrégebbi a tesztelt csomagok között. A szoftver végez progresszív igazítás, először foglalkoztató páronkénti sorrend összehasonlítása kiszámításával távolság mátrix, amely tárolja szekvencia divergencia., Miután ezt a mátrixot megkaptuk, egy fa útmutató épül fel a szomszéd csatlakozással, majd a harmadik és utolsó lépés, ahol a szekvenciákat a vezetőfa ágrendjének megfelelően igazítják. A program két gap büntetést alkalmaz az igazítási eljárásában: a gap opening és a gap extension, valamint a polypeptidek esetében egy teljes aminosav pontozási súlymátrixot. Ezek a különbségek elsősorban olyan tényezőktől függenek, mint a súlymátrix, a szekvencia hossza és a hasonlóság., Egyszerű esetekben a Clustal w pontosan összehangolhatja az ismert másodlagos vagy harmadlagos struktúra megfelelő tartományait és szekvenciáit, míg összetettebb esetekben jó kiindulási pontként használható a további finomításhoz.

Dialign2. 2 Verzió 2.2.1

Ez a program átlós módszert használ a szekvenciák helyi és globális összehangolására. A Dialign2.2 nem hasonlítja össze az egyes maradékokat, hanem az egész megszakítás nélküli (nincs rés, eltérés megengedett) maradékokat, amelyek átlókat képeznének két szekvencia pontmátrix-összehasonlításában., Következésképpen nem bünteti a hiányosságok beszúrását és kiterjesztését, és a nem kapcsolódó szegmenseket nem jelölheti ki. Az első lépés az eljárás teremt minden lehetséges páronként nyomvonalakat, tárolása gyűjteménye átlók találkozó bizonyos következetesség kritériumok nélkül ellentmondó dupla vagy crossover feladatokat, maradékok . Az összes mentett átlót súlyozzák annak érdekében, hogy meghatározzák a súlyok maximális összegével rendelkező bejegyzéseket, majd sorolják az átfedés mértékének meghatározása érdekében, hangsúlyozva a több szekvenciában jelen lévő Átlók létezését., A kapzsi-szerű algoritmus végső feldolgozást végez,az átlók pontszámainak ellenőrzése felülről lefelé, végső többszörös igazítás létrehozása. Az MSA létrehozásának végén hézagok kerülnek beillesztésre, amíg az összes jelenlegi maradék össze nem kapcsolódik.

t-Coffee (fa alapú konzisztencia objektív funkció az igazítás értékeléséhez) 3.27 verzió

A T-Coffee progresszív stratégiát alkalmaz a szekvenciák összehangolásában. A program először két különböző forrásból hoz létre könyvtárat: a Clustal w globális igazításaiból, a lalign helyi igazításaiból ., Minden egyes szekvenciapár esetében a globális igazítások és a páronkénti helyi igazítások a tíz csúcspontú, nem metsző szegmensből jönnek létre. A program feldolgozza a globális és helyi információkat, súlyokat rendelve az összes páros nyomvonalakhoz a szekvencia identitáshoz képest . Ezt követi a csoportok kombinációja, amelyeket egyetlen könyvtárba egyesítenek. Ennek a kombinált könyvtárnak van egy kiterjesztési fázisa, így a maradékanyagok végső súlya tükrözi a teljes könyvtárban található információk egy részét., Az utolsó lépés egy távolságmátrix és egy szomszéd összekötő fa kiszámítását igényli, mivel az igazítás progresszív stratégiával jön létre úgy, hogy a fán lévő két legközelebbi szekvenciát a kiterjesztett könyvtárban tárolt súlynak megfelelően igazítjuk. A kezdeti pár ezután rögzítve van, a meglévő réseket később nem lehet eltolni. A progresszív igazítás addig folytatódik, amíg minden sorozat igazodik.

POA (Partial Order Igazítás) version 2.0

POA egy másik MSA csomag, amely egy progresszív igazítási algoritmus használata nélkül általánosított profilok., Ez a program egy részleges sorrend-többszörös szekvencia Igazítás (PO-MSA) formátum használatát mutatja be a szekvenciák ábrázolására, pontosabban a biológiai tartalmat tükrözi. Ez a formátum tömörített gráfként tárolja az igazítást a minimális csomópont-és élszámokhoz, még mindig tartalmazza a hagyományos MSA-ban rendelkezésre álló összes információt. A szekvenciákat lineáris csomópontsorozatként tárolják, amelyek mindegyike két éllel van összekötve. A POA egy hagyományos dinamikus programozási algoritmust használ, ahol a lineáris szekvenciákat parciális rend (Po) gráfok váltják fel., Ezeket a PO struktúrákat a szokásos 2D mátrixokban alakítják át, és a sejtek minden egyes kombinációját visszafelé pontozzák, mint egy hagyományos Smith-Waterman szekvencia-igazítási eljárásban . Ezeket a mátrixokat ezután bármilyen irányban (átlós, vízszintes, függőleges) meghosszabbítják, lehetővé téve a páronkénti igazítás előállítását a csatlakozási pontokon. Az MSA az elején két szekvencia összehangolásából származik, más szekvenciák egymás utáni hozzáadásával a kezdeti párhoz.

Muscle (többszörös szekvencia összehasonlítás log-elvárás) version 3.,6

az izom egy páronkénti profiligazítási megközelítést alkalmaz. A program először egy progresszív igazítást épít, amelyet két későbbi szakaszban továbbfejlesztenek és finomítanak. A progresszív igazítás a szekvencia hasonlóságok, a távolságbecslés és az UPGMA fa kiszámítása után jön létre. Az izom két távolságmérést alkalmaz: egy K mer távolságot nem igazított szekvenciapárokhoz, valamint egy Kimura távolságot igazított párokhoz . A progresszív igazításjavítási szakasz új fát hoz létre a már kiszámított Kimura távolságmátrixmal, majd jobb igazítást hoz létre ennek a finomított fának a alapján., Az utolsó finomítási szakaszban foglalkoztat egy változata a fa függő korlátozott particionálás . Ez a módszer törli az egyik fa szélét, két particionálja az igazítást, majd kivonja mindkét partíció profilját, amelyeket ezután egy profil-Profil igazítással igazítanak. Minden fa élét iteratív módon látogatjuk meg, és az egyes szekvenciapárok frissített páronkénti pontszámával való igazítás megmarad. A széleket a gyökértől való távolság csökkentése érdekében látogatják meg, az egyes szekvenciák átrendezésével, a szekvenciák szorosabban kapcsolódó csoportjaihoz.,

Mafft (több szekvencia igazítás alapján gyors Fourier transzformáció) version 5.732

Mafft egy olyan program, amely lehet használni a különböző igazítási megközelítések, akár progresszív igazítás önmagában (gyors Fourier transzformáció), vagy progresszív majd iteratív finomítás. A Mafft alap futtatásának legfeljebb három lépése lehet, de az alapértelmezett eljárás végrehajtja a kezdeti két lépést. Először is, egy progresszív igazítás jön létre alapján durva távolság minden szekvenciapár alapján megosztott 6-kapcsok., A guide tree is generálja UPGMA módosított kapcsolat, majd a szekvenciákat, majd igazodik az ág sorrendje a fa (ez a lépés önmagában az úgynevezett stratégia FFT-NS-1). A második lépés az előző lépésben összegyűjtött információk alapján újraszámítja a távolságmátrixot, a progresszív igazítás pedig az új mátrixból kiinduló fával történik (ez a lépés a stratégia FFT-NS-2 néven ismert, és ez a szoftver alapértelmezett használata)., Az utolsó fázis az iteratív finomítás, amely optimalizálja a Gotoh súlyozott párösszegét (WSP), egy csoport-csoport igazítással, valamint a fa-függő restrikciós partíció technikával . Ha mind a három lépést alkalmazzák, az eljárást FFT-NS-i-nek nevezik, ami azt jelenti, hogy FFT módszert alkalmaz a szekvenciákban jelen lévő homológ régiók gyors azonosítására, amelyet a finomítás iteratív fázisa követ., Az FFT minden egyes jelen lévő aminosavat átalakít egy térfogatot és polaritást reprezentáló vektorrá, amely fontos tényező a szubsztitúciós eseményeken, lehetővé téve a szoftver számára, hogy pontosan megjósolja az ilyen eseményeket.

Mafft három további finomítási algoritmust is tartalmaz: L-INS-i, G-INS-i és E-INS-i . Ezek a stratégiák növelik az MSA-igazítás létrehozásához szükséges lépések számát ötre. Ezekben az esetekben az első lépés egy távolságmátrix felépítését is igényli, nem pedig a 6-tuples használatát., Eltérően az FFT-NS-* megközelítések nincs rekonstrukciója a számított UPGMA fa, a program áthelyezi a második lépés, elosztjuk a gap-szabad szegmensek, tárolás pontszám tömbök minden gap-szabad szegmens az egyik jelenetből a másikba. A Mafft ezután kiszámítja a” fontos ” értéket a szegmens pontszámából, és tárolja, hogy a maradványok milyen gyakran jelennek meg más szegmensekben., Az összes “fontossági” értéket ezután egy “fontossági” mátrixba gyűjtjük a harmadik lépésben, amelyet gyorsan követ a pontszámmátrixokból nyert csoport-csoport igazítás, valamint a Needleman-Wunsch algoritmuson alapuló súlyozási rendszer. Az utolsó lépés iteratív módon finomítja a kapott nyomvonalakat, optimalizálva a WSP pontszámot, valamint a korábban kiszámított” fontossági ” értékeket.

ProbCons (valószínűségi konzisztencia-alapú többszörös szekvencia igazítás) version 1.1

ProbCons az egyetlen program, amely egy valószínűségi konzisztencia módszer igazítás., Ez egy módosítása a hagyományos sum-of-Párok pontozási rendszer, továbbá tartalmaz egy pár rejtett Markov modell alapú progresszív igazítási algoritmus. Az igazítási eljárás négy lépésből áll, kezdve a hátsó valószínűségi mátrixok kiszámításával minden szekvenciapár esetében. Ezt követi egy dinamikus programozási számítás a várható pontosságát minden páronkénti igazítás. Valószínűségi következetesség transzformáció ezután alkalmazott annak érdekében, hogy újra megbecsülni a mérkőzés pontosságát pontszámok., A vezetőfa kiszámítása hierarchikus klaszterezéssel történik, az egyes klaszterek szekvenciái közötti értékek súlyozott átlagával meghatározott hasonlósággal. A vezetőfát arra használják, hogy a szekvenciákat progresszív megközelítéssel igazítsák. Egy utófeldolgozási fázist is elvégeznek, ahol a generált igazítás véletlenszerű két partíciói valósulnak meg a jobb igazítási régiók ellenőrzése érdekében. A ProbCons különbözik a többi igazítási programtól, mivel nem tartalmaz olyan biológiai fogalmakat, mint a helyzetspecifikus rés pontozás, az evolúciós faszerkezet és más, más csomagok által általánosan használt jellemzők.,

Dialign-T verzió 0.2.1

Ez a program a Dialign2.2-ben kifejlesztett eljárás újbóli végrehajtása, de jobb megoldás a következetlen töredékek kezelésére, beleértve a töredékek láncolását is. Azt is végrehajtja egy új megközelítés becslésére valószínűségek véletlenszerű előfordulása minden fragmens jelen a sorrendben kell igazítani. A Dialign-T nem használ előre kiszámított táblákat a súlypontok megszerzéséhez: kiszámítja a valószínűségi táblákat több helyettesítési mátrixból. Ezenkívül a kapzsi-szerű többszörös igazítási algoritmus a Dialign2-ből.,Az 2 megváltozott a hamis helyi hasonlóságok elkerülése érdekében.

Kalign version 1.04

a Kalign egy másik program, amely progresszív igazítási megközelítést alkalmaz a lehető legjobb MSA eléréséhez. Ennek az algoritmusnak a fő különbsége más módszerekhez képest az, hogy a Wu-Manber hozzávetőleges karakterlánc-illesztési algoritmust alkalmazza a szekvenciák közötti távolság kiszámításakor. A Wu-Manber algoritmus a két karakterlánc közötti távolságot egy Levenshtein szerkesztési távolsággal méri, amely lehetővé teszi a szekvenciákban jelen lévő eltérések (megosztott vagy nem) és minták hatékony keresését., A Kalign fejlesztői szerint ez a módszer lehetővé teszi a távolságbecslést, amely ugyanolyan gyors, mint egy K-tuple algoritmus, de pontosabb . Az igazítási eljárás első lépése a páros távolságok kiszámítása A Wu-Manber megközelítés segítségével. A páronkénti távolságbecslést egy irányfa felépítése követi az UPGMA használatával, amelyet egy globális dinamikus programozási módszer alkalmaz a szekvenciák/profilok összehangolására., Ezenkívül a program konzisztencia-ellenőrzést végez annak érdekében, hogy meghatározza az igazításba beilleszthető legnagyobb sorozategyezéseket, a Needleman-Wunsch módosított verziójával, hogy megtalálja a legkövetkezetesebb utat a dinamikus programozási mátrixon keresztül. Is, Kalign frissíti a pozíciókat minta párosítások, amely beállítja az abszolút helyzetét mérkőzések belül található szekvenciák relatív pozíciókat belül generált profilok .