Tarkkuus useita multiple sequence alignment-ohjelmat proteiineja

määrittäminen homologisia alueita molekyyli-sekvenssejä käytetään usein edelleen päättely niiden toimintaa ja kehitystä, ja siksi tarkka multiple sequence alignment (MSA) on nukleiinihappojen ja proteiinien sekvenssit on ratkaiseva., Näin ollen on ollut valtavan työn kehittämisessä ja toteuttamisessa eri MSA algoritmeja käyttäen eri lähestymistapoja parantaa tuloksena tasaus tarkkuus.

tarkkuus arvioinnin MSA ohjelmia tehdään usein käyttämällä manuaalisesti (tai semi automaattisesti) kuratoinut sekvenssi tietokantoja, kuten BAliBASE , VALMISTALO ja SABmark . Toistaiseksi BAliBASE on ollut useimmin käytetty linjaustietokanta arvioitaessa eri MSA-ohjelmien suorituskykyä. Se rakennettiin käyttäen proteiinijaksoja tai malleja, joissa oli tunnettuja kolmiulotteisia rakenteita., Viime alussa, versiossa 3.0, oli kasvua käytettävissä sekvenssejä ja lähetyksiä. Tällaiset parannukset ovat ilmeisesti käsitelleet Karplus ja Hu: n suuria huolenaiheita, jotka liittyvät Balibasen käyttöön MSA-algoritmien vertailussa.

Linjaus tietokantoihin, tarjota lähde tarkkoja linjauksia mitata tarkkuutta ja nopeutta eri ohjelmia, mutta he myös läsnä useita haittoja. Vaikka tietokannat’ linjaukset ovat manuaalisesti kuratoinut, siellä on vielä mahdollisuus vääristymät, jotka johtaisivat tarkkuuden arviointi-ongelmia., Eräkokonaisuudet ovat edelleen melko pieniä, eivätkä ne välttämättä edusta proteiinin evoluutioskenaarioiden täydellistä kirjoa. Lisäksi merkittävä haittapuoli käytön linjaus tietokantoihin on, että algoritmit voidaan mahdollisesti kehitetty ja viritetty linjauksia hetkellä ainoastaan näiden tietojen sarjaa.

viime Aikoina on ollut useita DNA-sekvenssin simulointi paketteja, jotka sisältävät indels, kuten MySSP ja DAWG . MySSP: tä on käytetty laajasti erilaisissa fylogeneettisen päättelyn ja evolutiivisen etäisyyden estimoinnin tutkimuksissa yhdistettynä DNA: n linjaustarkkuuteen ., Proteiineille, Lassmann ja Sonnhammer aiemmassa vertailussa simulointiohjelman tuottamien keinotekoisesti luotujen sekvenssisarjojen MSA-algoritmeista nousi . Rose simuloi proteiinien sekvenssejä, jotka mahdollistavat indelien esiintymisen. Rosen tuottamat tietokokonaisuudet esittävät omat rajoituksensa linjaustarkkuuden tutkimiselle. Rosessa indelin koko ja lukumäärä eivät riittävästi edusta empiiristä dataa proteiineista, jotka ovat eronneet eri evoluutioaikoihin. Myös ohjelma olettaa yhtäläiset evoluutionopeudet kaikista proteiinin paikoista.,

tässä tutkimuksessa esittelemme parannettu lähestymistapa arvioida tasaus tarkkuus käyttämällä simuloitu proteiini sekvenssit syntyy Simprot . Simprot on kehittynyt simulointi ohjelma, joka työllistää parameterized versio Qian ja Goldstein lisäys ja poisto (indel) – jakauma. Vaikka alkuperäinen jakelu oli empiirisesti johdettu osajoukko linjauksia pitkälle eriytynyt proteiini sekvenssit, että parametroituja versio sallii erittäin joustavan simulaatio indels vuonna sekvenssit kaikki tasot järjestyksessä eroja., Simprot mahdollistaa myös muuttuja korvaaminen ja indel hinnat eri sivustoja toteuttamalla gamma-jakautunut sivustot hinnat . Saatavilla on myös kolme aminohappojen substituutiomallia (PMB, PAM ja JTT). Olemme käyttäneet Simprot tuottaa tunnettu linjauksia monenlaisia evoluution parametrit, sekä uusimmat BAliBASE tietokanta kuratoinut linjauksia, tutkimaan tarkkuutta ja nopeutta suosittu ja julkisesti saatavilla olevaa proteiinia multiple sequence alignment-ohjelmia.,

Tasaus-ohjelmat

On olemassa monia käytettävissä tietokoneohjelmia, jotka tuottavat MSAs proteiini sekvenssit. Valitsimme yhdeksän tällä hetkellä useimmat usein käytetyt ohjelmat (jotta julkaisun päivämäärä): Clustal W, Dialign2.2, T-Kahvin -, POA -, Lihas -, Mafft, ProbCons, Dialign-T ja Kalign.

Clustal W versio 1.8

Tämä on luultavasti yleisimmin käytetty linjaus ohjelma ja vanhin niistä paketit testattu. Ohjelmisto suorittaa progressiivinen linjaus, ensimmäinen työllistävät pareittain järjestyksessä vertailu laskemalla etäisyys matriisi, joka tallentaa sekvenssin eroja., Tämän jälkeen matriisi on saatu, puu opas on rakennettu käyttäen Naapuri Liittyä, seuraa kolmas ja viimeinen vaihe, jossa sekvenssit ovat linjassa sen mukaan, haara, jotta oppaan puu. Ohjelma työllistää kaksi kuilu seuraamuksia sen kohdistus: kuilu, aukko ja aukon laajennus, ja jos polypeptidien, täydellinen aminohappo pisteytys paino matriisi. Nämä ero seuraamukset riippuvat pääasiassa tekijöistä, kuten painomatriisi, sekvenssin pituus ja samankaltaisuus., Yksinkertaisissa tapauksissa Clustal W voisi tarkasti yhdenmukaistaa vastaavia verkkotunnuksia ja sekvenssejä tunnettu toissijainen tai tertiäärinen rakenne, kun taas monimutkaisemmissa tapauksissa sitä voidaan käyttää hyvänä lähtökohtana jatkojalostukseen.

Dialign2.2 version 2.2.1

tässä ohjelmassa käytetään diagonaalimenetelmää sekvenssien sovittamiseksi paikallisesti ja maailmanlaajuisesti. Dialign2.2 ei verrata yhden jäämiä, mutta koko keskeytyksettä (ei aukkoja, ammattitaidon sallittu) ulottuu jäämiä, jotka muodostavat diagonaalit on piste-matriisi vertailu kahden sekvenssin., Näin ollen se ei rankaise lisääminen ja laajentaminen aukkoja, ja voi jättää liity segmentteihin puolueeton. Ensimmäinen vaihe menettelyssä luo kaikki mahdolliset pareittain linjauksia, tallentaa kokoelma lävistäjät, jotka täyttävät tietyt johdonmukaisuuden kriteerit ilman ristiriitaisia kaksin-tai crossover tehtäviä jäämiä . Kaikki tallennetut lävistäjät painotetaan, jotta voidaan määritellä merkinnät suurin summa painoja, ja sitten lajiteltu, jotta voidaan määrittää aste päällekkäisyyttä, korostaen olemassa lävistäjien läsnä useita sekvenssejä., Ahne-kaltainen algoritmi tekee lopullisen käsittelyn, tarkistamalla vinoriveillä pisteet ylhäältä alas luoda lopullinen useita kohdistus. Aukot asetetaan MSA: n luomakunnan loppuun, kunnes kaikki nykyiset jäämät on liitetty toisiinsa.

T-Kahvia (Tree-based johdonmukaisuus kohdefunktion linjaus arviointi) versio 3.27

T-Kahvi työllistää progressiivinen strategian kohdistamalla sekvenssit. Ohjelma luo ensin kirjasto kahdesta eri lähteestä: global linjauksia alkaen Clustal W ja paikalliset linjaukset alkaen Lalign ., Kunkin parin sekvenssit global linjauksia ja pareittain paikalliset linjaukset on luotu kymmenen top-pisteytys ei-kanssa päällekkäiset segmentit. Ohjelma käsittelee globaalia ja paikallista tietoa, osoitetaan painoja kaikki pareittain linjauksia suhteessa identtisyys . Tätä seuraa ryhmäyhdistelmä, joka yhdistetään yhdeksi kirjastoksi. Siellä on laajennus, vaihe tämä yhdistetty kirjasto, joten lopullinen paino mikä tahansa pari jäämät heijastavat osan sisältämät tiedot koko kirjasto., Lopullinen askel vaatii laskemista etäisyys matriisi ja Naapuri Liittymällä puu, koska linjaus on luotu progressiivinen strategia kohdistamalla kaksi lähintä sekvenssit puun painon mukaan tallennettu extended library. Alkuperäinen pari on sitten kiinteä ja olemassa olevia aukkoja ei voida siirtää myöhemmin. Progressiivinen linjaus jatkuu, kunnes jokainen sekvenssi on linjassa.

POA (Osittainen Järjestys Linjaus) versio 2.0

POA on toinen MSA-paketti, joka käyttää progressiivinen linjaus algoritmi ilman yleistynyt profiilit., Tässä ohjelmassa otetaan käyttöön osittainen Järjestys-Useita sekvenssi linjaus (PO-MSA) muodossa edustaa sekvenssejä, ja tarkemmin heijastaa biologista sisältöä. Tämä muoto tallentaa linjaus kuin tiivistetty kaavio minimaalinen solmu ja reuna laskee, vielä sisältävät kaikki tiedot saatavilla perinteinen MSA. Sekvenssit tallennetaan lineaarisena sarjana solmuja, joita kukin yhdistää kahdella reunalla. POA käyttää perinteistä dynaamista ohjelmointialgoritmia, jossa lineaariset sekvenssit korvataan Osittaisjärjestyksen (PO) kuvaajilla., Nämä PO rakenteet ovat muuntaa tavallisen 2D-matriiseja ja jokainen yhdistelmä solut ovat sijoitettiin taaksepäin kuin perinteinen Smith-Waterman sequence alignment-menettelyä . Nämä matriisit ovat sitten laajentaa mihin tahansa suuntaan (lävistäjä, vaaka -, pysty), jolloin tuotannon pareittain mukauttaminen solmukohdissa. MSA saadaan kahden sekvenssin linjauksesta alussa lisäämällä muita sekvenssejä peräkkäin alkuperäiseen pariin.

Muscle (Multiple sequence comparison by log-expectation) version 3.,6

Muscle käyttää pairwise profile alignment-lähestymistapaa. Ohjelma rakentaa ensin progressiivisen linjauksen, jota sitten parannetaan ja hiotaan kahdessa myöhemmässä vaiheessa. Progressiivinen linjaus on luotu sen jälkeen, kun järjestyksessä yhtäläisyyksiä, etäisyyden arviointi ja UPGMA-puu lasketaan. Lihas käyttää kahta etäisyys toimenpiteet: k mer etäisyys puolueeton järjestyksessä paria ja Kimura etäisyys tietokoneella paria . Progressiivinen linjaus parannus vaiheessa luodaan uusi puu, jossa on jo laskettu Kimura etäisyys matriisi ja sitten rakentaa parempi linjaus perustuu tämä parantaa puun., Viimeinen hienosäätövaihe työllistää muunnoksen puusta riippuvaisesta rajoitetusta osioinnista . Tämä menetelmä poistaa yksi puu reunat, bi-osiointi linjaus ja talteen molemmat osiot’ profiilit, jotka on sitten korjattu profiilin-profiilin kohdistus. Jokainen puun reuna käydään iteratiivisesti ja linjaus päivitetyllä summatulla pairwise pisteet kunkin sekvenssiparin säilytetään. Reunat ovat vierailleet alenevassa järjestyksessä etäisyys juuresta, jossa uudelleensuuntaamiselle yksittäiset sekvenssit, liikkuvat enemmän läheisesti liittyvät ryhmät sekvenssit .,

Mafft (Multiple sequence alignment-perustuu Nopea Fourier-Muunnos) versio 5.732

Mafft on ohjelma, joka voidaan käyttää eri linjaus lähestyy, joko progressiivinen linjaus yksin (Fast Fourier Transform), tai progressiivinen jonka jälkeen iteratiivinen tarkentaminen. Mafftin perusjuoksussa voi olla jopa kolme vaihetta, mutta oletusmenettely suorittaa kaksi ensimmäistä vaihetta. Ensimmäinen, progressiivinen linjaus luodaan perustuu karkea etäisyys jokaisen sekvenssiparin perustuu jaettu 6-tuples., Opas puu on myös luotu UPGMA muutettu sidos ja sekvenssit ovat sitten tietokoneella seuraava haara, jotta puu (tämä vaihe yksin on nimeltään strategia FFT-NS-1). Toinen vaihe laskee etäisyys matriisi, joka perustuu kerättyjen tietojen edellisessä vaiheessa, ja progressiivinen linjaus on uudelleen tehty käyttäen puu saadaan uusi matriisi lähtökohtana (jopa tämä vaihe, strategian tunnetaan FFT-NS-2 ja se on oletuksena käyttämä ohjelmisto)., Viimeinen vaihe on iteratiivinen tarkentaminen joka optimoi Gotoh on painotettu summa paria (WSP) pisteet, ryhmä-to-ryhmän linjaus ja puu-riippuvainen rajoitus osio tekniikka . Jos kaikki kolme vaihetta ovat palveluksessa, menettelyä kutsutaan FFT-NS-en, mikä tarkoittaa, se käyttää FFT-menetelmällä nopeasti tunnistamaan homologisia alueita läsnä sekvenssit, joita seuraa iteratiivinen vaihe hienostuneisuus., FFT muuntaa jokainen aminohappo läsnä järjestyksessä vektori edustaa määrä ja napaisuus, jotka ovat tärkeitä tekijöitä korvaaminen tapahtumia, jolloin ohjelmisto ennustaa, että tällaisia tapauksia tarkasti.

Mafft sisältää myös kolme lisää hienostuneisuutta algoritmeja: L-INS-i, G-INS-i ja E-INS-en . Nämä strategiat lisäävät MSA: n yhdenmukaistamisen edellyttämien toimien määrän viiteen. Näissä tapauksissa ensimmäinen vaihe edellyttää myös etäisyysmatriisin rakentamista, ei 6-tupleja., Eri FFT-NS-* lähestymistapoja ei ole jälleenrakentamiseen laskettu UPGMA-puu ja ohjelma siirtyy toiseen vaiheeseen, jakamalla ero vapaa-segmentit ja tallentaa pisteet taulukot jokaisesta kuilu-ilmainen segmentti sekvenssistä toiseen. Mafft sitten laskee ”merkitys” arvo pisteet segmentin ja tallentaa kuinka usein jäämät näkyvät muut segmentit., Kaikki ”tärkeä” arvot ovat sitten kokoontuivat ”merkitys” matriisin kolmas vaihe, joka on nopeasti seurasi ryhmä-to-ryhmän linjaus saadut pisteet matriisit ja painotus järjestelmän perustuvat Needleman-Wunsch-algoritmi. Lopullinen vaihe iteratiivisesti refines saatu lähetykset, optimoimalla WSP pisteet ja” merkitys ” arvot laskettu aiemmin.

ProbCons (Probabilistic Johdonmukaisuus-pohjainen multiple sequence alignment) versio 1.1

ProbCons on ainoa ohjelma, joka käyttää probabilistinen johdonmukaisuus menetelmä yhdenmukaistaminen., Se on muutos perinteisen summa-of-paria pisteytysjärjestelmä, ja lisäksi sisältää pari-piilotettu Markovin malli-pohjainen progressiivinen linjaus algoritmi. Linjaus menettely on jaettu neljään vaiheeseen, alkaen laskutoimitus posterior-todennäköisyys matriisit jokaiselle pari sekvenssejä. Tätä seuraa dynaaminen ohjelmointi laskeminen odotetaan tarkkuutta jokaisen pareittain linjaus. Probabilistinen johdonmukaisuus muutos on sitten käyttää, jotta uudelleen arvioida ottelu tarkkuuden tulokset., Opaspuu lasketaan hierarkkisella klusteroinnilla, jonka samankaltaisuus määritellään kunkin klusterin jaksojen välisten arvojen painotetulla keskiarvolla. Ohjepuuta käytetään sekvenssien tasaamiseen progressiivisen lähestymistavan avulla. Lisäksi tehdään jälkikäsittelyvaihe, jossa luodun linjauksen satunnaiset bi-osiot realisoidaan paremman linjausalueiden tarkastamiseksi. ProbCons eroaa muista linjaus ohjelmia, koska se ei sisällä biologisia käsitteitä, kuten asema-erityisiä kuilu pisteytys, evolutiivisen puun rakenne ja muut ominaisuudet yleisesti käytetty muita paketteja.,

Dialign-T versio 0.2.1

Tämä ohjelma on uudelleen täytäntöönpanoa menettelyn kehitetty Dialign2.2, mutta parempi ratkaisu käsitellä epäjohdonmukainen fragmentteja, kuten fragmentti-ketjutus. Se toteuttaa myös uuden lähestymistavan arvioitaessa todennäköisyyksiä kunkin kohdejaksossa olevan fragmentin satunnaisesta esiintymisestä. Dialign-T ei käytä ennalta laskettu taulukot, jotta saadaan painoa tulokset: se laskee todennäköisyys taulukot useita korvaaminen matriisit. Lisäksi, ahne-kuten useita linjausalgoritmi Dialign2.,2 muutettiin, jotta vältyttäisiin vääriltä paikallisilta yhtäläisyyksiltä.

Kalign versio 1.04

Kalign on toinen ohjelma, joka käyttää progressiivinen linjaus lähestymistapa saada parhaat MSA mahdollista. Tärkein ero tämän algoritmin muihin menetelmiin on se, että se työllistää Wu-Manber arvioitu merkkijono matching algoritmi laskettaessa etäisyys keskuudessa sekvenssit. Wu-Manber-algoritmi mittaa välinen etäisyys kaksi merkkijonoa käyttäen Levenshtein muokkaa etäisyys, joka mahdollistaa tehokkaan etsiä epäsuhta (jaettu tai ei) ja kuvioita läsnä sekvenssit., Mukaan Kalign kehittäjät, tämä menetelmä mahdollistaa etäisyyden arviointi, joka on yhtä nopea kuin k-tuple-algoritmi, mutta on tarkempi . Ensimmäinen askel linjausmenettelyssä on laskea pairwise-etäisyydet Wu-Manber-lähestymistavan avulla. Pareittain etäisyyden arviointi seuraa rakentamisen opas puun käyttämällä UPGMA, joka työskentelee globaalissa dynaaminen ohjelmointi menetelmä yhdenmukaistaa sekvenssit/profiilit., Lisäksi ohjelma suorittaa johdonmukaisuus tarkistaa, jotta voidaan määritellä suurin joukko järjestyksessä otteluita, jotka voivat olla asetettu linjaus, käyttäen muokattu versio Needleman-Wunsch löytää kaikkein johdonmukainen polku läpi dynaaminen ohjelmointi matrix. Myös Kalign päivitykset kannat kuvio matchings, joka säätää ehdoton kanta vastaa vajaan sekvenssit niiden suhteelliset asemat sisällä luodut profiilit .