Nøyaktigheten av flere flere sekvens justering programmer for proteiner

fastsettelse av homologe regioner i molekylær-sekvenser er ofte brukt for den videre analyse av deres funksjon og utvikling, og derfor nøyaktige flere sekvens justering (MSA) av nukleinsyre og protein sekvenser er avgjørende., Følgelig har det vært en enorm innsats i utvikling og gjennomføring av ulike MSA, algoritmer, ved hjelp av forskjellige metoder for å forbedre den resulterende justering nøyaktighet.

korrektheten vurdering av MSA-programmer er ofte gjort ved å ansette manuelt (eller semi automatisk) kuratert sekvens databaser som BAliBASE , FERDIGHUS og SABmark . Så langt, BAliBASE har vært den mest ofte brukt justering database i evaluere resultatene for ulike MSA programmer. Det ble konstruert ved hjelp av protein sekvenser eller modeller med kjent tre-dimensjonale strukturer., Siste starten, versjon 3.0, hadde en økning i antall tilgjengelig sekvenser og justeringer. Slike forbedringer tilsynelatende har håndtert de store bekymringene til Karplus og Hu når det gjelder bruk av BAliBASE å benchmark MSA algoritmer.

Justering databaser gi en kilde til nøyaktige justeringer for å måle nøyaktigheten og hastigheten av ulike programmer, men de presenterer også flere ulemper. Selv om databaser’ justeringer manuelt kuratert, det er fortsatt mulighet for misalignments noe som ville resultere i nøyaktighet vurdering problemer., Sett av tilnærmingene er fortsatt ganske liten, og kan ikke representere komplett spekter av scenarier av protein evolusjon. Videre er en stor ulempe for bruken av stilling databaser er at algoritmer kan potensielt være utviklet og tilpasset til justeringer til stede kun i disse datasettene.

Nylig har det vært flere DNA-sekvens simulering pakker som inkluderer indels, for eksempel MySSP og DAWG . MySSP har vært mye brukt i ulike studier av fylogenetisk analyse og evolusjonære avstand estimering kombinert med DNA-justering nøyaktighet ., For proteiner, Lassmann og Sonnhammer i en tidligere sammenligning av MSA algoritmer som brukes kunstig skapt rekkefølge angir generert av simulering programmet Rose . Rose simulerer sekvenser av proteiner slik at forekomsten av indels. Datasett generert av Rose presentere sine egne begrensninger for studier av justeringen nøyaktighet. I Rose, indel størrelse og antall ikke i tilstrekkelig grad representerer empiriske data for proteiner som har skilte seg for forskjellige evolusjonære ganger. Også programmet forutsetter lik evolusjonære priser på alle områder i protein.,

I denne studien har vi introdusere en bedre tilnærming å vurdere justering nøyaktighet ved hjelp av simulerte protein sekvenser generert av Simprot . Simprot er en avansert simulering program som benytter en parameterized versjon av Qian og Goldstein innsetting og sletting (indel) distribusjon. Selv om den opprinnelige fordelingen var empirisk utledet fra et delsett av justeringer av svært skilte seg protein sekvenser, parameterized versjonen tillater en svært fleksibel simulering av indels i sekvenser for alle nivåer av sekvensen divergens., Simprot også lar variabel substitusjon og indel priser på ulike sider ved implementering av gamma fordelt nettsteder priser . Tre modeller av aminosyrer substitusjon (PMB, PAM og JTT) er også tilgjengelig. Vi har brukt Simprot for å generere kjent justeringer med et bredt utvalg av evolusjonære parametre, samt de nyeste BAliBASE database av kuratert justeringer, for å undersøke nøyaktigheten og hastigheten av populære og offentlig tilgjengelig protein flere sekvens justering programmer.,

Justering programmer

Det er mange ledige datamaskinen pakker som genererer MSAs av protein sekvenser. Vi har valgt ut ni av de for tiden mest brukte programmer (for publisering av dato): Clustal W, Dialign2.2, T-Kaffe, POA, Muskel, Mafft, ProbCons, Dialign-T og Kalign.

Clustal W versjon 1.8

Dette er trolig den mest brukte justering program og eldste blant de pakker som ble testet. Programvaren utfører en progressiv justering, først ansette en parvis sekvens sammenligningen ved å beregne avstand matrise som lagrer sekvens divergens., Etter denne matrisen er hentet, et tre guide er bygget ved hjelp av Nabo Med, fulgt av den tredje og siste trinnet der sekvenser er justert i henhold til den grenen orden i guide treet. Programmet benytter to gap straffer i sin justeringsprosedyren: gap åpner og gap-utvidelsen, og i tilfelle av polypeptides, en full amino acid score vekt matrise. Disse gap straffer er i hovedsak avhengig av faktorer som vekt matrix, sekvens lengde og likhet., I enkle tilfeller, Clustal W kan nøyaktig justere tilsvarende domener og sekvenser av kjente sekundær eller tertiær struktur, mens i mer kompliserte tilfeller kan det brukes som et godt utgangspunkt for videreutvikling.

Dialign2.2 versjon 2.2.1

Dette programmet bruker en diagonal metode for å justere sekvenser lokalt og globalt. Dialign2.2 ikke sammenligne enkelt rester, men hele uavbrutt (ingen hull, samsvarer ikke tillatt) strekker seg i rester som vil danne diagonaler i et dot-matrix sammenligning av to sekvenser., Det er derfor ikke straffe innsetting og forlengelse av hull, og kan forlate relatert segmenter unaligned. Det første trinnet i prosedyren skaper alle mulige parvis justeringer, oppbevare en samling av diagonalene møte viss konsistens kriterier uten forstyrrende dobbelt-eller crossover oppdrag av rester . Alle lagrede diagonalene er vektet for å angi oppføringer med maksimal sum av vekter, og deretter sortert i rekkefølge for å fastslå graden av overlapp, med vekt på eksistensen av diagonalene til stede i flere sekvenser., En grådig-algoritme som gjør en siste behandling, kontroll diagonaler score fra topp til bunn å skape en endelig flere justering. Hullene er satt inn på slutten av MSA skapelsen til alle som var tilstede rester er koblet til.

T-Kaffe (Tre-basert konsistens mål funksjonen for justering evaluering) versjon 3.27

T-Kaffe har en progressiv strategi i å samkjøre sekvenser. Programmet første skaper et bibliotek fra to ulike kilder: global justeringer fra Clustal W og lokale justeringer fra Lalign ., For hvert par av sekvenser global justeringer og parvis lokale justeringer er opprettet fra ti topp-score ikke-kryssende segmenter. Programmet behandler global og lokal informasjon, tildeling av vekter til alle parvis justeringer i forhold til rekkefølge identitet . Dette er etterfulgt av en kombinasjon av grupper som er slått sammen til en enkelt bibliotek. Det er en utvidelse fase for dette, kombinert bibliotek, noe som gjør den endelige vekten av alle par av rester reflektere en del av den informasjonen som finnes i hele biblioteket., Et siste trinn krever en beregning av avstand matrise og en Nabo Bli med i treet, siden justeringen er generert med en progressiv strategi ved å justere de to nærmeste sekvenser på treet i henhold til den vekt som er lagret i utvidet bibliotek. Det første paret er så fast og noen eksisterende hull kan ikke forskyves til senere. Den progressive justering fortsetter til hver sekvens er justert.

POA (Delvis For Justering) versjon 2.0

(POA) er en annen MSA-pakken som bruker en progressiv justering algoritme uten å bruke generalisert profiler., Dette programmet introduserer bruk av en Delvis Ordre-Flere Sekvens Justering (PO-MSA) format til å representere sekvenser, og mer nøyaktig gjenspeiler biologiske innhold. Dette formatet lagrer innretting som en komprimert grafen for minimal node og kanten teller, fortsatt inneholder all informasjon som finnes i en tradisjonell MSA. Sekvenser er lagret som en lineær serie av noder hver forbundet med to kanter. POA bruker en tradisjonell dynamisk programmering algoritmen , der lineære sekvenser er erstattet av Delvis Rekkefølge (PO) grafer., Disse PO strukturer endres i vanlig 2D-matriser, og hver kombinasjon av celler er scoret bakover som i en tradisjonell Smith-Waterman sekvens justering prosedyre . Disse matrisene er så utvidet i alle retninger (diagonal, horisontal, vertikal) slik at produksjonen av parvis justering på krysset poeng. Den MSA er hentet fra justeringen av to sekvenser i begynnelsen med tillegg av andre sekvenser suksessivt til den første paret.

Muskel (Flere sekvens sammenligning av logg-forventning) versjon 3.,6

Muskel bruker en parvis profil justering tilnærming. Programmet først bygger en progressiv justering som er så forbedret og raffinert i to påfølgende stadier. Den progressive tilnærmingen er opprettet etter sekvensen likheter, en avstand estimering og en UPGMA treet er beregnet. Muskler bruker to avstand tiltak: a k mer avstand for unaligned sekvens par og en Kimura avstand justert for par . Den progressive justering forbedring scenen skaper en ny treet med det allerede beregnet Kimura avstand matrix og deretter bygger en bedre tilpasning basert på dette ameliorated treet., Den siste finpussingen scenen benytter en variant av treet avhengige begrenset partisjonering . Denne metoden sletter en av de tre kanter, bi-partisjonering av justering og trekke ut både partisjoner’ profiler som er så realigned med en profil-profil justering. Hvert tre kanten er besøkt iterativt og justering med en oppdatert summert parvis score på hver sekvens par er beholdt. Kantene er besøkt for å redusere avstand fra roten, med en omfordeling av enkelte sekvenser, flytte til flere nært beslektede grupper av sekvenser .,

Mafft (Flere sekvens justering basert på Fast Fourier Transform) versjon 5.732

Mafft er et program som kan brukes med forskjellige justering tilnærminger, enten progressive justering alene (Fast Fourier Transform), eller progressive etterfulgt av iterativ raffinement. Mafft er grunnleggende løp kan ha opp til tre steg, men det standard prosedyre utfører de to første trinnene. Først, en progressiv justering er laget basert på en viss avstand mellom hver sekvens par basert på delt 6-tupler., En guide treet er også generert av UPGMA med endret sammenhengen og sekvenser er deretter justert etter gren bestilling av treet (dette trinnet alene er kalt strategi FFT-NS-1). Det andre trinnet rekalkulerer en avstand matrix, basert på informasjon som er samlet på forrige trinn, og den progressive tilnærmingen er nytt gjort ved hjelp av et tre som er innhentet fra den nye matrisen som utgangspunkt (opp til dette trinnet, strategien er kjent som FFT-NS-2 og det er den standard som brukes av programvaren)., Den siste fasen er iterativ raffinement som optimaliserer Gotoh er vektet sum av par (WSP) score, med en gruppe til gruppe justering og treet-avhengige begrensning partisjon teknikk . Hvis alle tre trinnene er ansatt, prosedyren kalles FFT-NS-jeg, som betyr at det bruker en FFT-metoden for å raskt identifisere homologe regioner stede i sekvenser som er etterfulgt av en iterativ fase av raffinement., FFT konverterer hver aminosyre som finnes i en sekvens til en vektor som representerer volum og polaritet, som er viktige faktorer på substitusjon hendelser, slik at programvaren til å forutse slike hendelser med stor presisjon.

Mafft også tre ekstra raffinement algoritmer: L-INS-jeg, G-INS-jeg og E-INS-jeg . Disse strategiene øke antallet trinn som kreves for å lage en MSA justering til fem. I disse tilfellene er det første trinnet krever også bygging av en avstand matrix, ikke bruke 6-tupler., Forskjellig fra FFT-NS-* tilnærminger det er ingen gjenoppbygging av den beregnede UPGMA treet og programmet går til neste trinn, å dele gap-gratis segmenter og lagring score matriser for hver gap-gratis segment fra en sekvens til en annen. Mafft deretter beregner en «viktig» verdien av score av segmentet og butikker hvor ofte rester vises på andre segmenter., Alle «betydning» verdier blir deretter samlet i en «viktig» matrix i tre trinn som er raskt etterfulgt av en gruppe til gruppe justering innhentet fra score-matriser og en vekting ordningen basert på en Needleman-Wunsch algoritme. Et siste trinn iterativt foredler innhentet justeringer, optimalisering av en WSP score og «betydning» verdiene som er beregnet tidligere.

ProbCons (Probabilistisk Konsistens-basert flere sekvens justering), versjon 1.1

ProbCons er det eneste programmet som bruker en probabilistisk konsistens metode for justering., Det er en modifikasjon av den tradisjonelle summen-av-par scoring system, og i tillegg har et par-hidden Markov model-baserte progressive justering algoritme. Justeringen fremgangsmåten er delt inn i fire trinn, og starter med en beregning av posterior-sannsynlighet matriser for hvert par av sekvenser. Dette er etterfulgt av en dynamisk programmering beregning av forventet nøyaktighet på hver parvis justering. Probabilistisk konsistens transformasjon er da ansatt for å re-estimat kampen korrektheten score., En guide treet er beregnet med hierarkisk klynging med likheten definert av et vektet gjennomsnitt av verdier mellom sekvenser av hver klynge. Guide treet brukes til å justere sekvenser ved hjelp av en progressiv tilnærming. En post-prosessering fasen er også gjort, hvor tilfeldige bi-partisjoner av den genererte justering er realigned for å sjekke for bedre tilpasning regioner. ProbCons skiller seg fra andre justering programmer siden det ikke inneholder biologiske begreper som posisjon-spesifikke gap scoring, evolusjonære treet konstruksjon og andre funksjoner som vanligvis brukes av andre pakker.,

Dialign-T-versjon 0.2.1

Dette programmet er en re-gjennomføring av prosedyre utviklet i Dialign2.2, men med en bedre løsning for å håndtere inkonsistente fragmenter, inkludert fragment-kjeding. Det er også implementerer en ny tilnærming for å anslå sannsynligheten for tilfeldig forekomst av hvert fragment til stede i rekkefølge for å være på linje. Dialign-T ikke bruke pre-kalkulerte tabeller for å få vekt score: det beregner sannsynligheten tabeller fra flere substitusjon matriser. I tillegg, den grådige-som flere justering algoritme fra Dialign2.,2 ble endret for å unngå falske lokale likheter.

Kalign versjon 1.04

Kalign er et annet program som bruker en progressiv justering tilnærming for å oppnå de beste MSA mulig. Den viktigste forskjellen i denne algoritmen til andre metoder, er at den benytter Wu-Manber omtrentlig string matching algoritme ved beregning av avstand mellom sekvenser. Wu-Manber algoritme måler avstanden mellom to strenger ved hjelp av en Levenshtein redigere avstand, som gir en effektiv søk etter samsvarer ikke (delt eller ikke) og mønstre til stede i sekvenser., I henhold til Kalign utviklere, denne metoden gjør det mulig med en avstand estimering som er så rask som en k-tuple algoritme, men er mer nøyaktig . Det første trinnet i justeringen prosedyren er å beregne parvis avstander ved hjelp av Wu-Manber tilnærming. De parvis avstand estimering er etterfulgt av en konstruksjon av en guide treet ved hjelp av UPGMA, som er ansatt i en global dynamisk programmering metode for å justere sekvenser/profiler., I tillegg, programmet utfører en sjekk for konsistens for å definere den største satt av sekvensen kamper som kan settes inn i justeringen, ved hjelp av en modifisert versjon av Needleman-Wunsch å finne den mest konsekvente vei gjennom dynamisk programmering matrise. Også, Kalign oppdateringer posisjoner mønster matchings, som justerer den absolutte posisjon treff i sekvenser til deres relative posisjoner innen generert profiler .