La précision de plusieurs programmes d'alignement de séquences multiples pour les protéines | BMC Bioinformatique

la détermination des régions homologues des séquences moléculaires est souvent utilisée pour inférer davantage leur fonction et leur évolution, et par conséquent l’alignement précis de séquences multiples (MSA) , Par conséquent, il y a eu d’énormes efforts dans le développement et la mise en œuvre de différents algorithmes MSA, en utilisant des approches distinctes pour améliorer la précision d’alignement qui en résulte.

l’évaluation de la précision des programmes MSA est souvent effectuée en utilisant manuellement (ou semi-automatiquement) des bases de données de séquences organisées telles que BAliBASE , PREFAB et SABmark . Jusqu’à présent, BAliBASE a été la base de données d’alignement la plus souvent utilisée pour évaluer les performances de différents programmes MSA. Il a été construit en utilisant des séquences de protéines ou des modèles avec des structures tridimensionnelles connues., La dernière création, la version 3.0, a eu une augmentation du nombre de séquences et d’alignements disponibles. Ces améliorations ont apparemment répondu aux principales préoccupations de Karplus et Hu concernant L’utilisation de BAliBASE pour comparer les algorithmes MSA.

Les bases de données D’alignement fournissent une source d’alignements précis pour évaluer la précision et la vitesse des différents programmes, mais elles présentent également plusieurs inconvénients. Même si les alignements des bases de données sont organisés manuellement, il existe toujours la possibilité de désalignements qui entraîneraient des problèmes d’évaluation de la précision., Les ensembles d’alignements restent encore très petite et ne peut représenter la gamme complète des scénarios d’évolution des protéines. En outre, un inconvénient majeur de l’utilisation des bases de données d’alignement est que les algorithmes peuvent potentiellement être développés et ajustés aux alignements présents uniquement dans ces ensembles de données.

récemment, il y a eu plusieurs paquets de simulation de séquence D’ADN qui incorporent des indels, tels que MySSP et DAWG . MySSP a été largement utilisé dans différentes études d’inférence phylogénétique et d’estimation de distance évolutive couplée à la précision de l’alignement de l’ADN ., Pour les protéines, Lassmann et Sonnhammer dans une comparaison précédente des algorithmes MSA ont utilisé des ensembles de séquences créés artificiellement générés par le programme de simulation Rose . Rose simule des séquences de protéines permettant l’apparition d’indels. Les ensembles de données générés par Rose présentent leurs propres limites pour l’étude de la précision de l’alignement. Chez Rose, la taille et le nombre d’indel ne représentent pas adéquatement les données empiriques pour les protéines qui ont divergé pendant différentes périodes d’évolution. En outre, le programme suppose des taux d’évolution égaux de tous les sites de la protéine.,

dans cette étude, nous introduisons une approche améliorée pour évaluer la précision de l’alignement en utilisant des séquences de protéines simulées générées par Simprot . Simprot est un programme de simulation avancé qui utilise une version paramétrée de la distribution Indel (Qian and Goldstein insertion and deletion). Bien que la distribution originale ait été dérivée empiriquement d’un sous-ensemble d’alignements de séquences protéiques très divergentes, la version paramétrée permet une simulation très flexible des indels dans les séquences pour tous les niveaux de divergence de séquence., Simprot permet également des taux de substitution et d’indel variables sur différents sites en implémentant des taux de sites distribués gamma . Trois modèles de substitution d’acides aminés (PMB, PAM et JTT) sont également disponibles. Nous avons utilisé Simprot pour générer des alignements connus avec une grande variété de paramètres évolutifs, ainsi que la dernière base de données BAliBASE d’alignements organisés, pour étudier la précision et la vitesse des logiciels d’alignement de séquences multiples de protéines populaires et accessibles au public.,

programmes D’alignement

Il existe de nombreux paquets informatiques disponibles qui génèrent des MSAs de séquences protéiques. Nous avons sélectionné neuf des programmes actuellement les plus utilisés (par ordre de date de publication): Clustal W, Dialign2.2, T-Coffee, POA, Muscle, Mafft, ProbCons, Dialign-T et Kalign.

Clustal w version 1.8

c’est probablement le programme d’alignement le plus utilisé et le plus ancien parmi les paquets testés. Le logiciel effectue un alignement progressif, tout d’abord en utilisant une comparaison de séquence par paire en calculant une matrice de distance qui stocke la divergence de séquence., Une fois cette matrice obtenue, un guide d’arbre est construit en utilisant la jointure voisine, suivie de la troisième et dernière étape où les séquences sont alignées selon l’ordre des branches dans l’arbre guide. Le programme utilise deux pénalités d’écart dans sa procédure d’alignement: l’ouverture et l’extension d’écart, et dans le cas des polypeptides, une matrice de poids complète de notation des acides aminés. Ces pénalités d’écart dépendent principalement de facteurs tels que la matrice de poids, la longueur de la séquence et la similitude., Dans les cas simples, Clustal W peut aligner avec précision les domaines correspondants et les séquences de structure secondaire ou tertiaire connues, tandis que dans les cas plus complexes, il peut être utilisé comme un bon point de départ pour un raffinement ultérieur.

Dialign2.2 version 2.2.1

Ce programme utilise une méthode diagonale pour aligner les séquences localement et globalement. Dialign2. 2 ne compare pas des résidus uniques, mais des tronçons entiers ininterrompus (pas de lacunes, incompatibilités autorisées) de résidus qui formeraient des diagonales dans une comparaison matricielle de deux séquences., Par conséquent, il ne pénalise pas l’insertion et l’extension des lacunes et peut laisser des segments non alignés. La première étape de la procédure crée tous les alignements possibles par paires, stockant une collection de diagonales répondant à certains critères de cohérence sans affectation double ou croisée conflictuelle des résidus . Toutes les diagonales enregistrées sont pondérées afin de définir des entrées avec une somme maximale de poids, puis triées afin de déterminer le degré de chevauchement, en soulignant l’existence de diagonales présentes dans plusieurs séquences., Un algorithme de type gourmand effectue un traitement final, vérifiant les scores des diagonales de haut en bas, créant ainsi un alignement multiple final. Des lacunes sont insérées à la fin de la création du MSA jusqu’à ce que tous les résidus présents soient connectés.

t-Coffee (fonction D’objectif de cohérence arborescente pour l’évaluation de l’alignement) version 3.27

T-Coffee utilise une stratégie progressive dans l’alignement des séquences. Le programme crée d’abord une bibliothèque à partir de deux sources différentes: les alignements globaux de Clustal W et les alignements locaux de Lalign ., Pour chaque paire de séquences, les alignements globaux et les alignements locaux par paire sont créés à partir des dix segments non-intersecteurs les mieux notés. Le programme traite les informations globales et locales, en attribuant des poids à tous les alignements par paires par rapport à l’identité de séquence . Ceci est suivi par la combinaison de groupes qui sont fusionnés dans une seule bibliothèque. Il y a une phase d’extension pour cette bibliothèque combinée, ce qui fait que le poids final de toute paire de résidus reflète une partie des informations contenues dans la bibliothèque entière., Une dernière étape nécessite un calcul d’une matrice de distance et D’un arbre de jointure voisin, puisque l’alignement est généré avec une stratégie progressive en alignant les deux séquences les plus proches sur l’arbre en fonction du poids stocké dans la bibliothèque étendue. La paire initiale est alors fixée et les lacunes existantes ne peuvent pas être déplacées plus tard. L’alignement progressif se poursuit jusqu’à ce que chaque séquence soit alignée.

POA (Partial Order Alignment) version 2.0

POA est un autre paquet MSA qui utilise un algorithme d’alignement progressif sans utiliser de profils généralisés., Ce programme introduit l’utilisation d’un format po-MSA (Partial Order-multiple Sequence Alignment) pour représenter les séquences et refléter plus précisément le contenu biologique. Ce format stocke l’alignement sous forme de graphique compacté pour un nombre minimal de nœuds et de bords, contenant toujours toutes les informations disponibles dans un MSA traditionnel. Les séquences sont stockées sous la forme d’une série linéaire de nœuds reliés chacun par deux arêtes. POA utilise un algorithme de programmation dynamique traditionnel, où les séquences linéaires sont remplacées par des graphes D’ordre partiel (PO)., Ces structures PO sont transformées en matrices 2D habituelles et chaque combinaison de cellules est notée à l’envers comme dans une procédure D’alignement de séquence Smith-Waterman traditionnelle . Ces matrices sont ensuite étendues dans n’importe quelle direction (diagonale, horizontale, verticale) permettant la production de l’alignement par paires sur les points de jonction. La MSA est obtenu à partir de l’alignement de deux séquences au début, avec l’ajout d’autres séquences successivement à la paire initiale.

le Muscle (Plusieurs comparaison de séquences par journal-attente) de la version 3.,6

Le Muscle utilise une approche d’alignement de profil par paires. Le programme construit d’abord un alignement progressif qui est ensuite amélioré et affiné en deux étapes ultérieures. L’alignement progressif est créé après que les similitudes de séquence, une estimation de distance et un arbre UPGMA sont calculés. Muscle utilise deux mesures de distance: une distance K mer pour les paires de séquences non alignées et une distance Kimura pour les paires alignées . L’étape d’amélioration progressive de l’alignement crée un nouvel arbre avec la matrice de distance Kimura déjà calculée, puis construit un meilleur alignement basé sur cet arbre amélioré., La dernière étape de raffinement utilise une variante du partitionnement restreint dépendant de l’arbre . Cette méthode supprime l’un des bords de l’arbre, bi-partitionnant l’alignement et extrayant les profils des deux partitions qui sont ensuite réalignés avec un alignement profil-profil. Chaque bord d’arbre est visité de manière itérative et l’alignement avec un score par paire additionné mis à jour de chaque paire de séquences est conservé. Les arêtes sont visitées par ordre de distance Décroissante de la racine, avec un réalignement des séquences individuelles, passant à des groupes de séquences plus étroitement liés .,

mafft (Multiple sequence alignment based on Fast Fourier Transform) version 5.732

Mafft est un programme qui peut être utilisé avec différentes approches d’alignement, soit l’alignement progressif seul (avec Fast Fourier Transform), soit progressif suivi d’un raffinement itératif. L’exécution de base de Mafft peut comporter jusqu’à trois étapes, mais la procédure par défaut effectue les deux étapes initiales. Tout d’abord, un alignement progressif est créé sur la base d’une distance approximative entre chaque paire de séquences basée sur des 6-tuples partagés., Un arbre guide est également généré par UPGMA avec une liaison modifiée et les séquences sont ensuite alignées suivant l’ordre des branches de l’arbre (cette étape seule est appelée stratégie FFT-NS-1). La deuxième étape recalcule une matrice de distance, sur la base des informations recueillies lors de l’étape précédente, et l’alignement progressif est refait en utilisant un arbre obtenu à partir de la nouvelle matrice comme point de départ (jusqu’à cette étape, la stratégie est connue sous le nom de FFT-NS-2 et c’est la valeur par défaut utilisée par, La dernière phase est le raffinement itératif qui optimise le score WSP (weighted sum of pairs) de Gotoh, avec un alignement de groupe à groupe et la technique de partition de restriction dépendante de l’arbre . Si les trois étapes sont utilisées, la procédure est appelée FFT-NS-i, ce qui signifie qu’elle utilise une méthode FFT pour identifier rapidement les régions homologues présentes dans les séquences, qui est suivie d’une phase itérative de raffinement., FFT convertit chaque acide aminé présent dans une séquence en un vecteur représentant le volume et la polarité, qui sont des facteurs importants sur les événements de substitution, permettant au logiciel de prédire de telles occurrences avec précision.

Mafft inclut également trois algorithmes de raffinement supplémentaires: L-INS-i, G-INS-i et E-INS-I. Ces stratégies portent à cinq le nombre d’étapes requises pour créer un alignement MSA. Dans ces cas, la première étape nécessite également la construction d’une matrice de distance, sans utiliser de 6-tuples., Contrairement aux approches FFT-NS -*, il n’y a pas de reconstruction de l’arbre upgma calculé et le programme passe à la deuxième étape, en divisant les segments sans espace et en stockant des tableaux de scores pour chaque segment sans espace d’une séquence à l’autre. Mafft calcule ensuite une valeur « importance » à partir du score du segment et stocke la fréquence à laquelle les résidus apparaissent sur d’autres segments., Toutes les valeurs » d’importance « sont ensuite rassemblées dans une matrice » d’importance » à l’étape trois qui est rapidement suivie d’un alignement de groupe à Groupe obtenu à partir des matrices de score et d’un schéma de pondération basé sur un algorithme de Needleman-Wunsch. Une dernière étape affine itérativement les alignements obtenus, optimisant un score WSP et les valeurs » d’importance » calculées précédemment.

ProbCons (Probabilistic Consistency-based multiple sequence alignment) version 1.1

ProbCons est le seul programme qui utilise une méthode d’alignement de cohérence probabiliste., Il s’agit d’une modification du système traditionnel de notation de la somme des paires, et intègre en outre un algorithme d’alignement progressif basé sur un modèle de Markov caché par paire. La procédure d’alignement est divisée en quatre étapes, en commençant par un calcul de matrices de probabilité postérieure pour chaque paire de séquences. Ceci est suivi d’un calcul de programmation dynamique de la précision attendue de chaque alignement par paires. La transformation de cohérence probabiliste est ensuite utilisée afin de réévaluer les scores de précision de correspondance., Un arbre guide est calculé avec un clustering hiérarchique avec la similarité définie par une moyenne pondérée des valeurs entre les séquences de chaque cluster. L’arbre guide est utilisé pour aligner les séquences en utilisant une approche progressive. Une phase de post-traitement est également effectuée, où des BI-partitions aléatoires de l’alignement généré sont réalignées afin de vérifier de meilleures régions d’alignement. ProbCons diffère des autres programmes d’alignement car il n’intègre pas de concepts biologiques tels que la notation des écarts spécifiques à la position, la construction d’arbres évolutifs et d’autres fonctionnalités couramment utilisées par d’autres paquets.,

Dialign-t version 0.2.1

Ce programme est une ré-implémentation de la procédure développée dans Dialign2.2, mais avec une meilleure solution pour traiter les fragments incohérents, y compris le fragment-chaining. Il met également en œuvre une nouvelle approche pour estimer les probabilités de l’occurrence aléatoire de chaque fragment présent dans la séquence à aligner. Dialign-T n’utilise pas de tables pré-calculées pour obtenir des scores de poids: il calcule des tables de probabilité à partir de plusieurs matrices de substitution. De plus, l’algorithme d’alignement multiple de type gourmand de Dialign2.,2 a été modifié afin d’éviter de fausses similitudes locales.

Kalign version 1.04

Kalign est un autre programme qui utilise une approche d’alignement progressif pour obtenir le meilleur MSA possible. La principale différence de cet algorithme avec d’autres méthodes est qu’il utilise L’algorithme de correspondance de chaîne approximative Wu-Manber lors du calcul de la distance entre les séquences. L’algorithme Wu-Manber mesure la distance entre deux chaînes à l’aide d’une distance D’édition Levenshtein, ce qui permet une recherche efficace des discordances (partagées ou non) et des motifs présents dans les séquences., Selon les développeurs de Kalign, cette méthodologie permet une estimation de distance aussi rapide qu’un algorithme k-tuple mais plus précise . La première étape de la procédure d’alignement consiste à calculer les distances par paire en utilisant L’approche Wu-Manber. L’estimation de distance par paire est suivie d’une construction d’un arbre guide à l’aide de L’UPGMA, qui est utilisée dans une méthode de programmation dynamique globale pour aligner les séquences/profils., De plus, le programme effectue une vérification de cohérence afin de définir le plus grand ensemble de correspondances de séquence pouvant être insérées dans l’alignement, en utilisant une version modifiée de Needleman-Wunsch pour trouver le chemin le plus cohérent à travers la matrice de programmation dynamique. En outre, Kalign met à jour les positions des correspondances de motifs, ce qui ajuste la position absolue des correspondances trouvées dans les séquences à leurs positions relatives dans les profils générés .

La précision de plusieurs programmes d’alignement de séquences multiples pour les protéines