의 정확도 여러 가지 다중 서열 정렬 프로그램을 위한 단백질|BMC Bioinformatics

의 결정에 동종 지역의 분자 시퀀스가 종종에 사용되는 추가 유추의 기능과 진화,그리고 따라서 정확한 다중 서열 정렬(MSA)의 핵산 및 단백질 시퀀스가 매우 중요합니다., 결과적으로 하고있는 엄청난 노력을 개발 및 구현한 다른 MSA 알고리즘을 사용하여 뚜렷한 접근 방식을 개선하는 결과 맞춤 정확성입니다.

정확성 평가 MSA 프로그램을 종종 수행하여 채택해서 수동(반 자동)기획 순서 데이터베이스와 같은 BAliBASE,조립식 및 SABmark. 지금까지 BAliBASE 는 다른 MSA 프로그램의 성능을 평가하는 데 가장 자주 사용되는 정렬 데이터베이스였습니다. 단백질 서열 또는 알려진 3 차원 구조를 가진 모델을 사용하여 구성되었습니다., 마지막 시작 버전 3.0 에서는 사용 가능한 시퀀스 및 정렬 수가 증가했습니다. 이러한 개선은 분명히 Msa 알고리즘을 벤치마킹하기 위해 BAliBASE 를 사용하는 것과 관련하여 Karplus 와 Hu 의 주요 관심사를 해결했습니다.

정렬 데이터베이스를 제공원의 정확한 정렬을 측정 속도와 정확성의 다양한 프로그램이지만,그들은 또한 현재 몇 가지 불편한 점이 있습니다. 데이터베이스의 정렬이 수동으로 큐레이팅 되더라도 정확도 평가 문제가 발생하는 오정렬의 가능성은 여전히 존재합니다., 정렬 세트는 여전히 다소 작게 유지되며 단백질 진화의 완전한 시나리오 범위를 나타내지 않을 수 있습니다. 또한,의 주요 단점은 맞춤을 사용하는 데이터베이스는 알고리즘을 수 있는 잠재적으로 개발하고 조정하는 선형이 존재적으로 이러한 데이터를 설정합니다.

최근 MySSP 및 DAWG 와 같은 indels 를 통합하는 여러 DNA 서열 시뮬레이션 패키지가있었습니다. MySSP 는 DNA 정렬 정확도와 결합 된 계통 발생 추론 및 진화 거리 추정에 대한 다양한 연구에서 널리 사용되어왔다., 단백질의 경우 MSA 알고리즘의 이전 비교에서 lassmann 과 Sonnhammer 는 시뮬레이션 프로그램 Rose 에 의해 생성 된 인위적으로 생성 된 서열 세트를 사용했습니다. 로즈는 indels 의 발생을 허용하는 단백질의 서열을 시뮬레이션합니다. 로즈에 의해 생성 된 데이터 세트는 정렬 정확도의 연구에 대한 자신의 한계를 제시한다. 에서 로즈,indel 크기 및 번호하지 않는 적절히 나타내는 실험 데이터에 대한 단백질 분기에 대한 다양한 진화 번입니다. 또한이 프로그램은 단백질의 모든 부위의 동일한 진화 속도를 가정합니다.,

본 연구에서는 Simprot 에 의해 생성 된 시뮬레이션 된 단백질 서열을 사용하여 정렬 정확도를 평가하는 개선 된 접근법을 소개합니다. Simprot 는 qian 및 Goldstein 삽입 및 삭제(indel)배포판의 매개 변수화 된 버전을 사용하는 고급 시뮬레이션 프로그램입니다. 하지만 원래 분포했다는 경험에서 파생된 하위 집합의 선형의 갈라 단백질 시퀀스를 매개 변수가 있는 버전을 허용하는 매우 유연한 시뮬레이션의 삽입이나 삭제에서는 시퀀스에 대한 모든 수준의 순서를 발산한다., Simprot 는 또한 감마 분산 사이트 속도를 구현하여 다른 사이트에서 변수 대체 및 indel 속도를 허용합니다. 아미노산 치환(PMB,PAM 및 JTT)의 세 가지 모델도 사용할 수 있습니다. 우리가 사용 Simprot 를 생성하는 알려진 선형과의 다양한 진화의 매개변수뿐만 아니라,최신 BAliBASE 데이터베이스의 큐레이터 선형을 조사하기 위해,정확성과 속도의 인기를 사용할 수 있도록 공개적으로 단백질 시퀀스가 여러 정렬 소프트웨어 프로그램입니다.,

정렬 프로그램

단백질 서열의 Msa 를 생성하는 많은 사용 가능한 컴퓨터 패키지가 있습니다. 우리가 선택한 아홉의 현재 가장 자주 사용되는 프로그램(의 순서로 출판일):Clustal W,Dialign2.2T-커피,POA,근육,Mafft,ProbCons,Dialign-T Kalign.

Clustal W 버전 1.8

이것은 아마도 가장 널리 사용되는 선형 프로그램 사이에서 가장 오래된 패키지 테스트합니다. 이 소프트웨어는 먼저 시퀀스 발산을 저장하는 거리 행렬을 계산하여 쌍 시퀀스 비교를 채택하여 점진적 정렬을 수행합니다., 이 행렬이 얻을 수있다,나무 가이드를 사용하여 구축된 이웃이 참가 다음에 세 번째이자 마지막 단계는 순서에 따라 정렬되는 지점 순서 가이드에 나무입니다. 프로그램을 사용한 두 개의 격차를 벌금에 해당 절차를 정렬:갭 개방과 격차 확장,의 경우 폴리펩타이드,전체 아미노산 득점 체중을 매트릭스입니다. 이러한 갭 처벌은 주로 가중치 매트릭스,시퀀스 길이 및 유사성과 같은 요인에 따라 달라집니다., 에서 간단한 경우,Clustal W 할 수 있는 정확하게 정렬 해당 도메인 시퀀스의 알려진 이차 또는 차 구조는 더 복잡한 경우로 사용할 수 있습에 대한 좋은 출발점 더 세련미를 선사합니다.

Dialign2.2 버전 2.2.1

이 프로그램을 사용하여 대각선 방법을 정렬 순서 로컬로 전 세계적으로. Dialign2.2 지 않을 비교 한 잔류물,하지만 전체 중단(간격이 없는 불일치를 허용)뻗어 잔류의 것 양식을 사선에 도트 매트릭스의 비교는 두 개의 시퀀스입니다., 결과적으로 갭의 삽입 및 연장을 처벌하지 않으며 관련없는 세그먼트를 정렬되지 않은 상태로 남겨 둘 수 있습니다. 첫 번째 단계에서 절차를 만들 가능한 모든 쌍 선형,저장의 컬렉션을 대각선 회의 일관성을 유지하는 어떤 기준을 충돌하지 않고 더블룸 또는 크로스오버의 할당 잔류물. 저장된 모든 대각선 가중치에서 순서를 정의 항목을 가진 최대의 합계 무게,그리고 다음서로 정렬해의 정도를 결정하기 위하여 중복을 강조하는 존재이의 대각선에서 존재하는 여러 시퀀스입니다., 욕심과 같은 알고리즘은 최종 처리,확인을 대각선수는 위에서 아래를 만드는 최종 여러 정렬. 갭은 존재하는 모든 잔기가 연결될 때까지 MSA 생성의 끝에 삽입됩니다.

T-커피(트리 기반의 일관성을 목적 함수에 대한 맞춤 평가)버전 3.27

T-커피를 사용한 진보적인 전략에 맞추는습니다. 이 프로그램은 먼저 Clustal W 의 전역 정렬과 Lalign 의 로컬 정렬이라는 두 가지 소스에서 라이브러리를 만듭니다., 시퀀스의 각 쌍에 대해 전역 정렬 및 쌍별 로컬 정렬은 10 개의 상위 점수 비 교차 세그먼트에서 생성됩니다. 이 프로그램은 전역 및 로컬 정보를 처리하여 시퀀스 id 에 상대적인 모든 쌍 정렬에 가중치를 할당합니다. 그 다음에는 단일 라이브러리로 병합되는 그룹의 조합이 뒤 따릅니다. 있는 확장을 대상이 결합된 라이브러리를 만들고,최종 무게의 모든 쌍의 잔류물을 반영의 일부에 포함된 정보는 전체 라이브러리입니다., 최종 단계를 필요한 계산의 거리는 매트릭스와 이웃이 참 트리기 때문에,선형을 생성과 진보적인 전략에 맞추는 가장 가까운 두 개의 시퀀스에서 나무에 따르면 체중에 저장되는 확장된 라이브러리입니다. 그런 다음 초기 쌍이 고정되고 기존 갭은 나중에 이동할 수 없습니다. 점진적 정렬은 모든 시퀀스가 정렬 될 때까지 계속됩니다.

POA(부분적인 순서를 정렬)버전 2.0

POA 은 다른 MSA 패키지를 사용하여 진보적 인 선형 알고리즘을 사용하지 않고 일반화 프로필에 있습니다., 이 프로그램은 서열을 표현하기 위해 Po-MSA(Partial Order-Multiple Sequence Alignment)형식의 사용을 소개하고 생물학적 내용을보다 정확하게 반영합니다. 이 형식은 저장소형으로 압축한 그래프를 위한 최소한의 노드를 가리 계산,여전히 포함하는 모든 정보에서 사용할 수 있는 전통적인 MSA. 시퀀스는 각각 두 개의 모서리로 연결된 선형 일련의 노드로 저장됩니다. POA 는 선형 시퀀스가 부분 순서(Po)그래프로 대체되는 전통적인 동적 프로그래밍 알고리즘을 사용합니다., 이러한 PO 구조는 일반적인 2D 행렬에서 변형되며 각 셀 조합은 전통적인 Smith-Waterman 시퀀스 정렬 절차에서와 같이 거꾸로 점수가 매겨집니다. 이러한 행렬은 다음 확장에서 어떤 방향으로(대각선,수평,수직)수 있도록 생산의 쌍대형 교차로 포인트입니다. MSA 는 초기 쌍에 연속적으로 다른 서열의 추가와 함께 처음에 두 서열의 정렬으로부터 얻어진다.

근육(로그 기대에 의한 다중 시퀀스 비교)버전 3.,6

근육은 쌍별 프로파일 정렬 접근법을 사용합니다. 이 프로그램은 먼저 두 개의 후속 단계에서 개선되고 정제 된 점진적 정렬을 구축합니다. 진보적인 맞춤 만들어진 후 시퀀스의 유사성,거리 추정 및 UPGMA 트리가 계산됩니다. 근육은 정렬되지 않은 시퀀스 쌍에 대한 k mer 거리와 정렬 된 쌍에 대한 Kimura 거리의 두 가지 거리 측정을 사용합니다. 진보적인 맞춤 개선 무대를 만듭니다 새로운 나무와 이미 계산 Kimura 거리 매트릭한 다음 구축 더 나은 맞춤 이를 기반으로 개선하고 또한 나무입니다., 마지막 구체화 단계는 트리 종속 제한된 분할의 변형을 사용합니다. 이 방법 중 하나를 삭제하고 나무의 가장자리,bi-분할 정렬하고 압축 파티션의 프로필은 다음을 재정비 프로파일-프로필 정렬. 모든 트리 가장자리가 반복적으로 방문되고 각 시퀀스 쌍의 업데이트 된 합산 쌍 점수가있는 정렬이 유지됩니다. 가장자리에 방문하기 위해서는 감소의 거리에서,루트와 함께 재배치의 개별 시퀀스,이를 더욱 밀접하게 관련된 그룹의습니다.,

Mafft(다중 서열 정렬 기반으로 Fast Fourier Transform)버전 5.732

Mafft 프로그램과 함께 사용할 수 있는 다른 정렬 방법 중 하나,진보적인 맞춤 혼자(Fast Fourier Transform),또는 진보에 의해 따라 반복적인 세련미를 선사합니다. Mafft 의 기본 실행에는 최대 3 단계가있을 수 있지만 기본 절차는 초기 두 단계를 수행합니다. 첫째,공유 된 6 튜플을 기반으로 모든 시퀀스 쌍 사이의 거친 거리를 기반으로 점진적 정렬이 생성됩니다., 가이드 트리도에 의해 생성된 UPGMA 수정된 결합 및 시퀀스는 다음을 정렬된 다음과 같은 지점의 순서는 나무(이 단계에 혼자라고 전략 FFT-NS-1)입니다. 두 번째 단계는 다시 계산하는 거리,매트릭스에 따라 수집된 정보는 이전 단계에서,그리고 진보적인 정렬은 다시 사용하여 수행되는 나무에서 얻을 새로운 매트릭스 시작점으로(최대 이 단계에서 전략이 알려져 있으로 FFT-NS-2 고 그것이 기본값이 사용하는 소프트웨어)., 마지막 단계는 gotoh 의 wsp(weighted sum of pairs)점수를 그룹 간 정렬 및 트리 종속 제한 파티션 기술로 최적화하는 반복적 인 구체화입니다. 으면 모든 세 가지 단계를 고용 하는 절차는 불 FFT-NS-i,의미는 그것을 사용하 FFT 방법은 빠르게 파악하여 동종 영역에 존재하는 시퀀스는 다음에 반복적인 단계의템 기능은 정상적으로 작동합니다., FFT 변환 모든 단 하나 아미노산에서 존재하는 순서를 나타내는 벡터의 볼륨 및 극성하는 중요한 요인에 대한 이벤트 소프트웨어를 허용하는 예측하와 같은 사건을 가진 정밀도입니다.

Mafft 에는 l-INS-i,G-INS-i 및 E-INS-i 의 세 가지 추가 정제 알고리즘도 포함됩니다. 이러한 전략은 MSA 정렬을 만드는 데 필요한 단계 수를 5 개로 늘립니다. 이러한 경우 첫 번째 단계는 또한 6 튜플을 사용하지 않고 거리 매트릭스를 구성해야합니다., 다르에서의 FFT-NS-*방법은 없 재건의 계산 UPGMA 트리와 프로그램을 이동하는 두 번째 단계로 나누어,the gap-무료 세그먼트 그리고 저장하는 점수 배열에 대한 각 갭 무료 세그먼트 시퀀스를니다. 그런 다음 Mafft 는 세그먼트의 점수에서”중요도”값을 계산하고 잔기가 다른 세그먼트에 나타나는 빈도를 저장합니다., “모든 중요성을”값은 다음에 모였는”중요성”매트릭스에서 세 번째 단계는 빠르게 다음에 그룹과 그룹의 선형에서 얻은 점수를 매트릭스와 가중치 계획에 따라 Needleman-를 설립시켰 알고리즘이 있습니다. 마지막 단계는 얻은 정렬을 반복해서 구체화하여 WSP 점수와 이전에 계산 된”중요도”값을 최적화합니다.

ProbCons(확률론적 일관성 기반 다중 서열 정렬)1.1 버전

ProbCons 용 프로그램을 사용하는 확률론적 일관성 방법의 정렬., 그것은 수정의 전통적인 합의 쌍 점수 시스템,그리고 이외에 통합 쌍-숨겨진 마르코프 모델 기반의 진보적 인 선형 알고리즘이 있습니다. 정렬 절차는 시퀀스의 모든 쌍에 대한 후방 확률 행렬의 계산으로 시작하여 4 단계로 나뉩니다. 그 다음에는 모든 쌍 정렬의 예상 정확도에 대한 동적 프로그래밍 계산이 이어집니다. 그런 다음 확률 적 일관성 변환이 일치 정확도 점수를 다시 추정하기 위해 사용됩니다., 가이드 트리는 각 클러스터의 시퀀스 간 값의 가중 평균에 의해 정의 된 유사성을 가진 계층 적 클러스터링으로 계산됩니다. 가이드 트리는 점진적 접근 방식을 사용하여 시퀀스를 정렬하는 데 사용됩니다. 더 나은 정렬 영역을 확인하기 위해 생성 된 정렬의 무작위 이중 파티션이 재정렬되는 후 처리 단계도 수행됩니다. ProbCons 에서 다른 다른 맞춤 프로그램하지 않기 때문에 통합 생물학적 개념 같은 위치 특이적 갭 점수,진화 건설 및 기타 기능은 일반적으로 사용되는 다른 패키지가 있습니다.,

Dialign-T 버전 0.2.1

이 프로그램입니다-구현 절차의 개발에 Dialign2.2 지만,더 나은 솔루션을 다루는 일치하지 않는 조각을 포함하여,단편 체인. 또한 정렬 될 시퀀스에 존재하는 각 단편의 무작위 발생 확률을 추정하기위한 새로운 접근법을 구현합니다. Dialign-T 을 사용하지 않는 사전에 계산된 테이블을 얻기 위해 무게 점수를 계산 확률이 테이블에서 여러 가지 대체 행렬이 있습니다. 또한 Dialign2 의 욕심 많은 다중 정렬 알고리즘.,가짜 지역 유사성을 피하기 위해 2 가 변경되었습니다.

Kalign 버전 1.04

Kalign 은 다른 프로그램을 사용하여 진보적 인 선형 접근 방식을 얻을 최 MSA 가능합니다. 의 주요 차이점 이 알고리즘을 다른 방법은 사용 Wu-Manber 대략적인 문자열을 매칭 알고리즘을 계산할 때 거리에 중습니다. 우 Manber 알고리즘을 측정 거리를 사이에 두 개의 문자열을 사용하여 Levenshtein 편집 거리할 수 있는 효율적인 검색에 대한 불일치(공유)및 패턴에 존재합니다., Kalign 개발자에 따르면,이 방법론은 k-튜플 알고리즘만큼 빠르지 만 더 정확한 거리 추정을 허용합니다. 정렬 절차의 첫 번째 단계는 Wu-Manber 접근법을 사용하여 쌍 거리를 계산하는 것입니다. 의 쌍들의 거리 추정은 다음 건설 가이드를 사용하여 트리 UPGMA,에 사용되는 글로벌 동적 프로그래밍 방법을 정렬 순서/프로필에 있습니다., 또한,이 프로그램을 수행합성 확인을 정의하기 위해 가 설정 순서의 일치에 삽입될 수 있는 맞춤 사용하여 수정된 버전의 Needleman-를 설립시켰을 찾기 위해 가장 일관성있는 경로를 통해 역동적 프로그래밍 매트릭스입니다. 또한,Kalign 업데이트의 위치는 패턴 매칭에는 조정의 절대 위치를 찾은 항목 내에서 순서를 그들의 상대적인 위치에서 생성 프로필에 있습니다.피>

의 정확도 여러 가지 다중 서열 정렬 프로그램을 위한 단백질