Matrices de Substitution
Matrice 4X4 (nt) ou 20x20 (aa) décrivant la distance ou la similitude entre résidus.
Donnent le coût de remplacement d'1 résidu par un autre (distance) ou une mesure de similarité pour ce remplacement.
Les matrices de score apparaissent dans toutes les analyses de comparaison de séquence
Le choix d'une matrice affecte fortement le résultat de l'analyse.
Chaque matrice de score représente implicitement une théorie évolutive donnée
Matrices DNA
Matrice identité:
|
A |
C |
G |
T |
A |
1 |
0 |
0 |
0 |
C |
0 |
1 |
0 |
0 |
G |
0 |
0 |
1 |
0 |
T |
0 |
0 |
0 |
1 |
|
Matrice transition/transversion:
|
A |
C |
G |
T |
A |
3 |
0 |
1 |
0 |
C |
0 |
3 |
0 |
1 |
G |
1 |
0 |
3 |
0 |
T |
0 |
0 |
1 |
3 |
|
Matrices basées sur le code génétique
Les scores sont déterminés en fonction du nombre commun de nucléotides
présents dans les codons des acides aminés, ce qui revient à
considérer le minimum de changements nécessaires en bases pour
convertir un acide aminé en un autre.
Matrices basées sur les propriétés physicochimiques
Les plus courantes sont celles basées sur le caractère hydrophile ou
hydrophobe des protéines. Ces matrices sont assez peu utilisées.
Dayoff / PAM (Percentage of Accepted point Mutation)
Probabilité d'observer la mutation X->Y après un temps évolutif donné.
Basé sur alignement de protéines conservées à + de 85%. Détails
BLOSUM
- Le but est de détecter des relations entre protéines plus
éloignées.
- Avec les matrices PAM, les valeurs pour des protéines éloignées
sont extrapolées. Avec BLOSUM, ces valeurs sont obtenues en comparant
des blocs facilement alignables (sans gaps) dans des familles de
protéines très éloignées.
- Ces matrices sont reconnues pour mettre en valeur les similarités
biologiquement importantes (celles qui sont présentes
dans les régions alignées sans gaps).
- BLOSUM62: faite à partir d'un alignement de séquences ayant 62% de similitude, BLOSUM45: 45%, etc.
Matrices d'après alignement 3D
Basées sur la structure secondaire ou tertiaire. Evaluent la
propension d'un acide aminé à adopter une certaine
conformation. Fiables car fondées sur le meilleur alignement
possible. Encore incomplètes en raison de la taille des banques de
données 3D.