Statistiques de Blast

E value

Dans sa version sans gaps, Blast recherche les plus grands segments pouvant s'aligner sans que le score puisse être amélioré par extension ou coupure. Ces segments s'appellent des HSP (High Scoring Segment Pairs). Les scores des HSP ne suivent pas une distribution normale, mais une distribution des valeurs extrêmes. En comparant 2 séquences de longueurs n et m, le nombre attendu de HSP ayant un score S ou plus est:

Ou K et lambda sont des paramètres statistiques dépendant du système de score et de la composition de fonds en aminoacides. Blast estime ces paramètres a priori pour les différents systèmes de score (BLOSUM62, etc.). Pour un alignement sans gaps, K et lambda peuvent être calculés. Pour un alignement avec gap, il faut recourir à des simulations sur un grand nombre de séquences aléatoires.
Un exemple de tracé de scores d'alignements optimaux est donné ci-dessous:


P value

La probabilité de ne trouver aucun HSP de score >= S est e-E. Donc la probabilité de trouver au moins un HSP de score >= S est:

Recherche dans les banques

L'équation de E si dessus s'applique à la comparaison de 2 séquences. Si l'on compare une séquence à une banque en contenant un grand nombre, les chances d'obtenir un certain score sont bien sûr plus élevées. Blast fait comme si la recherche s'effectuait dans une longue séquence de longueur N (longueur totale de la banque), en tenant compte en outre des effets de bordure (en raison de leur longueur, les séquences "requêtes" ne peuvent arriver trop près des bords des séquences de la base).

Texte et figures tirés du tutorial Blast du NCBI