Dans sa version sans gaps, Blast recherche les plus grands segments
pouvant s'aligner sans que le score puisse être amélioré par extension ou coupure.
Ces segments s'appellent des HSP (High Scoring Segment Pairs).
Les scores des HSP ne suivent pas une distribution normale,
mais une distribution des valeurs extrêmes. En comparant 2 séquences de
longueurs n et m, le nombre attendu de HSP ayant
un score S ou plus est:
Ou K et lambda sont des paramètres statistiques dépendant du système de score et de
la composition de fonds en aminoacides. Blast estime ces paramètres a priori
pour les différents systèmes de score (BLOSUM62, etc.). Pour un alignement sans gaps,
K et lambda peuvent être calculés. Pour un alignement avec gap, il faut recourir
à des simulations sur un grand nombre de séquences
aléatoires.
Un exemple de tracé de scores d'alignements optimaux est donné ci-dessous:
La probabilité de ne trouver aucun HSP de score >= S est e-E.
Donc la probabilité de trouver au moins un HSP de score >= S est:
L'équation de E si dessus s'applique à la comparaison de 2 séquences.
Si l'on compare une séquence à une banque en contenant un grand nombre, les chances
d'obtenir un certain score sont bien sûr plus élevées.
Blast fait comme si la recherche
s'effectuait dans une longue séquence de longueur N (longueur totale de la banque),
en tenant compte en outre des effets de bordure (en raison de leur longueur,
les séquences "requêtes" ne peuvent arriver trop près des bords des séquences
de la base).
Texte et figures tirés du tutorial Blast du NCBI