La comparaison de séquences

Comparer des séquences serait relativement simple si elles avaient toutes la même longueur. Comme ce n'est pas le cas, il faut les aligner.

Distance d'édition

Les "dot plots"

Deux séquences à comparer sont représentées (ici 2 gènes de globine), une horizontalement, l'autre verticalement. On dessine ensuite un point dans la matrice lorsque les deux positions correspondantes sont identiques. Lorsque des régions se ressemblent, on voit apparaître une diagonale. Les décalages entre les diagonales correspondent à des insertions ou délétions. Plusieurs diagonales parallèles indiquent une répétition.

Pour "nettoyer" le dot plot, on utilise souvent non pas un point par base, mais un point lorsque n bases sont identiques, ou n bases identiques dans une fenêtre de N. Cela réduit considérablement le nombre de points.

Les dot plots sur des génomes complets permettent de visualiser les évènements à grande échelle, la synthénie, etc.