HMM: Hidden Markov Model (Modèle de Markov caché)

Lorsqu'on sait que la succession des nt est importantes (par ex. dinucléotides (CpG), trinucléotides (codons), etc.), on veut un modèle dans lequel la probabilité d'une base dépende des bases précédentes.

Une chaine de Markov est une collection d'ETATS correspondant chacun à un résidu, où le passage d'un état à l'autre (flèches) est associé à une probabilité.

les probabilités de passage d'un état à l'autre sont appelées probabilités de transition.

On peut calculer la probabilité qu'une séquence appartienne à un modèle donné: il suffit d'observer les transitions apparaissant dans cette séquence, puis de se reporter au modèle pour obtenir les probas. La probabilité finale est le produit des probabilités de transition.

Nous avons ici une chaine d'ordre 1. Dans une Chaine d'ordre k : l'état suivant dépend des k états précédents. Par exemple, ordre 5: probabilité d'observer un A après avoir vu AAUAA.

Le système a besoin d'une phase d'entrainement pour déterminer les probabilités de transition, sur un ensemble de séquences de la famille à reconnaître. On peut ensuite l'appliquer sur toute nouvelle séquence pour déterminer si elle appartient bien à la famille.

Le système rencontre des problèmes si la séquence à étudier contient le motif recherché entouré de séquences n'ayant aucun rapport. Il faut alors employer deux modèles: un pour la séquence recherchée et un pour les autres séquences. Mais cela ne suffit pas, comment détecter que l'on passe d'un modèle à l'autre? Il faut ajouter à chaque état d'un modèle une probabilité de passer à un état de l'autre modèle. Il n'y a plus de correspondance directe entre les bases et les états. Par ex. la base G peut se trouver dans un modèle ou dans l'autre. On dit alors que le modèle est caché

Illustr. adaptée de Durbin et al. Biological Sequence Analysis, Cambridge University Press.