Identification de gènes par homologie
Une des méthodes les plus sûres pour la détermination des gènes est
encore la comparaison de la séquence à analyser avec une banque de
séquences.
On bénéficie alors de l'énorme quantités de données présente dans Genbank
- Blast de la séquence à analyser contre Swissprot ou nr: Si le gène recherché (ou un
paralogue) se trouve dans Swissprot ou nrdb,
cette méthode detecte des similarités significatives au niveau de
chaque exon. C'est la facon la plus simple et la plus directe
d'identifier les exons. Limité à la région traduite.
- Blast de la séquence à analyser contre dbEST: Les EST permettent souvent une
bonne couverture de la région exprimée du gène. Pour les gènes
n'ayant pas d'homologue connu, ils sont une aide précieuse à
l'identification des exons. Les EST peuvent aussi recouvrir les
regions non traduites, ils sont donc utiles a l'identification des UTR
3' et 5'. Inconvénient: les EST sont plus souvent dans le 3' non codant.
Il y a des trous. Avantage: On observe souvent des formes alternatives du mRNA dans
les EST.
Dans l'exemple ci-dessous, on a réalisé un Blast d'un contig de 10kb contenant un gène unique contre la banque d'EST. La dernière ligne en bas est clairement un artefact (séquences répétées).