TP Bioinformatique ESIL GBMA 3

Annotation Génomique


Année 2005-2006 - V1




OBJECTIFS

Reconstruction d'un gène à partir d'un fragment génomique contigü de chromosome humain. Nous réaliserons, exclusivement au moyen d'outils disponibles sur Internet, le travail suivant: 

  1. Récupération d'un fragment génomique du génome humain centré sur un gène
  2. Identification/reconstruction/traduction du gène:
    1. avec un logiciel
    2. par homologie
  3. Etude de l'expression: formes alternatives, specificité tissulaire
  4. Rapport (hypertexte ou Word au choix): présentation d'un modèle du gène

IMPORTANT: conserver les principaux résultats intermediaires: sorties des programmes utilisés, mais n'insérer dans le rapport que des extraits réellement utiles et courts.

I. Récupération fragment génomique

Un fragment de génome humain sera récupéré à partir du serveur ENSEMBL et sauvegardé au format Fasta.

Pour un bon résultat du TP, le gène sera choisi selon les critères suivants:

  1. - Taille inférieure à 20kb
  2. - Présence d'au moins 20 EST pour ce gène
  3. - Au cas où le gène serait sur le brin -, prendre le brin opposé, de façon à toujours travailler dans le sens 5'->3'.

II. Identification/reconstruction du gene

* A la fin de cette étape, vous devez disposer:

  1. de la position de tous les exons et introns, ainsi que d'une annotation du promoteur, des UTR, des sites de polyadénylation.
  2. d'une séquence de mRNA et
  3. d'une séquence traduite de la forme principale de la protéine

II.A Identification/reconstruction

Nous utiliserons les deux grandes approches à l'identification de gène(s):

Avec un programme automatique
On utilise plutôt cette méthode lorsque le gène n'a aucun homologue connu. Nous utiliserons GENSCAN. A vous de le trouver sur le Web - Il faudra copier/coller la séquence.
- Sauvegardez les résultats. Préparez un schéma avec promoteur, exons, introns, et tous les signaux identifiés par Genscan.

Par homologie

  1. Blast contre EST. Les EST permettent souvent une bonne couverture de la region exprimée du gène. Pour les gènes n'ayant pas d'homologue connu, ils sont une aide précieuse à l'identification des exons. Les EST peuvent aussi recouvrir les régions non traduites, ils sont donc utiles a l'identification des UTR 3' et 5'.

  1. Blast contre Swissprot ou nr (nr ou nrdb=swissprot+trad Genbank+PIR). Si le gène recherché est dans Swissprot ou nrdb, cette méthode détecte des similarités significatives au niveau de chaque exon. C'est la façon la plus simple et la plus directe d'identifier les parties codantes des exons.

II.B Traduction

A l'aide des résultats ci-dessus replacez le transcrit complet sur le chromosome, ainsi que la partie codante. Aidez-vous de la représentation des cadres de lectures fournies par le programme "showorf" de la suite Emboss (à trouver via Google).

III. Etude de l'expression

A la fin de cette étape, vous aurez

  1. reconstruit d'eventuelles formes alternatives du messager et
  2. recensé tous les tissus où est exprime le gène.

A partir de la comparaison contig / EST par Blast:

III.a. Rechercher d'éventuels indices d'épissage alternatif

Les EST sont des séquences obtenues à partir d'ARNm matures. Si le messager existe sous plusieurs formes, les formes alternatives apparaissent souvent dans les EST. On visualise assez bien ces formes à l'aide de la sortie graphique de Blast au NCBI.

III.b. Profil d'expression: eventuelle specificité tissulaire?

L'origine tissulaire des EST est toujours indiquée lors de la soumission de la séquence. Retrouvez dans les fiches Genbank des EST l'information tissulaire, et recensez les tissus où votre gène est exprimé. Attention: Un comptage direct des EST est insuffisant pour déterminer si un gène est exprimé préférentiellement dans un tissu. En effet, la taille et le mode de séquencage des bibliothèques d'EST sont la cause de sérieux biais. Par exemple, certaines bibliothèques de foie contiennent plusieurs dizaines de milliers d'EST, alors que d'autres n'en contiennent que 10. Observer un plus grand nombre d'EST dans le foie n'est donc pas forcément un signe que le gène y est plus exprimé. Pour connaitre la taille des bibliothèques de cDNA, se réferer au serveur Web du NCBI. Attention aussi au mode d'obtention des EST (normalisé, non-normalisé).

IV. Rapport

Rapport synthétique sur le travail réalisé.  4 pages max.

  1. Pas d'introduction, juste rappeler l'objectif.
  2. Matériels et méthodes: serveurs Web utilisés, adresses.
  3. Résultats:
    1. Sortie graphique des Blast nt et prot + schéma annoté du segment génomique étudié, avec tous ses éléments (exons, introns, promoteurs, etc..).
    2. Pour chaque début et fin d'exon, spécifier quelles preuves vous avez utilisées
    3. Formes alternatives et éventuelle spécificité tissulaire

Option: ce rapport peut être réalisé en hypertexte avec lien sur les sites Web etc. A mettre ensuite sur votre site Web et citer dans votre CV comme preuve de savoir faire.