DESS Bioinformatique UPS:
Travaux pratiques d'analyse de séquences

Durée: 3 x 3H
V.1.0 (2001) D. Gautheret

1ere Partie: les fichiers Genbank vus sous Unix

Objectif


A la fin de cette partie, vous devez avoir

a) Récupération de génomes complets via un serveur ftp

La plupart de génomes complètement séquencés sont déposé d'une part dans Genbank et d'autre part sur les serveurs Web ou ftp des différentes institutions ayant généré ces séquences. Nous allons ici récupérer un génome complet sur le serveur ftp du NCBI.

b) Analyse d'un fichier au format Genbank

Objectif: Extraire rapidement les informations présentes dans un fichier Genbank.

2eme partie: Analyse Fonctionnelle d'une famille de protéines

Objectifs

Réaliser l'analyse fonctionnelle détaillée d'une famille de protéines, exclusivement à l'aide d'outils Internet.

A la fin de ce travail, vous devez avoir:

Le protocole implémenté s'approche de celui recommandé par Bork et Koonin (Nature genetics, 1998, 18, 313), bien que la fonction de la protéine étudiée soit en fait déjà connue.

Vous devez trouver les sites web vous-même en vous aidant des pointeurs donnés en cours ou du serveur de liens ABI (http://www.up.univ-mrs.fr/~wabim) dans la section "Serveurs pour biologistes / Logiciels", ou du serveur Infobiogen.

Protéines Proposées. Elles présentent des intérêts différents, soit plusieurs domaines (parfois réutilisés dans d'autres protéines) soit une structure 3D connue, soit un gène resté longtemps non identifié, soit l'existence de paralogues. Au choix:

  1. lipase (animal)
  2. dbpA, une RNA hélicase putative de Escherichia coli
  3. ATP synthase (coli)
  4. Estrogen sulfotransferase (souris)
  5. Aminoacyl tRNA synthetase Phe (coli)
  6. Facteur nucléaire NF-kappa-B (vertébrés)
  7. phenylacetaldehyde dehydrogenase (coli)
  8. serine/ threonine kinase (eucaryote)
  9. Taq polymerase (Thermus aquaticus)
  10. Endonuclease III (coli)
  11. aconitase (coli)
  12. Protéine de choc thermique hsp70 (coli)

Conseils Généraux:


a) Récupération de la séquence

b) Eléments structuraux

Le but est ici de repérer toutes les régions susceptibles d'interférer avec les véritables homologies.

c) Identification de domaines/motifs connus.

Première approche pour l'identification des domaines et/ou motifs fonctionnels de la protéine: la recherche dans les banques de motifs et de domaines.

d) Recherche de similitude

e) Alignement multiple

f) Validation 3D