DESS Bioinformatique UPS:
Travaux pratiques d'analyse de séquences
Durée: 3 x 3H
V.1.0 (2001) D. Gautheret
1ere Partie: les fichiers Genbank vus sous Unix
Objectif
- Récupérer et visualiser des fichiers Genbank.
- Analyser des fichiers de séquence avec Unix.
A la fin de cette partie, vous devez avoir
- récupéré un génome bactérien complet à partir d'un serveur ftp,
- extrait des informations utiles de ce génome (p. ex. compter les gènes),
a) Récupération de génomes complets via un serveur ftp
La plupart de génomes complètement séquencés sont déposé d'une part
dans Genbank et d'autre part sur les serveurs Web ou ftp des
différentes institutions ayant généré ces séquences. Nous allons ici
récupérer un génome complet sur le serveur ftp du NCBI.
- Lancez Netscape et connectez vous sur:
ftp://ncbi.nlm.nih.gov/genbank
Notez que le protocole de communication est ici Ftp et non pas http.
Nous ne sommes pas sur page Web, mais sur un serveur ftp, conçu pour le transfert de fichiers
uniquement. Les liens correspondent à des répertoires sur le disque du serveur ftp
-
Ce serveur ftp comporte tous les fichiers de Genbank. Explorez le répertoire "genomes"
qui contient les génomes complets ou en cours de séquençage complet.
Trouvez des fichiers .gbk .faa et .fna.
- .gbk: fichier au format Genbank avec annotations
- .fna: fichier de sequence nucléique au format Fasta (une seule ligne de commentaire)
- .faa: fichier de sequence protéique au format Fasta. Toutes les séquences protéiques
prédites pour un génome donné sont rassemblées.
- Identifiez le répertoire contenant le génome de la bactérie Mycoplasma genitalium.
- Récupérez les fichiers .gbk, .faa et .fna pour cet organisme. (décompressez si nécessaire)
b) Analyse d'un fichier au format Genbank
Objectif: Extraire rapidement les informations présentes dans un
fichier Genbank.
- Regardez le fichier ".gbk" à l'aide de la commande
"more". Repérez les séquences protéiques. Que veut dire
"CDS"? Que veut dire "complement" après CDS? Où se trouve la séquence
nucléotidique? Quelles informations sont disponibles sur chaque gène?
- Affectuons des recherches automatiques dans ce génome
à l'aide de la commande "grep". Avec "grep", comptez les élements suivants:
- les gènes protéiques annotés
- les gènes protéiques présents sur le brin inverse
- les tRNA
- Les gènes prédits, mais sans homologue connu
- Les gènes prédits par similarité, avec un pourcentage d'identité
inférieur à 30%
2eme partie: Analyse Fonctionnelle d'une famille de protéines
Objectifs
Réaliser l'analyse fonctionnelle détaillée d'une
famille de protéines, exclusivement à l'aide d'outils
Internet.
A la fin de ce travail, vous devez avoir:
- identifié les domaines de la protéine et leur fonction
- localisé tous les résidus essentiels, les éventuels sites
catalytiques et de liaison au(x) substrat(s)
- déterminé l'existence de protéines paralogues
- determiné dans quel ensemble d'organismes on retrouve ces
fonctions (orthologues et paralogues).
Le protocole implémenté s'approche de celui recommandé par Bork et
Koonin (Nature genetics, 1998, 18, 313), bien que la fonction de la
protéine étudiée soit en fait déjà connue.
Vous devez trouver les sites web vous-même en vous aidant des
pointeurs donnés en cours ou du serveur de liens ABI
(http://www.up.univ-mrs.fr/~wabim) dans la section "Serveurs pour
biologistes / Logiciels", ou du serveur Infobiogen.
Protéines Proposées. Elles
présentent des intérêts différents, soit
plusieurs domaines (parfois réutilisés dans d'autres
protéines) soit une structure 3D connue, soit un gène
resté longtemps non identifié, soit l'existence de
paralogues. Au choix:
- lipase (animal)
- dbpA, une RNA hélicase putative de Escherichia coli
- ATP synthase (coli)
- Estrogen sulfotransferase (souris)
- Aminoacyl tRNA synthetase Phe (coli)
- Facteur nucléaire NF-kappa-B (vertébrés)
- phenylacetaldehyde dehydrogenase (coli)
- serine/ threonine kinase (eucaryote)
- Taq polymerase (Thermus aquaticus)
- Endonuclease III (coli)
- aconitase (coli)
- Protéine de choc thermique hsp70 (coli)
Conseils Généraux:
- Sauvegardez en HTML les resultats intermediaires de façon à
pouvoir éventuellement relancer certaines recherches (Attention: les
sorties de Blast sont énormes. Faites le ménage à la fin du TP.)
- Utilisez au maximum les bookmarks-signets pour eviter d'avoir à
retrouver à chaque fois les sites utiles.
a) Récupération de la séquence
- En vous aidant des mots-clé, récupérez la séquence protéique ou nucléique
de départ avec Entrez ou SRS.
- Sauvegardez la séquence sur votre compte.
b) Eléments structuraux
Le but est ici de repérer toutes les régions susceptibles d'interférer avec
les véritables homologies.
- Régions transmembranaires. Utiliser pour les prédire l'un des
sites Web répértoriés sur le serveur ABI.
- Répétitions internes: Utiliser Lalign, un programme du package Fasta
qui produit à partir de 2 séquences tous les alignements locaux "intéressants".
Utiliser le serveur http://www2.igh.cnrs.fr/bin/lalign-guess.cgi
Plusieurs alignements significatifs indiquent des répétitions.
- Régions de basse complexité: elles seront filtrées (remplacées
par des N) automatiquement lorsque vous utiliserez Blast au NCBI
(option filter: default). Si vous êtes curieux(se), vous pouvez
désactiver cette option et voir en quoi elle affecte les
résultats.
- Séquences Alu, Sine, L1, etc.: Elle peuvent être
filtrées en utilisant "advanced Blast". On ne se pose pas la
question pour les séquences procaryotiques.
c) Identification de domaines/motifs connus.
Première approche pour l'identification des domaines
et/ou motifs fonctionnels de la protéine: la recherche dans les
banques de motifs et de domaines.
- Identifiez les motifs potentiels en interrogeant le serveur
Prosite. Lisez la documentation des motifs trouvés (Lignes "DO" ou
"PDOC" de la fiche Prosite)
- Identifiez les domaines potentiels au moyen du serveur PFAM.
d) Recherche de similitude
On recherche ici le plus grand nombre possible d'homologues à la
séquence de départ. Dans cette collection, nous distinguerons
ensuite les orthologues des paralogues.
- Rechercher des homologues avec le serveur Blast (advanced) du
NCBI. Faites la recherche au niveau protéique.
- Collecter les séquences qui paraissent homologues
à votre séquence de départ. La lecture de la
fiche Swissprot de la protéine de départ (si elle
existe, ou d'un article de Review sur cette fonction) peut
s'avérer utile pour vérifier que les résidus
ayant donné lieu au score Blast élevé sont
effectivement fonctionnellement importants.
ATTENTION:
- Utiliser la bonne banque et la bonne version de Blast. Vous
cherchez des protéines, et vous en voulez le plus possible!
- Dans les réponses, vous obtiendrez probablement des artefacts.
Attention aux 'ALU warning' et autres matches inintéressants!
- Attention aux valeurs de E.
- Vous obtiendrez peut-être plusieurs fois la même protéine sous
des noms différents. Ne les gardez pas toutes.
- Il ne s'agit pas de garder aveuglément les N meilleures
séquences. Ne perdez pas de vue que l'un des objectifs est de
de collecter des homologues éloignés.
- Pour tester la validité d'une homologie, on peut parfois
effectuer une recherche réciproque. Si la protéine d'origine ne sort
pas dans les premières solutions, rejeter.
- Recherches iteratives (toujours Blast) pour récupération
d'homologues eloignés. Des homologies réelles peuvent avoir
échappé à la première recherche. Repartez d'une séquence du bas
de la liste et refaites un Blast. Recommencez jusqu'a ce qu'aucune
nouvelle séquence n'apparaisse, ou que les nouvelles séquences
n'aient visiblement plus rien à voir avec la fonction de depart.
- A titre de comparaison, le même travail peut être
effectué avec PSI-Blast (toujours serveur du NCBI), qui
réalise automatiquement l'itération.
- Tentez de classer toutes les séquences obtenues en
orthologues/paralogues. Identifier les régions d'homologie (un
paralogue peut être similaire à la séquence de départ sur un
domaine seulement).
e) Alignement multiple
C'est à partir d'un alignement multiple que l'on identifiera les
résidus essentiels. On en tirera des conclusions sur la catalyse,
la liaison au substrat ou tout autre aspect fonctionnel.
- Préparez l'alignement multiple en séparant orthologues et
paralogues ou, mieux, en séparant les domaines et en réalisant
un alignement multiple pour chaque domaine.
- Réalisez l'alignement multiple avec le serveur Clustalw
disponible a infobiogen:
- http://www.infobiogen.fr/services/analyseq/cgi-bin/clustalw_in.pl
Ce serveur vous permettra eventuellement de tracer un arbre.
- Importez l'alignement dans un traitement de texte. Numérotez les
résidus, repérez domaines et aa conservés. Rapprochez ces résultats
de ce qui est connu de l'activité et de la structure de la protéine
(voir fiche Swissprot, connaissances personnelles ou articles).
f) Validation 3D
Les structures des protéines choisies ont été résolues (au
moins partiellement) par RMN ou cristallographie. Vous avez donc la
possibilité d'expliquer la présence et la nature des résidus
conservés par des arguments structuraux.
- Récupérez la structure 3D de la protéine dans la PDB. (Utilisez
directement une recherche par mots-cle sur le serveur de la PDB )
- Visualisez cette structure avec Rasmol
- Identifiez les éléments secondaires visuellement et dans le
fichier pdb (parfois listés dans les commentaires), comparez avec
les signatures que vous aurez etablies.
Vous pouvez cliquer sur la structure afin d'identifier des residus
particuliers.
- Produire une sortie graphique (JPG, GIF).