TP Bioinformatique ESIL 2ème Année
Analyse Fonctionnelle d'une famille de protéines
Durée: 5 x 4H
V.1.0. D. Gautheret
Objectifs
Réaliser l'analyse fonctionnelle détaillée d'une
famille de protéines, exclusivement à l'aide d'outils
Internet.
A la fin de ce travail, vous devez avoir
- déterminé precisément la fonction de la proteine étudiée, par
analyse de séquence
- identifié tous les domaines de la protéine et leur fonction
- localisé tous les résidus essentiels, les éventuels sites
catalytiques et de liaison au(x) substrat(s)
- déterminé l'existence de protéines paralogues
- determiné dans quel ensemble d'organismes on retrouve ces
fonctions (orthologues et paralogues).
Le protocole implémenté s'approche de celui recommandé par Bork et
Koonin (Nature genetics, 1998, 18, 313), bien que la fonction de la
protéine étudiée soit en fait déjà connue. Les resultats seront
inclus dans le rapport après avoir été .
Vous devez trouver les sites web vous-même en vous aidant des
pointeurs donnés en cours ou des serveurs de liens CAB
(http://igs-server.cnrs-mrs.fr) et ABI
(http://www.up.univ-mrs.fr/~abim) dans la section "Serveurs pour
biologistes / Logiciels".
Protéines Proposées. Elles
présentent des intérêts différents, soit
plusieurs domaines (parfois réutilisés dans d'autres
protéines) soit une structure 3D connue, soit un gène
resté longtemps non identifié, soit l'existence de
paralogues. Au choix:
- Famille des facteurs d'epissage SR (SRp30, SRp40, SRp46, etc.)
- ORF YBL024w de S.cerevisiae, chromosome II (fonction
recemment decouverte par homologie, non annotee dans le
genome, pas de St. 3D)
- Antiterminateur de transcription SacY de B. subtilis
- Alpha actine (prendre actine humaine)
- Gln tRNA synthetase (coli)
- Asp tRNA synthetase (coli)
- Ser tRNA synthetase (coli)
- Maltose binding periplasmic protein (coli)
- Transcriptional regulatory protein OMPR (coli)
- Cellulase A (clostridium thermocellum)
- Parvalbumine (humaine)
Conseils Généraux:
- Sauvegardez en HTML les resultats intermediaires de façon à
pouvoir éventuellement relancer certaines recherches (Attention: les
sorties de Blast sont énormes. Faites le ménage à la fin du TP.)
- Sauvegardez les graphiques intéressants (format JPG ou GIF) pour
une insertion eventuelle dans le rapport.
- Utilisez au maximum les bookmarks-signets pour eviter d'avoir à
retrouver à chaque fois les sites utiles.
a) Récupération de la séquence
- En vous aidant des mots-clé, récupérez la séquence protéique ou nucléique
de départ avec Entrez ou SRS. (SRS: plus complet, Entrez: plus facile)
- Sauvegardez la séquence sur votre compte Windows NT.
b) Eléments structuraux
Le but est ici de repérer toutes les régions susceptibles de nous
déranger dans la recherche d'homologies.
- Régions transmembranaires. Utiliser pour les prédire l'un des
sites Web répértoriés sur le serveur ABI.
- Répétitions internes: Utiliser 'Blast 2 sequences'
(http://ncbi.nlm.nih.gov/BLAST) ou un serveur Fasta afin de
comparer la sequence à elle-même. Si la séquence comporte des
régions identiques, on voit apparaitre des diagonales dans la
sortie graphique, ou plus d'un alignement dans la sortie texte.
- Régions de basse complexité: elles seront filtrées (remplacées
par des N) automatiquement lorsque vous utiliserez Blast au NCBI
(option filter: default). Si vous êtes curieux(se), vous pouvez
désactiver cette option et voir en quoi elle affecte les
résultats.
- Séquences Alu, Sine, L1, etc.: Elle peuvent être
filtrées en utilisant "advanced Blast". On ne se pose pas la
question pour les séquences procaryotiques.
c) Identification de domaines/motifs connus.
Première approche pour l'identification des domaines
et/ou motifs fonctionnels de la protéine: la recherche dans les
banques de motifs et de domaines.
- Identifiez les motifs potentiels en interrogeant le serveur
Prosite. Lisez la documentation des motifs trouvés (Lignes "DO" ou
"PDOC" de la fiche Prosite)
- Identifiez les domaines potentiels au moyen du serveur PFAM.
d) Recherche de similarité
On recherche ici le plus grand nombre possible d'homologues à la
séquence de départ. Dans cette collection, nous distinguerons
ensuite les orthologues des paralogues.
- Rechercher des homologues avec le serveur Blast (advanced) du
NCBI. Faites la recherche au niveau protéique.
- Collecter les séquences qui paraissent homologues
à votre séquence de départ. La lecture de la
fiche Swissprot de la protéine de départ (si elle
existe, ou d'un article de Review sur cette fonction) peut
s'avérer utile pour vérifier que les résidus
ayant donné lieu au score Blast élevé sont
effectivement fonctionnellement importants.
ATTENTION:
- Utiliser la bonne banque et la bonne version de Blast. Vous
cherchez des protéines, et vous en voulez le plus possible!
- Dans les réponses, vous obtiendrez probablement des artefacts.
Attention aux 'ALU warning' et autres matches inintéressants!
- Attention aux valeurs de E.
- Vous obtiendrez peut-être plusieurs fois la même protéine sous
des noms différents. Ne les gardez pas toutes.
- Il ne s'agit pas de garder aveuglément les N meilleures
séquences. Ne perdez pas de vue que l'un des objectifs est de
de collecter des homologues éloignés.
- Pour tester la validité d'une homologie, on peut parfois
effectuer une recherche réciproque. Si la protéine d'origine ne sort
pas dans les premières solutions, rejeter.
- Recherches iteratives (toujours Blast) pour récupération
d'homologies eloignées. Des homologies reelles peuvent avoir
échappé à la première recherche. Repartez d'une séquence du bas
de la liste et refaites un Blast. Recommencez jusqu'a ce qu'aucune
nouvelle séquence n'apparaisse, ou que les nouvelles séquences
n'aient visiblement plus rien à voir avec la fonction de depart.
- A titre de comparaison, le même travail peut être
effectué avec PSI-Blast (toujours serveur du NCBI), qui
réalise automatiquement l'itération.
- Tentez de classer toutes les séquences obtenues en
orthologues/paralogues. Identifier les régions d'homologie (un
paralogue peut être similaire à la séquence de départ sur un
domaine seulement).
e) Alignement multiple
C'est à partir d'un alignement multiple que l'on identifiera les
résidus essentiels. On en tirera des conclusions sur la catalyse,
la liaison au substrat ou tout autre aspect fonctionnel.
- Préparez l'alignement multiple en séparant orthologues et
paralogues ou, mieux, en séparant les domaines et en réalisant
un alignement multiple pour chaque domaine.
- Réalisez l'alignement multiple avec le serveur Clustalw
disponible a l'EBI (European Bioinformatics Institute). Cochez
l'option treetype=NJ.
- Vous récupérez un alignement et un
arbre. Sauvegardez l'arbre en format "Phylip" (arbre
parenthésé) et affichez-le avec le programme
Treeview. Vérifiez vos hypothèses sur les paralogues et
orthologues.
- Importez l'alignement dans un traitement de texte. Numérotez les
résidus, repérez domaines et aa conservés. Rapprochez ces résultats
de ce qui est connu de l'activité et de la structure de la protéine
(voir fiche Swissprot, connaissances personnelles ou articles).
f) Validation 3D
Les structures des protéines choisies ont été résolues (au
moins partiellement) par RMN ou cristallographie. Vous avez donc la
possibilité d'expliquer la présence et la nature des résidus
conservés par des arguments structuraux.
- Récupérez la structure 3D de la protéine dans la PDB. (Utilisez
directement une recherche par mots-cle sur le serveur de la PDB )
- Visualisez cette structure avec Rasmol
- Identifiez les éléments secondaires visuellement et dans le
fichier pdb (parfois listés dans les commentaires), comparez avec
les signatures que vous aurez etablies.
Vous pouvez cliquer sur la structure afin d'identifier des residus
particuliers.
- Produire une sortie graphique (JPG, GIF) à inclure dans le
rapport.
Rapport
- Rapport réalisé sous Word ou, pour ceux qui savent le faire, HTML.
- Le rapport débute par une introduction sur les objectifs du
travail, puis par un chapitre Matériel et Méthodes. (sites Web et
logiciels utilisés)
- Resultats et Discussion: Pour chaque etape du TP, donnez le but,
le resultat et la conclusion que vous en tirez.
- Ne copiez pas dans votre texte tous les resultats que vous avez
obtenu (par ex. pas d'alignements de blast, sauf pour discuter un
point particulier). La sortie graphique de Blast est utile. Si
l'alignement Clustal fait plus de 3 pages, ne montrez que les regions
interessantes.
- En conclusion, faites intervenir les connaissances réelles sur la
protéine étudié (un peu de bibliographie peut s'averer indispensable).