TP Bioinformatique ESIL 2ème Année
Analyse Fonctionnelle d'une famille de protéines
Durée: 4 x 3H
V.2004.2 D. Gautheret
Objectifs
Réaliser l'analyse fonctionnelle détaillée d'une famille de
protéines, exclusivement à l'aide d'outils Internet.
A la fin de ce travail, vous devez avoir
- déterminé precisément les éléments fonctionnels de la proteine
étudiée, par analyse de séquence, notamment:
- identifié tous les domaines de la protéine
- localisé tous les résidus essentiels, les éventuels sites
catalytiques et de liaison au(x) substrat(s)
- déterminé l'existence de protéines orthologues et paralogues
- determiné dans quel ensemble d'organismes on retrouve cette
fonction.
Le protocole implémenté s'approche de celui recommandé par Bork et
Koonin (Nature genetics, 1998, 18, 313), bien que la fonction de la
protéine étudiée soit en fait déjà connue. Les resultats seront inclus
dans un rapport synthétique.
Vous devez trouver les sites web vous-même en vous aidant des
pointeurs donnés en cours ou des moteurs génériques (google, etc.)
Protéines Proposées. Elles
présentent l'intérêt de contenir plusieurs domaines (parfois réutilisés
dans d'autres
protéines), d'avoir un homologue de structure 3D connue, et d'avoir
plusieurs paralogues.
2004: polyadenylate-binding protein 2 de Arabidosis thaliana
Conseils Généraux:
- Sauvegardez en HTML les resultats intermediaires de façon à
pouvoir éventuellement relancer certaines recherches (Attention: les
sorties de Blast sont énormes. Faites le ménage à la fin du TP.)
- Sauvegardez les graphiques intéressants (format JPG ou GIF) pour
une insertion eventuelle dans le rapport.
- Utilisez au maximum les bookmarks-signets pour éviter d'avoir à
retrouver à chaque fois les sites utiles.
a) Récupération de la séquence
- En vous aidant des mots-clé, récupérez la séquence protéique de
départ avec Entrez ou SRS.
- Sauvegardez la séquence sur votre compte Windows.
b) Eléments structuraux
Le but est ici de repérer toutes les régions susceptibles
d'interférer avec les véritables homologies.
- Régions transmembranaires. Utiliser pour les prédire l'un des
sites Web de prediction existant (par ex. TMHMM). Note: si les
protéines proposées ne sont pas transmembranaires, testez la prédiction
avec une véritable transmembranaire, par ex: Swissprot P27732 (obtenue
par SRS).
- Répétitions internes: Utiliser Lalign, un programme du package
Fasta qui produit à partir de 2 séquences tous les alignements locaux
"intéressants". Utiliser le serveur
http://www2.igh.cnrs.fr/bin/lalign-guess.cgi
Plusieurs alignements significatifs indiquent des répétitions.
- Régions de basse complexité: elles seront filtrées (remplacées
par des N) automatiquement lorsque vous utiliserez Blast au NCBI
(option filter: default). Si vous êtes curieux(se), vous pourrez
désactiver cette option lors du Blast et voir en quoi elle affecte les
résultats.
- Séquences Alu, Sine, L1, etc.: Elle peuvent être filtrées en
utilisant "advanced Blast" (On ne se pose pas la question pour les
séquences procaryotiques).
c) Identification de domaines/motifs connus.
Première approche pour l'identification des domaines et/ou motifs
fonctionnels de la protéine: la recherche dans les banques de motifs et
de domaines.
- Identifiez les motifs potentiels en interrogeant le serveur
Prosite. Lisez la documentation des motifs trouvés (Lignes "DO" ou
"PDOC" de la fiche Prosite)
- Identifiez les domaines potentiels au moyen du serveur PFAM.
d) Recherche de similitude
On recherche ici divers homologues à notre séquence de départ. Le mot
DIVERS est très important car on veut identifier les
résidus conservés pour des raisons fonctionnelles. Dans cette
collection, on peut garder des orthologues et des paralogues. -
Rechercher des homologues avec le serveur Blast (advanced) du NCBI.
Faites la recherche au niveau protéique.
- Collecter les séquences qui paraissent homologues à votre
séquence de départ. La lecture de la fiche Swissprot de la protéine de
départ (si elle existe, ou d'un article de Review sur cette fonction)
peut s'avérer utile, ainsi que l'observation des régions conservées:
les résidus ayant donné lieu au bon score Blast élevé sont
effectivement fonctionnellement importants.
ATTENTION:
- Utiliser la bonne banque et la bonne version de Blast. Vous
cherchez des protéines, et vous en voulez le plus possible!
- Dans les réponses, vous obtiendrez parfois des
artefacts. Attention aux 'ALU warning' et autres matches
inintéressants!
- Attention aux valeurs de E: si c'est trop élevé, vous avez
intérêt à être certain
que les séquences sont homologues.
- Vous obtiendrez peut-être plusieurs fois la même protéine
sous des noms différents, ou des mutants sans intérêt.
- Il ne s'agit pas de garder aveuglément les N meilleures
séquences. Ne perdez pas de vue l'objectif de diversité.
- Recherches iteratives par Blast pour récupération d'homologies
eloignées. Des homologies reelles peuvent avoir échappé à la première
recherche. Refaites la recherche avec au moins deux itérations de
PSI-Blast (toujours serveur du NCBI).
- Tentez de classer toutes les séquences obtenues en
orthologues/paralogues. Identifier les régions d'homologie (un
paralogue peut être similaire à la séquence de départ sur un domaine
seulement).
e) Alignement multiple
C'est à partir d'un alignement multiple que l'on identifiera les
résidus essentiels. On en tirera des conclusions sur la catalyse, la
liaison au substrat ou tout autre aspect fonctionnel. - Vous aurez
possiblement deux alignements à faire:
- un alignement global vous donnera les résidus communs à
l'ensemble des séquences sélectionnées (peut ne rien donner si les
protéines sont trop variables)
- l'alignement restreint à un domaine, comprenant orthologues et
paralogues: pour observer les résidus importants dans cette fonction
précise.
- Réalisez l'alignement multiple avec le serveur Clustalw
disponible a l'EBI (European Bioinformatics Institute). Cochez
l'option treetype=NJ.
- Vous récupérez un alignement et un
arbre. Sauvegardez l'arbre en format "Phylip" (arbre
parenthésé) et affichez-le avec le programme
Treeview. Vérifiez vos hypothèses sur les paralogues et
orthologues.
- Importez l'alignement dans un traitement de texte. Numérotez les
résidus, repérez domaines et aa conservés. Rapprochez ces résultats
de ce qui est connu de l'activité et de la structure de la protéine
(voir fiche Swissprot, connaissances personnelles ou articles).
f) Validation 3D
Les structures des protéines choisies possèdent des homologues de
structure résolue (au moins partiellement) par RMN ou cristallographie.
Vous avez donc la possibilité d'expliquer la présence et la nature des
résidus conservés par des arguments structuraux. - Retrouvez des
structures pdb homologues à votre séquence en faisant un blastp contre
la banque pdb.
- Récupérez la structure et visualisez-là avec Rasmol
- Identifiez les éléments secondaires visuellement et dans le
fichier pdb (parfois listés dans les commentaires), comparez avec les
signatures que vous aurez etablies. Vous pouvez cliquer sur la
structure afin d'identifier des residus particuliers.
- Option: produire une sortie graphique (JPG, GIF) à inclure dans
le rapport.
g) Rapport
- Introduction sur les objectifs du travail
- Matériel et Méthodes: sites Web et logiciels utilisés
- Resultats et Discussion: Pour chaque etape du TP, donnez le but,
le resultat et la conclusion que vous en tirez.
- Ne copiez pas dans votre texte tous les resultats que vous avez
obtenu (par ex. pas d'alignements de blast, sauf pour discuter un
point particulier). La sortie graphique de Blast est utile. Si
l'alignement Clustal fait plus de 3 pages, ne montrez que les regions
interessantes.
- En conclusion, faites intervenir les connaissances réelles sur
la
protéine étudié (un peu de bibliographie, ou au moins une bonne lecture
des fiches Swissprot, peuvent s'averer utile).