ESIL 2ème Année: Bioinformatique sous Unix
Duree: 6 x 3H
V.2.0
Objectifs
- Récupérer et visualiser des fichiers “génomes complets” dans Genbank.
- Manipuler des fichiers de séquence sous Unix.
- Piloter des logiciels de bioinformatique sous Unix.
- Mettre au point et appliquer une stratégie pour récupérer tous les gènes d'une
famille dans un génome, au moyen de Blast, Clustalw et pftools.
NOTE: A chaque fois qu'il sera fait référence au "répertoire PROF", il s'agira de:
/export/homes/personnels/gbma/dgaut/TPan2-avance.
a) Prise en main d'Unix
- Connectez-vous sur le serveur Unix indiqué en TD à l'aide de X-WIN32
- Taper: export PATH=/usr/X11R6/bin:=/export/homes/personnels/gbma/dgaut/Bin:$PATH (permet d'indiquer à Unix où se
trouvent certains programmes).
- Allez chercher dans le répertoire PROF le fichier test.seq
- Essayez les commandes Unix de base dans la fenêtre 'xterm'. Voir les
commandes sur ce site
Web. A l'aide du fichier copié ci-dessus, vous pouvez notamment
vous familiariser avec: ls, cp, mv,
rm, cat, more (éventuellement: cd et mkdir si vous voulez créer des
sous-répertoires).
- La touche "flêche vers le haut" permet de réafficher les
commandes précédentes pour les modifier et/ou les relancer.
- Les fonctions copier/coller sous Unix-Xwindows sont réalisées à
l'aide des boutons de la souris. Bouton de gauche pour copier, bouton
central (ou deux boutons en même temps) pour coller.
- Créez un texte, modifiez-le et sauvegardez-le avec l'editeur nedit
(commande nedit <nom de fichier> & ). Utilisez dans
nedit les fonctions de recherche, couper, coller, etc.
b) Récupération de génomes complets via un serveur ftp
La plupart de génomes complètement séquencés sont déposé d'une part
dans Genbank et d'autre part sur les serveurs Web ou ftp des
différentes institutions ayant généré ces séquences. Nous allons ici
récupérer un génome complet sur le serveur ftp du NCBI.
- RETOURNEZ SOUS WINDOWS SANS QUITTER XWIN32. Lancez Netscape et connectez vous sur:
ftp://ncbi.nlm.nih.gov/genbank
Notez que le protocole de communication est ici Ftp et non pas http.
FTP est conçu pour le transfert de fichiers
uniquement.
-
Ce serveur ftp comporte tous les fichiers de Genbank. Touvez le répertoire des
génomes complets, puis les fichiers .gbk .faa et .fna d'un génome bactérien.
- .gbk: fichier au format Genbank avec annotations
- .fna: fichier de sequence nucléique au format Fasta (une seule ligne de commentaire)
- .faa: fichier de sequence protéique au format Fasta. Toutes les séquences protéiques
prédites pour un génome donné sont rassemblées.
- Les fichiers en .Z ou .gz sont des fichiers compressés. Après les avoir téléchargé, il
est nécessaire de les décompresser à l'aide du programme uncompress (pour les fichiers
.Z) ou gunzip (pour les fichiers .gz).
- Récupérez les fichiers .gbk, .faa et .fna pour Mycoplasma genitalium.
c) Analyse d'un fichier au format Genbank
Objectif: Extraire rapidement les informations présentes dans un
fichier Genbank.
- Regardez le fichier ".gbk" à l'aide de la commande
"more". Repérez les séquences protéiques. Que veut dire
"CDS"? Que veut dire "complement" après CDS? Où se trouve la séquence
nucléotidique? Quelles informations sont disponibles sur chaque gène?
- Utilisez la commande "egrep" pour rechercher n'importe quelle
expression dans le génome au format Genbank (par exemple le mot "toto").
- Avec la commande "egrep -c", comptez les élements suivants
(lancez toujours une fois egrep sans l'option -c pour vérifier que
vous êtes bien entrain de comptez ce que vous croyez):
- les gènes protéiques annotés (480)
- les gènes protéiques présents sur le brin inverse (203)
- les tRNA (36)
- Les gènes prédits, mais sans homologue connu (5)
- Les gènes prédits par similarité, avec un pourcentage d'identité
inférieur à 30% (?)
d) Préparation d'un fichier de séquence pour les requètes Blast
Objectif: Blast ne travaille pas sur un fichier Fasta. Il faut pré-traiter
les fichiers Fasta avec le programme.
e) Prise en main de Blast
Objectif: Savoir exécuter Blast en local.
- Tapez blastall sans argument pour obtenir la liste des arguments de Blast.
L'argument -p qui spécifie la version de Blast est indispensable
(p. ex: -p blastp pour Blast protéine), ainsi que les arguments -d et -i.
- Récupérez dans le répertoire PROF la séquence 16s.seq. Regardez de quoi il s'agit.
- Avec Blast, recherchez dans le génome de M. genitalia des séquences similaires
à 16s.seq.
f) Prise en main de Clustalw
Objectif: réaliser un alignement en mode local. Indispensable lorsque l'on
travaille sur des séquences top-secret, ou lorsque les séquences sont
trop nombreuses ou trop longues pour les serveurs Web publics.
- Récupérez dans le protéome de M. genitalium un ensemble de proteines
apparentées (par exemple des tRNA-synthétases). Sauvegardez
les dans un fichier au format fasta.
- Lancez clustalw et alignez les
séquences extraites. Le programme est interactif. L'option "1" est
employée pour lire les séquences non alignées (fichier créé
ci-dessus). L'option "2" permet de lancer l'alignement. Attention: on
vous propose des noms pour les fichiers de sortie. Souvenez-vous en.
- Quittez Clustalw à la fin de l'exécution, puis visualisez
l'alignement avec more.
- Apprenez a modifier le format de l'alignement multiple avec l'option "9" du
menu "Multiple Alignment". Pour l'exercice suivant, créez un alignement au format MSF.
g) Prise en main des pftools.
Objectifs: Construire un profil (ou matrice score-position) synthétisant les informations
contenues dans un alignement de séquences. Utiliser ce profil pour faire une recherche dans
une banque.
- Le programme de création de profil est pfmake.
Lancez pfmake sans aucun argument de façon à voir la liste et l'ordre
des arguments. Il nécessite 2 arguments obligatoires.
Le fichier d'alignement msf et un fichier de matrice de score qui donne la distance
entre résidus. La matrice à utiliser est blosum62.cmp, dans le répertoire PROF.
Lancez pfmake avec les bons arguments. Le profil doit s'afficher à
l'écran. Sauvegardez le profil dans un fichier.
- Le programme pfsearch recherche des occurence d'un profil dans une banque de séquences.
Pfsearch requiert deux arguments: le profil et la banque de séquences.
Lancez pfsearch sans argument pour voir la liste et l'ordre des arguments.
- Lancez pfsearch contre le protéome de Mycoplasma. L'option -f
est indispensable pour lire les fichiers fasta. Comprenez le résultat.
- Voyez comment l'option de score-seuil "C=" permet de réduire ou d’augmenter le nombre
de solutions. Essayez différents scores-seuils C=2.0, C=10.0, etc. Tentez de récupérer de
nouvelles séquences homologues en modifiant le seuil.
h) Construction d'une banque de données des transporteurs ABC du génome de
M. genitalium
Objectif: A l'aide des logiciels Blast, ClustalW et pftools, collecter la totalité
des membres d'une famille de protéines dans un génome. Présenter cette famille sous
forme d'un alignement multiple.
- Récupérez dans le repertoire PROF le
fichier de séquence abc-dna.seq.
- Proposez un protocole itératif permettant de collecter tous les homologues
de cette séquence dans le génome de M. genitalium, au moyens des logiciels ci-dessus.
- Mettez le protocole à execution.
i) Rapport
Rapport en deux pages maxi (plus alignement) sur l'exercice h) uniquement.