ESIL 2ème Année: Bioinformatique avancée

Duree: 4 x 4H
18 Etudiants ( 9 groupes )
V.1.3

Objectif


A la fin de ces 4 séances, vous devez avoir

a) Prise en main d'Unix

b) Récupération de génomes complets via un serveur ftp

La plupart de génomes complètement séquencés sont déposé d'une part dans Genbank et d'autre part sur les serveurs Web ou ftp des différentes institutions ayant généré ces séquences. Nous allons ici récupérer un génome complet sur le serveur ftp du NCBI.

c) Analyse d'un fichier au format Genbank

Objectif: Extraire rapidement les informations présentes dans un fichier Genbank.

d) Recherche d'homologies dans le génome de M. Genitalia avec Fasta

Objectif: rechercher une fonction précise dans une séquence locale (par exemple: séquence "privée" indisponible sur Internet). La séquence que nous cherchons ici est un ABC transporteur.

e) Alignement de séquences par Clustalw

Objectif: réaliser un alignement en mode local. Indispensable lorsque l'on travaille sur des séquences top-secret, ou lorsque les séquences sont trop nombreuses ou trop longues pour les serveurs Web publics.

f) Arbre Phylogénétique avec la méthode Neighbor Joining

Objectif: Tracer un arbre simple à partir d'un alignement. Sert bien sûr à étudier les relations phylogénétiques entre séquences, mais aussi simplement à classifier visuellement des séquences (un arbre est beaucoup plus synthétique qu'un alignement).

2ème partie: dans les rouages de l'analyse de séquence

g) Construction d'une banque de données de promoteurs bactériens.

Objectifs: Dans un premier temps, nous allons établir une collection de promoteurs de gènes bactériens dans la région 0 à -15 (autour de la boite TATA). Cette collection sera employée dans les exercices suivants pour générer un profil et chercher de nouveaux promoteurs. Le document suivant, par Itshack Peer, expose le problème de la détection des promoteurs bactériens.

Promoter regions in DNA sequences do not follow a strict pattern. This makes the identification of promoter regions more difficult. Although promoter regions vary, it is usually possible to find a DNA sequence (called the consensus sequence) to which all the of them are very similar. For example, the consensus in the bacterium E.coli, based on the study of 263 promoters, is TTGACA followed by 17 uncorrelated base pairs, followed by TATAAT, with the latter, called TATA box, located about 10 bases upstream of the transcription start site. None of the 263 promoter regions exactly match the above consensus sequence. Nevertheless, the consensus sequence is representative: nearly all of E.coli's promoters terminate with 2 of the 3 specified letters of the sequence TAxyzT, 80-90% have all 3, and xyz is TAA in approximately 50% of the promoter regions. Due to the high variability, exact methods cannot be used for identifying promoter regions by the TATA box.

h) Création d'un profil de boite TATA bactérienne avec pftools.

Objectifs: Construire un profil (ou matrice score-position) synthétisant les informations contenues dans les promoteurs bactériens, dans la région 0 à -15.

i) Recherche de promoteurs bactériens avec pftools

Objectifs: Utiliser le profil créé à l'exercice précédent pour identifier les promoteurs dans d'autres génomes.