La composition en séquence et ses variations
La règle de Chargaff
Les règles d'appariement expliquent que, quelque soit la quantité d'adénine (A) dans l'ADN d'un organisme, la quantité de Thymine (T) est la même. De la même façon, G=C.
Mais les génomes ne sont pas uniformément constitués de 25%A, 25%T, 25%G, 25%C.
Il existe de grandes variations d'un génome à l'autre. Par exemple, les génomes d'archaebactéries sont généralement très riches en AU.
Compositions nucleotidiques (%) |
Organisme | A | T | G | C |
Humain | 30.9 | 29.4 | 19.9 | 19.8
|
Poulet | 28.8 | 29.2 | 20.5 | 21.5
|
Sauterelle | 29.3 | 29.3 | 20.5 | 20.7
|
Oursin | 32.8 | 32.1 | 17.7 | 17.3
|
Blé | 27.3 | 27.1 | 22.7 | 22.8
|
Levure | 31.3 | 32.9 | 18.7 | 17.1
|
E. coli | 24.7 | 23.6 | 26.0 | 25.7
|
Methanococcus | 34.5 | 34.2 | 15.9 | 15.5
|
Contenu en GC et isochores
- Il existe également de grandes variation à l'intérieur d'un génome. Par exemple, les régions transcrites sont souvents plus riches en GC que les régions non-transcrites.
- Le contenu en GC moyen du génome humain est 41%
- On trouve pourtant des régions de plusieurs centaines de kb avec des contenus
en GC de 33% ou 59%, ce qui représente une variation beaucoup plus grande que
si la distribution était uniforme.
- La variation est en fait 15 fois supérieure à la variation attendue, avec une
importante "queue" de régions riches en GC.
- On a proposé que le génome soit constitué d'une mosaique de régions de composition
homogène appelées isochores.
- En fait, on ne trouve pas de régions vraiment homogènes en composition, mais plutôt de régions
plus ou moins riche en GC.
- Il existe une forte corrélation entre la richesse en GC et certaines propriétés: densité
en gènes, contenu en répétitions, etc.
Histogramme du contenu en GC des fenêtres de taille 20kb du génome humain.
Les ilots CpG
Les ilôts CpG sont des zones riches en dinucléotide CG, fréquemment associées aux régions 5' des gènes de vertébrés
- L'ilôt s'étend sur le promoteur et l'exon 1 (ou 1 et 2)
- Fréquence attendue du dinucléotide CpG = 4% (0.21x0.21), mais fréquence observée:
un cinquième de cette valeur. Pourquoi?
- Méthylation naturelle des CpG et réparation en TpG
- Au niveau des premiers exons: protection des CpG. Donc Fréquence normale.
- Typiquement 1-2kb de longueur. Environ about 70% G et C (contre
40% dans le reste du génome humain)
-
Les îlots CpG sont associés à tous les gènes
housekeeping (constitutifs) et à 40% des gènes tissu-spécifiques