Organisation moléculaire du génome
I. Définition moléculaire du gène
C'est la séquence complète d'acides nucléiques nécessaires à la synthèse d'un polypeptide fonctionnel ou d'une molécule d'ARN. Celle.ci englobe non seulement la région codante (cadre de lecture), mais aussi les régions en amont (5') et en aval (3') nécessaires à la transcription du gène et à la maturation du transcrit.
II. Organisation des gènes : notions d'intron, d'exon et de régions régulatrices
A. Chez les procaryotes
La très vaste majorité des gènes chez les procaryotes sont
continus, ou non interrompus (sauf chez les archébactéries).
Ils sont souvent organisés sous forme d'opérons. L'opéron
représente un groupe de gènes apparentés, transcrit en une
seule unité (Exemple: les gènes l'opéron lactose). Le messager
correspondant est dit polycistronique. Le Cistron correspond à
l'unité génétique codant pour un seul polypeptide. Le ribosome
initiera la traduction au début de chacun des cistrons de l'ARNm,
produisant les différents polypeptides codés par le messager
polycistronique. L'initiation interne est rendue possible par
la liaison des ribosomes à des séquences de liaison "signal"
présentes au début de chaque cistron
B. Chez les eucaryotes
Les gènes eucaryotes sont en règle discontinus ou en
"mosaïques". Les séquences transcrites et traduites ou exons
sont interrompues par des régions non codantes mais
transcrites. Ces régions sont les introns, présents dans le
transcrit primaire, mais éliminés lors de la maturation
nucléaire de l'ARNm, avant qu'il ne gagne le cytoplasme. Ce
processus appelé épissage ("splicing") dépend de la
reconnaissance par le complexe d'épissage, le "spliceosome"
constitué par plus de 50 protéines, de séquences "signal" au
début (GT) et à la fin (AG) de chaque intron. Cette
organisation discontinue des gènes eucaryotes permet un niveau
de complexité supérieur par la capacité de joindre différents
exons entre eux. C'est ce qu'on appelle l'épissage alternatif,
qui à partir d'un seul gène comportant plusieurs exons (par
exemple 1.2.3.4.5) permettra de produire plusieurs types d'ARNm
et donc de peptides différents (par exemple 1.3. 4, ou 2.4.5
...). C'est l'un des mécanismes qui assure la production chez
l'homme d'environ 100 000 protéines différentes par environ 30
000 gènes. Une autre caractéristique des gènes eucaryotes est
la complexité de leur régulation. Schématiquement l'expression
de ces gènes est contrôlée par des régions régulatrices en 5'
qui sont localisées soit immédiatement en amont de la séquence
codante (comme les promoteurs) soit situées à plusieurs
centaines voire milliers de nucléotides du gène comme les
amplificateurs (enhancers) ou les inhibiteurs (silencers). Les
premières sont des séquences en {{ cis }} alors que sur les
secondes se fixent des régulateurs transcriptionnels agissant
en "trans". Ces derniers jouent le rôle de commutateurs qui
modulent la chronologie et la topographie de l'activité des
gènes en fonction du programme de différentiation des
cellules.
III. Taille et composition des génomes


La taille des génomes évaluée par la Valeur-C n'est pas corrélée au niveau phylogénétique des organismes. C'est le classique paradoxe de la Valeur-C. Par exemple cette valeur est de 1011 pb chez certains amphibiens ou certaines plantes, alors qu'elle n'est que de 3 x 109chez l'homme. Ce paradoxe résulte de la différence de contenu des génomes en séquences codantes et non codantes. Chez les eucaryotes supérieurs environ 90 % de l'ADN est représenté par des séquences non codantes, constituées de motifs répétés. Ces différentes séquences se distinguent par leurs caractéristiques physiques (dues à leur composition nucléotidiques) et par leur cinétique de renaturation. Elles ont été identifiées par deux méthodes.
L'ultracentrifugation de l'ADN
eucaryote en gradient de densité (chlorure de césium),
identifie deux populations d'ADN se stabilisant à l'équilibre
dans des zones du gradient de densité 1,7 et 1,6. L'ADN de
densité 1,7 forme un pic majoritaire. Il est précédé par un
pic secondaire de densité 1,6 correspondant à ce qui a été
appelé l' « ADN satellite ». Ce dernier renfermant la majorité
des séquences répétées des centromères. Dans cette technique
comme dans
beaucoup d'autres l'ADN est quantifié en spectrophotométrie
par absorbance à 260 nm.
La réassociation à 20°C des
molécules monocaténaires d'ADN eucaryote après dénaturation
(dissociation) de la double hélice par la chaleur s'effectue
en trois phases correspondant à trois composants (rapide,
intermédiaire, lent) du génome. La cinétique de réassociation
dépend de la fréquence statistique des appariements entre
brins complémentaires au
cours du temps, et donc de la concentration des séquences
identiques en solution
La
fraction 1 à réassociation rapide correspond à
l'ADN hautement répété représentant 10-15 % de l'ADN de
mammifère. Il comprend de courtes séquences de quelques
nucléotides répétées en tandem, localisées (centromères) ou
dispersées (mini et microsatellites).
La fraction 2 à vitesse de
réassociation intermédiaire correspond à l'ADN modérément
répété et représente 25-40% de l'ADN des mammifères. Elle est
composée d'une grande quantité de copies dispersées de
séquences non codantes représentant quelques motifs unitaires
seulement. On retrouve dans cette fraction les petits éléments
répétitifs (SINE, Small Interspersed Nuclear Element) dont les
séquences humaines Alu, les longs éléments répétitifs (LINE,
Long Interspersed NuclearElement). Cette fraction contient
également les séquences codantes des gènes des ARN ribosomiaux
répétés en batterie.
La fraction 3 à vitesse de
réassociation lente est considérée comme étant composée de
séquence à copie unique, dont seulement 5% chez l'humain
coderait pour des protéines ou des ARN. Le reste serait de
l'ADN intercalaire sans fonction connu.
IV. Classification des séquences de l'ADN eucaryote
A. ADN codant pour des protéines
Gènes à copie unique : Chez les organismes multicellulaires, 25 à 50% des gènes codant pour des protéines ne sont représentés qu'une seule fois par génome haploïde. Ces gènes font partie de la fraction lente (3) de réassociation. Le nombre de copies uniques contenues dans un génome caractérise sa complexité.
Gènes à copies multiples :
(familles divergentes fonctionnelles et pseudogènes non
fonctionnels).Ces gènes forment. 50% des gènes codant pour les
protéines chez les vertébrés. Lorsqu'on analyse le voisinage
d'un gène (5 à 10 kb autour), on en retrouve fréquemment une
ou plusieurs copies similaires, mais imparfaites. Un jeu de
gènes dupliqués qui codent pour des protéines similaires, mais
ayant des différences en acides aminés est nommé famille de
gènes. L'origine de ces séquences dites dupliquées est fort
probablement la duplication d'un gène ancestral à copie
unique, suivie de l'accumulation de mutations ponctuelles
aléatoires. Les gènes d'une même famille peuvent être
organisés en batterie sur le même chromosome ou situés sur des
chromosomes distincts. On peut citer par exemple les gènes de
la globine, de l'hormone de croissance et les gènes
homéotiques (qui contrôlent la morphogénèse).
Certaines de ces familles sont constituées de gènes répétés en
tandem. C'est le cas des gènes des ARNr, des ARNt et des
histones. Ils se présentent sous la forme de multiples copies
répétées et disposées en tandem, séparées par des régions
intercalaires. Ces copies sont généralement dans la même
orientation. L'ADN répété en tandem diffère de la famille de
gènes, car les copies sont
quasi identiques dans leur régions transcrites. Les séquences
intercalaires (spacer) non transcrites peuvent par contre
varier beaucoup. Cet arrangement de multiples copies en tandem
permet la production d'une grande quantité de ces ARN et de
ces histones, de façon à combler les besoins très importants
de la cellule pour ces composantes (plusieurs millions d'ARNr
par 24 heures par exemple). Ces gènes forment une petite
partie de la fraction intermédiaire de réassociation
Certaines des copies dupliquées peuvent avoir perdu, par
accumulation de mutations, leur capacité à produire des
protéines fonctionnelles. On les nomme pseudogènes. Ce sont
des copies inertes. On retrouve aussi, parmi ces pseudogènes
des séquences d'ARNm ayant subi une rétro-transcription suivie
d'une insertion chromosomique. Ces pesudogènes sont donc
constitués de séquences d'exons souvent très remaniées.
B.
ADN non codant
B.1. ADN répétitif
La découverte de l'ADN répétitif provient de l'analyse des
courbes de dénaturation-renaturation de l'ADN et englobe les
fractions 1 et 2 décrites précédemment. Aujourd'hui, grâce à
l'analyse des séquences, il est possible de classer ces
fractions selon les types d'éléments qu'elles contiennent.
B.2. ADN satellite
Il est constitué de séquences répétées plus ou moins
complexes, localisées sous forme de blocs d'hétérochromatine
ou réparties sur tout le génome.
- Localisé. Localisé dans les régions centromériques (constrictions primaires) ou subcentromériques (constrictions secondaires) des chromosomes, identifiable par le système de colorations en bandes "C". L'ADN satellite centromérique dit alpha ou alphoïde est constitué par la répétition d'une séquence de 171 pb en tandem sur plusieurs centaines de Kb représentant jusqu'à 5 % de l'ADN de chaque chromosome.
- Dispersé.
* Minisatellite. Il s'agit de séquences d'une longueur
de 100 à 20 000 pb, formées par la répétition d'un motif
unitaire de quelques dizaines de, bases. Ces séquences sont
dispersées dans l'euchromatine.
* Microsatellites. Ils sont constitués de motifs
unitaires de 2 à 5 nucléotides (par exemple CA ou CGG)
uniformément dispersés, formant des séquences de moins de 150
pb. Ils sont hautement polymorphes.
Ces séquences mini ou
microsatellites constituent des séquences variables répétées
en tandem ou VNTR (Variable Number of Tandem Repeats). La
longueur d'une même séquence à un locus chromosomique donné
varie en fonction du nombre de répétitions. Cette variation
appelée polymorphisme a pour conséquence l'existence dans une
population de nombreuses séquences de taille différentes
(allèles) pouvant être présentes alternativement sur les
chromosomes des individus. La probabilité qu'un individu porte
deux allèles différents sur chacun des chromosomes d'une paire
d'homologues est donc élevée. Il est actuellement facile
d'identifier ces allèles dans la mesure où des milliers de
VNTR ont été identifiées (on connaît leur séquence et leur
fréquence allélique) et localisées sur toute la longueur des
chromosomes. Ces VNTR peuvent être caratérisées, par une
technique simple appelée PCR (polymerase Chain Reaction) qui
les amplifie massivement in vitro, de manière à ce que le
produit de l'amplification puisse être visualisé par simple
coloration après migration sur gel d'agarose. La position de
chaque allèle sur le gel dépend de sa vitesse de migration qui
est proportionnelle à sa taille.
Ces VNTR servent de balises pour la cartographie du génome. De
plus la liaison génétique de marqueurs VNTR avec un locus
morbide établie dans des familles de référence, permet
d'utiliser ces marqueurs pour des analyses de ségrégation,
établir le diagnostic de présence du gène délétère chez un
individu, et secondairement localiser et cloner ce gène.
- Eléments génétiques mobiles. Ce sont des éléments modérément répétés, disséminés un peu partout dans le génome et capables de transposition à des nouveaux sites. Ces éléments mobiles sont essentiellement des parasites moléculaires qui n'apportent aucune fonction spécifique à la biologie de leur hôte (sauf une certaine plasticité du génome). Ces éléments ont été baptisés "ADN égoïste" Ils représentent 30% du génome humain. Chez les Mammifères, les éléments mobiles les plus abondants peuvent être classés en 2 groupes :
* SINE (short interspersed elements), d'u ne taille de
300 pb, ils sont présents sous forme de 500,000 copies dans le
génome humain et comptent pour 5% du génome
total. Ils comprennent les séquences alu (un million de
copies, 7 % du génome).
* LINE (long interspersed elements). d'une taille de plusieurs milliers de pb ils sont représentés par des dizaines de milliers de copies (exemple L1 : 6-7 kb et 50 000 copies) correspondant à 5% du génome total des mammifères. Les séquences LINE sont des éléments mobiles appelés rétroéléments ou rétrotransposons. Ils sont capables de s'autorépliquer par transcription inverse, et de s'insérer dans un site génomique éloigné de leur emplacement d'origine. Ils pourraient comporter dans leur génome le gène de la trancriptase inverse nécessaire.
V. Organisation des gènes eucaryotes
Aspect quantitatifs de l'organisation du génome humain
Nombre de gènes : 30 000 -
50 000
Densité : 1 gène toutes les 40 000 pb, soit en moyenne
130 gènes par bande chromosomique (~3000 par chromosome)
Taille : en moyenne 10 - 15 Kb, avec d'énormes
variations (1,5 Kb pour la globine, 2500 Kb pour la
dystrophine)
Exons : nombre très variable de 0 (histones) à 79 (dystrophine)
taille
moyenne : 200 pb (faibles variations)
Introns : énormes variations : 0,5 à 30 Kb
Distance intergénique : 20 -30 Kb
ARNm : taille moyenne : 2,5 Kb (grandes variations)