La transcription chez les eucaryotes

La transcription des gènes eucaryotes est catalysée par des ARN Polymérases. Elle contrôlée à plusieurs niveaux et dépend de l'accessibilité de la chromatine. La transcription ne peut être initiée qu'après que des activateurs fixés sur des éléments régulateurs aient recruté des complexes de remodelage qui décondensent la chromatine permettent au complexe de transcription de se fixer.
La transcription comporte trois étapes :
L'initiation
L'élongation
La terminaison
I. Les ARN polymérases
Contrairement aux cellules
procayrotes qui possèdent une seule ARN polymérase, les
cellules eucaryotes possèdent trois ARN polymérases qui
assurent la synthèse des différents ARN. Ce sont de volumineux
complexes multimériques (8 à 14 s~us-unités) d'environ 500 kD.
Une
cellule eucaryote renferme environ 40 000 molécules d'ARN
polymérase.
L'ARN polymérase I localisée dans
le nucléole transcrit les ARN ribosomiaux (ARNr: 5,8 S, 18 S
et 28 S, sauf le ARNr 5 S). Elle représente 50-70% de
l'activité ARN polymérase de la cellule.
L'ARN polymérase Il localisée
dans le cytoplasme transcrit les précurseurs des ARNm codant
les protéines. Elle représente 20400/0 de l'activité ARN
polymérase de la cellule. La Polit comporte un domaine
C-terminal spécicique constitué par la répétition d'une
séquence consensus de 7 acides aminés qui peut être hautement
phosphorylé sur des résidus sérine ou thréonine.
L'ARN polymérase III localisée dans le cytoplasme transcrit les ARN de transfert (ARNt), et les ARNr 5 S. Elle représente 10% de l'activité ARN polymérase de la cellule.
Ces Polymérases synthétisent les 26 pg d'ARN que contient une
cellule humaine. Leur vitesse de polymérisation de 200 X 106
nucléotides par minute est 20 fois plus rapide que celle de la
réplication de l'ADN. Les ARNm représentent 60% des ARN
synthétisés, mais ils ne constituent que 3% du pool des ARN
totaux à l'équilibre.


II. L'initiation
Elle dépend de la fixation du complexe d'initiation sur les séquences promotrices du gène. Le modèle type est celui des gènes transcrits par la Polymérase.
A. Les séquences promotrices
Les séquences sur lesquelles se fixe l'ARN polymérase associée au complexe de transcription constituent le promoteur. Elles sont localisées en amont du gène de structure, dans des régions dites proximales. distantes de quelques dizaines à quelques centaines de nucléotides du site d'initiation. Il existe de deux à une dizaine de ces séquences selon le gène (par exemple 2 pour le gène de la ~globine et 5 pour le gène des histones H2B). Ces séquences se caractérisent par un motif consensus.
La boîte TATA est située à environ -25 paires de bases de l'origine de la transcription. C'est une séquence de six nucléotides riche en A et T. La séquence dite consensus (statistiquement la plus fréquente) est TA T AAA. Une mutation dans cette boîte altère fortement la transcription. Cette boîte fixe un facteur général de transcription appelé TFIID (TF: Transcription Factor) absolument nécessaire pour l'initiation de la transcription.
La boîte GC (située le plus souvent dans la région entre -110 et 40). Elle peut se présenter sous forme d'hexanucléotides: 5'GGGCGG-3'. Le motif riche en bases G et C peut être répétéplusieurs fois.
La boîte CCAAT (souvent située dans la région entre -120 et -180). Cette boîte peut être située avant ou après une boîte GC ou même entre deux boîtes GC.
Les séquences promotrices sont par
définition des éléments cis régulateurs sur lesquels se fixent
les facteurs trans-régulateurs que sont les protéines du
complexe d'initiation. Le promoteur est responsable du niveau
basal de la transcription. Celle-ci est modulée par des
séquences amplificatrices ( «enhancer» ) ou atténuatrices ("silencer")
qui peuvent être situées à des distances très importantes
amont ou en aval du promoteur (quelques dizaines de kilobases)
et sur les quelles se fixent des régulateurs transcriptionnels.
Certaines de ces séquences régulatrices d'amont confèrent une
spécificité tissulaire à l'expression des gènes, et en général
la synthèse des régulateurs transcriptionnels est sous le
contrôle de stimulus extra- ou intracellulaires (hormones par
exemple). Ces deux complexes interagissent au niveau des
boucles formées par la chromatine.
B. Le complexe d'initiation
A la différence de /'ARN
polymérase des procaryotes, l'ARN polymérase Il (Pol Il) des
eucaryotes ne se fixe pas directement sur le promoteur mais
par l'intermédiaire de facteurs généraux de la transcription
comprenant plusieurs protéines dénommées TF Il
(Transcription Factor pour l'ARN polymérase Il): TFIIA, TIIB
Ces
protéines associées à l'ARN polymérase Il constituent le
complexe d'initiation de la transcription et catalysent la
formation de la première liaison phosphodiester entre les deux
premiers nucléotides de l'ARNm. Lorsque le promoteur est
libéré par la progression de l'ARN polymérase Il sur l'ADN
constituant la phase d'élongation, un autre complexe
d'initiation peut se mettre en place.
Une succession d'étapes met en jeu
des éléments du promoteur, /'ARN polymérase Il et des facteurs
protéiques généraux de la transcription.
La première étape est constituée par la fixation du facteur de transcription TFIID sur la boîte TATA par l'intermédiaire d'un des composants du facteur TFIID appelé TBP ( TATA box binding protein). Outre TPB le facteur TFIID est constitué de facteurs appelés T AFII (transcription activating factors) qui permettent l'interaction entre TFIID et des éléments activateurs situés en amont de la boîte TATA. Un facteur additionnel TFIIA stabilise l'association facteur TFIID et boîte TATA.
Puis le facteur TFIIB après fixation sur le facteur TFIID (fixé sur la boîte TATA) recrute la Pol Il et le facteur TFIIF. Cette étape détermine le choix du brin transcrit.
Les facteurs TFIIE et TFIIH se fixent, suivis par des facteurs supplémentaires complétant le complexe de transcription. Le facteur TFIIH présente une activité protéine kinase. En présence d'ATP, une phosphorylation de l'ARN polymérase est réalisée sur la plus grosse sous-unité de l'enzyme riche en sérine et en thréonine (partie C-terminale). La phosphorylation sur ces sites spécifiques déclenche le début. de la transcription couplé à la libération de la Pol Il du complexe des facteurs de transcription généraux à l'extrémité 3' du promoteur.


III. L'élongation-terminaison-modifications
C'est l'étape de polymérisation
des nucléotides par la Polymérase qui lit le brin
matrice'("anti-sens") dans le sens 3'-5' et synthétise le
transcrit primaire ou pré-ARN ("sens") dans le sens 5'-3'.
Elle incorpore des ribonucléotides dont l'uridine à la place
de la thymine (ATP, CTP,
GTP, UTP) dans la chaîne d'ARN selon un mécanisme de
polymérisation similaire à celui impliqué dans la réplication
de l'ADN. La séquence du gène complémentaire du pré-ARN est
appelée unité de transcription. Elle comprend non seulement
les régions codantes ou exons, mais aussi les introns et les
portions 5' et 3' non traduites 5'-UTR et 3'-UTR (UTR=
Untranslated Regions) dont dépend la stabilité des ARN.
Elle débute par le nucléotide +1, et se termine au niveau du
signal de terminaison. L'ARN correspondant a une longueur
variable selon les gènes de 8000 à 20 000 nucléotides, dont
environ 1200 codent le polypeptide.

Les populations d'ARN ainsi produites sont très hétérogènes sur le plan quantitatif. Certains ARN dits abondants sont représentés par prés de 50 000 molécules de 4 espèces différentes dont chacune existe sous forme de 12 000 copies. Au contraire les ARN dits rares représentent 10 000 espèces différentes dont chacune n'est synthétisée qu'à 10 ou 15 copies.
Outre l'élongation, la synthèse du pré-ARN comporte plusieurs
étapes :
Addition de
la coiffe (ou « cap ») stabilisante à l'extrémité 5'.
Le premier nucléotide du transcrit primaire est un nucléotide
triphosphate du dATP ou dGTP
L'extrémité 5' du transcrit primaire est donc du type:
5'pppAlGpNpNpNpN... (p=groupement phosphate et N=A,T, C ou G).
En présence de GTP une guanylyl transférase fixe une molécule
de GMP sur le premier phosphate par une liaison par une
liaison inhabituelle 5'-5' triphosphate. Cette réaction
élimine donc le premier phosphate du transcrit primaire.
Gppp+QppApNpNp.. ~GpppApNpNp... +pp+p
La guanosine terminale est secondairement méthylée sur son
azote N7. La coiffe protège les ARNm d'une dégradation par les
nucléases.
Addition de.
la séquence poly(A) à l'extrémité 3'.
Après synthèse, les ARN messagers sont clivés dans leur partie
3' une vingtaine de bases en aval d'une séquence spécifique
AAUAAA (correspondant sur le brin d'ADN matrice à la séquence
AATAAA). Cette coupure est réalisée par une endonucléase.
Après coupure, une enzyme la poly(A) polymérase en présence d'ATP
additionne un nombre variable d'A (au moins 200-250 chez les
mammifères supérieurs). La plupart des ARNm synthétisés par
l'ARN polymérase " possèdent cette extrémité poly(A), à
l'exception des ARN messagers d'histones. Cette séquence
poly(A) qui protège l'extrémité 3' des ARN est indispensable à
leur transfert nucléo-cytoplasmique.
En pratique cette séquence poly(A) est mise à profit pour
purifier les messagers par des techniques utilisant des
supports solides (billes ou matrice chromatographique) sur
lesquels sont fixées des séquences poly(T).
IV. Maturation : excision-epissage
Un mécanisme nucléaire précis appelé excision-épissage permet la maturation du transcrit primaire en ARNm.
Chez les eucaryotes supérieurs, il a été démontré très tôt que l'ARN nucléaire était hétérogène et instable. Cet ARN a été appelé ARN nucléaire hétérogène (hnRNA). La forme physique du hnRNA est celle d'une particule ribonucléoprotéique dans laquelle le hnRNA est lié à des protéines. Le transcrit primaire ou pré-ARNm est inclus dans l'hnRNA.
L'épissage dépend de la reconnaissance de séquences signal
situées à la jonction exon-intron du transcrit primaire. .


Signaux d'épissage.
La séquence d'un intron débute par GU et se termine par AG. La
séquence consensus à l'extrémité 5' des introns des vertébrés
de type GUAAGU ou GUGAGU. Elle fait suite au doublet AG de
l'extrémité 3' de l'exon d'amont. Ces 8 nucléotides
constituent le site donneur. A l'extrémité 3', la séquence
consensus est un brin de dix pyrimidines (Py = U ou C) suivie
par n'importe quelle base N (A, U, G ou C) puis par C (ou U)
et se termine par la séquence invariante AG. L'exon d'aval
commence par une base G ou A. La séquence CAGG/A constitue le
site accepteur. Le site de branchement (A) est localisé entre
20 et 50 nucléotides en amont du site 3' accepteur.
Mécanisme d"excision-épissage.
Dans la première étape, il y a formation d'un premier clivage
en 5' de l'intron. Le groupement OH du carbone 2' du ribose de
l'A du site de branchement se soude à l'extrémité 5'-phosphate
de l'intron par une liaison 5'-2' phosphodiester. Il se forme
une boucle ou "lasso" libérant le groupement OH (3') de
l'extrémité 3' de l'exon d'amont (Exon 1).

Une seconde étape aboutit au
clivage de l'extrémité 3' de l'intron, libérant le groupement
phosphate de l'extrémité 5' de l'exon d'aval
(Exon 2). Les deux exons sont simultanément soudés par
formation d'une liaison phosphodiester entre l'OH (3') de
l'exon 1 et le phosphate (5') de l'exon 2. La boucle du lasso
est secondairement dégradée.

Les réactions d'excisicin-epissage sont catalysées au, niveau de complexes macromoléculaires de 250 kD appelés spliceosomes qui se fixent sur les sites d'épissage. Le spliceosome est constitué de complexe nucléo~protéiques appelés snRNP (Small Nuclear RiboNucléoprotéins). Chaque snRNP est formée par de petits ARN nucléaires (snARN) de 100-300 nucléotides environ riches en uracile dénommés U1, U2, U4, US et U6, associés à des facteurs protéiques spécifiques. La nature des snARN détermine leurs modalités d'action.
U1 assure la reconnaissance de la
partie 5' de l'intron à exciser par une complémentarité de
séquence avec ce dernier.
U2 s'associe au site A de branchement.
U5 assure la reconnaissance de la partie 3' de l'intron à
exciser.
U4 et U6 exercent l'activité catalytique du spliceosome.
L'épissage représente un mécanisme d'une grande importance en pathologie humaine. Des mutations détruisant des signaux d'épissage ou créant des signaux ectopiques aboutissant à des protéines anormales sont responsables de 100/0 des maladies génétiques connues.
De plus il représente un dispositif évolutif permettant de
générer un grand nombre de protéines (environ 100 000 chez
l'homme) à partir d'un nombre limités de gènes (environ 30 000
chez l'homme). Généralement, une cellule peut épisser le
transcrit primaire selon différentes modalités qui incluent et
excluent différents exons de la séquence mature qui code ainsi
plusieurs protéines différentes à partir d'un seul gène. Ce
processus est appelé épissage alternatif ou épissage
différentiel.
Un exemple d'épissage différentiel et constitué chez l'Homme
par le gène de la calcitonine. Dans certaines cellules de la
glande thyroïde, le transcrit primaire subit un épissage
conduisant à un messager précurseur de la calcitonine. Par
contre, dans le cerveau, le même messager subit une maturation
différente produisant le messager d'un neuromédiateur. Les
modalités de l'épissage alternatif sont complexes dans la
mesure où les deux types de sites donneur et accepteur peuvent
être alternativement engagés, et où certains exons sont
mutuellement exclusifs ou systématiquement éliminés.

V. Edition
L'édition d'un ARNm définit toute modification post-transcriptionnelle de sa séquence par addition, suppression, substitution d'un ou plusieurs nucléotides aboutissant à la formation d'une molécule dont la séquence diffère de celle du brin d'ADN matrice. La conséquence de l'édition peut être un décalage du cadre de lecture responsable de la synthèse de différentes séquences peptidiques, ou la création de codons STOP déterminant la synthèse de protéines tronquées.
VI.
Etude de
la transcription
Il existe des techniques sophistiquées permettant l'étude directe de la transcription des gènes dans le noyau et de la cinétique des ARN.
Cependant en pratique courante l'expression d'un gène est
évaluée par la quantification du niveau des ARNm après
extraction des ARN totaux et/ou de la purification des
messagers par des méthodes physicochimiques. Deux de ces
techniques méritent d'être signalées.
La technique de RT -PCR (Reverse Transcription-PCR) quantitative consiste à amplifier par PCR une séquence d'un ARNm spécifique, après transcription inverse par une Transcriptase Inverse virale de l'ARN en ADN simple brin appelé ADN complémentaire ou ADNc. Le niveau des transcrits est évalué comparativement au niveau des transcrits d'un gène de référence (actine par exemple) dont l'expression est stable dans les cellules étudiées. La comparaison se fait en mesurant l'intensité relative des signaux fluorescents émis par les bandes formées par les produits d'amplification sur un gel d'électrophorèse coloré par le bromure d'éthidium. Cette technique de mesure relative est couramment utilisée pour étudier les variations de l'expression des gènes dans des conditions expérimentales ou pathologiques. Elle a été récemment automatisée dans des appareils dits de PCR en temps réel. Dans ces appareils un système laser mesure à chaque cycle de PCR la fluorescence émise par les produits d'amplification qui s'accumulent en présence d'un fluorochrome. Les mesures sont traitées par une unité informatique qui fournit directement le niveau des transcrits mesurés et élimine les étapes post-PCR (électrophorèse, quantification de l'intensité des bandes, analyse des résultats). Cette technologie précise et sensible est actuellement utilisée dans e suivi clinique des patients atteints d'hépatite, du SIDA ou de leucémies pour quantifier le niveau de transcrits viraux ou des messagers « chimères» produits par les translocations chromosomiques des cellules malignes.
Les «Biopuces» ont introduit une nouvelle dimension dans l'étude de l'expression des gènes en permettant de détecter et de quantifier simultanément les ARNm de la totalité des 30 000 gènes humains sur une surface de l'ordre d'un timbre poste. Dans cette technologie de courts oligonucléotides d'une vingtaine de bases spécifiques des gènes sont fixés en lignes sur un support de verre. Les ARN extraits des cellules son rétrotranscrits en ADNc, maqués par des fIuorochromes, puis hybridés sur le support. Les signaux fluorescents sont détectés et analysés par une unité informatique qui fournit le « profil d'expression génique» des cellules ou des tissus analysés.


![]() |
![]() |