Lien pour acceder au site du CEA
Site Genoscope en langue française Genoscope site in english El sitio Genoscope en español
Accueil du site > Séquençage > Les projets > Animaux > Anopheles gambiae > STC - Génome complet (shotgun)

Toutes les versions de cet article :

Anopheles gambiae

STC - Génome complet (shotgun)



1998 : séquençage de STC

Le travail sur l’anophèle a commencé au Genoscope en 1998, sous la forme d’une collaboration avec l’unité de Biochimie et de Biologie Moléculaire des Insectes à l’Institut Pasteur. Il s’agissait alors de séquencer les extrémités de grands fragments - 110 milliers de paires de bases (kb) en moyenne - du génome du moustique. Ces fragments avaient été clonés dans des chromosomes artificiels bactériens (BAC) par l’équipe de Frank Collins, à l’université Notre Dame (Etats-Unis). La banque construite par F. Collins, dupliquée aux Etats-Unis et en Europe, contenait 12 000 clones BAC et représentait environ 5 fois le génome d’Anopheles gambiae, long de 280 millions de paires de bases (Mb). Plus de 22 000 lectures d’extrémités de BAC ont été effectuées par le Genoscope, ce qui représente plus de 15 Mb. Au démarrage de ce projet, seuls 250 kb de séquence génomique d’anophèle étaient connus. Il s’agissait donc du premier aperçu à grande échelle du génome du moustique, qui était ici échantillonné dans sa totalité.

Ce travail a tout d’abord livré diverses informations génomiques. L’annotation des séquences lues au hasard dans le génome a révélé les séquences partielles de plus de 1 000 nouveaux gènes. De nombreux éléments transposables ont également été repérés, et de nouvelles familles de ces éléments ont pu être définies. Enfin, plus de 1 000 régions polymorphes - des séquences répétées nommées microsatellites - ont été répertoriées. Ces séquences constituent d’excellents marqueurs génétiques, que ce soit pour la recherche de gènes impliqués dans tel ou tel phénotype au moyen d’une carte génétique, ou pour l’étude de la diversité des populations naturelles.

Mais ces séquences d’extrémités de BAC constituaient également une ressource pour le séquençage du génome entier. Désignées dans ce contexte sous le nom de Sequence Tag Connectors (STC), elles permettent d’établir des connections à grande échelle : l’orientation respective des deux séquences d’extrémités d’une paire est en effet connue, tout comme la distance qui les sépare (la taille de l’insert dans le BAC). Une première utilisation des STC est la sélection de BACs au chevauchement minimal dans la perspective d’une " marche sur le chromosome " à partir de points de nucléation. Cette stratégie a l’avantage de ne pas nécessiter de cartographie physique. Toutefois, c’est une autre stratégie de séquençage qui a été adoptée par le consortium international pour le séquençage du génome de l’anophèle, stratégie où les STC du Genoscope ont aussi trouvé leur utilité.

2001 : participation au séquençage aléatoire global

La firme américaine Celera Genomics, principal acteur du consortium constitué en mars 2001, a appliqué sa stratégie du " séquençage aléatoire global " (whole genome shotgun) au génome de l’anophèle. Le principe est de séquencer des petits fragments échantillonnés au hasard dans l’ensemble du génome, puis d’assembler ces lectures en «  contigs  » sur la base de leurs chevauchements. Le Genoscope, dans cette nouvelle collaboration, a produit 10% des lectures totales assemblées par Celera. La lecture des séquences par paires, aux deux extrémités d’inserts de différentes tailles, permet d’une part de relier, d’ordonner et d’orienter les contigs entre eux au sein d’«  ossatures  » (scaffolds), et d’autre part de valider la fiabilité de l’assemblage par l’analyse des violations dans l’orientation et la distance des paires de séquences. Les STC du Genoscope et de TIGR ont servi dans ce cadre à jeter des ponts à grande échelle entre les contigs. On a ainsi pu regrouper les 19nbsp ;000 contigs en 303 grandes ossatures de plus de 30 kb, représentant 91% de la séquence reconstituée, et en plus de 8 000 petites ossatures. S’il est relativement facile d’estimer la taille des nombreux trous entre les contigs dans les ossatures, il est moins facile d’évaluer les trous entre les ossatures. La grande majorité des ossatures ont pu être cartographiées sur les trois chromosomes de l’anophèle grâce à une carte physique. Cette carte a été établie par hybridation des BACs sur les chromosomes «  polytènes  » des glandes salivaires du moustique, qui présentent l’avantage d’être géants. L’assemblage, entièrement effectué par Celera, a toutefois été compliqué par le degré de polymorphisme de la souche séquencée. Certaines portions de l’ébauche génomique pourraient être mal assemblées.

GIF - 21.8 ko
Assemblage de l’ébauche génomique après séquençage aléatoire global

Le Genoscope et l’institut Pasteur travaillent à améliorer la qualité de l’ébauche. Nous avons entrepris de séquencer des ADN complémentaires d’anophèle sur toute leur longueur. Ces ADNc (copies des ARN messagers issus de la transcription des gènes de l’anophèle) offriront un moyen de valider l’annotation et, sans doute, de la corriger par endroit. En outre, ils permettront de corriger certaines erreurs locales d’assemblage.

Contacts :
Biology : Patrick Wincker (Genoscope) - Charles Roth (Pasteur Institute)

mise à jour le 11 janvier 2008

© Genoscope - Centre National de Séquençage
2 rue Gaston Crémieux CP5706 91057 Evry cedex
Tél:  (+33) 0 1 60 87 25 00
Fax: (+33) 0 1 60 87 25 14

Accueil | Présentation | Projets | Actualités | Panorama de presse | Ressources | Contact
Suivre la vie du site RSS 2.0 | Plan du site | Crédits | Mentions légales