Informations

Que signifie « écrire une image et un GIF dans l'ADN des bactéries » ?

Que signifie « écrire une image et un GIF dans l'ADN des bactéries » ?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

BBC News a récemment publié un article disant que :

Une image et un court métrage ont été codés dans l'ADN, utilisant les unités d'héritage comme support de stockage d'informations… L'équipe a séquencé l'ADN bactérien pour récupérer le gif et l'image, vérifiant que les microbes avaient bien incorporé les données comme prévu.

L'article de presse montre une image d'une main (montrée ci-dessus) et un court métrage (non montré ici) d'un cavalier qui a été codé dans l'ADN "à l'aide d'un outil d'édition du génome connu sous le nom de Crispr [sic]".

Ma question est, qu'est-ce que cela signifie? Les scientifiques ont-ils décomposé une image en 0 et en 1 et l'ont-ils (installée ?) en bactéries ? Comment un scientifique (télécharge-t-il ?) une image dans une bactérie puis (retélécharge-t-il ?) l'image plus tard ? Comment l'ADN conserve-t-il les informations d'une image qui peut être (téléchargée) ?


Juste pour ajouter ce qui aurait pu manquer dans la belle réponse de @iayork. Je veux juste donner une image plus simple de l'encodage fait dans le E. coli ADN.

  • D'abord pour le stratégie rigide dans laquelle 4 couleurs de pixels étaient chacune spécifiées par une base différente, supposons que nous ayons une séquence :

    AAGCCCTGGTCAGCT

    Ignorez le premier AAG et commencez par C. Maintenant, chaque base d'ADN peut représenter un nombre binaire à 2 chiffres, et chaque nombre correspond alors à une couleur, comme :

    C = 00

    T = 01

    A = 10

    G = 11

    Avec cette stratégie à l'esprit, la séquence CCCT donnerait 00000000 pixel (ou ensemble de pixels), et ainsi de suite à mesure que la séquence grandit. Ce pixel définirait la couleur de quatre pixels dans l'image. Ainsi, chaque base correspond à un pixel de l'image, et la base définit la couleur du pixel dans une image en 4 couleurs.

  • Venons-en maintenant au stratégie flexible. Pour commencer, revoyez le tableau :

    Ici, nous utilisons des codons standards à 3 bases. A partir de la valeur prédéfinie pour chaque couleur (1 à 21), on peut trouver la couleur à l'aide du codon. Par exemple, à partir de la même séquence :

    AAGCCCTGGTCAGCT

    Ignorez à nouveau AAG et commencez par CCC. A partir du tableau, CCC code une valeur de 1. Passez au suivant, TGG code une valeur de 16, TCA code 10 et GCT code 7, et ainsi de suite pour les séquences plus longues. Ainsi, nous obtenons maintenant une image avec 4 pixels soit 2 x 2 avec les pixels ayant le code couleur 1, 16, 10, 7. De cette façon, chaque pixel peut avoir une couleur à partir de valeurs prédéfinies. Lors de l'extraction de ces données, l'image sort comme (de gizmodo):

La partie ci-dessus parlait principalement de l'image unique d'une main. Maintenant, en parlant du GIF d'équitation, le processus est presque le même. Ici, nous devons encoder 5 images au lieu d'une. Les scientifiques ont codé ces 5 images dans 5 cellules différentes. Après les avoir cultivées pendant quelques générations, ils ont extrait les informations de toutes les images (à l'aide d'outils bioinformatiques standard) et les ont compilées pour récupérer le GIF. Les GIF initiaux et finaux ressemblent à ceci (de wired.com):

Que font ces rigide et souple moyenne?

Dans cette technique, les termes rigide et souple concernent davantage la base individuelle que le codon. Dans le rigide stratégie, la valeur de chaque base est fixe, c'est-à-dire rigide. Par exemple, dans n'importe quelle séquence, C encode la valeur '00', quelle que soit la base suivante ou précédente. Cela signifie que dans les deux CCCT et GGTC, C a sa valeur rigide '00'. Ainsi, pour une image en 4 couleurs, où chaque base correspond rigidement à la couleur d'un pixel, on obtient autant de pixels que de bases dans la séquence.

D'autre part, dans le souple stratégie, les bases individuelles n'ont pas de valeur fixe et la valeur globale d'un pixel est définie par toutes les bases codant ce pixel. Par exemple, TCC code une valeur de 6 tandis que CCC code 1. La valeur de la base individuelle est dégénérée (ou souple), d'où le nom stratégie flexible.

Ainsi, en un mot, alors que la stratégie rigide est plus efficace puisqu'un pixel est défini par une base (alors que dans la stratégie flexible, un pixel est défini par un codon), la stratégie flexible est mieux adaptée pour obtenir des images plus colorées puisque vous obtenez plus d'options de couleurs en augmentant le nombre de bases dans un codon (alors que vous n'obtenez que 4 couleurs en stratégie rigide, définies par 4 bases).

Pourquoi ignorons-nous AAG?

Comme @canadiener le souligne dans sa réponse, AAG est un PAM c'est-à-dire le motif adjacent Protospacer. D'après Wikipédia :

Le motif adjacent au protospacer (PAM) est une séquence d'ADN de 2 à 6 paires de bases suivant immédiatement la séquence d'ADN ciblée par la nucléase Cas9 dans le système immunitaire adaptatif bactérien CRISPR. PAM est un composant du virus ou du plasmide envahissant, mais n'est pas un composant du locus bactérien CRISPR.

En termes simples (en évitant les détails techniques), PAM est nécessaire au fonctionnement du CRISPR, mais ne fait pas partie de la séquence elle-même. Tout comme une ponctuation, elle est nécessaire au bon fonctionnement de CRISPR, mais elle ne doit pas être lue à des fins d'encodage/décodage. Pour le Cas9 trouvé dans E. coli (et est la plus populaire), la séquence AAG sert de PAM et n'est donc pas utilisée à des fins de codage ici. Les scientifiques ont également évité d'utiliser AAG dans leurs pixels afin qu'il n'y ait pas plus d'un site de reconnaissance pour l'intégration (ignorez ce point si vous n'êtes pas au courant du fonctionnement de CRISPR).

Référence: Shipman, S., Nivala, J., Macklis, J. et Church, G. (2017). Encodage CRISPR-Cas d'un film numérique dans les génomes d'une population de bactéries vivantes. La nature. http://dx.doi.org/10.1038/nature23017


L'image n'était pas dans l'ADN en tant que telle, seulement comme une représentation abstraite qui pouvait être convertie en image à partir de la connaissance du code. En bref, ils ont codé l'image en ADN, en utilisant deux stratégies différentes dans lesquelles l'ADN représentait des pixels - soit avec une seule base d'ADN représentant un pixel, soit avec un triplet représentant un pixel. Connaissant le code qu'ils utilisaient, ils pouvaient ensuite extraire les informations et les retransformer en image.

Citant l'article original, l'encodage CRISPR-Cas d'un film numérique dans les génomes d'une population de bactéries vivantes :

Nous avons commencé avec une image et stocké des valeurs de pixels dans un code nucléotidique… Nous avons d'abord codé des images d'une main humaine en utilisant deux stratégies différentes de codage de valeurs de pixels : une stratégie rigide, dans laquelle 4 couleurs de pixels étaient chacune spécifiées par une base différente ; et une stratégie flexible, dans laquelle 21 couleurs de pixels possibles étaient spécifiées par une table de triplet de nucléotides dégénérée… nucléotides dans cet espaceur. Quatre nucléotides définissent chaque pixel, et les pixels d'un pixel donné sont répartis sur l'image…

Leur stratégie de 21 couleurs est décrite dans cette figure :

Remarque : le document n'est pas en accès libre. Si vous voulez une version en accès complet, Church met souvent des versions librement accessibles de ses articles sur son site Web ; ce papier, n° 441 sur sa liste, y est toujours affiché comme "sous presse", mais revenez régulièrement et peut-être y sera-t-il disponible


Étant donné que quelques personnes ont demandé pourquoi leAAGtriplet est évité dans le code, j'ai pensé ajouter ceci en plus des autres réponses. La partie intéressante de cette recherche n'est pas nécessairement le codage de l'image mais plutôt la façon dont ils ont utilisé le système CRISPR pour intégrer l'ADN codant dans le génome. Cela peut être une surprise pour certains que l'image ne soit pas codée dans une longue chaîne mais plutôt, en raison de la nature du système CRISPR de type I de E. coli, en 33 morceaux de paires de bases appelés protospacers (dont 27 bases sont utilisées pour l'encodage proprement dit, ce qui donne 9 pixels par espaceur). Ainsi, l'intégralité de l'image de 30x30 pixels nécessitait une intégration stable de 100 protospacers (mais pas nécessairement dans une seule cellule). Ces protoespaceurs (oligonucléotides) ont été synthétisés chimiquement puis introduits dans les cellules par électroporation.

L'intégration de ces protoespaceurs dans le locus génomique CRISPR a utilisé la surexpression des endonucléases hétérologues Cas1 et Cas2. Ces protéines reconnaissent préférentiellement l'ADN exogène lorsqu'il est flanqué d'un motif associé à un protospacer (PAM), qui dans le cas du système CRISPR en question estAAG. Le complexe reconnaît le PAM et clive l'ADN exogène pour former l'espaceur de 33 pb qui est inséré dans le génome. De façon simpliste, cela pourrait être représenté quelque chose comme ceci :

Cependant, considérons une situation où AAG est utilisé pour encoder un pixel :

Cela crée un PAM interne qui pourrait entraîner une perte d'informations, selon le PAM reconnu. En fait, les principaux avantages d'avoir un code dégénéré sont d'éviter certaines combinaisons de triplets qui conduisent à des PAM internes ou à des répétitions de séquences (qui sont sujettes aux erreurs de réplication).


Références / Lectures complémentaires :

Amitai G, Sorek R. 2016. Adaptation CRISPR-Cas : aperçu du mécanisme d'action. Nat Rev Microbiol 14:67-76.

Shipman SL, Nivala J, Macklis JD, directeur général de l'église. 2017. Encodage CRISPR-Cas d'un film numérique dans les génomes d'une population de bactéries vivantes. La nature.

Wang J, Li J, Zhao H, Sheng G, Wang M, Yin M, Wang Y. 2015. Base structurelle et mécanique de l'acquisition d'espaceurs dépendant de PAM dans les systèmes CRISPR-Cas. Cellule 163 : 840-853

PS : Pour ceux qui s'en soucient, ces images ne sont pas techniquement correctes mais, pour le moment, je n'ai pas envie de les changer. En réalité, le PAM ne fait pas partie de l'entretoise traitée.


Voir la vidéo: Full how-to tutorial to create your own personalized GIFs (Août 2022).