Ingeniería inversa del código fuente de la vacuna de BioNTech/Pfizer para el SARS-CoV-2

Translations: ελληνικά / 中文 / Deutsch / Français / Hrvatski / Italiano / नेपाली / Polskie / Português

¡Bienvenidos! En esta publicación daremos una mirada carácter por carácter al código fuente de la vacuna de ARNm de BioNTech/Pfizer al SARS-CoV-2.

Quiero agradecer a la gran cantidad de personas que se tomaron el tiempo de revisar que este artículo sea legible y correcto. Todos los errores, sin embargo, continúan siendo míos,> pero me encantaría poder escuchar sobre ellos rápidamente en bert@hubertnet.nl o @bert_hu_bert

Comentarios sobre la traducción al español dirigirlos a @JHRamirezPrado, @marulandaandrec y @odin_9000

Ahora bien, estas palabras pueden sonar algo extrañas - la vacuna es un líquido que se inyecta en tu brazo. ¿Cómo podemos hablar de código fuente?

Esta es una buena pregunta, así que vamos a empezar con una pequeña parte del verdadero código fuente de la vacuna de BioNTech/Pfizer, también conocida como BNT162b2, también como Tozinameran o como Comirnaty.

Los primeros 500 caracteres del ARNm de BNT162b2. Fuente: World Health Organization

Los primeros 500 caracteres del ARNm de BNT162b2. Fuente: World Health Organization

La vacuna de ARNm de BNT162b tiene este código digital en su esencia. Tiene 4284 caracteres de longitud, así que podría caber en una buena cantidad de tweets. Al inicio del proceso de producción de la vacuna alguien subió este código a una impresora de ADN (sí), la cual convirtió los bytes en el disco a moléculas reales de ADN.

Una impresora de ADN Codex BioXp 3200

Una impresora de ADN Codex BioXp 3200

De esta máquina salen unas pequeñas cantidades de ADN las cuales, después de un largo procesamiento biológico y químico, terminan en forma de ARN (más sobre esto después) en el vial de la vacuna. Una dosis de 30 microgramos resulta tener en realidad 30 microgramos de ARN. Además, hay un sistema de empaquetamiento lipídico (de grasa) bastante inteligente que se ocupa de llevar el ARNm a nuestras células.

El ARN es la versión volátil de la “memoria de trabajo” del ADN. El ADN es como el almacenamiento en memorias flash de la biología. El ADN es muy duradero, redundante internamente y muy confiable. Pero similarmente a como los computadores no ejecutan el código directamente de la memoria flash, antes de que cualquier cosa ocurra, el código se copia a un sistema más rápido y versátil, pero a su vez mucho más frágil.

Para los computadores, esto es la RAM, para la biología, esto es el ARN. La similitud es increíble. A diferencia de la memoria flash, la RAM se degrada muy rápidamente a menos que se le cuide con mucho cariño. La razón por la que la vacuna de ARNm, de Pfizer/BioNTech debe ser guardada en lo más profundo de los ultracongeladores es la misma: el ARN es una flor frágil.

Cada carácter de ARN tiene una masa del orden de 0.53·10⁻²¹ gramos, lo que significa que hay 6·10¹⁶ caracteres en una única dosis de 30 microgramos de vacuna. Expresado en bytes, esto es alrededor de 25 petabytes, aunque debe decirse que esto consiste de alrededor de 2000 millones de repeticiones de los mismos 4284 caracteres. El contenido de información real en la vacuna es alrededor de un kilobyte. el propio SARS-CoV-2 contiene dentro de sí cerca de 7.5 kilobytes.

Una muy breve introducción.

El ADN es un código digital. A diferencia de los computadores, que usan 0 y 1, la vida usa A, C, G y U/T (los ‘nucleótidos’, ‘nucleósidos’, o ‘bases).

En los computadores guardamos el 0 y 1 como la ausencia o presencia de carga, o como una corriente, o una transición magnética, o como voltaje, o la modulación de una señal, o como el cambio en la reflexividad. En pocas palabras, el 0 y el 1 no son algún tipo de concepto abstracto – estos viven como electrones y muchas otras encarnaciones físicas.

En la naturaleza, A, C, G y U/T son moléculas, guardadas como cadenas de ADN (o ARN).

En los computadores, agrupamos 8 bits en un byte, y el byte a su vez es la unidad típica de datos que se procesan.

La naturaleza agrupa 3 nucleótidos en un codón, y este codón es la unidad típica de procesamiento. Un codón contiene 6 bits de información (2 bits por carácter de ADN y 3 caracteres = 6 bits, lo que significa 2⁶ = 64 valores diferentes de codón).

Bastante digital hasta ahora. Cuando dudes de algo, dirígete al documento de la OMS con el código digital para verlo con tus propios ojos.

Algo más de lectura adicional está disponible aquí - este link (‘What is life’) podría ayudarte a entender el resto de esta página. O, si te gusta el video, hay dos horas preparadas para ti.(en inglés)

Entonces, ¿qué HACE el código en realidad?

La idea de una vacuna es enseñarle a nuestro sistema inmune como luchar contra un patógeno, sin que nosotros nos enfermemos en realidad. Históricamente, esto se ha hecho inyectando una versión debilitada o incapacitada (atenuada) del virus, mas una sustancia auxiliar para asustar a nuestro sistema inmune y hacer que entre en acción. Esto fue una técnica definitivamente analógica que requería millones de huevos (o insectos). También requería de mucha suerte y una cantidad enorme de tiempo. A veces también se utilizaba un virus diferente (no relacionado).

Una vacuna de ARNm logra lo mismo (educar nuestro sistema inmunológico) pero en una manera más parecida a un láser. Y esto es en los dos sentidos – muy precisa pero también muy poderosa.

Entonces, vamos a ver como funciona. La inyección contiene material genético volátil que describe la famosa proteína ´Spike´ (pico o espiga, en español) del SARS-CoV-2. A través de astutos medios químicos, la vacuna se las ingenia para llevar este material genético a algunas de nuestras células.

Luego estas, muy responsables, comienzan a producir proteínas Spike del SARS-CoV-2 en cantidades suficientemente grandes, de manera que nuestro sistema inmune entra en acción. Confrontadas con las proteínas Spike, y algunas señales delatoras de que las células han sido secuestradas, nuestro sistema inmune desarrolla una poderosa respuesta contra varios aspectos de la proteína Spike Y su proceso de producción.

Y esto es lo que nos lleva a la vacuna con 95% de eficiencia.

¡El código fuente!

Vamos a empezar desde el principio, un muy buen lugar para empezar. El documento de la OMS tiene esta útil imagen:

Esto es, de alguna manera, una especie de índice. Empecemos con el ´sombrero´ (cap en la imagen), que de hecho se representa como un pequeño sombrero.

Muy similar a como no puedes simplemente lanzar códigos en un archivo a un computador y correrlo, el sistema operativo biológico requiere encabezados, tiene enlazadores y cosas como convenciones de llamada.

El código de la vacuna comienza con los dos siguientes nucleótidos:

GA

Esto puede compararse en gran medida con cualquier ejecutable de DOS y Windows, que comienzan con MZ, o en scripts de UNIX, que comienzan con #!. Tanto en la vida como en los sistemas operativos, estos dos caracteres no son ejecutados de ninguna manera. Pero ellos tienen que estar ahí pues de otra manera nada ocurre.

El ´sombrero´ de ARNm tiene una cantidad de funciones. Por un lado, marca el código para señalar que viene del núcleo. En nuestro caso, por supuesto, nuestro código viene de una vacunación. Pero no tenemos que decirle eso a la célula. El sombrero hace que nuestro código parezca legítimo, lo que lo protege de la destrucción.

Los dos nucleótidos iniciales GA son también, químicamente, ligeramente diferentes del resto del ARN. En este sentido, el GA tiene alguna señalización poco común.

La “región cinco-prima no traducida”.

Algo de jerga aquí. Las moléculas de ARN sólo pueden leerse en una dirección. Confusamente, la parte donde la lectura comienza se llama el 5’ o cinco-prima. La lectura termina en la terminación 3’ o tres-prima.

La vida consiste en proteínas (o cosas hechas de proteínas). Y estas proteínas son descritas en el ARN. Cuando el ARN es convertido en proteínas, se le llama traducción.

Aquí tenemos la región 5’ no traducida (UTR, por sus siglas en inglés), de manera que esta parte no termina en la proteína:

GAAΨAAACΨAGΨAΨΨCΨΨCΨGGΨCCCCACAGACΨCAGAGAGAACCCGCCACC

Aquí encontramos nuestra primera sorpresa. Los caracteres normales del ARN son A, C, G y U. U también es conocido como T en el ADN. Pero aquí encontramos un Ψ, ¿que está pasando?

Esta es una de las partes excepcionalmente astutas de la vacuna. Nuestro cuerpo mantiene un poderoso sistema antivirus (“el original”). Por esta razón, a las células no les emociona en lo más mínimo el ARN foráneo e intentan, con todas sus fuerzas, destruirlos antes de que hagan cualquier cosa.

Esto es un pequeño problema para nuestra vacuna – esta necesita escabullirse a través de nuestro sistema inmune. Después de muchos años de experimentación, se encontró que si la U en el ARN es reemplazada por una molécula ligeramente modificada, nuestro sistema inmune pierde el interés. En serio.

Así que, en la vacuna de BioNTech/Pfizer, cada U ha sido reemplazada por 1-metil-3’-pseudouridilil, representado por Ψ. Lo genial de esto es que, aunque el reemplazo por Ψ aplaque (calme) el sistema inmunitario, las partes relevantes de la célula lo siguen aceptando como si fuera una U.

En seguridad informática también conocemos este truco: a veces, es posible transmitir una versión ligeramente corrupta de un mensaje para confundir a los cortafuegos y a las soluciones de seguridad. Pese a esto, es aceptado por los servidores de «backend», que pueden ser entonces hackeados.

Estamos recogiendo los frutos de la investigación en ciencia básica realizada en el pasado. Los descubridores de la técnica Ψ tuvieron que luchar para que aceptasen y financiasen su trabajo. Deberíamos estar todos agradecidos. Estoy seguro de que el Premio Nobel les llegará en su debido momento.

Mucha gente ha preguntado si los virus también podrían utilizar la técnica Ψ para vencer a nuestro sistema inmunológico. En resumen, esto es extremadamente improbable. La vida simplemente no tiene la maquinaria para construir nucleótidos de 1-metil-3’-pseudouridilil. Los virus dependen de la maquinaria de la vida para reproducirse, y esta infraestructura simplemente no existe. Las vacunas de ARNm se degradan rápidamente en el cuerpo humano y no hay posibilidad de que el ARN modificado con Ψ se replique con el Ψ todavía allí. “No, en serio, las vacunas de ARNm no afectarán su ADN” también es una buena lectura.

Volviendo a la región 5’ UTR. ¿Qué hacen estos 51 caracteres? Como casi todo en la naturaleza, no tiene una única función clara.

Cuando nuestras células traducen ARN a proteínas utilizan una máquina llamada ribosoma. El ribosoma es como una impresora 3D pero de proteínas. Ingiere una hebra de ARN y, a partir de ella, emite una cadena de aminoácidos, que se pliegan formando una proteína.


Fuente: [Wikipedia user Bensaccount](https://commons.wikimedia.org/wiki/File:Protein_translation.gif)

Esto es lo que vemos que sucede arriba. La cinta negra en la parte inferior es ARN. La cinta que aparece en la parte verde es la proteína que se está formando. Las cosas que entran y salen volando son aminoácidos más adaptadores para que encajen en el ARN.

Este ribosoma necesita asentarse físicamente en la hebra de ARN para que funcione. Una vez sentado, puede comenzar a formar proteínas basadas en más ARN que ingiere. A partir de esto, puedes imaginar que todavía no puede leer las partes donde aterriza primero. Esta es sólo una de las funciones de la UTR: la zona de aterrizaje del ribosoma. La UTR proporciona una guía de inicio.

Además de esto, la UTR también contiene metadatos: ¿cuándo debe realizarse la traducción? ¿Y cuánto? Para la vacuna, tomaron la UTR más “ahora mismo” que pudieron encontrar, extraída del gen de la alfa globina. Se sabe que este gen produce de forma consistente muchas proteínas. En años anteriores, los científicos ya habían encontrado formas de optimizar aún más esta UTR (según el documento de la OMS), por lo que esta no es exactamente la UTR de alfa globina. Es mejor.

El péptido señal de la glicoproteína S.

Como se señaló, el objetivo de la vacuna es lograr que la célula produzca grandes cantidades de la proteína Spike del SARS-CoV-2. Hasta este punto, hemos encontrado principalmente metadatos y cosas de “convenciones de llamada” en el código fuente de la vacuna. Pero ahora entramos de hecho en el territorio de las proteínas virales.

Sin embargo, todavía nos queda una capa de metadatos que cruzar. Una vez que el ribosoma (de la espléndida animación anterior) ha producido una proteína, esta proteína aún necesita ir a alguna parte. Esto está codificado en el “péptido señal de la glicoproteína S (secuencia líder extendida)”.

Una forma de ver esto es que al comienzo de la proteína hay una especie de etiqueta de dirección, codificada como parte de la proteína misma. En este caso específico, el péptido señal dice que esta proteína debe salir de la célula a través del “retículo endoplásmico”. ¡Incluso la jerga de Star Trek no es tan elegante como esta!

El “péptido señal” no es muy largo, pero cuando miramos el código, hay diferencias entre el ARN viral y el de la vacuna:

(Tenga en cuenta que para fines de comparación, he reemplazado el elegante Ψ modificado por un U de ARN normal)

           3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3
Virus:   AUG UUU GUU UUU CUU GUU UUA UUG CCA CUA GUC UCU AGU CAG UGU GUU
Vaccine: AUG UUC GUG UUC CUG GUG CUG CUG CCU CUG GUG UCC AGC CAG UGU GUG
               !   !   !   !   ! ! ! !     !   !   !   !   !            

¿Entonces qué está pasando? No he tecleado accidentalmente el ARN en grupos de 3 letras. Tres caracteres de ARN forman un codón. Y cada codón codifica un aminoácido específico. El péptido señal de la vacuna consta exactamente de los mismos aminoácidos que el propio virus.

Entonces, ¿cómo es que el ARN es diferente?

Hay 4³ = 64 codones diferentes, ya que hay 4 caracteres de ARN, y hay tres de ellos en un codón. Sin embargo, solo hay 20 aminoácidos diferentes. Esto significa que múltiples codones codifican el mismo aminoácido.

La vida utiliza la siguiente tabla casi universal para mapear codones de ARN en aminoácidos:

Tabla de codones de ARN (Wikipedia)

Tabla de codones de ARN (Wikipedia)

En esta tabla, podemos ver que las modificaciones en la vacuna (UUU -> UUC) son todas sinónimas. El código de ARN de la vacuna es diferente, pero salen los mismos aminoácidos y la misma proteína.

Si miramos detenidamente, vemos que la mayoría de los cambios ocurren en la tercera posición del codón, señalado con un ‘3’ arriba. Y si revisamos la tabla de codones universales, vemos que esta tercera posición, de hecho, a menudo no importa para qué aminoácido se produzca.

Así que los cambios son sinónimos, pero ¿por qué están ahí entonces? Mirando detenidamente, vemos que todos los cambios excepto uno conducen a más C y Gs

¿Por qué harías eso? Como se señaló anteriormente, nuestro sistema inmunitario ve muy mal el ARN “exógeno”, el código de ARN que proviene del exterior de la célula. Para evadir la detección, la “U” en el ARN ya fue reemplazada por una Ψ.

Sin embargo, resulta que el ARN con una mayor cantidad de Gs y Cs también se convierte de manera más eficiente en proteínas,

Y esto se ha logrado en el ARN de la vacuna reemplazando muchos caracteres con Gs y Cs siempre que fue posible.

Estoy un poco fascinado por el único cambio que no condujo a una C o G adicional, la modificación CCA -> CCU. Si alguien sabe la razón, ¡hágamelo saber! Tenga en cuenta que soy consciente de que algunos codones son más comunes que otros en el genoma humano, pero también leí que esto no influye mucho en la velocidad de traducción.

La proteína Spike en sí.

Los siguientes 3777 caracteres del ARN de la vacuna similarmente han sido “optimizados en sus codones” para agregar una gran cantidad de Cs y Gs. En aras del espacio, no enumeraré todo el código aquí, pero vamos a acercarnos a una parte excepcionalmente especial. Esta es la parte que lo hace funcionar, la parte que en realidad nos ayudará a volver a la vida normal:

                  *   *
          L   D   K   V   E   A   E   V   Q   I   D   R   L   I   T   G
Virus:   CUU GAC AAA GUU GAG GCU GAA GUG CAA AUU GAU AGG UUG AUC ACA GGC
Vaccine: CUG GAC CCU CCU GAG GCC GAG GUG CAG AUC GAC AGA CUG AUC ACA GGC
          L   D   P   P   E   A   E   V   Q   I   D   R   L   I   T   G
           !     !!! !!        !   !       !   !   !   ! !              

Aquí vemos los cambios sinónimos habituales de ARN. Por ejemplo, en el primer codón vemos que CUU se cambia a CUG. Esto agrega otra “G” a la vacuna, que sabemos que ayuda a mejorar la producción de proteínas. Tanto CUU como CUG codifican el aminoácido “L” o leucina, por lo que nada cambió en la proteína.

Cuando comparamos la proteína Spike completa en la vacuna, todos los cambios son sinónimos como este … excepto por dos, y esto es lo que vemos aquí.

El tercer y cuarto codón mostrados arriba representan cambios reales. Los aminoácidos K y V se reemplazan por “P” o Prolina. Para “K” esto requirió tres cambios ("!!!") y para “V” requirió sólo dos ("!!").

Resulta que estos dos cambios mejoran enormemente la eficacia de la vacuna..

Entonces, ¿Qué está pasando aquí? Si observa una partícula real de SARS-CoV-2, puede ver la proteína Spike (pico) como, bueno, un montón de picos:

partículas virales del SARS (Wikipedia)

partículas virales del SARS (Wikipedia)

Los picos están montados en el cuerpo del virus (’la proteína de la nucleocápside’). Pero la cuestión es que nuestra vacuna solo genera los picos en sí mismos y no los estamos montando en ningún tipo de cuerpo viral.

Resulta que, las proteínas Spike independientes y no modificadas colapsan en una estructura diferente. Si se inyecta como vacuna, esto de hecho haría que nuestros cuerpos desarrollen inmunidad … pero solo contra la proteína de pico colapsada.

Y el verdadero SARS-CoV-2 aparece con el pico puntiagudo (erguido). La vacuna no funcionaría muy bien en ese caso.

¿Entonces qué es lo que hay que hacer? En 2017, se describió cómo colocar una doble sustitución de Prolina en el lugar correcto haría que las proteínas SARS-CoV-1 y MERS adoptaran su configuración de ‘pre-fusión’, incluso sin ser parte del virus completo. Esto funciona porque la prolina es un aminoácido muy rígido. Actúa como una especie de férula, estabilizando la proteína en el estado que necesitamos mostrarle al sistema inmune.

La gente que descubrió esto debería estar caminando chocándose los cinco sin cesar. Deberían emanar de ellos cantidades insoportables de presunción. Y todo esto sería bien merecido.

¡Actualización! Me ha contactado el laboratorio McLellan, uno de los grupos detrás del descubrimiento de la Prolina. Me dicen que el chocar los cinco está limitado debido a la pandemia en curso, pero están contentos de haber contribuido a las vacunas. También destacan la importancia de muchos otros grupos, trabajadores y voluntarios.

El fin de la proteína, siguientes pasos.

Si nos desplazamos por el resto del código fuente, encontramos algunas pequeñas modificaciones al final de la proteína Spike:

          V   L   K   G   V   K   L   H   Y   T   s             
Virus:   GUG CUC AAA GGA GUC AAA UUA CAU UAC ACA UAA
Vaccine: GUG CUG AAG GGC GUG AAA CUG CAC UAC ACA UGA UGA 
          V   L   K   G   V   K   L   H   Y   T   s   s          
               !   !   !   !     ! !   !          ! 

Al final de una proteína encontramos un codón de ‘alto’, denotado aquí por una ’s’ minúscula. Esta es una forma educada de decir que la proteína debería terminar aquí. El virus original usa el codón de terminación UAA, la vacuna usa dos codones de terminación UGA, quizás sólo por si acaso.

La Región 3’ No Traducida.

Al igual que el ribosoma necesitaba un poco de guía de inicio en el extremo 5 ‘, donde encontramos la “región cinco prima no traducida”, al final de una proteína encontramos una construcción similar llamada 3’ UTR.

Se podrían escribir muchas palabras sobre el 3 ‘UTR, pero aquí cito lo que dice Wikipedia: “La región 3’ no traducida juega un papel crucial en la expresión génica al influir en la localización, estabilidad, exportación y eficiencia de traducción de un ARNm… a pesar de nuestra comprensión actual de las 3’-UTR, siguen siendo relativamente misteriosas”.

Lo que sí sabemos es que ciertas 3’-UTR tienen mucho éxito en promover la expresión de proteínas. Según el documento de la OMS, la 3’-UTR de la vacuna BioNTech/Pfizer se seleccionó del “ARNm del potenciador amino-terminal de división (AES, amino-terminal enhancer of split) y el ARN ribosómico 12S mitocondrial para conferir estabilidad al ARN y una alta expresión de proteína total”. A lo que digo, bien hecho.

El AAAAAAAAAAAAAAAAAAAAAA que lo termina todo.

El final del ARNm está poliadenilado. Esta es una forma elegante de decir que termina en una gran cantidad de AAAAAAAAAAAAAAAAAA. Parece que incluso el ARNm ha tenido suficiente de 2020.

El ARNm se puede reutilizar muchas veces, pero cuando esto sucede, también pierde algunas de las As al final. Una vez que se agotan las As, el ARNm ya no es funcional y se descarta. De esta manera, la cola “poli-A” protege contra la degradación.

Se han realizado estudios para averiguar cuál es el número óptimo de As al final para las vacunas de ARNm. Leí en la literatura de acceso abierto que esto alcanzó un máximo a las 120 más o menos.

La vacuna BNT162b2 termina con:

                                     ****** ****
UAGCAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAGCAUAU GACUAAAAAA AAAAAAAAAA 
AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAA

Se trata de 30 As, luego un “enlazador de 10 nucleótidos” (GCAUAUGACU), seguido de otras 70 As.

Sospecho que lo que vemos aquí es el resultado de más optimización patentada para mejorar aún más la expresión de proteínas.

Resumiendo

Con esto, ahora conocemos el contenido exacto del ARNm de la vacuna BNT162b2 y, en la mayoría de los casos, entendemos por qué están ahí:

  • El CAP para asegurarse de que el ARN se vea como un ARNm normal
  • Una región no traducida (UTR) 5’ conocida exitosa y optimizada
  • Un péptido señal optimizado en sus codones para enviar la proteína Spike al lugar correcto (copiado al 100% del virus original)
  • Una versión optimizada en sus codones del pico original, con dos sustituciones de “Prolina” para asegurarse de que la proteína aparezca en la forma correcta.
  • Una región no traducida 3’ conocida exitosa y optimizada
  • Una cola poli-A ligeramente misteriosa con un “enlazador” inexplicado allí

La optimización de codones agrega muchas Gs y Cs al ARNm. Mientras tanto, el uso de Ψ (1-metil-3’-pseudouridilil) en lugar de U ayuda a evadir nuestro sistema inmunológico, por lo que el ARNm permanece el tiempo suficiente para que podamos ayudar a entrenar el sistema inmunológico.

Lecturas/videos adicionales

En 2017 realicé una presentación de dos horas sobre el ADN, que pueden ver aquí. Al igual que esta página, está dirigida a personas informáticas.

Además, he mantenido una página sobre ‘ADN para programadores’ desde 2001.

También puede ser que disfrutes de esta introducción a nuestro increíble sistema inmunológico.

Finalmente, esta lista de las publicaciones de mi blog tiene bastante material relacionado con el ADN, el SARS-CoV-2 y el COVID.