Publicidad

Llamado a presentar artículos “Call for papers”

La revista BMC te invita a publicar en la edición especial: Cultivo celular en 3D para la investigación en cáncer.

CodonTransformer: Inteligencia Artificial Contextual para Optimizar la Síntesis de Proteínas entre Especies

CodonTransformer: Inteligencia Artificial Contextual para Optimizar la Síntesis de Proteínas entre Especies

La capacidad de diseñar y sintetizar secuencias de ADN a la medida es una piedra angular de la biología sintética y la biotecnología. Sin embargo, traducir una secuencia de proteína deseada a una secuencia de ADN funcional o viceversa, presenta un desafío complejo. Debido a la degeneración del código genético (múltiples codones de tres nucleótidos pueden codificar para el mismo aminoácido), existen innumerables maneras de escribir el mensaje genético. La elección de codones no es trivial; los organismos exhiben un “sesgo de uso de codones” característico, prefiriendo ciertos codones sobre otros, derivado de los ARN de transferencia (tRNAs) que tenga su genoma. Esta preferencia influye en la eficiencia y precisión de la traducción, el plegamiento co-traduccional de la proteína e incluso su estabilidad. Optimizar una secuencia de ADN para su expresión eficiente en un organismo huésped (expresión heteróloga) requiere navegar un espacio combinatorio astronómico, superando las capacidades de los métodos tradicionales. Un nuevo estudio en Nature Communications por Adibvafa Fallahpour, Vincent Gureghian, Amir Pandi y colaboradores [1] introduce “CodonTransformer”, un modelo de inteligencia artificial (IA) basado en redes neuronales Transformer que aprende y aplica reglas de uso de codones de manera contextual y multi específica.

El Desafío: Más Allá de la Frecuencia de Codones

Las estrategias tradicionales de optimización de codones a menudo se basan en simplemente reemplazar los codones por los más frecuentes en el organismo huésped o en intentar imitar el patrón de un gen natural similar (armonización). Sin embargo, estas aproximaciones tienen limitaciones: el uso excesivo de codones frecuentes puede agotar los recursos celulares (tRNAs) y causar agregación proteica, mientras que la armonización está limitada a ejemplos naturales existentes. Crucialmente, el uso de codones no es solo una cuestión de frecuencia global; el contexto local a lo largo de la secuencia de ARNm juega un papel importante en la dinámica de la traducción y el plegamiento. Se necesitaba un enfoque que pudiera aprender estas reglas contextuales complejas y aplicarlas al diseño de novo.

La Solución: CodonTransformer y el Aprendizaje Profundo Multiespecie

Aquí es donde entra la IA. Los autores desarrollaron CodonTransformer, un modelo de aprendizaje profundo basado en la arquitectura Transformer (específicamente una variante llamada BigBird, optimizada para secuencias largas). A diferencia de enfoques previos limitados a un solo organismo, CodonTransformer fue entrenado con un conjunto de datos masivo: más de 1 millón de pares de secuencias de ADN-proteína provenientes de 164 organismos que abarcan todos los dominios de la vida (Bacteria, Archaea, Eukarya). Este enfoque multiespecie permite al modelo aprender reglas universales subyacentes al uso de codones, pero también, y crucialmente, patrones específicos de cada organismo.

Para lograr esta conciencia del contexto específica del huésped, implementaron una estrategia novedosa de representación de secuencias llamada STREAM (Shared Token Representation and Encoding with Aligned Multi-masking). En lugar de tratar el ADN y la proteína por separado, crearon “tokens” combinados que representan un aminoácido junto con su codón específico (por ejemplo, [M_ATG]) o un aminoácido con un codón desconocido ([M_UNK]). Además, incorporaron información sobre el organismo de origen como un “tipo de token”, similar a cómo los modelos de lenguaje distinguen entre diferentes hablantes en una conversación. Esto permite al modelo aprender y generar secuencias con perfiles de uso de codones adaptados al organismo deseado.

El entrenamiento se realizó usando una técnica de “modelado de lenguaje enmascarado” (MLM), donde partes de la secuencia (tokens aminoácido-codón) se ocultan y el modelo debe predecir el codón correcto basándose en el contexto circundante (tanto la secuencia proteica como el organismo).

Resultados: Secuencias Naturales y Optimizadas

CodonTransformer demostró una notable capacidad para aprender patrones de uso de codones específicos de cada organismo. Al generar secuencias de ADN para proteínas de 15 genomas diferentes (sobre los que se realizó un ajuste fino o fine-tuning), las secuencias resultantes mostraron índices de similitud de codones (CSI) y distribuciones de codones raros/frecuentes (medidos con %MinMax y DTW) muy similares a los de los genes naturales altamente expresados en esos organismos. Esto indica que el modelo no solo optimiza la frecuencia global, sino que captura los patrones locales y contextuales característicos de la expresión génica natural.

Además, las secuencias generadas por CodonTransformer mostraron una tendencia a minimizar la presencia de elementos cis-regulatorios negativos conocidos (secuencias que pueden interferir con la expresión génica en el huésped), una característica deseable para el diseño de genes sintéticos robustos. El modelo también demostró ser capaz de predecir el impacto de mutaciones sinónimas en la aptitud experimental y el posible atascamiento ribosomal, validando su comprensión de las sutilezas funcionales del uso de codones.

Finalmente, los autores compararon CodonTransformer con otras herramientas de optimización comerciales y académicas, mostrando que genera secuencias con características más parecidas a las naturales en términos de distribución de codones y energía de plegamiento del ARN predicha.

Conclusión e Implicaciones

CodonTransformer representa un avance significativo en la optimización de codones. Su enfoque multiespecie basado en aprendizaje profundo y su novedosa representación contextual le permiten generar secuencias de ADN optimizadas que imitan las propiedades de los genes naturales de manera más fiel que los métodos anteriores. Al proporcionar el modelo base, los modelos ajustados y un paquete de software de código abierto (incluyendo una interfaz amigable en Google Colab), los investigadores ponen esta poderosa herramienta a disposición de la comunidad científica. Esto facilitará el diseño de genes para expresión heteróloga en una amplia gama de organismos, con potencial para acelerar la investigación en biología sintética, biotecnología, desarrollo de biofármacos y diseño de proteínas de novo. CodonTransformer no solo optimiza codones, sino que nos acerca a comprender y aplicar el complejo “lenguaje” de la expresión génica.

Referencia

[1] Fallahpour A, Gureghian V, Filion GJ, Lindner AB, Pandi A. CodonTransformer: a multispecies codon optimizer using context-aware neural networks. Nat Commun. 2025 Apr 3;16(1):3205. doi: 10.1038/s41467-025-58588-7. El modelo lo pueden usar en: https://colab.research.google.com/drive/1WZqXrw49bk3ZDTroY709HwCTabMNOCfL

alphafold bacterias Biología Sintética CRISPR cáncer dieta dna envejecimiento enzimas evolución fosforilación oxidativa microbiota salud VIH virus

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

No hay comentarios que mostrar.

Te invitamos a registrar tus datos como tu correo electrónico para que puedas recibir las últimas noticias y anuncios de Biología Molecular México

By signing up, you agree to the our terms and our Privacy Policy agreement.

Te invitamos a entrar a nuestro chat de whatsapp!