Investigación del MIT Revoluciona la Producción de Proteínas
Las levaduras industriales se han consolidado como un pilar fundamental en la producción de proteínas, desempeñando un papel crucial en la fabricación de vacunas, biopharmaceuticals y otros compuestos útiles. Recientemente, ingenieros químicos del MIT han aprovechado la inteligencia artificial para optimizar los procesos de desarrollo de nuevas técnicas de producción de proteínas, lo que podría reducir considerablemente los costos asociados a la fabricación de estos medicamentos.
El equipo del MIT utilizó un modelo de lenguaje grande (LLM) para analizar el código genético de la levadura industrial Komagataella phaffii, enfocándose en los codones que esta utiliza. Los codones son secuencias de ADN de tres letras que pueden codificar un aminoácido específico, y su uso varía entre diferentes organismos.
El nuevo modelo desarrollado por el MIT aprendió estos patrones específicos para K. phaffii, permitiendo predecir qué codones serían más efectivos para la producción de una proteína determinada. Esta innovación permitió a los investigadores aumentar significativamente la eficiencia en la producción de seis proteínas distintas, incluyendo la hormona del crecimiento humano y un anticuerpo monoclonal utilizado en tratamientos contra el cáncer.
Un Enfoque Predictivo para Acelerar Procesos
“Contar con herramientas predictivas que funcionen consistentemente es vital para acortar el tiempo desde la concepción hasta la producción. Eliminar incertidumbres ahorra tiempo y dinero”, afirma J. Christopher Love, profesor del MIT y co-director del MIT Initiative for New Manufacturing (MIT INM).
Love es el autor principal del estudio publicado esta semana en las Proceedings of the National Academy of Sciences. La investigación fue liderada por Harini Narayanan, exinvestigadora postdoctoral en el MIT.
Optimización de Codones: Un Paso Clave
Levaduras como K. phaffii y Saccharomyces cerevisiae son esenciales en la industria biopharmaceutical, generando miles de millones anualmente a través de la producción de medicamentos proteicos y vacunas. Para adaptar estas levaduras a la producción industrial, los investigadores deben modificar genes provenientes de otros organismos e integrarlos en el genoma de las levaduras, lo cual implica crear secuencias óptimas de ADN y establecer condiciones favorables para su crecimiento.
Este proceso puede representar entre el 15% y el 20% del costo total para comercializar nuevos medicamentos biológicos, que son complejos y producidos por organismos vivos.
"Actualmente, todos esos pasos requieren tareas experimentales muy laboriosas", comenta Love. "Hemos estado explorando cómo aplicar conceptos emergentes en aprendizaje automático para hacer más confiables y predecibles diferentes aspectos del proceso".
Análisis Exhaustivo y Resultados Prometedores
En este estudio, los investigadores se propusieron optimizar las secuencias de ADN que componen los genes para proteínas específicas. Aunque existen 20 aminoácidos naturales, hay 64 posibles secuencias codificadoras; esto significa que muchos aminoácidos pueden ser representados por más de un codón.
Diferentes organismos utilizan estos codones a ritmos variados, y los diseñadores suelen optar por aquellos más frecuentes en el organismo huésped. Sin embargo, esta estrategia no siempre garantiza los mejores resultados debido a limitaciones en las moléculas tRNA correspondientes.
A través del uso de un modelo LLM conocido como encoder-decoder, los investigadores analizaron secuencias de ADN para aprender sobre las relaciones entre los codones utilizados en genes específicos. Su conjunto de datos provino del National Center for Biotechnology Information e incluyó las secuencias correspondientes a aproximadamente 5,000 proteínas producidas naturalmente por K. phaffii.
Nuevas Fronteras en Biotecnología
"El modelo aprende la sintaxis o el lenguaje sobre cómo se utilizan estos codones", explica Love. "Considera cómo están colocados uno al lado del otro y también las relaciones a larga distancia entre ellos". Una vez entrenado, se pidió al modelo optimizar las secuencias codónicas para seis proteínas diferentes.
A través de pruebas comparativas con otras herramientas comerciales disponibles para optimización de codones, se demostró que las secuencias generadas por el nuevo modelo superaron a cinco de las seis alternativas evaluadas.
"Hemos cubierto diversas filosofías sobre optimización y hemos demostrado experimentalmente que nuestro enfoque supera a los demás", concluye Narayanan.
Pioneros en Aprendizaje Biológico
K. phaffii, anteriormente conocida como Pichia pastoris, produce numerosos productos comerciales esenciales como insulina y vacunas contra hepatitis B. Investigadores del laboratorio Love han comenzado a utilizar este nuevo modelo para optimizar proteínas específicas dentro de K. phaffii, poniendo su código a disposición para otros investigadores interesados.
Además, se probaron enfoques similares utilizando datos provenientes de otros organismos como humanos y vacas; cada modelo resultante generó predicciones distintas, lo que sugiere que se necesitan modelos específicos por especie para una mejor optimización.
A través del análisis profundo del funcionamiento interno del modelo, se observó que este parecía aprender principios biológicos fundamentales sobre cómo opera el genoma sin intervención directa por parte de los investigadores. Por ejemplo, aprendió a evitar elementos repetitivos negativos que podrían inhibir la expresión génica cercana.
"No solo estaba aprendiendo este lenguaje; también lo contextualizaba con características biofísicas y bioquímicas", añade Love. "Esto nos da confianza adicional sobre su capacidad para aprender algo significativo más allá simplemente cumplir con una tarea". La investigación recibió financiación del Daniel I.C. Wang Faculty Research Innovation Fund en MIT, así como otras instituciones colaboradoras.