InicioSociedadPosibilidades ilimitadas: la tecnología de IA genera proteínas originales desde cero

Posibilidades ilimitadas: la tecnología de IA genera proteínas originales desde cero

-

codeimg 7 - Posibilidades ilimitadas: la tecnología de IA genera proteínas originales desde cerocodeimg 7 - Posibilidades ilimitadas: la tecnología de IA genera proteínas originales desde cero

Según los investigadores, esta nueva tecnología tiene el potencial de superar la evolución dirigida y podría dinamizar el campo de la ingeniería de proteínas al acelerar la creación de nuevas proteínas para diversos fines, como la terapéutica y la degradación de plásticos.

Un modelo de lenguaje natural ha impulsado el proceso de diseño de proteínas mediante la creación de enzimas activas.

Los investigadores han desarrollado un sistema de inteligencia artificial que puede generar enzimas artificiales desde cero. En experimentos de laboratorio, algunas de estas enzimas demostraron una eficacia comparable a las enzimas naturales, incluso cuando sus aminoácidos creados artificialmente ácido secuencias muy desviadas de cualquier proteína natural conocida.

El experimento muestra que el procesamiento del lenguaje natural, inicialmente creado para leer y escribir textos en lenguaje, puede comprender ciertos conceptos fundamentales de la biología. El programa de IA, conocido como ProGen, fue desarrollado por Salesforce Research y emplea la predicción del siguiente token para construir proteínas artificiales a partir de secuencias de aminoácidos.


Los científicos dijeron que la nueva tecnología podría volverse más poderosa que la evolución dirigida, la tecnología de diseño de proteínas ganadora del premio Nobel, y energizará el campo de la ingeniería de proteínas de 50 años al acelerar el desarrollo de nuevas proteínas que se pueden usar durante casi cualquier cosa, desde la terapéutica hasta el plástico degradante.

“Los diseños artificiales funcionan mucho mejor que los diseños inspirados en el proceso evolutivo”, dijo James Fraser, Ph.D., profesor de bioingeniería y ciencias terapéuticas en la Facultad de Farmacia de la UCSFy autor del trabajo, que fue publicado recientemente en Naturaleza Biotecnología. Una versión anterior del artículo ha estado disponible en el servidor de preimpresión BiorXiv desde julio de 2021, donde obtuvo varias docenas de citas antes de publicarse en una revista revisada por pares.

“El modelo de lenguaje está aprendiendo aspectos de la evolución, pero es diferente al proceso evolutivo normal”, dijo Fraser. “Ahora tenemos la capacidad de ajustar la generación de estas propiedades para efectos específicos. Por ejemplo, una enzima que sea increíblemente termoestable o que le gusten los ambientes ácidos o que no interactúe con otras proteínas”.


Para crear el modelo, los científicos simplemente introdujeron las secuencias de aminoácidos de 280 millones de proteínas diferentes de todo tipo en el aprendizaje automático modelo y déjelo digerir la información durante un par de semanas. Luego, ajustaron el modelo al prepararlo con 56 000 secuencias de cinco familias de lisozimas, junto con información contextual sobre estas proteínas.

El modelo generó rápidamente un millón de secuencias, y el equipo de investigación seleccionó 100 para probar, en función de lo mucho que se parecían a las secuencias de las proteínas naturales, así como de lo naturalistas que eran la «gramática» y la «semántica» de los aminoácidos subyacentes de las proteínas de la IA.

De este primer lote de 100 proteínas, que Tierra Biosciences examinó in vitro, el equipo creó cinco proteínas artificiales para probarlas en células y comparó su actividad con una enzima que se encuentra en la clara de los huevos de gallina, conocida como lisozima de clara de huevo de gallina. (HEWL). Lisozimas similares se encuentran en las lágrimas, la saliva y la leche humanas, donde se defienden contra las bacterias y los hongos.

Dos de las enzimas artificiales fueron capaces de descomponer las paredes celulares de las bacterias con una actividad comparable a HEWL, pero sus secuencias eran solo un 18% idénticas entre sí. Las dos secuencias eran aproximadamente 90% y 70% idénticas a cualquier proteína conocida.


Solo una mutación en una proteína natural puede hacer que deje de funcionar, pero en una ronda diferente de detección, el equipo encontró que las enzimas generadas por IA mostraron actividad incluso cuando tan solo el 31,4% de su secuencia se parecía a cualquier proteína natural conocida.

La IA incluso pudo aprender cómo se deberían formar las enzimas, simplemente estudiando los datos de secuencia sin procesar. Medidas con cristalografía de rayos X, las estructuras atómicas de las proteínas artificiales se veían como deberían, aunque las secuencias no se parecían a nada visto antes.

Salesforce Research desarrolló ProGen en 2020, basado en un tipo de programación de lenguaje natural que sus investigadores desarrollaron originalmente para generar texto en inglés.

Sabían por su trabajo anterior que el sistema de IA podía aprender la gramática y el significado de las palabras, junto con otras reglas subyacentes que hacen que la escritura esté bien compuesta.

“Cuando entrenas modelos basados ​​en secuencias con una gran cantidad de datos, son realmente poderosos para aprender estructuras y reglas”, dijo Nikhil Naik, Ph.D., director de investigación de IA en Salesforce Research y autor principal del artículo. “Aprenden qué palabras pueden coexistir y también la composición”.

Con las proteínas, las opciones de diseño eran casi ilimitadas. Las lisozimas son pequeñas como proteínas, con hasta 300 aminoácidos. Pero con 20 aminoácidos posibles, hay un número enorme (20300) de combinaciones posibles. Eso es mayor que tomar a todos los humanos que vivieron a lo largo del tiempo, multiplicado por la cantidad de granos de arena en la Tierra, multiplicada por la cantidad de átomos en el universo.

Dadas las posibilidades ilimitadas, es notable que el modelo pueda generar tan fácilmente enzimas de trabajo.

«La capacidad de generar proteínas funcionales desde cero demuestra que estamos entrando en una nueva era en el diseño de proteínas», dijo Ali Madani, Ph.D., fundador de Profluent Bio, ex investigador científico de Salesforce Research. , y el primer autor del artículo. «Esta es una nueva herramienta versátil disponible para los ingenieros de proteínas, y esperamos ver las aplicaciones terapéuticas».



Referencia: «Los modelos de lenguaje grandes generan secuencias de proteínas funcionales en diversas familias» por Ali Madani, Ben Krause, Eric R. Greene, Subu Subramanian, Benjamin P. Mohr, James M. Holton, Jose Luis Olmos Jr., Caiming Xiong, Zachary Z Sun, Richard Socher, James S. Fraser y Nikhil Naik, 26 de enero de 2023, Naturaleza Biotecnología.
DOI: 10.1038/s41587-022-01618-2

Consulte el documento para obtener una lista completa de autores y fondos. Una base de código integral para los métodos descritos en el documento está disponible públicamente en https://github.com/salesforce/progen.

Enlace de la fuente

Deja un comentario

- Publicidad -spot_img

Selección