AlphaFold: grandes avances en biología y medicina

Salud

,

Inteligencia Artificial

,

Rhinno

AlphaFold: grandes avances en biología y medicina

Techedge | Feb 19, 2021

El uso de la Inteligencia Artificial para todos los campos de la ciencia está en auge y puede ayudar de forma decisiva en numerosos descubrimientos científicos a corto y medio plazo. En este artículo vamos a explorar AlphaFold, una red de Inteligencia Artificial, desarrollada por DeepMind de Google, centrada en el ámbito de la biología.

Las proteínas son moléculas formadas por cadenas lineales de aminoácidos que se pliegan formando estructuras biológicas tridimensionales. ¿Cómo se pliegan exactamente? ¿Cómo pasan de ser una cadena de aminoácidos a una forma compacta determinada capaz de realizar funciones biológicas?

Cuando hablamos de proteínas, podemos pensar en ellas como pequeñas máquinas biológicas. Son esencialmente los bloques de construcción fundamentales de la vida, y son las responsables de la mayoría de las funciones celulares.

El plegamiento de proteínas está considerado como uno de los problemas fundamentales de la biología, y es un dilema que hasta ahora la ciencia no ha sido capaz de resolver con las herramientas y técnicas con las que contaba. Lograr predecir de forma certera las estructuras proteicas usando Inteligencia Artificial, podría cambiar la forma en la que entendemos el mundo.

Tradicionalmente, para su estudio se utilizan técnicas como la cristalografía de rayos X, la criomicroscopía electrónica y la resonancia magnética nuclear. El principal problema de estas técnicas es que son muy caras y consumen muchos recursos y tiempo, de modo que, los biólogos, han estado recurriendo a técnicas de Inteligencia Artificial para realizar predicciones de las estructuras de las proteínas a partir de su secuencia de aminoácidos, pero estas pruebas no han tenido demasiado éxito a la hora de obtener resultados. Un programa capaz de predecir estas estructuras podría ser de gran ayuda en medicina y biología, así como a la hora de estudiar moléculas para crear nuevos fármacos.



Forma tridimensional de una proteína. Fuente: Nature.

DeepMind, una startup tecnológica con base en Londres que adquirió Google en 2014 por más de 500 millones de dólares, creó AlphaFold para solventar el gran problema de la biología. Tecnológicamente, AlphaFold se basa en la técnica del Deep Learning y sirve para estudiar y modelar las estructuras de las proteínas a partir de su secuencia de aminoácidos.

El aprendizaje profundo o Deep Learning (en el que se basa la estrategia de DeepMind), utiliza algoritmos de Inteligencia Artificial y se trata de un método de aprendizaje automático basado en redes neuronales artificiales. 

No es posible aún conocer el funcionamiento exacto de AlphaFold debido a que el documento final aún ha de ser publicado y revisado, pero es posible inferir en parte su funcionamiento a partir de la información liberada por DeepMind relativa a las primeras versiones del algoritmo. 

El modelo de AlphaFold está entrenado con un dataset público, disponible en www.rcsb.org, que consta de 170.000 proteínas con estructuras conocidas y con un dataset mucho mayor de proteínas con secuencias estructurales desconocidas. El dataset de proteínas conocidas sirve como dataset etiquetado de entrenamiento o “ground truth”. Este dataset es relativamente modesto para la complejidad de la tarea que aborda, obligando a AlphaFold a utilizar el dataset de datos no etiquetados para mejorar su aprendizaje.

Pero, ¿cómo es posible que un conjunto de proteínas de secuencia desconocida sea útil? La realidad es que el aprendizaje a partir de datos sin etiquetar, es decir, aprendizaje no supervisado, ha supuesto una revolución en el mundo de la Inteligencia Artificial. 

Por ejemplo, el modelo de predicción de lenguaje GPT-3 creado por OpenAI, utiliza este tipo de aprendizaje, habiendo sido entrenado con una gigantesca cantidad de texto no etiquetado extraído directamente de internet. 

Dada una frase determinada, GPT-3 puede predecir qué palabra podría venir después, forzándolo a aprender acerca de la estructura del lenguaje. Esta técnica se ha adoptado también en modelos de imágenes, por ejemplo, partiendo una imagen por la mitad y pidiendo al modelo predicciones de la otra mitad. 

Técnica del aprendizaje automático no supervisado en imágenes. Fuente: openai.com/blog/image-gpt

Si no hay datos suficientes para entrenar el modelo de predicción deseado, puede entrenarse un modelo que haga una tarea similar para la que sí se dispone de un conjunto de datos significativos suficientes. De esta forma, se logra que el modelo aprenda sobre la estructura subyacente del lenguaje, imágenes o proteínas y posteriormente refinarlo poco a poco para aproximarlo a la tarea deseada original.

Por tanto, es posible extraer información útil a partir de cadenas de aminoácidos con estructuras desconocidas. Una de las técnicas consiste en buscar conjuntos de proteínas con secuencias de aminoácidos similares. A menudo, una secuencia puede ser similar a otra porque tienen un origen evolutivo común. Cuanto más se parecen algunas cadenas, mayor es la probabilidad de que esas proteínas tengan un propósito similar dentro del organismo que componen, lo que se traduce, a su vez, en que compartan una estructura similar.

Es por por tanto clave el determinar cómo de similares son dos cadenas de aminoácidos. Para compararlas, los científicos utilizan una técnica de Alineamiento Múltiple de Secuencias o MSA.

Comparación con la técnica MSA. Fuente: es.mathworks.com/help/bioinfo/ref/sequencealignment-app.html

 

Arquitectura red neuronal del modelo: cómo se utiliza el análisis MSA para sacar partido a todos los datos no etiquetados. Fuente: deepmind.com

Esta es una aproximación a los conceptos y técnicas utilizadas por AlphaFold en sus primeras versiones. No obstante, aún habrá que esperar para conocer todos los detalles de su última versión, ganadora del CASP14. Y es que, la evolución y desarrollo de AlphaFold está estrechamente relacionada con el CASP (Critical Assessment of protein Structure Prediction), que es un experimento mundial comunitario para la predicción estructural proteica, llevado a cabo cada dos años desde 1994. Esta competición proporciona a los grupos de investigación una oportunidad de evaluar objetivamente sus métodos de predicción estructural y ofrece una evaluación independiente. Más de 100 grupos de todo el mundo participan y compiten en el CASP de forma regular. 

New call-to-action

En diciembre de 2018, la primera versión (AlphaFold 1), quedó en primer lugar en el CASP13, y en noviembre de 2020, la segunda versión del programa (AlphaFold 2), volvió a quedar en primera posición en la CASP14, obteniendo la mejor predicción para 88 de los 97 objetivos totales. En la CASP14, en sus resultados de predicciones consiguió una media en la puntuación del 92,4%.

Se considera una solución del problema un porcentaje de acierto superior al 90%, por lo que AlphaFold 2 ha conseguido, por primera vez en 2020, resolver el rompecabezas de la predicción estructural proteica, determinando con éxito la forma 3D de la proteína a partir de su secuencia de aminoácidos, dando un gigantesco paso hacia adelante a la credibilidad y funcionalidad del análisis mediante Inteligencia Artificial.

Desde enero de 2020, el código AlphaFold utilizado, concretamente en la CASP13, está disponible en Github (github.com/deepmind/deepmind-research/tree/master/alphafold_casp13), de modo que, cualquier persona que esté interesada puede utilizarlo e incluso replicar los resultados obtenidos en este experimento.

Media de los resultados en las predicciones en la categoría de modelado, obtenidos por el mejor equipo en cada CASP.  Fuente: deepmind.com

Ejemplos del modelado tridimensional de la estructura de dos proteínas. Fuente: deepmind.com

En los últimos meses, AlphaFold ha jugado un papel importante debido a que también se ha utilizado para predecir las estructuras de las proteínas del SARS-CoV-2, el virus causante de la enfermedad por coronavirus (Covid-19). Se han podido obtener predicciones precisas de las proteínas del SARS-CoV-2. Incluso, utilizando la versión AlphaFold 2, se ha conseguido una predicción de la estructura de la proteína muy similar a la estructura obtenida mediante criomicroscopía electrónica por investigadores de la Universidad de California, Berkeley.

DeepMind ya fue noticia anteriormente por crear dos programas revolucionarios utilizando la técnica de aprendizaje por redes neuronales o Deep Learning: AlphaGo y AlphaZero. El programa AlphaGo, se hizo famoso en 2016 por vencer a un jugador profesional de Go, mientras que, en 2017, AlphaZero, un programa diseñado para jugar al ajedrez, al Go y al ajedrez japonés (shogi), derrotó a los programas campeones y más avanzados del mundo hasta el momento.

AlphaFold es solo una pequeña muestra del gran impacto que tiene actualmente la Inteligencia Artificial. Debido al éxito que ha mostrado en los grandes problemas de la biología y en la predicción de la estructura de las proteínas, incluso del SARS-CoV-2, AlphaFold y DeepMind prometen aportar grandes avances y beneficios en los próximos años

Entre sus metas está mejorar la comprensión del cuerpo humano para permitir a los científicos diseñar, de forma más eficiente, nuevos y revolucionarios métodos de diagnósticos, nuevos medicamentos y tratamientos personalizados, incluso podría ayudar a identificar la forma de las proteínas de enfermedades raras de un modo económico y rápido. Además de la salud, también se prevé que AlphaFold ayude con el diseño de nuevos materiales biodegradables y amigables con el medio ambiente.

CONOCE A LOS AUTORES:
Beatriz Varona
Quantum Computing & Rhinno Rooms Techedge España
Síguela en LinkedIn

 

Yoel González
SAP Consultant Techedge España
Síguelo en LinkedIn

 

Bibliografía:

 

Contacta con nosotros

¡Suscríbete!