El LNS y una aplicación a la Biología

En las últimas décadas la tecnología ha evolucionado de manera sorprendente, el progreso en la ciencia numerosas veces implica avances tecnológicos y viceversa, la tecnología genera avances en la ciencia. Una manera muy clara de ejemplificar esta simbiosis entre la ciencia y la tecnología es la computación.

 

Ciencia en la computación

El avance científico, como avances en el área de materiales, ha propiciado que las computadoras pasaran de ser del tamaño de una habitación entera, sin mucho poder de cómputo, al punto en que casi cada ser humano tenga en su bolsillo un celular cuya capacidad de cómputo es aún mayor a las viejas computadoras. En recientes años surgieron las llamadas supercomputadoras, que son un conjunto de procesadores unidos entre sí para aumentar su potencia de trabajo y rendimiento. Al año 2008 los ordenadores más potentes funcionaban en poco más de 1 PetaFlops, es decir, realizaban poco más de 1000 millones de millones de cálculos de punto flotante por segundo. En la actualidad esa cifra se supera por mucho y China es el país que lidera el top 500 de los ordenadores más potentes.

En el año 2014 la Benemérita Universidad Autónoma de Puebla (BUAP), el Consejo Nacional de Ciencia y Tecnología (Conacyt), el Instituto Nacional de Óptica Electrónica y Astrofísica (INAOE), y la Universidad de las Américas de Puebla (UDLAP), realizaron una gran inversión en este sector y en 2015 se inauguró en Ciudad Universitaria el Laboratorio Nacional de Supercómputo del Sureste de México (LNS). La supercomputadora del LNS, Cuextlacoapan, tiene un desempeño de alrededor de 200 millones de millones de cálculos de punto flotante por segundo, capacidad de cómputo que es aprovechada por los dos sectores que atiende el LNS: el académico y el comercial.

El sector académico es principalmente demandado tanto por profesores investigadores y alumnos de la BUAP como de instituciones ajenas pertenecientes al  área de ciencias y hacen uso del poder de cómputo que ofrece el LNS para llevar a cabo sus investigaciones. En el presente artículo se hablará sobre una de las investigaciones que se realiza en este momento relacionada con el área de bioinformática y biofísica.

 

Computación en la ciencia

La bioinformática es un campo de estudio que utiliza computación para extraer conocimiento a partir de datos biológicos; entre sus principales tareas se encuentra recabar, almacenar, manipular y modelar información para que posteriormente sea analizada y visualizada o para predecir, a través de algoritmos y software, la evolución de los sistemas biológicos. La biofísica, por otro lado, estudia la vida a cualquier nivel, desde átomos y moléculas hasta células y organismos; tiene como principal objetivo esclarecer cómo funcionan los sistemas biológicos y para ello su investigación va desde el laboratorio hasta la aplicación de la informática para el cálculo de interacciones.

En el año 2003, después de 13 años, con ayuda de la bioinformática, se finalizó el proyecto del genoma humano, el cual consistió en secuenciar 99 por ciento del genoma humano y representó para la humanidad un logro equiparable al primer aterrizaje del hombre en la luna. Sin embargo, a pesar de la impactante importancia de tener casi 100 por ciento del genoma humano codificado, incluyendo el secuenciamiento de las proteínas, esto nos dice muy poco sobre qué hacen o cómo funcionan los sistemas biológicos.

 

Interrogantes en la biología

Una de las interrogantes más grandes para la biología es el plegamiento de proteínas e investigadores del LNS trabajan sobre ello. Las proteínas son cadenas grandes de aminoácidos y son la base de cómo se realizan los procesos en la biología, por tanto, investigar cómo es que determinan su actividad es de suma importancia. Dado que la funcionalidad de una proteína se define con su estructura terciaria, es decir, cuando la cadena de aminoácidos se pliega para tomar su forma tridimensional, en el LNS se realizan simulaciones de proteínas con el fin de determinar las probabilidades del plegamiento de éstas.

El problema de determinar el plegamiento de las proteínas experimentalmente es que aparte de ser un proceso muy complejo este se realiza sorprendentemente rápido, tan rápido como una millonésima de segundo. Mientras que en la escala de tiempo de una persona este tiempo es muy rápido, tomaría demasiado tiempo para simularlo en computadora. De hecho, las computadoras modernas pueden llevarse todo un día en simular 50 nanosegundos —0.000000050 segundos— y desafortunadamente, muchas proteínas se pliegan en escalas de milisegundos, es decir 1,000,000 nanosegundos. Entonces, tomaría 20, 000 días para simular el plegamiento, es decir, 60 años.

 

LNS en la computación y la ciencia

Una vez mencionada la gran importancia que tiene este tema y la complejidad de la situación se hace evidente el interés por estudiar estos procesos. En la computadora Cuextlacoapan se realizan simulaciones moleculares con el software libre  GROMACS de manera distribuída y paralelizada con el fin de reducir los tiempos de cálculo. Se simula múltiples veces la misma proteína para obtener las posibles trayectorias que sigue en cierto intervalo de tiempo y dado que la cantidad de datos recabados es muy grande, se emplean dos algoritmos de análisis de big data: tICA, que busca reducir la dimensión del conjunto de información, dejando solo aquella realmente útil para los cálculos posteriores, y el agrupamiento Mini Batch K-Means, el cual es una variante del algoritmo K-Means para reducir el tiempo de convergencia y se encarga de agrupar la información. Una vez que la información sobre las posibles trayectorias que puede seguir la proteína se simplificó, se aplica un método matemático llamado Modelos de Estados de Markov para calcular la probabilidad de cada transición. Se repite el mismo procedimiento, cambiando los parámetros —temperatura, presión, etcétera— de las simulaciones con el fin de determinar bajo qué condiciones se pliega correcta o incorrectamente la proteína bajo estudio.

Una de las principales razones por las que el estudio de plegamiento de proteínas es tan importante es que si una proteína se pliega de manera incorrecta pueden producirse distintas enfermedades como Hungtington y fibrosis cística. También se piensa que algunos tipos de cáncer y Alzheimer son resultado de una proteína plegada incorrectamente. Por ello es evidente que a la comunidad científica le interesa obtener los resultados lo más pronto posible —¡no en 60 años por proteína!—, lo cual aumenta las razones para que se trabaje sobre esta línea de investigación en el LNS.

El tiempo que este proyecto lleva en el LNS es relativamente corto, y la investigación apenas empieza. Hasta el momento solo se han hecho pruebas con proteínas sintéticas relativamente pequeñas, pero se espera que en poco tiempo se comience con cálculos más demandantes y a medida que el trabajo madure se podría expandir esta línea de investigación a diseño de medicamento especializado.

Como resulta natural, con los avances en la ciencia, las investigaciones requieren de aún más tecnología, precisión y rapidez, lo cual es un gran impulsor para que las demás áreas del conocimiento se encuentren en constante crecimiento.

[email protected]