Equipo inLaber ganador en la hackathon bitsxLaMarató

Lunes 20 Diciembre 2021

Autores: 

La Hackathon

El último fin de semana (10-11-12 de diciembre de 2021) tuvo lugar la tercera edición de bitsxlaMarató, una Hackathon organizada por la FIB, Hackers@UPC, LleidaHack, el BSC y la Escuela Superior de Enfermería del Mar. Como dice su nombre, la Hackaton colabora cada año con la Marató de TV3 mediante el donativo de los participantes, patrocinadores y de toda la comunidad universitaria de la UPC y más allá.

Esta edición trataba sobre la salud mental, en línea con el tema de la Marató de este año. El objetivo era crear un espacio de colaboración entre profesionales de los ámbitos de la tecnología y la salud para, juntos, buscar y desarrollar soluciones para hacer frente a todos los retos que nos plantea la salud mental.

Los organizadores y las entidades colaboradoras propusieron un total de 4 retos que cada equipo podía intentar resolver. Podéis encontrar más información en su web.

El equipo inLaber

El equipo (parcialmente) inLaber "Orenetes" (formado, en parte, por Gonzalo Recio, Gerard Calvo y Jordi Cluet) consiguió el primer puesto en el reto “Interacció de proteïnes. Ens fiquem d’acord?”, propuesto por el BSC i el spin-off Nostrum Biodiscovery.

El reto

La esquizofrenia, bipolaridad y depresión son enfermedades mentales que afectan a más del 25% de la población a lo largo de su vida. Actualmente se ha conseguido establecer la relación entre algunas de las interacciones proteína-proteína involucradas en estas enfermedades. No obstante, no se tiene una estructura experimental para la mayoría de estas interacciones, limitando así el estudio. Por este motivo son necesarios los llamados programas de docking que, dadas dos proteínas, devuelven multitud de posibles parejas de posiciones en las que las dos interaccionan. A pesar de ello, estos programas no son (en general) capaces de ordenar por relevancia las diferentes estructuras obtenidas de manera cuidadosa. Además, las métricas que los diferentes programas usan para clasificar las mejores y peores predicciones no son comparables entre ellas.

En este contexto, este reto tenía como objetivo proponer algoritmos de análisis de datos (clústering, análisis de distancias, ...) para poder encontrar un consenso entre las predicciones devueltas por diferentes programas de docking de proteínas. La premisa para encontrar este consenso era que, cuantos más veces se repite una interacción entre dos proteínas, más relevante es su estructura. De esta manera se pretende aumentar la fiabilidad de las predicciones de estos programas.

Por ello, el reto consistía en analizar un conjunto de entre 100.000 y 200.000 estructuras obtenidas para unos sistemas de proteínas conocidos experimentalmente, de manera que se pudieran luego validar las predicciones del algoritmo con una estructura de referencia.

La solución

Definiciones

En primer lugar, algunas definiciones para entender mejor el contexto de nuestra solución:

  • Cada estructura analizada consiste en una interacción entre dos proteínas, A y B.
  • A es siempre fija en el espacio.
  • B (llamado ligand) es una proteína rígida (no cambia de tamaño ni de forma) que podemos encontrar rotada y/o trasladada por los alrededores de A.
  • Cada posición donde encontramos B interaccionando con A (según el algoritmo de docking correspondiente) se llama pose.

Qué hace

En este proyecto introducimos el algoritmo ELE (Essence Ligand Encoding); un algoritmo de clústering de poses, que codifica cada ligando como sus tres átomos más distantes. Demuestramos que utilizando ELE, el tiempo de ejecución de estos algoritmos de consenso se puede reducir hasta en un 99%, manteniendo la misma precisión.

Com lo hace

La clave de ELE se encuentra en la representación de cada ligando. Como sólo estamos tratando con ligandos de cuerpo rígido (que sólo rotan y se trasladan, pero no cambian de forma ni de tamaño), toda la información tridimensional de la proteína se puede codificar sólo con su posición en el espacio y su rotación 3D. Alternativamente, con tan solo tres de los puntos (átomos) de esta molécula podemos aproximar bien esta información. Vamos a decidir coger los tres puntos más lejanos entre sí para representar lo mejor posible su posición tridimensional.

Representació tridimensional d’una proteïna usant només els seus tres àtoms més distants entre sí
Representación tridimensional de una proteína usando sólo sus tres átomos más distantes entre sí

Utilizando esta codificación, conseguimos reducir drásticamente la información necesaria para representar cada interacción. Como la proteína principal (A) no se mueve, no añade información y, por lo tanto, la podemos obviar. Además, como podemos codificar el lignado (B) sólo por sus tres átomos más distantes, podemos reducir toda la información necesaria para los algoritmos de clustering a tan solo las tres coordenadas de estos tres átomos. Por lo tanto, podemos representar cada interacción entre dos proteínas con tan solo un vector de 9 coordenadas.                                                                         

Utilizando el truco ELE, los algoritmos de clústering tienen muchos menos datos a gestionar y, por lo tanto, son mucho más rápidos.                                                                                              

Clustering

El siguiente y último paso consistía en aplicar métodos de clustering con el fin de agrupar todas las poses que salían como output de los diferentes programas de docking y así ver en qué posiciones encontramos más a menudo una interacción entre la proteína central y el ligando.     

Propusimos dos algoritmos de clústering diferentes, DBSCAN y K-Means, que nos dieron resultados similares. A continuación podéis ver un ejemplo de proteína A (en el centro) y los 10 mejores clústeres obtenidos con sus ligandos, así como el mejor clúster obtenido por esta molécula.                                                                                                                                                                                    

Logros

A continuación mostramos dos tablas que comparan el algoritmo de consenso que se utilizaba hasta entonces y ELE (el nuestro):                                                                                             

                                                                                       Comparativa de tiempo entre la implementación existente y la ELE                                                                                             


Como podéis ver en la tabla, utilizando cualquiera de los dos algoritmos de clustering que vamos a proponer combinado con ELE, obtuvimos unos resultados excelentes respecto a la implementación de la que partíamos (una reducción del 99% en el tiempo de ejecución). Además, pudimos comprobar que la precisión de los resultados era igual o mejor que el algoritmo implementado hasta entonces.             

Además, como añadido extra, creamos una interfaz para visualizar las interacciones y proteínas de manera personalizada, muy útil para comprender y analizar los resultados:                                  

Nuestra experiencia

La experiencia de los miembros del inLab que hemos participado es muy positiva. Por un lado, hemos podido aprender un montón, tanto en lo que se refiere a temas de salud (en este caso, sobre cómo tratar grandes cantidades de datos biológicos)como en cuanto a temas tecnológicos (aunque parezca mentida, se puede aprender un montón en 48 horas). Además, hemos podido introducirnos en el campo de la salud mental y ver la importancia que tiene en la calidad de vida de las personas.                                                                                              

Estamos muy satisfechos, tanto por el resultado de nuestro trabajo, de que creemos que realmente se podrá usar en próximas investigaciones, como por haber aportado nuestro granito de arena a un evento solidario como es bitsxlaMarató. Les animamos a participar de próximas ediciones de esta Hackaton y de tantas más que se organizan en todo el mundo cada año.      

Para saber más

Puede encontrar más información sobre todos los retos y soluciones presentadas en la página de Devpost i al web de bitsxlaMarató de este año.

Segueix-nos a

Els nostres articles del bloc d'inLab FIB

         
         

inLab FIB incorpora esCert

Icona ESCERT

First LogoCSIRT Logo

inLab es miembro de

inLab és centre TECNIO

ACCIO