Equip inLaber guanyador a la hackathon bitsxLaMarató

Dilluns 20 Desembre 2021


La Hackathon

El darrer cap de setmana (10-11-12 de desembre de 2021) va tenir lloc la tercera edició de bitsxlaMarató, una Hackathon organitzada per la FIB, Hackers@UPC, LleidaHack, el BSC i l'Escola Superior d'Infermeria del Mar. Com diu el seu nom, la Hackaton col·labora cada any amb la Marató de TV3 mitjançant el donatiu dels participants, patrocinadors i de tota la comunitat universitària de la UPC i més enllà.

Aquesta edició tractava sobre la salut mental, en línia amb el tema de la Marató d’enguany. L’objectiu era crear un espai de col·laboració entre professionals dels àmbits de la tecnologia i la salut per, plegats, buscar i desenvolupar solucions per fer front a tots els reptes que ens planteja la salut mental.

Els organitzadors i les entitats col·laboradores van proposar un total de 4 reptes que cada equip podia intentar resoldre. Podeu trobar més informació al seu web.

L’equip inLaber

L’equip (parcialment) inLaber “Orenetes” (format, en part, per Gonzalo Recio, Gerard Calvo i Jordi Cluet) va aconseguir el primer lloc al repte “Interacció de proteïnes. Ens fiquem d’acord?”, proposat pel BSC i l'spin-off Nostrum Biodiscovery.

El repte

L'esquizofrènia, bipolaritat i depressió són malalties mentals que afecten a més del 25% de la població al llarg de la seva vida. Actualment s’ha aconseguit establir la relació entre algunes de les interaccions proteïna-proteïna involucrades en aquestes malalties. No obstant, no es té una estructura experimental per la majoria d’aquestes interaccions, limitant-ne així l’estudi. Per aquest motiu són necessaris els anomenats programes de docking que, donades dues proteïnes, retornen multitud de possibles parelles de posicions en què les dues interaccionen. Malgrat això, aquests programes no són (en general) capaços d’ordenar per rellevància les diferents estructures obtingudes de manera acurada. A més a més, les mètriques que els diferents programes usen per classificar les millors i pitjors prediccions no són comparables entre elles.

En aquest context, aquest repte tenia com a objectiu proposar algorismes d’anàlisi de dades (clústering, anàlisi de distàncies, …) per poder trobar un consens entre les prediccions retornades per diferents programes de docking de proteïnes. La premisa per trobar aquest consens era que, com més vegades es repeteix una interacció entre dues proteïnes, més rellevant és la seva estructura. D’aquesta manera es pretén augmentar la fiabilitat de les prediccions d’aquests programes.

Per això, el repte consistia en analitzar un conjunt d’entre 100.000 i 200.000 estructures obtingudes per a uns sistemes de proteïnes coneguts experimentalment, de manera que es poguessin després validar les prediccions de l’algorisme amb una estructura de referència.

La solució

Definicions

En primer lloc, algunes definicions per entendre millor el context de la nostra solució:

  • Cada estructura analitzada consisteix en una interacció entre dues proteïnes, A i B.
  • A és sempre fixa en l’espai.
  • B (anomenat lligand) és una proteïna rígida (no canvia de mida ni de forma) que podem trobar rotada i/o traslladada pel voltant d’A.
  • Cada posició on trobem B interaccionant amb A (segons l’algorisme de docking corresponent) s’anomena pose.

Què fa

En aquest projecte introduïm l'algorisme ELE (Essence Ligand Encoding); un algorisme de clústering de poses, que codifica cada lligand com els seus tres àtoms més distants. Demostrem que utilitzant ELE, el temps d'execució d'aquests algorismes de consens es pot reduir fins a un 99%, mantenint la mateixa precisió.

Com ho fa

La clau d'ELE es troba en la representació de cada lligand. Com que només estem tractant amb lligands de cos rígid (que només roten i es traslladen, però no canvien de forma ni de mida), tota la informació tridimensional de la proteïna es pot codificar només amb la seva posició a l'espai i la seva rotació 3D. Alternativament, amb tan sols tres dels punts (àtoms) d’aquesta molècula podem aproximar bé aquesta informació. Vam decidir agafar els tres punts més llunyans entre sí per tal de representar el millor possible la seva posició tridimensional.

 

Representació tridimensional d’una proteïna usant només els seus tres àtoms més distants entre sí
Representació tridimensional d’una proteïna usant només els seus tres àtoms més distants entre sí

Utilitzant aquesta codificació, aconseguim reduir dràsticament la informació necessària per representar cada interacció. Com que la proteïna principal (A) no es mou, no afegeix informació i, per tant, la podem obviar. A més, com que podem codificar el lligand (B) només pels seus tres àtoms més distants, podem reduir tota la informació necessària per als algorismes de clustering a tan sols les tres coordenades d'aquests tres àtoms. Per tant, podem representar cada interacció entre dues proteïnes amb tan sols un vector de 9 coordenades.

Utilitzant el truc ELE, els algorismes de clústering tenen moltes menys dades a gestionar i, per tant, són molt més ràpids.

Clustering

El següent i últim pas consistia a aplicar mètodes de clustering per tal d’agrupar totes les poses que sortien com a output dels diferents programes de docking i així veure en quines posicions trobem més sovint una interacció entre la proteïna central i el lligand.

Vam proposar dos algorismes de clústering diferents, DBSCAN i K-Means, que ens van donar resultats similars. A continuació podeu veure un exemple de proteïna A (al centre) i els 10 millors clústers obtinguts amb els seus lligands, així com el millor clúster obtingut per aquesta molècula.

Assoliments 

A continuació mostrem dues taules que comparen l’algorisme de consens que s’utilitzava fins llavors i ELE (el nostre):

Comparativa de temps entre la implementació existent i l'ELE

Com podeu veure a la taula, utilitzant qualsevol dels dos algorismes de clustering que vam proposar combinat amb ELE, vam obtenir uns resultats excel·lents respecte la implementació d’on partíem (una reducció del 99% en el temps d’execució). A més, vam poder comprovar que la precisió dels resultats era igual o millor que l’algorisme implementat fins llavors.

A més a més, com a afegit extra, vam crear una interfície per visualitzar les interaccions i proteïnes de manera personalitzada, molt útil per a comprendre i analitzar els resultats:

La nostra experiència

L’experiència dels membres de l’inLab que hi hem participat és molt positiva. Per una banda, hem pogut aprendre un munt, tant pel que fa a temes de salut (en aquest cas, sobre com tractar grans quantitats de dades biològiques) com pel que fa a temes tecnològics (encara que sembli mentida, es pot aprendre un munt en menys de 48 hores). A més, hem pogut introduir-nos en el camp de la salut mental i veure la importància que té en la qualitat de vida de les persones. 

Estem molt satisfets, tant pel resultat de la nostra feina, que creiem que realment es podrà usar en properes investigacions, com pel fet d’haver aportat el nostre granet de sorra a un esdeveniment solidari com és bitsxlaMarató. Us animem a participar de properes edicions d’aquesta Hackaton i de tantes més que s’organitzen arreu del món cada any.

Per saber-ne més

Podeu trobar més informació sobre tots els reptes i solucions presentades a la pàgina de Devpost i al web de bitsxlaMarató d’enguany.

Segueix-nos a

Els nostres articles del bloc d'inLab FIB

         
         

inLab FIB incorpora esCert

Icona ESCERT

First LogoCSIRT Logo

inLab és membre de

Archivo:European Institute of Innovation and Technology logo.png -  Wikipedia, la enciclopedia libre     CIT UPC

         

    

inLab és centre TECNIO

ACCIO