{"id":1797,"date":"2015-05-15T10:13:47","date_gmt":"2015-05-15T08:13:47","guid":{"rendered":"https:\/\/inlab.fib.upc.edu\/?p=1797"},"modified":"2015-05-20T07:36:41","modified_gmt":"2015-05-20T05:36:41","slug":"que-es-un-data-scientist-2","status":"publish","type":"post","link":"https:\/\/inlab.fib.upc.edu\/es\/uncategorized-ca\/que-es-un-data-scientist-2","title":{"rendered":"\u00bfQu\u00e9 es un Data Scientist?"},"content":{"rendered":"<p>Esta \u00abciencia de los datos\u00bb, nacida del m\u00e9todo cient\u00edfico, es la evoluci\u00f3n de lo que hasta ahora se conoc\u00eda como Analista de datos, pero a diferencia de \u00e9ste que s\u00f3lo se dedicaba a analizar fuentes de datos de una \u00fanica fuente, el Data Scientist debe explorar y analizar datos de m\u00faltiples fuentes, a menudo inmensas (conocidas como Big Data), y que pueden tener formatos muy diferentes.<\/p>\n<p><!--more--><\/p>\n<p>Un Data Scientist es un experto en Data Science (Ciencia de datos), su trabajo consiste en extraer conocimiento a partir de los datos para poder responder a las preguntas que se le formulan.<\/p>\n<h2><strong>\u00bfQu\u00e9 es la \u00abciencia de datos\u00bb?<\/strong><\/h2>\n<p>Esta \u00abciencia de los datos\u00bb, nacida del m\u00e9todo cient\u00edfico, es la evoluci\u00f3n de lo que hasta ahora se conoc\u00eda como Analista de datos, pero a diferencia de \u00e9ste que s\u00f3lo se dedicaba a analizar fuentes de datos de una \u00fanica fuente, el Data Scientist debe explorar y analizar datos de m\u00faltiples fuentes, a menudo inmensas (conocidas como Big Data), y que pueden tener formatos muy diferentes. Adem\u00e1s, debe tener una fuerte visi\u00f3n de negocio para ser capaz de extraer y transmitir recomendaciones a los responsables de negocio de su empresa.<\/p>\n<p>Estos conjuntos de datos pueden provenir de los datos generados por todo tipo de dispositivos electr\u00f3nicos (como un m\u00f3vil, todo tipo de sensores, secuenciadores de genoma, &#8230;), redes sociales, datos m\u00e9dicos, p\u00e1ginas web, &#8230; y afectan de manera muy significativa la investigaci\u00f3n actual en muchos campos como las ciencias biol\u00f3gicas, la inform\u00e1tica m\u00e9dica, la salud, las ciencias sociales, por citar s\u00f3lo algunos.<\/p>\n<h2><strong>\u00bfQu\u00e9 proceso sigue un Data scientist?<\/strong><\/h2>\n<p>El proceso que sigue un Data Scientist para responder a las cuestiones que se le plantean se pueden resumir en estos 5 pasos:<\/p>\n<ul>\n<li>Extraer los datos, independientemente de su fuente (webs, csv, logs, APIs, etc.) y de su volumen (Big Data o Small Data).<\/li>\n<li>Limpiar los datos, para eliminar lo que distorsiona las mismas.<\/li>\n<li>Procesar los datos usando diferentes m\u00e9todos estad\u00edsticos (inferencia estad\u00edstica, modelos de regresi\u00f3n, pruebas de hip\u00f3tesis, etc.).<\/li>\n<li>Dise\u00f1ar nuevos tests o experimentos en caso necesario.<\/li>\n<li>Visualizar y presentar gr\u00e1ficamente los datos.<\/li>\n<\/ul>\n<h2><strong>\u00bfQu\u00e9 se espera de un Data Scientist?<\/strong><\/h2>\n<p>Lo que se espera de un Data Scientist es que no s\u00f3lo sea capaz de abordar un problema de explotaci\u00f3n de datos desde el punto de vista de an\u00e1lisis, sino que tambi\u00e9n tenga las aptitudes necesarias para cubrir la etapa de gesti\u00f3n de datos. As\u00ed, el objetivo de un perfil de este tipo es acercar dos mundos (el de gesti\u00f3n y an\u00e1lisis de datos), que hasta ahora hab\u00edan podido existir separados, pero que debido a los nuevos requisitos de volumen, de variedad de datos y de velocidad en la explotaci\u00f3n de estas (ie, las tres V&#8217;s de la definici\u00f3n est\u00e1ndar del t\u00e9rmino Big Data), se ha vuelto imprescindible llevar a cabo esta explotaci\u00f3n a trav\u00e9s de un perfil combinado, y que adem\u00e1s, tambi\u00e9n entienda el negocio para dirigir esta explotaci\u00f3n hacia resultados que puedan ser de inter\u00e9s para la compa\u00f1\u00eda.<\/p>\n<h2><strong>\u00bfQu\u00e9 perfil debe tener un Data Scientist?<\/strong><\/h2>\n<p>El perfil del Data Scientist, es en cierto modo, como una poci\u00f3n m\u00e1gica, requiere como ingredientes principales habilidades avanzadas en inform\u00e1tica, matem\u00e1ticas\/estad\u00edstica, aprendizaje autom\u00e1tico, pasi\u00f3n por los datos, saber manejar grandes vol\u00famenes de datos, curiosidad, capacidad de comunicar el conocimiento que hemos extra\u00eddo de los datos, visi\u00f3n de negocio, etc.<\/p>\n<p>Como ya intu\u00eda, hay que aprender muchas cosas, ya que la \u00abciencia de datos\u00bb es multidisciplinar, y es una especializaci\u00f3n vez exigente y avanzada, pero la combinaci\u00f3n es muy potente y dif\u00edcil de encontrar, tal vez es por eso que la <a href=\"https:\/\/hbr.org\/2012\/10\/data-scientist-the-sexiest-job-of-the-21st-century\/\" target=\"_blank\" rel=\"noopener\">revista Harvard Business Review<\/a> la defini\u00f3 como el trabajo m\u00e1s Sexy del siglo 21.<\/p>\n<p>En el diagrama que encabeza el art\u00edculo, extra\u00eddo de <a href=\"http:\/\/www.zhaw.ch\/nc\/de\/zhaw\/die-zhaw\/publikationen\/publikationen-zhaw-angehoerige\/zhaw-publikation-detailanzeige.html?pi=206546\" target=\"_blank\" rel=\"noopener\">Applied Data Science in Europe<\/a> publicado en la Zurich University of Applied Sciences y el <a href=\"http:\/\/blog.zhaw.ch\/datascience\/the-data-science-skill-set\/\" target=\"_blank\" rel=\"noopener\">blog d&#8217;un dels seus autors, en Thilo Stadelmann<\/a>, se detallan las diferentes habilidades que deber\u00eda tener un buen Data Scientist.<\/p>\n<h2><strong>\u00bfQu\u00e9 retos podemos abordar?<\/strong><\/h2>\n<p>Por citar s\u00f3lo un ejemplo, uno de los retos de las tecnolog\u00edas actuales de Big Data y Data Science es su aplicaci\u00f3n en el an\u00e1lisis de la cantidad ingente de informaci\u00f3n gen\u00f3mica de que disponemos, y que sirve para estudiar enfermedades como el c\u00e1ncer.<\/p>\n<p>Piense que los humanos, que tenemos 23 pares de cromosomas, cada uno se compone por unos 3.200 millones de pares de bases de ADN que contienen unos 20.000 a 25.000 genes. Determinar qu\u00e9 combinaci\u00f3n de estos genes son significativos para ciertas enfermedades abre la puerta a pensar que puede ser que alg\u00fan d\u00eda tengamos una medicina personalizada.<\/p>\n<p>Actualmente existen un mont\u00f3n de fuentes de datos abiertos (Open Data) que podemos analizar, como por ejemplo, los <a href=\"http:\/\/opendata.bcn.cat\/opendata\/ca\" target=\"_blank\" rel=\"noopener\">datos abiertos del ayuntamiento de Barcelona<\/a> o si queremos big data, las del Proyecto del Genoma del C\u00e1ncer Pedi\u00e1trico de la Universidad de Washington, del Hospital Infantil St. Jude, que ha puesto a disposici\u00f3n de todos los <a href=\"http:\/\/www.pediatriccancergenomeproject.org\/site\/\" target=\"_blank\" rel=\"noopener\">datos completos del genoma del c\u00e1ncer humano<\/a>.<\/p>\n<p>Si el tema os motiva, podeis participar en diferentes retos de Data Science, como por ejemplo: Identificar signos de retinopat\u00eda diab\u00e9tica en im\u00e1genes del ojo. Este y otros retos, se publican, por ejemplo <a href=\"http:\/\/www.kaggle.com\/competitions\" target=\"_blank\" rel=\"noopener\">las competiciones de kaggle<\/a>, donde si sois buenos, podeis conseguir unas buenas recompensas.<\/p>\n<h2><strong>\u00bfComo puedo aprender?<\/strong><\/h2>\n<p>Una buena manera de aprender Data Science, es mediante la especializaci\u00f3n en la plataforma de MOOC (cursos online) <a href=\"https:\/\/www.coursera.org\/specializations\/jhu-data-science\" target=\"_blank\" rel=\"noopener\">Coursera<\/a>, desde donde se ofrecen los nueve cursos que componen esta especializaci\u00f3n de manera gratuita.<\/p>\n<p>En el inLab FIB hace muchos a\u00f1os que trabajamos en el An\u00e1lisis de datos, en \u00e1mbitos como la modelizaci\u00f3n, la simulaci\u00f3n, la optimizaci\u00f3n, la toma de decisiones y el an\u00e1lisis del aprendizaje (<a href=\"http:\/\/inlab.fib.upc.edu\/es\/learning-analytics\">Learning Analytics<\/a>). Con la aparici\u00f3n de las tecnolog\u00edas para tratar grandes vol\u00famenes de datos (Big Data) ahora disponemos de herramientas muy potentes que complementan este \u00e1mbito.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Esta \u00abciencia de los datos\u00bb, nacida del m\u00e9todo cient\u00edfico, es la evoluci\u00f3n de lo que hasta ahora se conoc\u00eda como Analista de datos, pero a diferencia de \u00e9ste que s\u00f3lo se dedicaba a analizar fuentes de datos de una \u00fanica fuente, el Data Scientist debe explorar y analizar datos de m\u00faltiples fuentes, a menudo inmensas [&hellip;]<\/p>\n","protected":false},"author":8,"featured_media":1791,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[496,1],"tags":[],"experteses":[9],"class_list":["post-1797","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-articulos","category-uncategorized-ca","experteses-datascienceybigdata-es"],"acf":[],"_links":{"self":[{"href":"https:\/\/inlab.fib.upc.edu\/es\/wp-json\/wp\/v2\/posts\/1797","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/inlab.fib.upc.edu\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/inlab.fib.upc.edu\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/inlab.fib.upc.edu\/es\/wp-json\/wp\/v2\/users\/8"}],"replies":[{"embeddable":true,"href":"https:\/\/inlab.fib.upc.edu\/es\/wp-json\/wp\/v2\/comments?post=1797"}],"version-history":[{"count":0,"href":"https:\/\/inlab.fib.upc.edu\/es\/wp-json\/wp\/v2\/posts\/1797\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/inlab.fib.upc.edu\/es\/wp-json\/wp\/v2\/media\/1791"}],"wp:attachment":[{"href":"https:\/\/inlab.fib.upc.edu\/es\/wp-json\/wp\/v2\/media?parent=1797"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/inlab.fib.upc.edu\/es\/wp-json\/wp\/v2\/categories?post=1797"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/inlab.fib.upc.edu\/es\/wp-json\/wp\/v2\/tags?post=1797"},{"taxonomy":"experteses","embeddable":true,"href":"https:\/\/inlab.fib.upc.edu\/es\/wp-json\/wp\/v2\/experteses?post=1797"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}