¿Por qué un Data Scientist debe hacer un doctorado?

Doctorado-Data-Science-Chile

¿Por qué un Data Scientist debe hacer un doctorado?

Sin ciencia de datos no hay visión ni proyección. Por tal razón, las organizaciones que no utilizan sus datos gravitan en entornos inestables y peligrosos.

No ha sido sorpresa que la demanda de habilidades de científicos e ingenieros de datos se haya incrementado exponencialmente con los años. 

La dinámica es proporcional; a medida que aumentan los volúmenes de datos y las metodologías para recopilarlos y procesarlos, aumentan también el número y la variedad de roles vinculados a la ciencia de datos.

Con base en esta realidad, la Universidad Adolfo Ibáñez (UAI) ha lanzado un ambicioso programa de Doctorado en Data Science. La primera versión, que ya cuenta con postulantes, comenzará en marzo de 2022. 

Para entender mejor esta iniciativa, hemos conversado con Leopoldo Bertossi, director del Doctorado en Data Science UAI, quien nos ha contado las fortalezas y la proyección de este programa. 

También indagamos en las oportunidades que este programa le brinda a sus estudiantes. Finalmente, discutimos sobre la realidad de la ciencia de datos en Chile y América Latina, sus niveles de implementación y los desafíos en la formación de más perfiles vinculados con el mundo del data science. 

P: ¿Cuáles son los principales atributos del Doctorado en Data Science de la UAI?

LB: Este es el primer programa de doctorado en Data Science que existe en Chile. 

Nuestro programa tiene varias características que lo hacen especial: 

Por un lado, este programa de doctorado se construye sobre la base de un Magíster Académico en Data Science que impartimos en la UAI desde hace dos años. 

Este atributo es muy importante. En Chile no existen muchas opciones de realizar postgrados académicos en Data Science, con el fin de desarrollar una carrera académica en torno a la ciencia de datos o desempeñarse como investigador en el área. Nuestros programas son los primeros en ofrecer esa posibilidad. 

Por otro lado, nuestro programa de doctorado cuenta con una gran fortaleza: los profesores. 

Todos los profesores del doctorado en Data Science trabajan full time para la universidad; asimismo, son investigadores activos en el área de la ciencia de datos. Por lo tanto, la base del claustro es muy sólida.  

Finalmente, puedo decir que uno de los focos más importantes de este programa de doctorado es la investigación. Desde el magíster académico, a los alumnos se les exige desarrollar proyectos de tesis; y en el doctorado también deberán asumir el desafío de embarcarse en un proyecto de investigación de más largo plazo y ambición, desde el primer año. 

La duración de nuestro doctorado en Data Science es de cuatro años. 

 P: ¿Cómo describirías el claustro de profesores con el que cuenta el doctorado?

LB: Nuestro claustro es bastante único; todos los profesores están adscritos a la Facultad de Ingeniería y Ciencia de la UAI. 

Pensando en este programa de doctorado, creamos un grupo interdisciplinario de Data Science conformado por múltiples perfiles, tales como computer scientists, matemáticos, estadísticos, e ingenieros, entre otros. 

Lo interesante es que la selección de los profesores tiene su origen en distintas disciplinas, y cada una de ellas está representada en la facultad. 

Por otro lado, muchos de nuestros profesores se dedican al desarrollo de aplicaciones. Hay un área importante en nuestra facultad relacionada con el análisis de imágenes satelitales, astronómicas, estudios ambientales, visión computacional, entre muchas otras. 

En general, es muy difícil articular en un mismo programa perfiles tan distintos; pero eso fue precisamente lo que hemos logrado en este doctorado. De allí, en gran medida, su relevancia. 

P: ¿Qué oportunidades tienen los futuros egresados de este doctorado en el mundo laboral?

LB: Este doctorado no solamente prepara a los alumnos para hacer investigación; ese es uno de varios caminos. 

El programa también prepara a los alumnos en aspectos y competencias tecnológicas. 

Tenemos cuatro cursos obligatorios que apuntan a este fin: 

Hay un curso completo de técnicas estadísticas y probabilísticas en Data Science. 

También impartimos un curso completo de Data Management; profundizamos en temas más allá de las bases de datos; exploramos aspectos como integración, limpieza y transformación de los datos, y bases de datos multidimensionales. 

El tercer curso se centra en álgebra lineal y optimización. El álgebra lineal es una pieza clave de la ciencia de datos, especialmente para las soluciones de machine learning. Por eso, este curso se concibe y se dicta, desde el principio, con una mirada desde el aprendizaje de máquina. No es el típico curso de álgebra lineal de pregrado. 

El cuarto curso se concentra plenamente en el aprendizaje de máquinas y sus aplicaciones. 

Como se puede ver, estos cursos entregan tanto los fundamentos de los métodos como sus aplicaciones. De allí que las competencias que los alumnos pueden desarrollar con esta malla curricular sean muy atractivas para las empresas y también para la investigación. 

Los estudiantes que realizan estos cuatro cursos, más los cursos electivos del Programa, salen preparados para aportar muchísimo valor a las empresas, ya que se habrán convertido en profesionales capaces de enfrentar grandes desafíos, con una base y visión distintas; asimismo, sabrán sugerir e implementar modelos e interpretar resultados. 

Si a este conjunto de competencias le sumamos la experiencia que los estudiantes habrán ganado durante el desarrollo de sus tesis, nos encontraremos frente a perfiles entrenados a un nivel muy alto. 

Insisto, estas cualidades son relevantes tanto en la industria como en la academia. La capacidad y la autonomía que se desarrollan haciendo investigación son valiosas e insustituibles. 

En Estados Unidos, Canadá y Europa es común que las empresas y las universidades se peleen por perfiles con doctorado. Desde ambos sectores buscan contar con los mejores profesionales del área. 

En Chile se está comenzando a ver esta realidad también, pero aún es una práctica tímida. Por eso siempre trato de enviar el mismo mensaje, a saber, que ya es tiempo de que las organizaciones públicas y privadas en Chile tomen en serio la relevancia de contratar personas con buenos postgrados. Son profesionales que tienen mucho para aportar, y de una manera distinta a la del profesional usual.

Cuando un estudiante culmina un doctorado está demostrando ser una persona que puede trabajar de forma autónoma e independiente. Asimismo, se valida su fuerza de voluntad y perseverancia. Todo esto aparte de los conocimientos avanzados que adquiere y las habilidades que desarrolla.

P: ¿Existen opciones de becas?

LB: Por el momento, con becas no nos quedamos cortos. 

Este programa de doctorado cuenta con becas muy buenas. Si llega un buen postulante, va a tener el apoyo. En esta etapa inicial en que los alumnos aún no pueden postular a becas ANID (ningún programa nuevo parte acreditado por la CNA; se puede postular después de un año), el esfuerzo de nuestra universidad es importante. Es una apuesta, un aporte que estamos haciendo como institución. 

P: ¿Cómo describirías los esfuerzos de implementación de ciencia de datos en América Latina? 

LB: Yo creo que los mayores desafíos están en la inversión, el desarrollo de investigación y la innovación, tanto a nivel académico como industrial. 

En Latinoamérica hay muy poca investigación en Data Science, mucho más allá de lo que se hace en Brasil, Chile, Argentina y México, para nombrar los principales países protagonistas.

Por ejemplo, Chile está muy bien con respecto al número de publicaciones que se realizan. Me atrevo a decir que estamos bien posicionados. Sin embargo, a pesar del relativamente alto número de publicaciones que Chile produce, el impacto que estas generan es relativamente bajo. Esto no se da solo en data science; el problema es más amplio.

Son varias las razones, pero una de las más evidentes para mí es la idea de seguir sumándonos a los journal rankings, los cuales muchas veces, y a pesar de sus altos índices, representan a revistas donde los investigadores relevantes a nivel internacional no publican, o simplemente no leen. 

El criterio de calidad de la investigación basada en los rankings y cuartiles del World Of Science (WOS) que usan nuestras agencias de financiamiento y acreditación está equivocado, especialmente en áreas como ciencia de computación y data science. 

En el mundo desarrollado estos rankings no se usan. Sin embargo, es fácil saber cuándo un investigador es de calidad: no hay como la evaluación directa por parte de los pares. 

Cuando suscribimos a este tipo de prácticas, enviamos las señales equivocadas a nuestros investigadores y ponemos los incentivos en el lugar equivocado. Es fundamental cambiar el sistema de evaluación de los investigadores y los programas. Y es importante generar ese cambio rápido porque, hasta ahora, las publicaciones en Chile producen mucho ruido y pocas nueces. 

Hay que comenzar a enviar las señales correctas. Chile es un mercado muy interesante, con gente preparada y motivada; como país, somos un polo de atracción para potenciales alumnos del resto de Latinoamérica. 

Con respecto a la industria, yo no la veo muy comprometida con el desarrollo tecnológico o la innovación. Hay un enorme vacío y aún no se ven los mecanismos que puedan cambiar la situación. 

Como ya lo mencioné, las empresas deben sumar a sus filas personas capaces de innovar. Para ello, deben poner foco en los profesionales con magisters académicos y doctorados; es decir, personas con competencias de primer nivel y un amplio conocimiento del campo. 

No basta con tener las tecnologías más avanzadas, si los equipos carecen de la expertise, la curiosidad y la imaginación necesarias para usarlas, extenderlas y aprovecharlas adecuadamente; estas competencias son necesarias para dar el paso innovativo siguiente.

Si bien es común ver que las grandes empresas chilenas, las más tradicionales, no invierten mucho en innovación, es pertinente decir que en el país están surgiendo muchas startups con ambición. 

Cada vez existen más empresas pequeñas, con talentos muy especializados, que están comenzando a generar desarrollos tecnológicos muy interesantes. Estas startups están atrayendo a personas con doctorado y, de paso, compitiendo por talento con las universidades. 

Son más bien las startups las que están surfeando en la cresta de la ola y llevan la iniciativa

A pesar de que esta realidad dificulta la tarea de reclutar gente valiosa por parte de las universidades, creo que es una tendencia muy positiva para el país. 

Ojalá se desarrollen pronto políticas de estado que apoyen a este tipo de empresas emergentes, y también a las establecidas, en la contratación de personal del más alto nivel. Hay que estimularlas para que se atrevan a hacer la apuesta.

P: ¿Cómo evaluarías la penetración de la ciencia de datos en las instituciones públicas chilenas?

LB: Uno esperaría más proactividad en este tema.

Te planteo un caso que conozco bien: ¿Cómo se consigue o asegura que los algoritmos que usa el estado para tomar decisiones sean éticos, justos y equitativos? 

No es un tema menor, ¿cierto? Cuando el Estado se apoya en inteligencia artificial para adjudicar, de manera automatizada, ciertas concesiones de proyectos, es crítico que el sistema de evaluación sea justo, transparente, balanceado. Sería muy grave que se produjeran discriminaciones (muy posiblemente involuntarias). Por lo tanto, el manejo y la gestión de los datos se vuelve decisivo.  

En un proyecto de estas características participé durante un tiempo. Esta iniciativa provino de la UAI y contó con el apoyo del Banco Interamericano de Desarrollo y la participación de varias startups chilenas. Cuando ya estaba avanzada la idea, llegó la presencia del Estado. 

En general, me da la impresión que el Estado no cuenta con los mecanismos para que la ideación, ejecución y seguimiento de proyectos informáticos sensibles, como modelos y sistemas basados en inteligencia artificial y aprendizaje de máquina, tengan su origen desde el Estado mismo. 

No estoy diciendo que no haya nada, pero sin duda hay mucho que hacer. 

P: El presidente del MIT, Leo Rafael Reif, enfatiza la importancia crítica de enseñar pensamiento computacional, pensamiento algorítmico y ciencia de datos a lo largo de los estudios de educación básica, pregrado y formación disciplinaria de posgrado. ¿Qué piensas al respecto? 

LB: Yo creo que es crucial. 

Actualmente estoy dando, por primera vez en la UAI, un curso de razonamiento algorítmico cuantitativo que apunta directamente a esa necesidad: Creamos este curso con una concepción amplia; es decir, abierto a todos los alumnos de la universidad. Pueden participar, incluso, estudiantes de carreras humanísticas que no han tenido cursos de matemática o programación en la universidad.

Queremos entregar, por lo menos, el feeling de lo que significa resolver problemas de forma automatizada y cómo se pueden usar los datos para lograrlo.

Considero que un ramo así debería ser parte de la formación de cualquier estudiante a nivel universitario, independientemente de la carrera. 

Y, sí, tal vez debería comenzar antes, desde la enseñanza media. 

Creo que deberíamos poner más énfasis en este tema porque actualmente hay una gran disociación entre, digamos, los especialistas en tecnología y el resto del mundo. No se hablan, no se entienden. El resto del mundo queda fuera de la cancha. 

El tema es que, como sociedad, querámoslo o no, la computación, la inteligencia artificial, la ciencia de datos y los algoritmos afectan nuestras vidas, y están aquí para quedarse. Por ende, la mayoría de las personas se ven impactadas por recursos y tecnologías que no entienden, lo cual abre la ventana a mitos y premisas equivocadas.

Debemos esforzarnos para que más personas entiendan qué hay detrás de la inteligencia artificial, cuáles son los límites de la computación, cuáles son los factores éticos que se deben vigilar, entre otras cosas. Solo así se podrá ir perdiendo el miedo general, solo así se desarrollará confianza en las soluciones tecnológicas y podremos enfrentar los problemas con mayor pluralidad y equidad. 

Muchas veces pareciera que el conocimiento tecnológico estuviese aglomerado en pequeños silos de especialistas. Esos círculos deberían irse abriendo.  

Asimismo, la formación temprana en estos temas le podría brindar a las personas oportunidades reales de movilidad social y profesional. En el campo tecnológico hay una escasez importante de perfiles profesionales; por lo tanto, si educamos a más personas en estos temas, les ayudaremos a descubrir nuevas posibilidades de trabajo. 

La especialización siempre va a existir y es bueno que así sea. Es ineludible. Sin embargo, debemos pensar en mitigar un poco la sobreespecialización, la cual suele generar segregaciones técnicas y profesionales, si es que no sociales. 

P: Tienes más de 30 años como profesor en el mundo de la computación. Has visto muy de cerca las transformaciones que está generando la tecnología. ¿Qué se viene en los próximos años? ¿Qué tecnologías van a predominar?

LB: La inteligencia artificial ha hecho enormes avances, pero los ha hecho en ciertas áreas. Por ejemplo, todo lo que ha sido el uso de redes neuronales ha sido impresionante. 

Sin embargo, hay otras áreas, incluso dentro de la inteligencia artificial, que no han avanzado tanto como se esperaría. 

Actualmente, existen comunidades y “culturas” distintas en torno a un tema común: la inteligencia artificial. No obstante, cada una de estas comunidades, y sus tecnologías asociadas, están intrínsecamente limitadas si actúan por sí solas. 

Con base en esta realidad, está surgiendo un movimiento (que cada vez gana más fuerza entre los mejores investigadores en inteligencia artificial del mundo) que propone la combinación de los distintos enfoques existentes. 

Un primer enfoque que debe materializarse en este acoplamiento general es la Inteligencia Artificial Neuro-Simbólica; es decir, la capacidad de combinar las redes neuronales, digamos la parte más algorítmica, con las representaciones lógicas del conocimiento. 

Tiene sentido; una red neuronal es un algoritmo potentísimo que produce resultados, pero no tiene la capacidad de hacer razonamiento. Es muy difícil entender la “lógica” que llevan detrás los algoritmos. Por lo tanto, se generan problemas de explicabilidad de los resultados que entregan. 

La segunda componente mencionada, el razonamiento lógico, permite, entre muchas otras cosas, extraer reglas y políticas a partir de los algoritmos; es decir, puede proveer explicaciones e interpretaciones de los resultados. 

Por otro lado, se ha detectado la relevancia de incluir la neurociencia en esta composición. Incluso en la actualidad, seguimos sin entender bien cómo funciona el cerebro humano. 

El cuarto componente radica en la ciencia cognitiva. Aún hay mucho que descubrir sobre cómo aprendemos los seres humanos. Este conocimiento, su formalización, y su implementación son críticos para generar soluciones de inteligencia artificial más avanzadas. 

Esas son las cuatro fuentes que hay que integrar. 

Podría incluir una más: el sentido común sigue siendo un desafío muy complicado para la inteligencia artificial, desde hace décadas. 

El sentido común plantea dificultades que un robot está lejos de enfrentar. En general, es muy difícil dar con una definición clara de sentido común, así como detectar su funcionamiento y, más aún, una potencial implementación técnica. 

El sentido común es un área importante en inteligencia artificial y aún hay mucho que investigar en este terreno. 

La realidad es que los seres humanos aún tenemos muchas ventajas con respecto a la tecnología “inteligente”. Por supuesto, hay muchos trabajos que van a desaparecer, producto de distintas técnicas de inteligencia artificial, pero eso solo significa que existirán nuevas oportunidades, nuevos trabajos. Es un proceso dinámico. 

Yo creo que surgirán nuevas oportunidades, pero hay que entender que las nuevas oportunidades laborales tienen que acompañarse con formación; si no, los profesionales no podrán aprovecharlas. La adaptación a la tecnología no es un problema que se pueda dejar alegremente a la evolución natural de las cosas; vamos a requerir que las personas se formen y se preparen para poder hacerse cargo de los nuevos desafíos que surgirán. Como es aprendizaje para algo que viene, pero que no conocemos del todo, hay que aprender a aprender y desarrollar capacidades en esa dirección.