ciencia de datos

Campo interdisciplinario que estudia, desarrolla y aplica métodos y sistemas científicos para obtener conocimiento a partir de una gran colección de datos.

Contenidos mostrar

Descripción

La ciencia de datos es, en esencia, el arte y la técnica de extraer conocimientos valiosos a partir de un mar de datos. Su objetivo no es solo recolectar información, sino entender qué historia nos está contando esa información y qué pasará después.

Los tres pilares

La ciencia de datos es un campo interdisciplinario, situado en la intersección de:

Matemáticas y estadística: Para validar patrones y crear modelos predictivos que no sean fruto del azar.
La informática: Para programar algoritmos y manejar grandes volúmenes de datos (big data) que una hoja de Excel normal no podría procesar.
Conocimiento del dominio (negocio o disciplina): Nada de lo anterior sirve si no entendemos el problema que intentamos resolver, por lo cual hace falta un dominio del campo respectivo; por ejemplo, medicina, finanzas o deportes.

El ciclo de vida

Una científica de datos no salta directamente a las conclusiones. Sigue un proceso estructurado:

Captura: Recolección de datos crudos a partir de bases de datos, redes sociales o sensores.
Preparación (limpieza): Esta es la parte más larga. Consiste en corregir errores, rellenar huecos y poner los datos en un formato legible.
Análisis exploratorio: Se trata de ver qué hay ahí. Se usan gráficos para detectar tendencias o anomalías iniciales.
Modelado: Aquí entra en juego el machine learning. Se entrenan algoritmos para que aprendan de los datos.
Interpretación: El objetivo es traducir los resultados técnicos en decisiones de negocio. Por ejemplo: «Si bajamos el precio un 5%, las ventas subirán un 12%».

Herramientas digitales

Para trabajar en ciencia de datos, no basta con una sola herramienta omnipotente, sino que necesitamos un ecosistema de tecnologías que se conectan entre sí. Dependiendo de la etapa del proyecto (limpiar datos, crear modelos o presentar resultados), usaremos herramientas distintas.

Lenguajes de programación

Los lenguajes de programación son el idioma en el que «hablamos» con los datos para darles órdenes complejas.

Python: Es el rey indiscutible, adorado por su sencillez y su ecosistema de librerías (paquetes de código ya listo) como Pandas (para tablas), NumPy (matemáticas) o Scikit-learn (machine learning).
R: Muy popular en el mundo académico y estadístico. Si necesitamos hacer un análisis estadístico extremadamente riguroso o visualizaciones de alta calidad técnica, R es la opción.
SQL (Structured Query Language): No es un lenguaje para crear modelos, sino para hablar con las bases de datos. Es indispensable para extraer la información que luego procesaremos con Python o R.
Julia: Está ganando terreno para tareas de computación científica que requieren una velocidad similar a C++ pero con la facilidad de Python.

Bases de datos y almacenamiento

Las bases de datos son el sitio donde viven los datos antes de ser analizados.

Bases de datos relacionales (SQL): Como PostgreSQL o MySQL. Organizan los datos en tablas (filas y columnas) y son ideales para datos estructurados.
NoSQL: Como MongoDB. Se usan cuando los datos no tienen una estructura fija (como publicaciones de redes sociales o documentos).
Data warehouses en la nube: Herramientas como Snowflake, Google BigQuery o Amazon Redshift permiten procesar petabytes de datos en segundos gracias al poder de la nube.

Visualización e inteligencia de negocios

De nada sirve un análisis si nadie lo entiende. Las herramientas de visualización de información o de business intelligence (BI) convierten números en historias visuales.

Tableau: Muy potente para crear tableros interactivos complejos y «jugar» con los datos de forma visual.
Power BI: La opción preferida en entornos corporativos por su integración nativa con el ecosistema de Microsoft (Excel, Azure).
Las librerías de código: Si buscamos un control total, probablemente nos decantaremos por Matplotlib, Seaborn o Plotly (dentro de Python) para crear gráficos personalizados.

Plataformas de trabajo y big data

Jupyter Notebook: Es el «cuaderno» digital donde los científicos de datos escriben código, ven los gráficos y añaden explicaciones en un solo lugar.
Apache Spark: Cuando los datos son tan grandes que no caben en un solo ordenador, Spark permite procesarlos en «enjambres» de servidores que trabajan en paralelo.
GitHub: Esencial para el control de versiones; permite que varios científicos trabajen en el mismo código sin borrarse el trabajo unos a otros.

Inteligencia artificial generativa

A día de hoy, herramientas de IA generativa como ChatGPT o Gemini están completamente integradas en el flujo de trabajo.

Los copilotos de código: Ayudan a escribir scripts de Python o R más rápido.
El análisis conversacional: Permite preguntar a los datos en lenguaje natural («¿Cuál fue el producto más vendido en diciembre?») y obtener una respuesta inmediata.

Ejemplos

Probablemente interactuamos con la ciencia de datos decenas de veces al día sin ser conscientes de ello. Aquí van algunos ejemplos de su aplicación en actividades bastante cotidianas.

Recomendaciones en plataformas

Netflix o Spotify saben qué me gusta porque analizan mis hábitos, comparándolos con los de millones de otros usuarios.

Detección de fraude

Tu banco detecta en milisegundos si una compra en otro país es legítima o se trata de un robo.

Salud

Complejos algoritmos están dedicados a analizar radiografías para detectar enfermedades con mayor precisión que el ojo humano.

Rutas de transporte

Google Maps y otros sistemas de geolocalización predicen el tráfico analizando la velocidad de miles de teléfonos en tiempo real.

Bibliografía recomendada

Bruce, Peter; Bruce, Andrew y Gedeck, Peter (2022). Estadística práctica para ciencia de datos con R y Python. Marcombo.

Recursos en línea

Data Science Tutorial

En este curso online de W3Schools podemos aprender los fundamentos de la ciencia de datos y también el uso de herramientas específicas, como lenguajes de programación, hojas de cálculo, inteligencia artificial o bases de datos, por ejemplo.

w3schools.com

Sinónimos:

data science