Détox de código: Limpieza de datos sin dolor con Open Refine
Aprende a limpiar y transformar datos masivos con OpenRefine (herramienta gratuita). Elimina duplicados, corrige errores y normaliza datos para análisis confiables sin código.
Detalles
Público objetivo:
Personas sin experiencia previa que:
- Trabajan con datos desorganizados (en Excel, CSV, etc.).
- Quieren aprender a estandarizar, limpiar y transformar datos sin programar.
- Buscan automatizar procesos repetitivos de limpieza.
Lo que aprenderás:
- A diagnosticar problemas comunes en datos sucios (errores, duplicados, formatos inconsistentes).
- A usar OpenRefine desde cero (instalación, interfaz y flujo de trabajo) para limpiar y transformar datos.
- Técnicas de normalización de textos, fechas y categorías.
- A exportar datos limpios en formatos útiles (Excel, CSV) rores en futuros proyectos.
Temario:
- Introducción a la Limpieza de Datos.
- Transformaciones Básicas.
- Limpieza Avanzada.
- Exportar y Automatizar.
Prerrequisitos:
- Tener conexión a internet.
Tema/s y ejercicio a ver en sesión 01:
Introducción a la Limpieza de Datos
- ¿Por qué limpiar datos? (Ejemplos de errores comunes).
- Instalación y interfaz de OpenRefine.
- Importar datos desde Excel, CSV o URLs.
- Ejercicio Práctico: Cargar un dataset con problemas intencionales (errores de escritura, columnas mezcladas, etc.). Exploración básica con facetas y filtros.
Tema/s y ejercicio a ver en sesión 02:
Transformaciones Básicas
- Normalización de textos (quitar espacios, mayúsculas, caracteres raros).
- Dividir columnas y fusionar datos.
- Uso de expresiones GREL (lenguaje simple de OpenRefine).
- Ejercicio Práctico: Limpiar nombres de países (ej: “México”, “MEX”, “Méjico” → estándar único). Corregir fechas en formatos inconsistentes
Tema/s y ejercicio a ver en sesión 03:
Limpieza Avanzada
- Eliminar duplicados inteligentemente.
- Clustering automático para agrupar valores similares (ej: “Café”, “Cafe”, “CAFÉ”).
- Reconocimiento de patrones con expresiones regulares (regex básico).
- Ejercicio Práctico: Dataset de direcciones postales: unificar calles (“Av.”, “Avenida”, “Avda.”).
Tema/s y ejercicio a ver en sesión 04:
Exportar y Automatizar
- Exportar datos limpios (Excel, CSV, Google Sheets).
- Introducción a operaciones repetibles (automatizar flujos).
- Conexión con APIs (ej: enriquecer datos con GeoNames).
- Ejercicio Práctico: Crear un proyecto completo: desde datos sucios hasta un dataset listo para análisis.







