Limpieza de Datos en Power BI

limpieza de datos en power bi

Este artículo es una continuación de la publicación anterior, Limpieza de datos, donde hablábamos sobre la calidad de las tablas con las que trabajamos.

En el artículo anterior, explicábamos por qué la fase adecuada para realizar esta limpieza es justo antes de montar el data warehouse. Sin embargo, a veces, como analistas, nos llegan conjuntos de datos que no han pasado un proceso de depuración, y nos tenemos que encargar nosotros de ello, de lo contrario, corremos el riesgo de mostrar información falsa o incorrecta.

Afortunadamente, los que trabajamos con Power BI, podemos realizar este proceso gracias a Power Query, que como ya sabremos es el motor de transformación de datos. Power Query cuenta con numerosas funciones de las que nos podemos aprovechar para realizar la limpieza de datos. Y, si no has oído hablar nunca de Power Query, puedes informarte en nuestro artículo Introducción a Power Query.

Como vimos, existen varios métodos para depurar conjuntos de datos, entre los que destacamos Transformación, Traducción y Eliminación de duplicados. A continuación, veremos cómo realizar estos procesos gracias a Power Query.

Transformación

Este método consiste, básicamente, en detectar un fallo y corregirlo. Poníamos el ejemplo típico de los que, al trabajar en castellano, a menudo, al importar un archivo que contengan palabras con « ñ », ésta se convierte en otro caracter. Aunque esto ya no ocurre con Power BI, a veces ocurren fallos similares al importar desde Excel u otro tipo de archivos.

Para arreglar este tipo de fallos, la solución más sencilla consiste en sustituir valores, es decir, seleccionamos una de las celdas que contenga el fallo, seleccionamos Replace Values, y escribimos el valor que queremos en lugar del actual.

En este caso, el atributo DESCAPITALIZACIÓN se nos ha importado separado por un guión, y en dos filas, y queremos que nos aparezca correctamente.

Elegimos la opción Replace Values, y escribimos el valor que queremos.

Si conocemos de antemano los fallos que contienen nuestras tablas, no es necesario que los busquemos uno por uno, la propia interfaz de Power Query cuenta con esta función. Podemos usarla tantas veces como fallos conozcamos.

En el mismo menú nos encontramos la función Replace Errors, que transforma todos los errores que se encuentren en las columnas seleccionadas por el valor que escribamos. Aunque, si en lugar de sustituir los errores, queremos eliminar todas las filas en las que aparezcan, podemos usarlo mediante la función Remove Errors, en el desplegable de Remove Rows.

A un nivel más avanzado, se puede programar Power Query para detectar y corregir automácticamente errores en nuestras tablas, de forma que, mediante unas líneas en el editor avanzado, se corrijan todos los errores actuales y futuros, o nos salte un aviso del tipo de error. Este es uno de los temas que se ven en el Curso Power BI Avanzado.

Traducción

Para realizar este proceso, es necesario dos tablas, una con la queremos trabajar pero contiene errores o códigos que queremos traducir, y una que contiene todos esos valores que queremos traducir, por aquellos con los que queremos trabajar.

La construcción de esta tabla de traducción la podemos hacer también con Power Query, ya sea introduciendo los valores manualmente mediante la función Enter Data, o de formas un poco más complejas si la tabla tiene que ser demasiado grande.

Una vez tenemos las dos tablas, tenemos que sustituir los valores de una de ellas, por los de otra, y esto también lo podemos hacer mediante Power Query. Existen varias formas de hacerlo, algunas son más adecuadas que otras dependiendo de la situación. Todas ellas se ven tanto en el Curso Power BI Básico, como en el Curso Power BI Intermedio.

En este artículo adelantamos que uno de esos métodos es haciendo uso de la función Merge, que realiza una fusión de dos tablas, usando una columna de cada una como clave. Podemos usar esta función para traer los valores de la tabla de traducción, borrar la columna original y renombrar la nueva columna como la anterior y será como haber realizado una sustitución masiva de valores.

Eliminación de duplicados

Se pueden eliminar duplicados en las tablas que hayamos cargado en Power BI. En el propio desplegable de Remove Rows se encuentra la función Remove Duplicates que, sencillamente, elimina todas las filas en las que se encuentre un valor repetido en la columna seleccionada, dejando la fila en la que se encuentre la primera aparición.

Sin embargo, hasta esta sencilla función se puede complicar un poco.

En esta tabla queremos quitar duplicados, pero no sólo queremos quedarnos con una lista de valores únicos de ciudades, queremos una lista de valores únicos tanto de ciudades como periodos. Si usamos la función Remove Duplicates directamente, el resultado no es el que queremos, ya que perdemos la información del segundo periodo.

Podemos conseguir nuestro objetivo, si usamos la función seleccionando ambas columnas. De esta forma, sería como si creáramos una nueva columna en la que concatenamos los valores de las dos columnas, y aplicamos la eliminación de duplicados sobre ella.

Este artículo es una sencilla introducción sobre cómo realizar la limpieza de datos con Power BI, pero existen muchas más funciones y procedimientos que se pueden realizar para llevar a cabo esa tarea. En futuros artículos explicaremos más sobre el tema, aunque como ya hemos comentado, en nuestros Cursos de Power BI aprenderás en profundidad todos estos conceptos.

COMMENTS

  1. Muchas gracias por la información. Gran aporte de esta web. Saludos!

  2. […] sencillo combinar consultas que realizar numerosas transformaciones (como vimos en el artículo Limpieza de datos en Power BI, este sería el método de Traducción). Otras veces nos encontramos con conjuntos de datos que […]

LEAVE REPLY

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *