Limpieza de Datos

La limpieza de datos, también llamada depuración de datos o data cleansing en inglés, es el proceso de detección y correción de impurezas en un conjunto de datos. Tras este proceso, los datos están preparados para añadirse a otras bases, y se asegura la veracidad de la información, que finalmente es la que va a influir en la toma de decisiones.

Un conjunto de datos puede contener errores o estar corrupto por varios motivos. Uno de los principales motivos de errores es la entrada manual de datos, ya que genera, entre otras cosas, una gran heterogeneidad, ya que no todas las personas introducen la misma información de la misma manera, incluso una misma persona puede escribir algo distinto en distintas ocasiones. Este error puede ser prevenido introduciendo listas o desplegables de valores. Otra causa de errores es la transmisión o el almacenaje de los datos. Al moverse en entornos distintos, o pasar de un formato a otro, se pueden producir cambios en los caracteres de cadenas de texto, o interpretar de forma distinta un separador decimal.

El proceso de limpieza es necesario realizarlo antes de empezar cualquier análisis de datos, no durante o después. Si se detectan errores en los datos mientras se está realizando un análisis de los mismos, es preferible parar y ponerse con la limpieza, aunque se tenga que empezar desde cero posteriormente. De lo contrario, se estaría perdiendo el tiempo en poner “parches” a los datos, además de que se podrían estar pasando por alto otros errrores. La fase adecuada para realizar esta depuración es antes de montar el data warehouse, de forma que, además de una base de datos sin impurezas, podremos realizar las trasnformaciones necesarias en nuestras tablas para hacerlas compatibles entre ellas, y poder unificar los formatos.

Análisis inicial

Existen varios métodos para realizar la limpieza y asegurar la calidad de la información, aunque el primer paso que hay que dar es realizar un análisis inicial. Este análisis inicial consiste en realizar una exploración lo más completa posible de nuestras bases de datos, en busca de posibles errores que pueda haber en ellos. Con el tiempo, los analistas más experimentados conocen cuáles son los errores más frecuentes según el tipo de datos de los que dispongan, cómo ha sido la obtención de dichos datos, y cómo han llegado hasta ellos.
Una vez detectadas todas las impurezas, no sólo hay que idear la forma de corregirlas, si no que hay que estructurar correctamente el proceso. Seguir un orden adecuado en la limpieza de datos puede ahorrar varias horas de trabajo.

Métodos

Existen varias formas de realizar la limpieza de datos, y, aunque con el tiempo, cada uno desarrolla sus propios procedemientos, los métodos para realizar la limpieza de datos se podrían resumir en los siguientes.

Transformación

Se trata de una corrección típica: se detecta un fallo, y éste se corrige. Lo normal es tener conjuntos de un tamaño demasiado grande como para ir fallo por fallo detectándolo y corrigiéndolo. Para optimizar el proceso, durante el análisis inicial hay que buscar una repetitividad en los errores. A menudo, las impurezas en los datos suelen seguir un patrón, ya que, si se ha generado un fallo una vez, éste se puede repetir a lo largo de las numerosas filas de las que se disponga. De esta forma, en pocos pasos se puede corregir cientos, miles o incluso millones de errores. Por ejemplo, un error muy típico para los que trabajamos en español es que la letra ñ no se transmita correctamente al cambiar de entorno, y haya que corregir el carácter que se haya introducido.

Durante la transformación de los datos, también se aprovecha para unificar formatos con otras tablas, de forma que el análisis posterior sea más eficiente.

Traducción

La traducción es una de las soluciones que tiene que ver con la repetitividad de un error, aunque no necesariamente tienen que existir errores para usar este proceso. La traducción se emplea cuando se conoce de antemano que ciertos valores van a aparecer en los datos y se quieren sustituir por otros ya establecidos. Por ejemplo, a menudo aparecen en las tablas códigos que hacen referencia a ciertos elementos, por ejemplo, objetos de un inventario. Aunque trabajar con códigos es más eficiente, a veces se necesita que aparezca en una tabla en concreto el nombre completo del elemento, y se realiza la traducción del código al nombre del elemento.

Eliminación de duplicados

Eliminar duplicados consiste en eliminar en un campo valores que aparecen más de una vez, ya que es posible que aparezcan repetidos debido a un error en una extracción, o que el propio sistema que genera los datos duplique los valores para añadir más información en otros campos. Normalmente esto induce a errores en análisis en los que se tenga que realizar una cuenta de los registros de un campo, ya que se están contando valores de más. Actualmente, casi todas las herramientas de análisis de datos cuentan con la posibilidad de eliminar los duplicados de un campo.

La operación de eliminar duplicados debe realizarse con cuidado, ya que se puede perder información. A veces es correcto que aparezca un mismo elemento de un campo varias veces, ya que es necesario aportar más información en otro campo.

Por ejemplo, en una línea de montaje de coches, un robot que realiza ciertas operaciones de taladrado sobre varias piezas genera automáticamente un archivo que recoge los detalles de esas operaciones. En cada operación es necesario un cambio de herramienta, así que el robot genera, para la misma operación, dos registros con el mismo código de operación, pero distinta herramienta. Si se quieren contar las operaciones únicas realizadas, se deben eliminar los duplicados en el campo del código de la operación. Pero este mismo robot, no siempre realiza las operaciones a la primera, y es necesario que se repita la misma operación. Entonces sí se tiene que contar dos veces, pero no se pueden eliminar duplicados a la ligera, ya que se perdería la información de ese segundo intento. Se debe buscar un campo cuyo valor cambie de un intento a otro, pero no tras un cambio de herramienta, y concatenar el valor de ese campo con el del código de la operación, de forma que al eliminar duplicados, se eliminen los cambios de herramienta, pero no los intentos realizados. En algunas herramientas, como Excel, no es necesario concatenar los campos, si no que permiten elegir los campos que contienen esos valores que distinguen los distintos registros.

Problemas

La limpieza de datos permite mejorar la calidad de los datos con los que se trabaja, así como la de la información extraída de esas tablas y, por lo tanto, mejorar en la toma de decisiones posterior al análisis realizado. Sin embargo, estos procesos llevan asociados una serie de problemas que es necesario tener en cuenta.

Uno de los principales problemas es la pérdida de información. Al modificar o eliminar los datos de una tabla, es posible que se esté modificando o eliminando algo que no se debería, como se ha visto en la eliminación de duplicados. Para evitar esta pérdida de información hay que realizar un buen análisis previo a la limpieza, asegurando que sólo se realicen las operaciones necesarias. Además, tras realizar el análisis de los datos, se debe confirmar que la información extraída es lógica y congruente. De no serlo, se debe considerar que se ha podido perder información en la limpieza de datos.

Otro problema asociado a la limpieza es el mantenimiento que se debe realizar de los datos tratados. En el momento de aplicar los métodos de depuración, por ejemplo, la traducción de algunos valores es posible que no aparezcan ciertos valores que más tarde sí que aparecerán, y será necesario actualizar los métodos, en este caso las tablas de traducción, para incluir los valores que se deben modificar. Por eso, en un buen proceso de limpieza de datos se considera establecer una revisión periódica cada cierto tiempo.

Limpieza de datos en Power BI

Power BI es una herramienta con muchos recursos para realizar la depuración de los datos. Aunque, como se ha dicho antes, la limpieza debe realizarse antes de que lleguen los datos a la parte del análisis, no está de más que la persona encargada de este análisis compruebe la calidad de los datos y, de ser necesario, realice una depuración extra.

En Power Query existen numerosas funciones y procedimientos de gran utilidad para esta limpieza. En próximos entradas se verá en detalle cómo realizar la limpieza de datos con Power BI y Power Query.

DEJA UNA RESPUESTA

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *