viernes, 10 de febrero de 2017

¿Qué es Data Quality y cómo podemos medirlo para mejorar resultados?



A pesar de que se puede tener una comprensión básica de lo que significa calidad de datos, muchas personas aún no entienden lo que significa data quality con exactitud. Por ejemplo, ¿existe alguna manera de medir esa calidad?, y si es así, ¿cómo se hace esa medición?.




Uno de los mayores mitos sobre calidad de datos es que los datos tienen que estar completamente libres de errores. Conseguir cero errores cuando tienes datos que provienen de sitios web y de otras campañas de recopilación de datos, es prácticamente imposible. Pero en realidad, los datos sólo necesitan ajustarse a los estándares que se han establecido para esto.




Para determinar lo que significa data quality, primero necesitamos saber 3 cosas:


¿Quién crea los requisitos de calidad de datos?


¿Cómo se crean esos requisitos?


¿Cuál es el grado de cumplimiento que debemos de tener para estos requisitos?




Muchas empresas tienen un administrador de datos que entiende y establece estos requisitos, además de ser la persona que determina los niveles de tolerancia para los errores. Pero si no hay un administrador de datos, casi siempre es IT quien asume este rol, asegurándose de que los responsables de los datos entienden bien las deficiencias que puede haber y cómo pueden afectar.




Y ¿cómo se determina, comprueba y decide la calidad de los datos?
Un primer paso, el perfilado de datos

El perfilado de datos o data profiling, implica revisar toda la información de la base de datos para determinar si es precisa y completa, y qué debemos hacer con las entradas que no lo son.




Es bastante sencillo, por ejemplo, importar la base de datos de productos que tu empresa fabrica, y asegurarse que toda la información es exacta. Pero es una historia diferente cuando lo que estás importando son detalles sobre los productos de tus competidores u otros datos relacionados.




Con el perfilado de datos se buscan la precisión de los datos. Si has lanzado un producto el 20/10/16, debes de comprobar si el sistema ha registrado 1916 o 2016. Es posible que incluso puedas descubrir duplicados y otros problemas con la información que obtienes. Perfilar los datos de esta forma nos da un punto de partida a partir del cual nos aseguramos que la información que estamos utilizando tiene la mejor calidad posible.
Decidiendo el nivel de calidad de los datos

Una vez que tenemos un punto de partida para determinar si nuestra información es completa y precisa, la siguiente pregunta es ¿qué hacemos cuando encontramos errores o problemas?. Normalmente se puede hacer una de estas 4 cosas:


Aceptar el error. Si cae dentro de un estándar aceptable se puede decidir aceptarlo y pasar a la siguiente entrada. Por ejemplo, podemos admitir “Avda. Principal” en lugar de “Avenida Principal”.


Rechazar el error. A veces, particularmente cuando son importaciones de datos, la información está tan gravemente dañada o incorrecta que sería mejor simplemente borrar las entradas en su totalidad antes que tratar de corregirlos.


Corregir el error. Los errores ortográficos de los nombres de clientes son un error común que puede corregirse fácilmente. Si hay variaciones en un nombre, puede establecerse uno como maestro y mantener los datos consolidados y correctos en todas las bases de datos.


Crear un valor por defecto. Si no se conoce el valor, puede ser mejor tener algo como la palabra “desconocido” o “n/a” antes que tener nada. Esto es información, mientras que el vacío no es nada.
Integración de datos

Cuándo tienes los mismos datos en diferentes bases de datos, la posibilidad de que aparezcan errores y duplicados, es muy alta. El primer paso hacia una integración exitosa es ver donde los datos están y luego combinar esos datos de una manera que sea consistente. Puede valer la pena invertir en alguna herramienta de calidad de datos probada para que ayude a coordinar y sincronizar información entre las bases de datos.
Checklist de calidad de datos

Por último, dado que se está tratando con tantos datos de tantas áreas diferentes, es útil tener una lista de comprobación para determinar que se está trabajando con la más alta calidad de datos posible.




Algunas dimensiones de calidad de datos que podemos utilizar para tener una visión más completa de cómo es la calidad de nuestros datos son:


Completitud. Se trata de un porcentaje de datos que pueden incluir uno o más valores. Es importante asegurarse de que los datos más críticos, como nombres de clientes, números de teléfono, direcciones de correo electrónico, etc., sean completos, ya que un problema de falta de completitud no afecta tanto a datos no críticos.


Singularidad. Cuando medimos contra otros conjuntos de datos, debe haber solo una entrada de este tipo.


Puntualidad. ¿Qué impacto tiene la fecha y hora en un dato?. Esto afecta, por ejemplo, a cosas como un histórico de ventas, lanzamiento de productos, o cualquier información que esté relacionada o que se base en un periodo de tiempo para ser exacta.


Validez. ¿Se ajustan los datos a las estándares establecidos para cada uno de ellos?


Precisión. ¿En qué medida los datos reflejan la persona o cosa del mundo real que está tratando de identificar?


Consistencia. ¿En qué medida se alinean los datos con un patrón preconcebido? Por ejemplo, las fechas de nacimiento pueden tener un problema de consistencia ya que el estándar en Europa es DD/MM/YYYY mientras que en Estados Unidos es MM/DD/YYYY.
Conclusión

Como se puede ver, no existe un enfoque único para mantener la exactitud y la integridad de todos los tipos de datos para todos los negocios. Con la necesidad cada vez mayor de información, es cada vez más importante abordar los problemas de calidad de datos desde el principio.


Aunque pueda parecer abrumador, vale la pena adquirir herramientas de data quality que nos permitan que sean los ordenadores los que hagan bien todo el trabajo más complicado. Si quieres ampliar información, te recomendamos descargar esta completa guía gratuita donde se amplía información acerca de cómo medir la calidad de los datos y cuales son sus beneficios.

No hay comentarios.:

Publicar un comentario