Pruebas de datos: cómo garantizar que lo que entra en el warehouse está correcto

En el desarrollo de software, nadie en su sano juicio lanza código a producción sin probarlo. Se escriben pruebas automáticas que verifican, en cada cambio, si todo sigue funcionando; es una disciplina básica, asumida por todos. Y, sin embargo, en el mundo de los datos, una práctica equivalente aún es rara: todos los días, se cargan datos en warehouses y se usan para decisiones importantes sin que nadie verifique, de forma sistemática, si están siquiera correctos. Se confía en que están bien, hasta el día en que un informe muestra un número absurdo y alguien pregunta, demasiado tarde, "¿esto está bien?". Las pruebas de datos son la respuesta a este punto ciego — la disciplina de verificar automáticamente que lo que entra en el warehouse es fiable, antes de contaminar todo lo que viene después.

La ausencia de esta práctica es una de las mayores fuentes de desconfianza en los datos de una empresa. Un solo error que pasa desapercibido — un valor duplicado, un campo faltante, un número en una unidad equivocada — se propaga por informes, alimenta decisiones y mina la confianza en toda la plataforma de datos. Una vez que alguien encuentra un número erróneo, empieza a dudar de todos. Las pruebas de datos existen precisamente para atrapar estos problemas en el origen, antes de que aparezcan de la peor forma posible.

Este artículo no es sobre una herramienta específica. Es sobre un cambio de mentalidad: tratar los datos con la misma disciplina de verificación que ya aplicamos al software, porque las consecuencias de datos erróneos son tan graves — o más — que las de código con bugs.

Por qué los datos necesitan pruebas tanto como el código

Hay una diferencia peligrosa entre software y datos que explica por qué las pruebas de datos son tan descuidadas. Cuando el código tiene un bug, muchas veces revienta de forma visible — el programa falla, da error, se detiene. Cuando los datos están mal, el sistema sigue funcionando alegremente: el pipeline corre, el informe aparece, los gráficos se dibujan. Solo que los números están mal. El error en los datos es silencioso, y es ese silencio lo que lo hace tan peligroso — pasa desapercibido durante mucho tiempo, contaminando decisiones, hasta que el daño acumulado obliga a mirar hacia atrás.

Pruebas de datos: cómo garantizar que lo que entra en el warehouse está correcto

Esta característica lo cambia todo. Con el código, la ausencia de error visible es una señal razonable de que está funcionando. Con los datos, la ausencia de error visible no dice nada — puede estar todo bien o puede estar todo mal, y no hay forma de saberlo sin verificar activamente. Por eso confiar en que "los datos están bien porque el pipeline no falló" es una ilusión peligrosa. El pipeline puede correr a la perfección y cargar datos completamente erróneos.

Qué verifica una prueba de datos

Una prueba de datos es una verificación automática de una regla que los datos deben cumplir. Antes de que los datos sean aceptados en el warehouse o usados aguas abajo, se prueba si respetan lo que se espera de ellos. Si una regla falla, el sistema avisa — e, idealmente, bloquea la carga — en vez de dejar pasar datos sospechosos. Es el equivalente a un control de calidad a la entrada de una fábrica: nada avanza a la línea de producción sin pasar la inspección.

Estas reglas traducen, en verificaciones concretas, aquello que sabemos que debe ser verdad sobre los datos. Algunas son universales — una clave única no debe tener duplicados, un campo obligatorio no debe estar vacío. Otras vienen del conocimiento del negocio — una venta no puede tener valor negativo, una edad no puede ser 200, el total de hoy no puede ser diez veces el de ayer sin una razón. Cada regla que se codifica en una prueba es una red que atrapa una clase de errores antes de que hagan estragos.

Los tipos de prueba que más valen

Unicidad: verificar que las claves no tienen duplicados — la causa número uno de totales inflados que nadie nota.
No-nulo: confirmar que los campos obligatorios están llenos, para no perder registros o distorsionar promedios silenciosamente.
Rangos y valores válidos: garantizar que los números caen dentro de lo que tiene sentido — sin precios negativos, sin porcentajes por encima de cien, sin fechas en el futuro donde no deberían estar.
Consistencia y volumen: atrapar cambios sospechosos — una tabla que de repente tiene la mitad de las filas, un total que salta inexplicablemente — que señalan un problema en la fuente.

El poder de fallar temprano y en voz alta

La gran virtud de las pruebas de datos no es solo que atrapan errores — es que los atrapan en el momento y el lugar correctos. Un error detectado a la entrada, antes de ser cargado, es barato de corregir: se sabe exactamente qué falló y por qué, y nada aguas abajo ha sido aún contaminado. El mismo error descubierto semanas después, en un informe de la dirección, es caro y embarazoso: ya influyó en decisiones, ya minó la confianza, y rastrear su origen en medio de todo lo que vino después es una pesadilla. La regla es clara: cuanto antes se atrapa un problema de datos, más barato es resolverlo — y las pruebas son lo que permite atraparlo lo más temprano posible.

Hay un valor adicional en fallar "en voz alta". Cuando una prueba falla y bloquea la carga, el problema se vuelve imposible de ignorar — alguien tiene que resolverlo antes de que los datos avancen. Esto es infinitamente mejor que la alternativa silenciosa, en que los datos erróneos pasan y el problema solo se descubre cuando causa daño. Un buen sistema de pruebas transforma errores silenciosos y caros en alertas ruidosas y baratas.

El error de probar todo (o nada)

Hay dos formas de fallar con las pruebas de datos. La primera es no tener ninguna, confiando en la suerte — el punto de partida de la mayoría de las empresas. La segunda, menos obvia, es el exceso: intentar probar todo, crear cientos de reglas que nadie mantiene, y generar tantas alertas que las personas empiezan a ignorarlas, incluyendo las importantes. Un sistema de pruebas que grita a toda hora por variaciones inofensivas es tan inútil como uno que nunca grita — en ambos casos, las alertas dejan de tomarse en serio.

El equilibrio está en probar lo que importa: las reglas cuyo incumplimiento causaría daño real, sobre los datos más críticos. Empezar por las pocas pruebas de alto valor — las claves de los datos más usados, los campos que alimentan los informes más importantes — y crecer desde ahí, con criterio. Pocas pruebas bien elegidas, que rara vez fallan pero cuando fallan significan de verdad algo, valen más que cientos que nadie puede seguir.

Un caso concreto

Una empresa descubrió, de la peor forma, el costo de no probar los datos. Durante semanas, un informe de ventas usado por la dirección mostró números ligeramente inflados, sin que nadie sospechara — los valores parecían plausibles, solo "un buen período". La causa era un problema en la fuente que, en cierto momento, empezó a cargar algunas transacciones por duplicado. Como nada verificaba la unicidad de las claves, los duplicados pasaron silenciosamente al warehouse e inflaron los totales. El problema solo se descubrió cuando alguien, por casualidad, cruzó el informe con otra fuente y notó la discrepancia — y, para entonces, varias decisiones ya se habían tomado con base en números erróneos. Tras este episodio doloroso, el equipo introdujo pruebas de datos en los puntos críticos: una prueba de unicidad en las claves de las tablas de hechos principales, pruebas de rango en los valores de venta, y una verificación de volumen que señalaba saltos anormales en el número de filas. Semanas después, cuando un problema similar volvió a surgir en la fuente, la prueba de unicidad falló de inmediato y bloqueó la carga — el problema se resolvió el mismo día, antes siquiera de llegar a un informe. El costo de montar aquellas pocas pruebas se pagó por completo la primera vez que atraparon un error que, de otra forma, habría vuelto a contaminar las decisiones. La empresa aprendió que la confianza en los datos no se asume — se verifica.

Confianza conquistada, no asumida

En el fondo, las pruebas de datos son una expresión de una verdad simple: la confianza en los datos no es un estado natural, es algo que se conquista y se mantiene con trabajo. Una plataforma de datos sin pruebas pide a las personas que confíen en ella por fe; una con pruebas gana esa confianza por prueba, demostrando continuamente que lo que entra está verificado. Y como la confianza es el activo más valioso y más frágil de cualquier plataforma de datos, las pruebas que la sostienen son una de las inversiones con mejor retorno en toda la ingeniería de datos.

Adoptar esta disciplina es, más que una cuestión técnica, un cambio de cultura: pasar de "esperamos que los datos estén bien" a "sabemos que verificamos que lo están". Ese cambio de postura es lo que separa a las organizaciones en que los datos son verdaderamente un cimiento fiable de aquellas en que son una fuente permanente de duda.

En la práctica

Si en tu empresa los datos se cargan y se usan sin que nada verifique, de forma sistemática, si están correctos, tienes un punto ciego que tarde o temprano va a costar caro. Empieza pequeño y por lo más importante: elige las tablas más críticas y añade media docena de pruebas de alto valor — unicidad de las claves, campos obligatorios llenos, valores dentro de lo razonable. Esas pocas pruebas van a atrapar la mayoría de los errores que hoy pasan desapercibidos. ¿Los datos que alimentan tus decisiones más importantes están siendo verificados antes de que los uses, o simplemente confías en que están bien?