Prueba y validación (minería de datos)

Se aplica a: SQL Server 2019 y versiones anteriores de Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

La minería de datos estaba en desuso en SQL Server 2017 Analysis Services y ahora se ha interrumpido en SQL Server 2022 Analysis Services. La documentación no se actualiza para las características en desuso e interrumpidas. Para más información, consulte Compatibilidad con versiones anteriores de Analysis Services.

La validación es el proceso de evaluar cuál sería el rendimiento de sus modelos de minería de datos con datos reales. Es importante que valide sus modelos de minería de datos entendiendo su calidad y sus características antes de implementarlos en un entorno de producción.

En esta sección se presentan algunos conceptos básicos relacionados con la calidad del modelo y se describen las estrategias de validación de modelos que se proporcionan en Microsoft SQL Server Analysis Services. Para obtener información general sobre cómo la validación del modelo se adapta a procesos de minería de datos de mayor tamaño, vea Soluciones de minería de datos.

Métodos de prueba y validación de los modelos de minería de datos

Existen muchos enfoques a la hora de evaluar la calidad y las características de un modelo de minería de datos.

  • Use varias medidas de validez estadística para determinar si existen problemas en los datos o en el modelo.

  • Separe los datos en conjuntos de entrenamiento y de prueba con el fin de probar la precisión de predicciones.

  • Solicite a los expertos comerciales que revisen los resultados del modelo de minería de datos para determinar si los patrones detectados tienen sentido en un escenario empresarial concreto.

Todos estos métodos son útiles para la metodología de minería de datos y se usan de forma iterativa a la hora de crear, probar y refinar modelos para responder a un problema concreto. No hay ninguna regla completa única que pueda indicarle si un modelo es suficientemente bueno, o si cuenta con suficientes datos.

Definición de los criterios para validar los modelos de minería de datos

Las medidas de minería de datos se suelen agrupar en las categorías de precisión, confiabilidad y utilidad.

Laprecisión es una medida que indica hasta qué punto el modelo pone en correlación un resultado con los atributos de los datos que se han proporcionado. Existen varias medidas de precisión, pero todas ellas dependen de los datos que se utilicen. En realidad, podrían faltar valores o éstos ser aproximados, o incluso diferentes procesos podrían cambiar los datos. En particular, en la fase de exploración y desarrollo, podría decidir aceptar una cierta cantidad de errores en los datos, sobre todo si éstos son suficientemente uniformes en sus características. Por ejemplo, un modelo que predice las ventas para un almacén determinado en base a las ventas pasadas puede estar muy correlacionado y ser muy preciso, incluso si ese almacén ha utilizado un método de contabilidad equivocado continuamente. Por tanto, es necesario equilibrar las mediciones de precisión mediante las valoraciones de confiabilidad.

Laconfiabilidad evalúa la manera en la que se comporta un modelo de minería de datos en conjuntos de datos diferentes. Un modelo de minería de datos es confiable si genera el mismo tipo de predicciones o encuentra los mismos tipos generales de patrones independientemente de los datos de prueba que se proporcionen. Por ejemplo, el modelo que ha generado para el almacén que utilizó un método de contabilidad equivocado no podría extrapolarse correctamente a otros almacenes, y por tanto, no sería confiable.

Lautilidad incluye diferentes métricas que le indican si el modelo proporciona información útil. Por ejemplo, un modelo de minería de datos que pone en correlación la ubicación del almacén con las ventas podría ser preciso y fiable, pero podría no ser útil, ya que no se podría generalizar ese resultado si se agregaran más almacenes en la misma ubicación. Es más, no responde a la pregunta comercial fundamental de porqué ciertas ubicaciones tienen más ventas que otras. También podría descubrir que un modelo que parece correcto, en realidad no tiene sentido porque está basado en correlaciones cruzadas de los datos.

Herramientas de prueba y validación de modelos de minería de datos

SQL Server Analysis Services admite varios enfoques para la validación de soluciones de minería de datos, admitiendo todas las fases de la metodología de prueba de minería de datos.

  • Crear particiones de los datos de los conjuntos de prueba y entrenamiento.

  • Filtrar modelos para entrenar y probar combinaciones diferentes de los mismos datos de origen.

  • Medir la mejora respecto al modelo predictivo y la ganancia. Un gráfico de mejora respecto al modelo predictivo es un método para visualizar la mejora que obtendrá de usar un modelo de minería de datos, si lo compara con una estimación aleatoria.

  • Realizar una validación cruzada de los conjuntos de datos

  • Generar matrices de clasificación. Estos gráficos ordenan las estimaciones buenas y malas en una tabla, lo que permite analizar rápida y fácilmente con qué precisión predice el modelo el valor de destino.

  • Crear gráficos de dispersión para evaluar el ajuste de una fórmula de regresión.

  • Crear gráficos de beneficios que permiten asociar ganancias o costos financieros con el uso de cierto modelo de minería de datos, para poder evaluar el valor de las recomendaciones.

Estas métricas no pretenden responder a la pregunta de si el modelo de minería de datos resuelve sus preguntas empresariales, sino que proporcionan medidas objetivas que puede usar para evaluar la confiabilidad de los datos para los análisis predictivos, y le ofrecen ayuda a la hora de decidir si debe usar una iteración determinada en el proceso de desarrollo.

Los temas de esta sección proporcionan información general de cada método y le guían en el proceso de medir la exactitud de los modelos generados mediante la minería de datos de SQL Server.

Temas Vínculos
Obtenga información sobre cómo configurar un conjunto de datos de prueba mediante un asistente o mediante los comandos DMX Conjuntos de datos de entrenamiento y de prueba
Obtenga información sobre cómo probar la distribución y la representatividad de los datos de una estructura de minería de datos Validación cruzada (Analysis Services - Minería de datos)
Obtenga información sobre los tipos de gráficos de precisión proporcionados. Gráfico de mejora respecto al modelo predictivo (Analysis Services - Minería de datos)

Gráfico de beneficios (Analysis Services - Minería de datos)

Gráfico de dispersión (Analysis Services - Minería de datos)
Aprenda a crear una matriz de clasificación, a veces denominada una matriz de confusión, para evaluar el número de verdaderos positivos, falsos positivos, verdaderos negativos y falsos negativos. Matriz de clasificación (Analysis Services - Minería de datos)

Consulte también

Herramientas de minería de datos
Soluciones de minería de datos
Tareas y procedimientos de prueba y validación (minería de datos)