Métodos de discretización (minería de datos)

Se aplica a: SQL Server 2019 y versiones anteriores de Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

La minería de datos estaba en desuso en SQL Server 2017 Analysis Services y ahora se ha interrumpido en SQL Server 2022 Analysis Services. La documentación no se actualiza para las características en desuso e interrumpidas. Para más información, consulte Compatibilidad con versiones anteriores de Analysis Services.

Algunos algoritmos que se usan para crear modelos de minería de datos en SQL Server SQL Server Analysis Services requieren tipos de contenido específicos para funcionar correctamente. Por ejemplo, el algoritmo Bayes naive de Microsoft no puede usar columnas continuas como entrada y no puede predecir valores continuos. Además, algunas columnas pueden contener tal cantidad de valores que el algoritmo no puede identificar con facilidad patrones de interés en los datos para crear un modelo a partir de los mismos.

En estos casos, puede discretizar los datos en las columnas de modo que pueda utilizar los algoritmos para producir un modelo de minería de datos. Ladiscretización es el proceso mediante el cual los valores se incluyen en depósitos para que haya un número limitado de estados posibles. Los depósitos se tratan como si fueran valores ordenados y discretos. Puede discretizar tanto columnas numéricas como de cadena.

Pueden utilizarse varios métodos para discretizar datos. Si la solución de minería de datos usa datos relacionales, puede controlar el número de depósitos que se usarán para agrupar los datos si establece el valor de la propiedad DiscretizationBucketCount . El número predeterminado de depósitos es 5.

Si la solución de minería de datos usa datos de un cubo OLAP (procesamiento analítico en línea), el algoritmo de minería de datos calcula automáticamente el número de depósitos que es necesario generar con la siguiente ecuación, donde n es el número de valores de datos distintos en la columna:

Number of Buckets = sqrt(n)

Si no desea SQL Server Analysis Services calcular el número de cubos, puede usar la DiscretizationBucketCount propiedad para especificar manualmente el número de cubos.

En la tabla siguiente se describen los métodos que puede usar para discretizar datos en SQL Server Analysis Services.

Método de discretización Descripción
AUTOMÁTICO SQL Server Analysis Services determina qué método de discretización se va a usar.
RACIMOS El algoritmo divide los datos en grupos mediante el muestreo de los datos de entrenamiento, inicializa en un número de puntos aleatorios y, a continuación, ejecuta varias iteraciones del algoritmo de clústeres de Microsoft utilizando el método de agrupación en clústeres EM (Expectation Maximization). El método CLUSTERS resulta útil porque funciona en cualquier curva de distribución. Sin embargo, requiere más tiempo de procesamiento que otros métodos de discretización.

Este método solo puede utilizarse con columnas numéricas.
EQUAL_AREAS El algoritmo divide los datos en grupos que contienen el mismo número de valores. Este método es la mejor opción para las curvas de distribución normales, pero no se obtendrán resultados óptimos si la distribución incluye grandes cantidades de valores en un grupo pequeño de los datos continuos. Por ejemplo, si la mitad de los productos tiene un costo de 0, la mitad de los datos se encontrarán bajo un solo punto de la curva. En esta distribución, este método divide los datos en un intento de establecer una discretización igual en varias áreas. Esto produce una representación inexacta de los datos.

Comentarios

  • Puede usar el método EQUAL_AREAS para discretizar cadenas.

  • El método CLUSTERS usa una muestra aleatoria de 1000 registros para discretizar los datos. Use el método EQUAL_AREAS si no quiere que el algoritmo realice un muestreo de datos.

Consulte también

Tipos de contenido (minería de datos)
Tipos de contenido (DMX)
Algoritmos de minería de datos (Analysis Services: Minería de datos)
Estructuras de minería de datos (Analysis Services - Minería de datos)
Tipos de datos (minería de datos)
Columnas de la estructura de minería de datos
Distribuciones de columnas (minería de datos)