Contenido del modelo de minería de datos para los modelos de regresión lineal (Analysis Services - Minería de datos)

Se aplica a: SQL Server 2019 y versiones anteriores de Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

La minería de datos estaba en desuso en SQL Server 2017 Analysis Services y ahora se ha interrumpido en SQL Server 2022 Analysis Services. La documentación no se actualiza para las características en desuso e interrumpidas. Para más información, consulte Compatibilidad con versiones anteriores de Analysis Services.

En este tema se describe el contenido del modelo de minería de datos específico de los modelos que usan el algoritmo de regresión lineal de Microsoft. Para obtener una explicación general del contenido del modelo de minería de datos para todos los tipos de modelo, vea Contenido del modelo de minería de datos (Analysis Services - Minería de datos).

Descripción de la estructura de un modelo de regresión lineal

Un modelo de regresión lineal tiene una estructura sumamente simple. Cada modelo tiene un único nodo primario que representa el modelo y sus metadatos, y un nodo de árbol de regresión (NODE_TYPE = 25) que contiene la fórmula de regresión para cada atributo de predicción.

Estructura del modelo para la regresión lineal

Los modelos de regresión lineal usan el mismo algoritmo que los árboles de decisión de Microsoft, pero se usan parámetros diferentes para restringir el árbol y solo se aceptan atributos continuos como entradas. Sin embargo, dado que los modelos de regresión lineal se basan en el algoritmo de árboles de decisión de Microsoft, los modelos de regresión lineal se muestran mediante el Visor de árboles de decisión de Microsoft. Para más información, vea Examinar un modelo usando el Visor de árboles de Microsoft.

En la sección siguiente se explica cómo interpretar la información del nodo de la fórmula de regresión. Esta información se aplica no solo a los modelos de regresión lineal, sino también a los modelos de árboles de decisión que contienen regresiones en una parte del árbol.

Contenido de un modelo de regresión lineal

En esta sección solo se proporcionan detalles y ejemplos de las columnas del contenido del modelo de minería de datos que tienen una relevancia especial para la regresión lineal.

Para obtener información sobre las columnas de uso general en el conjunto de filas de esquema, vea Contenido del modelo de minería de datos (Analysis Services - Minería de datos).

MODEL_CATALOG
Nombre de la base de datos en la que se almacena el modelo.

MODEL_NAME
Nombre del modelo.

ATTRIBUTE_NAME
Nodo raíz: en blanco

Nodo de regresión: el nombre del atributo de predicción.

NODE_NAME
Siempre lo mismo que NODE_UNIQUE_NAME.

NODE_UNIQUE_NAME
Identificador único para el nodo dentro del modelo. Este valor no puede modificarse.

NODE_TYPE
Un modelo de regresión lineal genera los tipos de nodos siguientes:

Identificador del tipo de nodo Tipo Descripción
25 Raíz del árbol de regresión Contiene la fórmula que describe la relación entre la variable de entrada y la de salida.

NODE_CAPTION
Etiqueta o título asociado al nodo. Esta propiedad se usa principalmente para la presentación.

Nodo raíz: en blanco

Nodo de regresión: todos.

CHILDREN_CARDINALITY
Cálculo del número de elementos secundarios que tiene el nodo.

Nodo raíz: indica el número de nodos de regresión. Se crea un nodo de regresión para cada atributo de predicción del modelo.

Nodo de regresión: siempre es 0.

PARENT_UNIQUE_NAME
Nombre único del nodo primario del nodo. Se devuelve NULL para todos los nodos del nivel raíz.

NODE_DESCRIPTION
Descripción del nodo.

Nodo raíz: en blanco

Nodo de regresión: todos.

NODE_RULE
No se utiliza para los modelos de regresión lineal.

MARGINAL_RULE
No se utiliza para los modelos de regresión lineal.

NODE_PROBABILITY
Probabilidad asociada a este nodo.

Nodo raíz: 0

Nodo de regresión: 1

MARGINAL_PROBABILITY
Probabilidad de alcanzar el nodo desde el nodo primario.

Nodo raíz: 0

Nodo de regresión: 1

NODE_DISTRIBUTION
Tabla anidada que proporciona estadísticas sobre los valores del nodo.

Nodo raíz: 0

Nodo de regresión: tabla que contiene los elementos que se usan para generar la fórmula de regresión. Un nodo de regresión contiene los tipos de valores siguientes:

VALUETYPE
1 (ausente)
3 (continuo)
7 (coeficiente)
8 (ganancia de puntuación)
9 (estadísticas)
11 (intersección)

NODE_SUPPORT
Número de casos que admiten este nodo.

Nodo raíz: 0

Nodo de regresión: recuento de casos de entrenamiento.

MSOLAP_MODEL_COLUMN
Nombre del atributo de predicción.

MSOLAP_NODE_SCORE
Igual que NODE_PROBABILITY

MSOLAP_NODE_SHORT_CAPTION
Etiqueta que se utiliza para la visualización.

Comentarios

Cuando se crea un modelo mediante el algoritmo de regresión lineal de Microsoft, el motor de minería de datos crea una instancia especial de un modelo de árboles de decisión y proporciona parámetros que restringen el árbol para que contengan todos los datos de entrenamiento en un solo nodo. Todas las entradas continuas se marcan y evalúan como regresores potenciales, pero únicamente los que se ajusten a los datos se conservan como regresores en el modelo final. El análisis genera una única fórmula de regresión o ninguna fórmula para cada regresor.

Para ver la fórmula de regresión completa en la Leyenda de minería de datos, haga clic en el nodo (Todos) del Visor de árboles de Microsoft.

Además, al crear un modelo de árboles de decisión que incluye un atributo de predicción continuo, a veces el árbol tiene nodos de regresión que comparten las propiedades de los nodos del árbol de regresión.

Distribución de nodos para los atributos continuos

La mayoría de la información importante en un nodo de regresión está incluida en la tabla NODE_DISTRIBUTION. En el ejemplo siguiente se muestra el diseño de la tabla NODE_DISTRIBUTION. En este ejemplo, la estructura de minería de datos de Targeted Mailing se ha utilizado para crear un modelo de regresión lineal que predice los ingresos de los clientes según su edad. El modelo solo tiene el propósito de la ilustración, ya que se puede compilar fácilmente mediante la estructura de minería de datos de ejemplo y datos de ejemplo AdventureWorks2012 existentes.

ATTRIBUTE_NAME ATTRIBUTE_VALUE SOPORTE TÉCNICO PROBABILITY varianza VALUETYPE
Yearly Income Missing 0 0.000457142857142857 0 1
Yearly Income 57220.8876687257 17484 0.999542857142857 1041275619.52776 3
Age 471.687717702463 0 0 126.969442359327 7
Age 234.680904692439 0 0 0 8
Age 45.4269617936399 0 0 126.969442359327 9
35793.5477381267 0 0 1012968919.28372 11

La tabla NODE_DISTRIBUTION contiene varias filas, cada una agrupada por una variable. Las primeras dos filas siempre son de los tipos de valores 1 y 3, y describen el atributo de destino. Las filas siguientes proporcionan los detalles sobre la fórmula para un regresordeterminado. Un regresor es una variable de entrada que tiene una relación lineal con la variable de salida. Puede haber varios regresores y cada uno tendrá una fila independiente para el coeficiente (VALUETYPE = 7), la ganancia de puntuación (VALUETYPE = 8) y las estadísticas (VALUETYPE = 9). Finalmente, la tabla incluye una fila que contiene la intersección de la ecuación (VALUETYPE = 11).

Elementos de la fórmula de regresión

La tabla NODE_DISTRIBUTION anidada contiene cada elemento de la fórmula de regresión en una fila independiente. Las dos primeras filas de datos en los resultados del ejemplo contienen información sobre el atributo de predicción, Yearly Income, que modela la variable dependiente. La columna SUPPORT muestra el recuento de casos de compatibilidad de los dos estados de este atributo: o bien hay disponible un valor Yearly Income o el valor Yearly Income no está.

La columna VARIANCE indica la varianza calculada del atributo de predicción. Lavarianza es una medida de la dispersión de los valores de un ejemplo, dada una distribución esperada. La varianza aquí se calcula tomando el promedio de la desviación cuadrada de la media. La raíz cuadrada de la varianza también se conoce como desviación estándar. SQL Server Analysis Services no proporciona la desviación estándar, pero puede calcularla fácilmente.

Para cada regresor se generan tres filas. Contienen el coeficiente, la ganancia de puntuación y estadísticas de regresores.

Finalmente, la tabla contiene una fila que proporciona la intersección de la ecuación.

Coeficiente

Para cada regresor se calcula un coeficiente (VALUETYPE = 7). El propio coeficiente aparece en la columna ATTRIBUTE_VALUE, mientras que la columna VARIANCE indica la varianza para el coeficiente. Los coeficientes se calculan con una linealidad máxima.

Ganancia de puntuación

La ganancia de puntuación (VALUETYPE = 8) de cada regresor representa la puntuación de grado de interés del atributo. Puede utilizar este valor para calcular la utilidad de varios regresores.

Estadísticas

La estadística de regresores (VALUETYPE = 9) es la media del atributo para los casos que tienen un valor. La columna ATTRIBUTE_VALUE contiene la propia media, mientras que la columna VARIANCE contiene la suma de desviaciones de la media.

Interceptar

Normalmente, la intersección (VALUETYPE = 11) o valor residual en una ecuación de regresión indica el valor del atributo de predicción en el punto donde el atributo de entrada es igual a 0. En muchos casos, esto podría no suceder y se podrían producir resultados poco intuitivos.

Por ejemplo, en un modelo que prediga los ingresos según la edad, es inútil obtener información sobre los ingresos a los 0 años. En la vida real, suele ser más útil saber el comportamiento en el margen con respecto a los valores medios. Por lo tanto, SQL Server SQL Server Analysis Services modifica la interceptación para expresar cada regresor en una relación con la media.

Este ajuste es difícil de ver en el contenido del modelo de minería de datos, pero es obvio si se ve la ecuación completada en la Leyenda de minería de datos del Visor de árboles de Microsoft. La fórmula de regresión se desvía del punto 0 al punto que representa la media. Esto presenta una vista que es más intuitiva dados los datos actuales.

Por consiguiente, suponiendo que la edad media está alrededor de 45 años, la intersección (VALUETYPE = 11) para la fórmula de regresión indica los ingresos medios.

Consulte también

Contenido del modelo de minería de datos (Analysis Services - Minería de datos)
Algoritmo de regresión lineal de Microsoft
Referencia técnica del algoritmo de regresión lineal de Microsoft
Ejemplos de consultas de modelos de regresión lineal