Algoritmo de regresión lineal de Microsoft

El algoritmo Regresión lineal de Microsoft es una variación del algoritmo de árboles de decisión de Microsoft, donde el parámetro MINIMUM_LEAF_CASES se establece para ser mayor o igual que el número total de escenarios del conjunto de datos que el algoritmo utiliza para realizar el entrenamiento del modelo de minería de datos. Con el parámetro así establecido, el algoritmo no crea nunca una división y, por tanto, lleva a cabo una regresión lineal.

Puede utilizar la regresión lineal para determinar una relación entre dos columnas continuas. La relación toma la forma de una ecuación para la línea que mejor represente una serie de datos. Por ejemplo, la línea del siguiente diagrama muestra la mejor representación lineal de los datos.

Línea que modela un conjunto de datos

La ecuación que representa la línea en el diagrama toma la forma general de y = ax + b y es conocida como la ecuación de regresión. La variable Y representa la variable de salida, X representa la variable de entrada y a y b son coeficientes ajustables. Cada punto de datos del diagrama tiene un error asociado con su distancia con respecto a la línea de regresión. Los coeficientes a y b de la ecuación de regresión ajustan el ángulo y la ubicación de la línea de regresión. Puede obtener la ecuación de regresión ajustando a y b hasta que la suma de los errores asociados con los puntos alcance su cifra más baja.

Usar el algoritmo

Utilice el Visor de árboles de Microsoft para explorar un modelo de minería de datos de regresión lineal.

Un modelo de regresión lineal debe contener una columna de clave, columnas de entrada y al menos una columna de predicción.

El algoritmo Regresión lineal de Microsoft admite los tipos de contenido de columna de entrada, tipos de contenido de columna de predicción e indicadores de modelado específicos que se enumeran en la siguiente tabla.

Tipos de contenido de columna de entrada

Continuous, Cyclical, Key, Table y Ordered

Tipos de contenido de columna de predicción

Continuous, Cyclical y Ordered

Indicadores de modelado

NOT NULL y REGRESSOR

Todos los algoritmos de Microsoft son compatibles con un conjunto común de funciones. No obstante, el algoritmo Regresión lineal de Microsoft admite las funciones adicionales que se enumeran en la siguiente tabla.

IsDescendant

PredictStdev

IsInNode

PredictSupport

PredictHistogram

PredictVariance

PredictNodeId

   

Para consultar una lista de las funciones comunes a todos los algoritmos de Microsoft, vea Algoritmos de minería de datos. Para obtener más información acerca del modo de utilizar estas funciones, vea Referencia de funciones de Extensiones de minería de datos (DMX).

El algoritmo Regresión lineal de Microsoft es compatible con varios parámetros que influyen en el rendimiento y la precisión del modelo de minería de datos resultante. Estos parámetros se describen en la tabla siguiente.

Parámetro Descripción

MAXIMUM_INPUT_ATTRIBUTES

Define el número de atributos de entrada que puede administrar el algoritmo antes de invocar la selección de características. Establezca este valor en 0 para desactivar la selección de características.

El valor predeterminado es 255.

MAXIMUM_OUTPUT_ATTRIBUTES

Define el número de atributos de salida que puede administrar el algoritmo antes de invocar la selección de características. Establezca este valor en 0 para desactivar la selección de características.

El valor predeterminado es 255.

FORCED_REGRESSOR

Impone al algoritmo la utilización de las columnas indicadas como regresores, independientemente de su importancia según los cálculos del algoritmo.

Vea también

Conceptos

Algoritmos de minería de datos
Asistente para minería de datos
Selección de características en minería de datos
Ver un modelo de minería de datos con el Visor de árboles de Microsoft

Otros recursos

CREATE MINING MODEL (DMX)

Ayuda e información

Obtener ayuda sobre SQL Server 2005