Algoritmo de regresión lineal de Microsoft

Artículo
12/15/2008

El algoritmo Regresión lineal de Microsoft es una variación del algoritmo de árboles de decisión de Microsoft, donde el parámetro MINIMUM_LEAF_CASES se establece para ser mayor o igual que el número total de escenarios del conjunto de datos que el algoritmo utiliza para realizar el entrenamiento del modelo de minería de datos. Con el parámetro así establecido, el algoritmo no crea nunca una división y, por tanto, lleva a cabo una regresión lineal.

Puede utilizar la regresión lineal para determinar una relación entre dos columnas continuas. La relación toma la forma de una ecuación para la línea que mejor represente una serie de datos. Por ejemplo, la línea del siguiente diagrama muestra la mejor representación lineal de los datos.

Línea que modela un conjunto de datos

La ecuación que representa la línea en el diagrama toma la forma general de y = ax + b y es conocida como la ecuación de regresión. La variable Y representa la variable de salida, X representa la variable de entrada y a y b son coeficientes ajustables. Cada punto de datos del diagrama tiene un error asociado con su distancia con respecto a la línea de regresión. Los coeficientes a y b de la ecuación de regresión ajustan el ángulo y la ubicación de la línea de regresión. Puede obtener la ecuación de regresión ajustando a y b hasta que la suma de los errores asociados con los puntos alcance su cifra más baja.

Usar el algoritmo

Utilice el Visor de árboles de Microsoft para explorar un modelo de minería de datos de regresión lineal.

Un modelo de regresión lineal debe contener una columna de clave, columnas de entrada y al menos una columna de predicción.

El algoritmo Regresión lineal de Microsoft admite los tipos de contenido de columna de entrada, tipos de contenido de columna de predicción e indicadores de modelado específicos que se enumeran en la siguiente tabla.

Tipos de contenido de columna de entrada	Continuous, Cyclical, Key, Table y Ordered
Tipos de contenido de columna de predicción	Continuous, Cyclical y Ordered
Indicadores de modelado	NOT NULL y REGRESSOR

Todos los algoritmos de Microsoft son compatibles con un conjunto común de funciones. No obstante, el algoritmo Regresión lineal de Microsoft admite las funciones adicionales que se enumeran en la siguiente tabla.

IsDescendant	PredictStdev
IsInNode	PredictSupport
PredictHistogram	PredictVariance
PredictNodeId

Para consultar una lista de las funciones comunes a todos los algoritmos de Microsoft, vea Algoritmos de minería de datos. Para obtener más información acerca del modo de utilizar estas funciones, vea Referencia de funciones de Extensiones de minería de datos (DMX).

El algoritmo Regresión lineal de Microsoft es compatible con varios parámetros que influyen en el rendimiento y la precisión del modelo de minería de datos resultante. Estos parámetros se describen en la tabla siguiente.

Parámetro	Descripción
MAXIMUM_INPUT_ATTRIBUTES	Define el número de atributos de entrada que puede administrar el algoritmo antes de invocar la selección de características. Establezca este valor en 0 para desactivar la selección de características. El valor predeterminado es 255.
MAXIMUM_OUTPUT_ATTRIBUTES	Define el número de atributos de salida que puede administrar el algoritmo antes de invocar la selección de características. Establezca este valor en 0 para desactivar la selección de características. El valor predeterminado es 255.
FORCED_REGRESSOR	Impone al algoritmo la utilización de las columnas indicadas como regresores, independientemente de su importancia según los cálculos del algoritmo.

MAXIMUM_INPUT_ATTRIBUTES

Define el número de atributos de entrada que puede administrar el algoritmo antes de invocar la selección de características. Establezca este valor en 0 para desactivar la selección de características.

El valor predeterminado es 255.

MAXIMUM_OUTPUT_ATTRIBUTES

Define el número de atributos de salida que puede administrar el algoritmo antes de invocar la selección de características. Establezca este valor en 0 para desactivar la selección de características.

El valor predeterminado es 255.

FORCED_REGRESSOR

Impone al algoritmo la utilización de las columnas indicadas como regresores, independientemente de su importancia según los cálculos del algoritmo.

Vea también

Algoritmo de regresión lineal de Microsoft

Usar el algoritmo

Vea también

Conceptos

Otros recursos

Ayuda e información

Recursos adicionales