Algoritmo de clústeres de secuencia de Microsoft

Artículo
12/15/2008

El algoritmo de clústeres de secuencia de Microsoft es un algoritmo de análisis de secuencia que proporciona Microsoft SQL Server 2005 Analysis Services (SSAS). Puede utilizar este algoritmo para explorar los datos que contienen eventos que pueden vincularse mediante rutas o secuencias. El algoritmo encuentra las secuencias más comunes mediante la agrupación de las secuencias idénticas. Estas secuencias pueden tomar muchas formas, incluyendo:

Los datos que describen las rutas de clics que los usuarios siguen a través de un sitio Web.
Los datos que describen el orden en el que un cliente agrega elementos en una cesta de compra de un comerciante electrónico.

Este algoritmo es similar al Algoritmo de clústeres de Microsoft. Sin embargo, en lugar de encontrar clústeres de escenarios que contienen atributos similares, el algoritmo de clústeres de secuencia de Microsoft encuentra clústeres de escenarios que contienen rutas similares en una secuencia.

El modelo de minería de datos que crea este algoritmo contiene descripciones de las secuencias más comunes en los datos. Puede usar las descripciones para predecir el siguiente paso probable de una nueva secuencia. Cuando el algoritmo agrupa registros, también puede tener en cuenta las columnas de datos que no están relacionadas directamente con las secuencias. Debido a que el algoritmo incluye las columnas no relacionadas, puede usar el modelo resultante para identificar las relaciones entre los datos de las secuencias y los datos que no se producen en una secuencia.

Ejemplo

El sitio Web de la empresa Adventure Works recopila información sobre las páginas que visitan los usuarios y sobre el orden en que las visitan. Debido a que la empresa ofrece un sistema de pedidos en línea, los clientes deben registrarse en el sitio. Esto permite que la empresa pueda conseguir información de clics por cada perfil de cliente. Mediante el uso del algoritmo de clústeres de secuencia de Microsoft en estos datos, la empresa puede encontrar grupos, o clústeres, de los clientes que tienen patrones o secuencias de clics similares. La empresa puede utilizar estos clústeres para analizar la forma en que los clientes se mueven por el sitio Web, identificar qué páginas se relacionan más estrechamente con la venta de un producto en particular y predecir las páginas que tienen mayores probabilidades de ser visitadas a continuación.

Cómo funciona el algoritmo

El algoritmo utiliza el método de clústeres EM (Expectation Maximization) para la identificación de los clústeres y sus secuencias. Específicamente, el algoritmo usa un método de probabilidades para determinar la probabilidad de que exista un punto de datos en un clúster. Para obtener una descripción acerca de cómo se utiliza este método de clústeres en el algoritmo de clústeres de Microsoft, vea Algoritmo de clústeres de Microsoft.

Una de las columnas de entrada que utiliza el algoritmo de clústeres de secuencia de Microsoft es una tabla anidada que contiene datos de secuencia. Estos datos son una serie de transiciones de estado de escenarios individuales de un conjunto de datos, como compras de un producto o clics de Web. Para determinar qué columnas de secuencia se van a tratar como columnas de entrada para los clústeres, el algoritmo mide las diferencias, o distancias, entre todas las secuencias posibles del conjunto de datos. Después de que el algoritmo ha medido estas distancias, puede usar la columna de secuencia como una entrada para el método de clústeres EM.

Usar el algoritmo

Un modelo de clústeres de secuencia requiere una clave que identifique los registros y una tabla anidada que contenga una columna relacionada con la secuencia, como un identificador de páginas Web, que identifique los eventos de una secuencia. Sólo se admite una columna relacionada con la secuencia por cada secuencia y un tipo de secuencia en cada modelo. Para crear un modelo en el caso del ejemplo anterior de este tema, necesitaría un origen de datos que contenga dos tablas. Una primera tabla contendría los pedidos y la segunda la secuencia en la que los pedidos se incluyeron en la cesta de compra.

El algoritmo de clústeres de secuencia de Microsoft admite tipos de contenido de columna de entrada, tipos de contenido de columna de predicción e indicadores de modelado específicos que aparecen en la siguiente tabla.

Tipos de contenido de columna de entrada	Continuous, Cyclical, Discrete, Discretized, Key, Key Sequence, Table y Ordered
Tipos de contenido de columna de predicción	Continuous, Cyclical, Discrete, Discretized, Table y Ordered
Indicadores de modelado	MODEL_EXISTENCE_ONLY y NOT NULL

Todos los algoritmos de Microsoft son compatibles con un conjunto común de funciones. Sin embargo, el algoritmo de clústeres de secuencia de Microsoft admite funciones adicionales, que aparecen en la tabla siguiente.

Clúster	PredictHistogram
ClusterProbability	PredictNodeId
IsDescendant	PredictProbability
IsInNode	PredictSequence
PredictAdjustedProbability	PredictStdev
PredictAssociation	PredictSupport
PredictCaseLikelihood	PredictVariance

Para consultar una lista de las funciones comunes a todos los algoritmos de Microsoft, vea Algoritmos de minería de datos. Para obtener más información acerca del modo de utilizar estas funciones, vea Referencia de funciones de Extensiones de minería de datos (DMX).

El algoritmo de clústeres de secuencia de Microsoft no admite el uso del lenguaje de marcado de modelos de predicción (PMML) para crear modelos de minería de datos.

El algoritmo de clústeres de secuencia de Microsoft admite varios parámetros que afectan al rendimiento y la precisión del modelo de minería de datos resultante. En la siguiente tabla se describen estos parámetros.

Parámetro	Descripción
CLUSTER_COUNT	Especifica el número aproximado de clústeres que generará el algoritmo. Si no se puede generar el número aproximado de clústeres a partir de los datos, el algoritmo genera tantos clústeres como sea posible. Si el parámetro CLUSTER_COUNT se establece en 0, el algoritmo utiliza la heurística para determinar mejor el número de clústeres que va a generar. El valor predeterminado es 10.
MINIMUM_SUPPORT	Especifica el número mínimo de escenarios de cada clúster. El valor predeterminado es 10.
MAXIMUM_SEQUENCE_STATES	Especifica el número máximo de estados que puede tener una secuencia. Si se establece este valor en un número mayor que 100, el algoritmo puede crear un modelo que no proporcione información significativa. El valor predeterminado es 64.
MAXIMUM_STATES	Especifica el número máximo de estados que admite el algoritmo para un atributo sin secuencia. Si el número de estados que tiene un atributo sin secuencia es mayor que el número máximo de estados, el algoritmo utilizará los estados más populares del atributo y omitirá el resto. El valor predeterminado es 100.

Vea también

Algoritmo de clústeres de secuencia de Microsoft

Ejemplo

Cómo funciona el algoritmo

Usar el algoritmo

Vea también

Conceptos

Otros recursos

Ayuda e información

Recursos adicionales