Microsoft 顺序分析和聚类分析算法是由 Microsoft SQL Server Analysis Services 提供的一种顺序分析算法。您可以使用该算法来研究包含可通过下面的路径或“顺序”链接到的事件的数据。该算法通过对相同的顺序进行分组或分类来查找最常见的顺序。下面是一些顺序示例:
-
用来说明用户在导航或浏览网站时产生的点击路径的数据。
-
用来说明客户将商品添加到在线零售商的购物车中的顺序的数据。
该算法在许多方面都类似于 Microsoft 聚类分析算法。不过,Microsoft 顺序分析和聚类分析算法不是查找包含类似属性的事例的分类,而是查找顺序中包含类似路径的事例的分类。

示例
AdventureWorks 网站收集有关站点用户访问哪些页面以及页面访问顺序的信息。因为该公司提供在线订购,所以用户必须登录到此站点。这可以为该公司的各个客户配置文件提供点击信息。通过对此数据使用 Microsoft 顺序分析和聚类分析算法,该公司可以查找具有相同的点击模式或点击顺序的客户组或分类。然后,该公司可以使用这些分类来分析用户如何在网站中移动,来识别哪些页面与特定商品的销售关系最密切及预测接下来哪些页面最有可能被访问。

算法的原理
Microsoft 顺序分析和聚类分析算法是一种混合算法,它综合了聚类分析方法和 Markov 链分析,以识别分类及其顺序。Microsoft 顺序分析和聚类分析算法的特点之一是使用顺序数据。此数据通常表示数据集中状态之间的一系列事件或转换,例如,特定用户的一系列产品购买或 Web 点击操作。该算法会检查所有转换概率,并测量数据集中所有可能顺序之间的差异或距离,以确定最好使用哪些顺序作为聚类分析的输入。在创建候选顺序列表后,该算法将该顺序信息用作聚类分析的 EM 方法的输入。
有关实现的详细说明,请参阅 Microsoft 顺序分析和聚类分析算法技术参考(Analysis Services – 数据挖掘)。

顺序分析和聚类分析模型所必需的数据
准备用于定型顺序分析和聚类分析模型的数据时,应理解特定算法的要求,其中包括所需要的数据量以及使用数据的方式。
顺序分析和聚类分析模型的要求如下:
-
单个
key
列 顺序分析和聚类分析模型需要一个用来标识记录的键。
-
顺序列 对于顺序数据,模型必须具有包含顺序 ID 列的嵌套表。顺序 ID 可以为任何可排序的数据类型。例如,可以使用数据类型为网页标识符、整数或文本字符串的列,只要该列可以标识顺序中的事件。每个顺序只允许有一个顺序标识符,且每个模型中只允许有一种类型的顺序。
-
可选的非顺序属性 该算法支持添加与顺序无关的其他属性。这些属性可以包含嵌套列。
例如,在前面引用的 AdventureWorks 网站的示例中,顺序分析和聚类分析模型可以包含订单信息(作为事例表)、每个订单的具体客户的人口统计数据(作为非顺序属性)以及包含客户浏览网站和将商品放入购物车的顺序的嵌套表(作为顺序信息)。
有关顺序分析和聚类分析模型支持的内容类型和数据类型的详细信息,请参阅 Microsoft 顺序分析和聚类分析算法技术参考(Analysis Services – 数据挖掘)的“要求”一节。

查看顺序分析和聚类分析模型

创建预测

注释
-
不支持使用预测模型标记语言 (PMML) 创建挖掘模型。
-
支持钻取。
-
支持使用 OLAP 挖掘模型和创建数据挖掘维度。

请参阅