Diskretisierungsmethoden

Artikel
12/15/2008

Einige Algorithmen, die verwendet werden, um Data Mining-Modelle in Microsoft SQL Server 2005 Analysis Services (SSAS) zu erstellen, benötigen bestimmte Inhaltstypen, um richtig zu funktionieren. Beispielsweise können Algorithmen wie der Microsoft Naive Bayes-Algorithmus kontinuierliche Spalten nicht als Eingabe verwenden und kontinuierliche Werte nicht vorhersagen. Außerdem können einige Spalten so viele Werte enthalten, dass der Algorithmus interessante Muster in Daten, aus denen ein Modell erstellt wird, nur schwer identifizieren kann.

In diesen Fällen können Sie die Daten in den Spalten diskretisieren, sodass Sie die Algorithmen verwenden können, um ein Miningmodell zu erstellen. Diskretisierung ist der Prozess, Werte eines kontinuierlichen Datumsatzes in Buckets zu platzieren, sodass eine diskrete Anzahl an möglichen Zuständen vorhanden ist. Die Buckets selbst werden als sortierte und diskrete Werte behandelt. Sie können sowohl numerische als auch Zeichenfolgenspalten diskretisieren.

Es gibt verschiedene Methoden für das Diskretisieren von Daten. Jede Methode berechnet automatisch die Anzahl der zu erstellenden Buckets und verwendet dafür die Gleichung im folgenden Codebeispiel:

Number of Buckets = sqrt(n)

In diesem Codebeispiel ist n die Anzahl verschiedener Datenwerte in der Spalte. Wenn Sie nicht möchten, dass Analysis Services die Anzahl der Buckets berechnet, können Sie die DiscretizationBuckets-Eigenschaft verwenden, um die Anzahl der Buckets manuell zu bestimmen.

Die folgende Tabelle beschreibt die Methoden, mit denen Sie Daten in Analysis Services diskretisieren können.

Diskretisierungsmethode	Beschreibung
AUTOMATIC	Analysis Services bestimmt, welche Diskretisierungsmethode verwendet werden muss.
CLUSTERS	Der Algorithmus unterteilt die Daten in Gruppen, indem er Stichproben der Schulungsdaten nimmt, diese als Initalisierungswerte eine Reihe von zufällig gewählten Punkten verwendet und anschließend mehrere Iterationen des Microsoft Clustering-Algorithmus anhand der Expectation-Maximization (EM)-Clusteringmethode ausführt. Die CLUSTERS-Methode ist von Vorteil, da sie für jede Verteilungskurve verwendet werden kann. Allerdings ist sie zeitaufwändiger als andere Diskretisierungsmethoden. Diese Methode kann nur für numerische Spalten verwendet werden.
EQUAL_AREAS	Der Algorithmus teilt die Daten in Gruppen auf, die die gleiche Anzahl von Werten enthalten. Diese Methode eignet sich vor allem für Normalverteilungskurven, jedoch nicht in Fällen, bei denen die Verteilung viele Werte umfasst, die sich in einer engen Gruppe der kontinuierlichen Daten befinden. Wenn beispielsweise die Hälfte der Bestellartikel, die im Falldiagramm angegeben sind, gratis sind oder einen Cost-Wert von Null aufweisen, befindet sich die Hälfte der Daten unterhalb eines einzigen Punktes der Kurve. In einer solchen Verteilung trennt diese Methode die Daten, um gleiche Diskretisierungen in verschiedenen Bereichen zu erstellen. Dadurch wird eine ungenaue Darstellung der Daten erzeugt.

AUTOMATIC

Analysis Services bestimmt, welche Diskretisierungsmethode verwendet werden muss.

CLUSTERS

Der Algorithmus unterteilt die Daten in Gruppen, indem er Stichproben der Schulungsdaten nimmt, diese als Initalisierungswerte eine Reihe von zufällig gewählten Punkten verwendet und anschließend mehrere Iterationen des Microsoft Clustering-Algorithmus anhand der Expectation-Maximization (EM)-Clusteringmethode ausführt. Die CLUSTERS-Methode ist von Vorteil, da sie für jede Verteilungskurve verwendet werden kann. Allerdings ist sie zeitaufwändiger als andere Diskretisierungsmethoden.

Diese Methode kann nur für numerische Spalten verwendet werden.

EQUAL_AREAS

Der Algorithmus teilt die Daten in Gruppen auf, die die gleiche Anzahl von Werten enthalten. Diese Methode eignet sich vor allem für Normalverteilungskurven, jedoch nicht in Fällen, bei denen die Verteilung viele Werte umfasst, die sich in einer engen Gruppe der kontinuierlichen Daten befinden. Wenn beispielsweise die Hälfte der Bestellartikel, die im Falldiagramm angegeben sind, gratis sind oder einen Cost-Wert von Null aufweisen, befindet sich die Hälfte der Daten unterhalb eines einzigen Punktes der Kurve. In einer solchen Verteilung trennt diese Methode die Daten, um gleiche Diskretisierungen in verschiedenen Bereichen zu erstellen. Dadurch wird eine ungenaue Darstellung der Daten erzeugt.

Sie können die EQUAL_AREAS-Methode verwenden, um Strings zu diskretisieren.

Die CLUSTERS und THRESHOLDS-Methoden verwenden eine zufällige Stichprobe von 1000 Datensätzen, um Daten zu diskretisieren. Verwenden Sie die EQUAL_AREAS-Methode, wenn Sie nicht möchten, dass der Algorithmus Stichproben von Daten nimmt.

Siehe auch

Diskretisierungsmethoden

Siehe auch

Konzepte

Andere Ressourcen

Hilfe und Informationen

Zusätzliche Ressourcen