Diskretisierungsmethoden (Data Mining)

Artikel
12/23/2023

Gilt für: SQL Server 2019 und früheren Analysis Services Azure Analysis Services Fabric/Power BI Premium

Wichtig

Data Mining wurde in SQL Server 2017 Analysis Services als veraltet eingestuft und wurde jetzt in SQL Server 2022 Analysis Services eingestellt. Die Dokumentation wird für veraltete und eingestellte Features nicht aktualisiert. Weitere Informationen finden Sie unter Abwärtskompatibilität von Analysis Services.

Einige Algorithmen, die zum Erstellen von Data Mining-Modellen in SQL Server SQL Server Analysis Services verwendet werden, erfordern bestimmte Inhaltstypen, um ordnungsgemäß zu funktionieren. Der Microsoft Naive Bayes-Algorithmus kann beispielsweise keine fortlaufenden Spalten als Eingabe verwenden und keine kontinuierlichen Werte vorhersagen. Außerdem können einige Spalten so viele Werte enthalten, dass der Algorithmus interessante Muster in Daten, aus denen ein Modell erstellt wird, nur schwer identifizieren kann.

In diesen Fällen können Sie die Daten in den Spalten diskretisieren, sodass Sie die Algorithmen verwenden können, um ein Miningmodell zu erstellen. UnterDiskretisierung wird der Prozess verstanden, Werte in Buckets zu platzieren, sodass sich eine begrenzte Anzahl an möglichen Statuswerten ergibt. Die Buckets selbst werden als sortierte und diskrete Werte behandelt. Sie können sowohl numerische als auch Zeichenfolgenspalten diskretisieren.

Es gibt verschiedene Methoden für das Diskretisieren von Daten. Wenn Ihre Data Mining-Projektmappe relationale Daten verwendet, können Sie die Anzahl der Buckets für das Gruppieren von Daten steuern, indem Sie den Wert der DiscretizationBucketCount -Eigenschaft festlegen. Die Standardanzahl von Buckets beträgt 5.

Wenn Ihre Data Mining-Projektmappe Daten aus einem OLAP-Cube (Online Analytical Processing, Analytische Onlineverarbeitung) verwendet, berechnet der Data Mining-Algorithmus automatisch die Anzahl der zu erzeugenden Buckets, indem er die folgende Gleichung verwendet. Dabei steht „n“ für die Anzahl unterschiedlicher Werte in der Spalte:

Number of Buckets = sqrt(n)

Wenn Sie nicht möchten, dass SQL Server Analysis Services die Anzahl der Buckets berechnen, können Sie die DiscretizationBucketCount -Eigenschaft verwenden, um die Anzahl der Buckets manuell anzugeben.

In der folgenden Tabelle werden die Methoden beschrieben, mit denen Sie Daten in SQL Server Analysis Services diskretisieren können.

Diskretisierungsmethode	Beschreibung
AUTOMATISCH	SQL Server Analysis Services bestimmt, welche Diskretisierungsmethode verwendet werden soll.
CLUSTER	Der Algorithmus unterteilt die Daten in Gruppen, indem er Stichproben der Schulungsdaten nimmt, diese als Initialisierungswerte eine Reihe von zufällig gewählten Punkten verwendet und anschließend mehrere Iterationen des Microsoft Clustering-Algorithmus anhand der Expectation-Maximization (EM)-Clusteringmethode ausführt. Die CLUSTERS -Methode ist von Vorteil, da sie für jede Verteilungskurve verwendet werden kann. Allerdings ist sie zeitaufwändiger als andere Diskretisierungsmethoden. Diese Methode kann nur für numerische Spalten verwendet werden.
EQUAL_AREAS	Der Algorithmus teilt die Daten in Gruppen auf, die die gleiche Anzahl von Werten enthalten. Diese Methode eignet sich vor allem für Normalverteilungskurven, jedoch nicht in Fällen, bei denen die Verteilung viele Werte umfasst, die sich in einer engen Gruppe der kontinuierlichen Daten befinden. Wenn beispielsweise die Hälfte der Artikel einen Kostenwert von "0" aufweisen, befindet sich die Hälfte der Daten unterhalb eines einzigen Punktes der Kurve. In einer solchen Verteilung trennt diese Methode die Daten, um gleiche Diskretisierungen in verschiedenen Bereichen zu erstellen. Dadurch wird eine ungenaue Darstellung der Daten erzeugt.

Hinweise

Sie können die EQUAL_AREAS -Methode verwenden, um Zeichenfolgen zu diskretisieren.
Die CLUSTERS -Methode verwendet eine zufällige Stichprobe von 1000 Datensätzen, um Daten zu diskretisieren. Verwenden Sie die EQUAL_AREAS -Methode, wenn Sie nicht möchten, dass der Algorithmus Stichproben von Daten nimmt.

Weitere Informationen

Inhaltstypen (Data Mining)
Inhaltstypen (DMX)
Data Mining-Algorithmen (Analysis Services - Data Mining)
Miningstrukturen (Analysis Services - Data Mining)
Datentypen (Data Mining)
Miningstrukturspalten
Spaltenverteilungen [Data Mining]

Diskretisierungsmethoden (Data Mining)

Hinweise

Weitere Informationen

Feedback

Feedback

Zusätzliche Ressourcen