Karar ağacı modeller için içerik modeli mining (Analysis Services - veri madenciliği)

Bu konuda kullanan modelleri belirli araştırma modeli içeriği açıklar Microsoft karar ağaçlar algoritması.Bir genel açıklama içerik araştırma modeli için tüm model türleri için bkz: İçerik modeli mining (Analysis Services - veri madenciliği).Microsoft karar ağaçlar algoritma modelleri ile çok farklı işlevler oluşturabilirsiniz bir karma algoritma olduğunu akılda tutmak önemlidir: karar ağacı, ilişkileri, kuralları veya hatta doğrusal regresyon temsil edebilir.Ağaç yapısının temelde aynıdır, ancak bilgileri yorumlamak nasıl modeli oluşturan amacına göre değişir.

Karar ağaçları modeli yapısını anlama

Karar ağaçları modeli, model ve meta veriler temsil eden tek bir üst düğüm vardır.Üst düğüm altında seçtiğiniz öngörülebilir öznitelikleri temsil eden bağımsız ağaçları var.Örneğin, siz küme müşterileri bir şey satın ve cinsiyet ve gelir için girdileri sağlamak olup olmadığını tahmin etmek için karar ağacı model, cinsiyet ve gelir ile ilgili koşullara bölmek birçok dalları ile satın alma öznitelik için tek bir ağaç modeli oluşturacak.

Ancak, daha sonra müşteri kazanımları programı katılım için ayrı ve öngörülebilir bir öznitelik eklemek, algoritma üst düğümü altında iki ayrı ağaçları oluşturun.Bir ağaç satın almak için analiz ve başka bir ağaç müşteri kazanımları programın analiz içerir.Bir ilişkilendirme modelini oluşturmak için karar ağaçlar algoritma kullanın algoritması öngörülen her ürün için ayrı bir ağaç oluşturur ve ağaç hedef seçimi katkıda bulunan tüm diğer ürün birleşimlerini içeren öznitelik.

Not

Model birden fazla ağaçları içeriyorsa, tek bir ağaç at görüntülemek bir saat , Microsoft ağacı Görüntüleyici.Bununla birlikte, Genel içerik ağacı Görüntüleyici , aynı anda görüntülenen tüm ağaçları, aynı modeli saat.

karar ağacı için model içeriği yapısı

Her öngörülebilir öznitelik için ağaç seçtiğiniz giriş sütunları belirli o öngörülebilir öznitelik sonucunu nasıl etkilediğini açıklayan bilgileri içerir.Her ağaç düğümü tarafından başlı (node_type = 9) değerindeki bitlerden düğüm öngörülebilir öznitelik içerir (node_type = 10) giriş özniteliklerini temsil eder.Öznitelik bir durum düzey sütun ya da iç içe geçmiş tablo sütun değerleri için karşılık gelen olduğu genellikle değerler Key sütun iç içe geçmiş bir tablo.

İç kısım ve yaprak düğümlerin bölünmüş koşulları temsil eder.Bir ağaç aynı bölme öznitelik birden çok kez.Örneğin, TM_DecisionTree modeli bölme [yıllık gelir] ve [çocuklarının sayısı] ve ardından yeniden [yıllık gelir] üzerinde daha fazla ağaç kapalı.

Microsoft karar ağaçlar algoritması tüm veya ağaç parçası doğrusal eksiklikleri de içerebilir.Model öznitelik sürekli sayısal veri türü ise, model regresyon ağaç düğümü oluşturabilirsiniz (node_type = 25) nerede öznitelikler arasındaki ilişki doğrusal olarak modellenebilir.Bu durum, düğümü regresyon formül içerir.

Ancak, öngörülebilir öznitelik kesikli değerler varsa veya sayısal değerler bucketed veya discretized varsa, model her zaman bir sınıflandırma ağacı oluşturur (node_type = 2).Sınıflandırma ağaç dalları veya iç ağaç düğümlerini birden çok olabilir (node_type = 3) her değer için öznitelik.Ancak, bölünmüş her öznitelik değerine bağlı olmak zorunda değildir.

Microsoft karar ağaçlar algoritması sürekli veri türleri giriş olarak izin vermez; sütunlar, sürekli sayısal veri türü varsa, bu nedenle, değerleri discretized.Algoritma bir bölünme sırasında nin noktasında kendi discretization sürekli tüm öznitelikler için gerçekleştirir.

Not

Analysis Servicesbucketing sürekli öznitelikler için bir yöntem otomatik olarak seçer; Ancak, giriş değerleri nasıl sürekli kontrol edebilirsiniz araştırma yapısı sütun için içerik türü ayarlayarak discretized Discretized ve ardından ayarlar DiscretizationBucketCount veya DiscretizationMethod özellik.

Karar ağaçları modeli için içerik modeli

Bu bölüm, karar ağacı modeller için belirli yakınlık derecesine sahip yalnızca bu sütunlar araştırma modeli içerik için ayrıntı ve örnekler sağlar.Şema satır kümesi ve araştırma modeli terminolojinin açıklamaları genel amaçlı sütunlar hakkında daha fazla bilgi için bkz: İçerik modeli mining (Analysis Services - veri madenciliği).

  • MODEL_CATALOG
    Model depolandığı veritabanının adı.

  • MODEL_ADI
    Modelinin adı.

  • ÖZNİTELİK_ADÝ
    Adı öznitelik bu düğüme karşılık gelir.

  • NODE_NAME
    Her zaman olduğu gibi NODE_UNIQUE_NAME.

  • NODE_UNIQUE_NAME
    Düğüm modeli içinde benzersiz tanıtıcısı.Bu değer değiştirilemez.

    Karar ağacı modeller için benzersiz adlar için tüm algoritmalar uygulamak aşağıdaki kuralları izleyin:

    Belirli bir düğümün alt düğümlerin içindeki üst alt düğüm sırasını gösteren başka bir onaltılık sayı arkasından aynı onaltılık önek gerekir.Bir yol gerçekleştirip önekleri kullanabilirsiniz.

  • NODE_TYPE
    Karar ağacı modeli aşağıdaki düğüm türleri oluşturulur:

    Düğüm türü

    Açıklama

    1 (Model)

    Kök düğüm modeli için.

    2 (Ağaç)

    Üst düğüm modeli sınıflandırma ağaçlarında için.Etiketli "Tüm".

    3 (İç)

    Kafası bir sınıflandırma ağaç veya regresyon ağaç içinde bulunan iç dalın.

    4 (Dağıtım)

    Yaprak düğüm sınıflandırma ağaç veya regresyon ağaç içinde bulundu.

    25 (Regresyon ağaç)

    Üst düğüm modeli içindeki regresyon ağaç için.Etiketlenmiş olarak "Tüm".

  • NODE_CAPTION
    Görüntüleme amaçları için bir kolay ad.

    Bir model oluştururken, NODE_UNIQUE_NAME değerini otomatik olarak resim yazısı olarak kullanılır.Ancak, program aracılığıyla veya görüntüleyiciyi kullanarak küme için görünen ad güncelleştirmek NODE_CAPTION değerini değiştirebilirsiniz.Resim yazısı modeli tarafından otomatik olarak oluşturulur.Modeli türü ve düğüm türü yazısının içeriğine bağlıdır.

    Karar ağaçları modeli, NODE_CAPTION ve NODE_DESCRIPTION farklı bilgilere bağlı olarak sahip düzey ağacında.Daha fazla bilgi ve örnekler için bkz: düğüm resim yazısı ve açıklama düğüm.

  • CHILDREN_CARDINALITY
    Düğüm olan çocuklar sayısı tahmini.

    Üst düğümmodel öngörülebilir öznitelik sayısını gösterir.Her tahmin edilebilir öznitelik için bir ağacı oluşturulur.

    Ağaç düğümütüm her ağaç düğümünü söyler, kaç değerleri hedef öznitelik için kullanılıyordu.

    • Değer hedef öznitelik kesikli, ayrı değerler artı 1 sayısına eşittir Missing durumu.

    • Öngörülebilir öznitelik sürekli ise, değeri kaç demetleri sürekli özniteliği model oluşturmak için kullanılan bildirir.

    Leaf düğümlerher zaman 0.

  • PARENT_UNIQUE_NAME
    Düğümün üst benzersiz adı.Kök tüm düğümler için null döner düzey.

  • NODE_DESCRIPTION
    Düğüm açıklaması.

    Karar ağaçları modeli, NODE_CAPTION ve NODE_DESCRIPTION farklı bilgilere bağlı olarak sahip düzey ağacında.

    Daha fazla bilgi ve örnekler için bkz: düğüm resim yazısı ve açıklama düğüm.

  • NODE_RULE
    Yol geçerli düğümün alt üst düğümünden açıklar kural bir xml açıklaması.

    Daha fazla bilgi ve örnekler için bkz: düğüm kural ve Marjinal kuralı.

  • MARGINAL_RULE
    Bir xml açıklaması açıklar kural yol modeli üst düğüm geçerli düğüm için.

    Daha fazla bilgi için bkz: düğüm kural ve Marjinal kuralı.

  • NODE_PROBABILITY
    Bu düğüm ile ilişkili olasılık.

    Daha fazla bilgi için bkz: Olasılık.

  • MARGINAL_PROBABILITY
    Üst düğüm düğümden ulaşmasını olasılık.

    Daha fazla bilgi için bkz: Olasılık.

  • NODE_DISTRIBUTION
    Düğümün olasılık çubuk içeren bir tablo.Bu bilgiler tablo mi bağlı olarak farklılık gösterir predictablo sürekli ya da ayrı bir değişken bir özniteliktir.

    Kök düğüm modeli bu tablo boş.

    (Tümü) düğümümodeli bir bütün olarak bir özeti içerir.

    İç düğümtoplanan, yaprak düğümlerin istatistikleri içerir.

    Yaprak düğümiçeren tüm koşullara göre tahmin edilen sonuçlar olasılık ve Destek yol için geçerli yaprak düğüm baştaki.

    Regresyon düğümgiriş ve öngörülebilir öznitelik arasındaki ilişkiyi temsil eder regresyon formül içerir.

    Daha fazla bilgi için bkz: Fr kesikli öznitelikleri düğüm dağıtım ve İçin sürekli öznitelikleri düğüm dağıtım.

  • NODE_SUPPORT
    Bu düğüm destek servis taleplerinin sayısı.

  • MSOLAP_MODEL_COLUMN
    Gösterir sütun , öngörülebilir öznitelik içeriyor.

  • MSOLAP_NODE_SCORE
    Düğüm ile ilişkili bir puan görüntüler.Daha fazla bilgi için bkz: Düğüm skoru.

  • MSOLAP_NODE_SHORT_CAPTION
    Görüntüleme amacıyla kullanılan bir etiket.

Açıklamalar

Karar ağaçları modeli bir önbelleğin Bayes veya neural ağ modeli bulunan Marjinal istatistikleri düğüm aksine tüm modeli için istatistiklerini saklayan ayrı bir düğüm yok.Bunun yerine, modeli öngörülebilir her öznitelik için ayrı bir ağaç bir ağacın üst (tümü) düğümü oluşturur.Her ağaç diğerlerinden bağımsızdır.Model tek bir tahmin edilebilir öznitelik içeriyorsa, tek bir ağaç ve (tümü) bir nedenle tek düğüm vardır.

Çıkış öznitelik temsil eden her iç dalları Ayrıca yöneticilere ağacıdır (node_type = 3) bölmelerini temsil eder.Her biri bu ağaçları hedef dağıtımı ile ilgili istatistikleri içeren öznitelik.Buna ek olarak, her yaprak düğüm (node_type = 4) giriş öznitelikleri ve değerleri, her öznitelik-değer çifti'nın servis taleplerinin sayısı ile birlikte açıklayan istatistikleri içerir.Bu nedenle, herhangi bir karar ağacı dalında bir olasılıklar veya veri dağıtım kolayca kaynak verileri sorgulamasına gerek kalmadan görüntüleyebilirsiniz.Her düzey ağacının mutlaka hemen alt düğümlerini toplamını temsil eder.

Bu istatistikleri almak nasıl örnekler için bkz: Karar ağaçlar modeli sorgulama (- Analysis Services veri madenciliği).

Karar ağacı yapısını örneği

Karar ağacı nasıl çalıştığını anlamak için örnek, AdventureWorks bisiklet alıcı senaryo gibi düşünün.Öngörülebilir öznitelik müşteri Satınalmalar olduğunu varsayarsak, karar ağaçlar algoritma birini bulmayı dener sütun , bir bisiklet ve bir bisiklet satın almak kullanılamayacağı olanlar satın almak olası müşterilerin en etkin şekilde algılayan sunmuş, tüm girişleri arasındaki veri.Örneğin, model yaş satın alma davranışı en iyi göstergesi olduğunu görebilirsiniz.Özellikle, 30 yaşın üzerinde büyük olasılıkla bir bisiklet satınalma müşterilerdir ve tüm diğer müşteriler satın alma olasılığı düşüktür.Bu senaryoda, model oluşturur bir split yaş üzerindeki öznitelik.Bu ağacın iki dalı, 30 ve diğer içeren müşteriler altında 30 yaşın üzerinde müşterileri içeren bir böler olduğunu anlamına gelir.Yeni dalları iki yeni iç ağaçları modeli yapısı içinde gösterilir (node_type = 3).

Her dal için müşterilerin ayrım içinde kullanmak için ek öznitelikleri aramak model devam eder.Verileri müşterilerin alt gruplar oluşturmaya devam etmek için yeterli kanıt ise, model ağacı oluşturma durdurur.Model ağacı düğüm durumlarda sayısı ne kadar iyi bölünmüş olmasından bağımsız olarak, devam etmek için çok küçük olduğunda veya değeri null veya eksik ise oluşturma de durdurur.Erken büyüme ağacının durdurma, model training tarafından çok yakından bir belirli veri küme için engel.

Geçerli sınıflandırma sonuçları verilen sonuçlar dökümünü sağlayan yaprak düğümlerin her iç ağaç düğümü içerir.Örneğin, yaş gösteren iç düğümü olabilir >= 30 ve cinsiyet erkek. =Düğüm bu grup için bu kategorideki kaç müşteriler veya satın bir şey satın gösterir.Örneğin, aşağıdaki ağaç bölmelerini sınıflandırma içerebilir:

İç ağaç

Bölme

Age >= 30

Yaş >= 30 ve cinsiyet erkek =

  

Yaş >= 30 ve cinsiyet kadın =

Age < 30

Yaş < 30 ve cinsiyet erkek =

  

Yaş < 30 ve cinsiyet kadın =

Karar ağacı modeli için tahmin kullandığınızda, sağladığınız için bağımsız değişkenleri ve aşağıdaki gibi öznitelikler modeli alır yol ağaç içinde öznitelikler.Genel olarak, bir yaprak için tüm Öngörüler gidin ve iç düğümleri yalnızca sınıflandırma için kullanılır.

Yaprak düğüm her zaman bir node_type 4 (Dağıtım) ve sağladığınız öznitelikleri verilen her sonuç (satın alma veya değil satın alma) olasılığını belirten bir çubuk grafik içerir.Örneğin, modeli için tahmin erkek üzerinde 60 olan yeni bir müşteri için isteyin, karşılık gelen düğümü görüneceğini (yaş > 30 ve cinsiyet erkek =) ve ardından belirttiğiniz sonucu için olasılık dönmek.Bu değerler saklanır NODE_DISTRIBUTION düğümü için bir tablo.

Öngörülebilir öznitelik sürekli bir sayıdır, algoritma öngörülebilir öznitelik ve girişleri arasındaki ilişki modelleri regresyon formül oluşturmak çalışır.

Düğüm resim yazısı ve açıklama düğüm

Karar ağacı modeli, düğüm resim yazısı ve açıklama düğümü benzer bilgiler içerir.Ancak, düğüm açıklamasını daha kapsamlı ve daha yakın yaprak düğümlerin taşırken daha fazla bilgi içerir.Düğüm resim yazısı ve açıklama düğümü yerelleştirilmiş dizelerdir.

NODE_CAPTION

O belirli bir düğümün üst düğüm göreli olarak ayıran öznitelik görüntüler.Düğüm resim yazısı ürünleri satın alabilecek adaylardır olarak tanımlayan popülasyon bölünmüş koşula.Üç alt düğümleri olabilir için bölünmüş [yaş] üzerinde ve üç yollu bölünmüş şeklindeydi, düğüm Örneğin, captions "[yaş< 40", "40 <[yaş] = <50", "[yaş>= 50".

NODE_DESCRIPTION

Düğüm modeli üst düğümünden başlayan diğer düğümlerden ayırt öznitelikleri tam bir listesini içerir.Örneğin, ürün adı elma ve renk = = kırmızı.

Düğüm kural ve Marjinal kuralı

node_rule ve MARGINAL_RULE sütunları NODE_CAPTION ve NODE_DESCRIPTION sütunları aynı bilgileri içerir, ancak xml parçaları olarak bilgileri temsil eder.En son bölme Marjinal kuralı gösterir, ancak düğüm yol tam olarak bir xml sürüm kuraldır.

xml parçası tarafından temsil edilen öznitelik, basit veya karmaşık olabilir.Basit bir öznitelik model adını içeren sütunve özniteliğinin değeri.Modeli sütun iç içe geçmiş bir tablo içeriyorsa, iç içe geçmiş tablo özniteliği bir birleştirme tablo adı, anahtar değeri ve öznitelik temsil edilir.

Not

SQL Server Analysis Services sürüm 2.0 standardı pmml ile iç içe geçmiş tablo kullanımını destekleyen uzantıları destekler.Verilerinizi iç içe geçmiş tablolar içeren ve modeli bir pmml sürüm oluşturmak, yüklemler dahil tüm öğeleri modelinde bir uzantısı olarak işaretlenir.

Kesikli öznitelikleri için düğüm dağıtım

Karar ağaçları modeli, NODE_DISTRIBUTION tablo yararlı istatistikleri içerir.Ancak, istatistikleri ağaç kesikli ve sürekli öznitelik öngörür üzerinde bağlıdır.Bu bölümde, kesikli öznitelikleri düğüm dağıtım istatistiklerini anlamını açıklar.

Öznitelik adı ve öznitelik değeri

Bir sınıflandırma ağacındaki öznitelik adı her zaman bulunduğu tahmin edilebilir sütun.Bu değer ne ağaç öngörür söyler.Bu değer, bir tek ağacı her zaman tek bir tahmin edilebilir öznitelik temsil ettiğinden, ağacın tümünde yinelenir.

Ayrı veri türleri için öznitelik değeri alan olası değerleri listeler tahmin edilebilir sütun, artı Missing değer.

Destek

Her düğüm için destek değeri bu düğüm kaç servis taleplerinin ekleneceğini bildirir.(Tümü) en düzey, model eğitmek için kullanılan servis taleplerini tam sayısı görmeniz gerekir.Ağacın her bölme için destek ağacının düğüm gruplandırılmış servis taleplerinin sayısı değeridir.Durumlarda yaprak düğümlerin toplamını mutlaka ağacın üst düğüm durumlarda sayısı eşittir.

Verileri boş değerlere varlığını sürekli öznitelikleri temsil düğümleri için bazı counterintuitive neden olabilir sonuçlar.Vardır, örneğin, m durumlarda, ortalama bir değer hesaplanacağını olarak sum (tüm servis talepleri) /n, nerede n sayı az m, ve m n değerleri eksik olan servis taleplerinin sayısını gösterir.Destek olarak temsil de n.

Olasılık

Her düğüm ile ilişkili olasılık herhangi bir bütün olarak büyük olasılık söyler veri küme bu belirli bir düğüm içinde bitirmek.Olasılık skorları, hem bir bütün olarak ağaç ve hemen bölme için hesaplanır.

Örneğin, aşağıdaki tablo ile 100 durumlarda çok basit bir modeli gösterir.

İç ağaç

Servis talepleri

Yaprak düğüm

Servis talepleri

Üst düğüm göreli olarak olasılık

Üst düğüm göreli olarak olasılık

Age >= 30

60

Yaş >= 30 ve cinsiyet erkek =

50

50/60 = .83

50/100 = .5

  

  

Yaş >= 30 ve cinsiyet kadın =

10

10/60 = .16

10/100 = .10

Age < 30

40

Yaş < 30 ve cinsiyet erkek =

30

30/40 = .75

30/100 = .30

  

  

Yaş < 30 ve cinsiyet kadın =

10

10/40 = .25

10/100 = .10

Küçük bir düzeltme tüm modeller için olası değerleri eksik hesap için yapılır.Sürekli öznitelikler için her bir değer ya da değer aralık durumu olarak gösterilir (örneğin, yaş <, 30 yaş = 30 ve yaş >30) ve değerler aşağıdaki gibi hesaplanır: durumu var (değer = 1), başka bir durum var (değer = 0), durumu Missing.Eksik değerleri temsil etmek için olasılık değerleriyle nasıl ayarlanması hakkında daha fazla bilgi için bkz: Değerleri eksik (Analysis Services - veri madenciliği).

Her düğüm için olasılıklar neredeyse doğrudan dağıtımın dışında aşağıdaki gibi hesaplanır:

Olasılık = (durumu için destek) + önceki durumu için destek / (düğüm destek artı önceki düğüm desteği)

Analysis Services Her düğüm için olasılıklar saklı olasılığını belirlemek için önceki olasılık ile karşılaştırmak için kullanır mı yol düğümü alt öğeden güçlü kesmesi gösterir.

Öngörüler yapılırken dağılımın olasılık olasılıklar smoothen için düğümün olasılık ile dengelenmelidir.Örneğin, ağacında bölünmüş durumda 9000/1000 bir oranı ayıran, ağacı çok dengesiz olur.Sonuç olarak, bir tahmin küçük dal bilgisayardan gelen taşıyan Ağırlık olarak bir tahmin bir dalı ile çoğu zaman geliyor.

Varyans

Farkı olan bir ölçü bir örnek nasıl Saçılan değerlerin beklenen bir dağıtım verilir.Ayrık değerler için tanım olarak 0 TL'dir.

Varyans için sürekli değerleri nasıl hesaplandığını hakkında daha fazla bilgi için bkz: Doğrusal regresyon modeller için içerik modeli mining (Analysis Services - veri madenciliği).

Değer türü

Değer türü sütun NODE_DISTRIBUTION tablo diğer sütunlarda sağlanan sayısal değer anlamı hakkında bilgi sağlar.Değer türü, iç içe geçmiş tablolar belirli satırları almak için sorgularda kullanabilirsiniz.Örnekler için bkz: Karar ağaçlar modeli sorgulama (- Analysis Services veri madenciliği).

Türler, MiningValueType numaralandırma, aşağıdaki kullanılan sınıflandırma ağaçları.

Değer türü

Açıklama

1 (Eksik)

Bir sayım, olasılık veya değerleri eksik ilgili diğer istatistik gösterir.

4 (Discrete)

Bir sayım, olasılık veya bir kesikli veya discretized değeri ilgili diğer istatistik gösterir.

Modeli bir sürekli tahmin edilebilir öznitelik içeriyorsa, ağaç regresyon formül için benzersiz değer türlerini de içerebilir.Regresyon ağaç içinde kullanılan değer türleri listesi için bkz: Doğrusal regresyon modeller için içerik modeli mining (Analysis Services - veri madenciliği).

Düğüm skoru

Biraz daha farklı bilgiler her düğüm skoru temsil düzey ağacı.Genel olarak, skor ne kadar iyi bir bölünme belirten sayısal bir değer koşula bölerek elde var.Değer, daha yüksek bir değer daha iyi olduğu bir çift temsil edilir.

Tanım gereği, modeli düğümü ve tüm yaprak düğümlerin bir düğüm 0 skoru.

Her ağaç üstünde gösteren (tümü) düğümü için en iyi bölünmüş puanı tamamını ağacında msolap_node_score sütun içerir.

Tüm diğer düğümler için ağaç (yaprak düğümlerin dışında) her düğüm için Skor iyi bölünmüş puanı eksi bölünmüş puanı üst düğüm için geçerli düğüm için temsil eder.Genellikle, bir üst düğüm için bölünmüş puanı her zaman alt düğümlerini herhangi biri üzerinde bölünmüş puanı daha iyi olması gerekir.Karar ağaçları modeli ideal en önemli nitelikleri üzerinde ilk böler olmasıdır.

Seçtiğiniz algoritma parametresini bağlı bir bölme için bir puan hesaplama birçok yolu vardır.Puanlar her Skor yöntemleri için nasıl hesaplandığını, bir tartışma bu konunun kapsam dışındadır.Daha fazla bilgi için bkz: "öğrenme Bayesian ağlar: Birlikte, bilgi ve istatistiksel veri", Microsoft Araştırma Web sitesi.

Not

Sürekli ve kesikli öngörülebilir öznitelikleri içeren bir karar ağaçları modeli oluşturduğunuzda, her ağaç türünü temsil eden (tümü) düğümü tamamen farklı puan göreceksiniz.Her model bağımsız olarak değerlendirilmesi gereken ve regresyon Skor için kullanılan tamamen farklı puanlama sistemi sınıflandırması için kullanılan yöntemlerdir.Düğüm skoru değerleri karşılaştırılamaz.

Karar ağacı modeli içinde regresyon düğümleri

Karar ağaçları modeli öngörülebilir bir öznitelik ile sürekli sayısal veri içeriyorsa, Microsoft karar ağaçlar algoritması öngörülen durumu ve giriş değişkenler arasındaki ilişki doğrusal olduğu veri alanları bulmak çalışır.Algoritma doğrusal bir ilişki bulma de başarılı olursa, özel bir ağacı oluşturur (node_type = 25), doğrusal regresyon temsil eder.Bu regresyon ağaç düğümlerini ayrık değerler temsil düğümler daha karmaşıktır.

Genel olarak, regresyon işlev değişikliklerinin girdileri olarak sürekli bağımlı (öngörülebilir değişken) değişiklikleri eşler.Bağımlı değişken sürekli herhangi bir giriş vardır ve giriş ve öngörülen değeri arasındaki ilişki bir çizgi grafiği olarak hesaplanması için kararlı, düğüm regresyon için bir formül içerir.

Ancak, giriş ve öngörülen değer arasında ilişki olup olmadığını doğrusal olmayan, bölme, bunun yerine, yalnızca standart karar ağacı gibi oluşturulur.Örneğin, a öngörülebilir öznitelik ve b ve c, c sürekli değer türü olduğu sinyalidir olduğunu varsayalım.a arasındaki ilişki ve c veri bölümlerinde oldukça kararlı olsa da, diğer kararsız algoritması verileri farklı alanlarını temsil eden bölmelerini oluşturur.

Koşul Böl

Düğüm neden

if n < 5

İlişki Denklem 1 ifade edilen

n ise 5 ile 10 arasında

Denklem yok

if n > 10

İlişki Denklem 2 ifade edilen

Regresyon düğümler hakkında daha fazla bilgi için bkz: Doğrusal regresyon modeller için içerik modeli mining (Analysis Services - veri madenciliği).