Tipi di contenuto (Data mining)

Articolo
07/30/2013

In Microsoft SQL Server Analysis Services è possibile definire sia il tipo di dati fisico per una colonna in una struttura di data mining che un tipo di contenuto logico per stabilire la modalità di utilizzo della colonna in un modello.

Il tipo di dati determina il modo in cui gli algoritmi elaborano i dati in tali colonne quando si creano modelli di data mining. La definizione del tipo di dati di una colonna indica all'algoritmo le informazioni sul tipo di dati delle colonne e le modalità di elaborazione dei dati. Ogni tipo di dati in Analysis Services supporta uno o più tipi di contenuto per il data mining.
Il tipo di contenuto descrive il comportamento dei valori presenti nella colonna. Se ad esempio i valori dei dati di una colonna tendono a ripetersi a intervalli specifici, ad esempio nell'arco dei giorni della settimana, è possibile contrassegnare il tipo di contenuto di tale colonna come ciclico.

Per il corretto funzionamento di alcuni algoritmi, sono necessari tipi di dati e/o tipi di contenuto specifici. L'algoritmo Microsoft Naive Bayes, ad esempio, non può utilizzare colonne continue come input, né stimare valori continui. Pertanto, tali colonne devono essere escluse dal modello oppure discretizzate. Alcuni tipi di contenuto, ad esempio Key Sequence, sono utilizzati solo da un algoritmo specifico. Per un elenco degli algoritmi e dei tipi di contenuto supportati da ciascuno di essi, vedere Algoritmi di data mining (Analysis Services - Data mining).

Nell'elenco seguente vengono descritti i tipi di contenuto utilizzati nel data mining e vengono identificati i tipi di dati che supportano ogni tipo di contenuto.

Discrete

Il tipo di contenuto Discrete indica che la colonna contiene un numero finito di valori senza continuità. Una colonna relativa al sesso, ad esempio, è una tipica colonna attributo discreta, in quanto i dati rappresentano un numero specifico di categorie. Se la colonna contiene testo, il tipo viene automaticamente impostato su discrete. Se tuttavia la colonna contiene valori discreti con etichette numeriche (ad esempio in una colonna Sesso, al valore Maschio potrebbe essere associata l'etichetta 0 e a Femmina l'etichetta 1), potrebbe essere necessario cambiare il tipo di contenuto passando da continuo a discreto.

Anche se i valori utilizzati per la colonna discreta sono numerici, non è inoltre possibile calcolare valori frazionari. Gli indicativi di località telefonici rappresentano un buon esempio di dati discreti numerici ma che non devono essere utilizzati per i calcoli. Inoltre, i valori di una colonna attributo discreta non possono implicare l'ordinamento, anche se si tratta di valori numerici.

Il tipo di contenuto Discrete può essere applicato a colonne di tutti i tipi di dati di data mining.

Continuous

Il tipo di contenuto Continuous indica che la colonna contiene valori che rappresentano dati numerici su una scala che consente valori provvisori. A differenza di una colonna discreta, che rappresenta dati numerabili finiti, una colonna continua rappresenta misure scalabili e i dati possono contenere un numero infinito di valori frazionari. Una colonna di temperature è un esempio di colonna attributo continua.

Quando una colonna contiene dati numerici continui e quando è noto il modo in cui i dati devono essere distribuiti, è possibile migliorare potenzialmente l'accuratezza dell'analisi specificando la distribuzione prevista dei valori. Poiché la distribuzione della colonna viene specificata a livello della struttura di data mining, Pertanto, l'impostazione si applica a tutti i modelli basati sulla struttura. Per ulteriori informazioni, vedere Distribuzioni delle colonne (Data mining).

Il tipo di contenuto Continuous è applicabile alle colonne con i tipi di dati seguenti: Date, Double e Long.

Discretized

Per discretizzazione si intende il processo di raggruppamento in bucket dei valori di un set di dati continuo in modo da limitare il numero di valori possibili. È possibile discretizzare solo dati numerici.

Di conseguenza, il tipo di contenuto discretized indica che la colonna contiene valori che rappresentano gruppi o bucket di valori derivati da una colonna continua. I bucket vengono considerati valori ordinati e discreti.

È possibile discretizzare i dati manualmente per ottenere i bucket desiderati oppure utilizzare i metodi di discretizzazione disponibili in SQL Server Analysis Services. Alcuni algoritmi consentono di eseguire automaticamente la discretizzazione. Per ulteriori informazioni, vedere Modificare la discretizzazione di una colonna in un modello di data mining.

Il tipo di contenuto Discretized è applicabile alle colonne con i tipi di dati seguenti: Date, Double, Long e Text.

Key

Il tipo di contenuto key indica che la colonna identifica in modo univoco una riga. In una tabella del case la colonna chiave è in genere un identificatore numerico o di testo. Quando si imposta il tipo di contenuto su key si indica che la colonna non deve essere utilizzata per l'analisi, ma solo per la registrazione di record.

Anche le tabelle nidificate contengono chiavi, ma in questo caso l'utilizzo è leggermente diverso. Impostare il tipo di contenuto su key in una tabella nidificata se la colonna corrisponde all'attributo che si desidera analizzare. I valori nella chiave della tabella nidificata devono essere univoci per ogni case, ma possono esistere duplicati nell'intero set di case.

Se ad esempio si analizzano i prodotti acquistati dai clienti, è possibile impostare il tipo di contenuto su key per la colonna CustomerID nella tabella del case e di nuovo il tipo di contenuto key per la colonna PurchasedProducts nella tabella nidificata.

[!NOTA]

Le tabelle nidificate sono disponibili solo se si utilizzano dati di un'origine dati esterna definiti in una vista origine dati di Analysis Services.

Questo tipo di contenuto è supportato dai tipi di dati seguenti: Date, Double, Long e Text.

Key Sequence

Il tipo di contenuto key sequence può essere utilizzato solo nei modelli Sequence Clustering. Quando si imposta tipo di contenuto su key sequence, la colonna contiene valori che rappresentano una sequenza di eventi. I valori sono ordinati, ma non è necessario che siano equidistanti.

Questo tipo di contenuto è supportato dai tipi di dati Double, Long, Text e Date.

Key Time

Il tipo di contenuto key time può essere utilizzato solo nei modelli Time Series. Quando si imposta il tipo di contenuto su key time, i valori vengono ordinati e rappresentano una scala cronologica.

Questo tipo di contenuto è applicabile alle colonne con i tipi di dati seguenti: Double, Long e Date.

Table

Il tipo di contenuto table indica che la colonna contiene un'altra tabella di dati con una o più colonne e una o più righe. Questa colonna può contenere più valori per ogni determinata riga della tabella del case, tutti correlati al record del case padre. Se ad esempio la tabella del case principale contiene un elenco di clienti, è possibile disporre di molte colonne che contengono tabelle nidificate, ad esempio una colonna ProductsPurchased, in cui la tabella nidificata contiene un elenco dei prodotti acquistati da un determinato cliente nel passato e una colonna Hobby in cui sono elencati gli interessi del cliente.

Il tipo di dati di questa colonna è sempre Table.

Cyclical

Il tipo di contenuto cyclical stabilisce che la colonna contiene valori che rappresentano un set ordinato ciclico. I giorni della settimana numerati costituiscono ad esempio un set ordinato ciclico, in quanto il giorno numero uno segue il giorno numero sette.

Le colonne cicliche vengono considerate sia ordinate che discrete in relazione al tipo di contenuto.

Questo tipo di contenuto è applicabile a colonne di qualsiasi tipo di dati di Analysis Services ad eccezione di table e Boolean. Tuttavia, la maggior parte degli algoritmi tratta i valori ciclici come valori discreti e non esegue speciali operazioni di elaborazione.

Ordered

Il tipo di contenuto ordered indica inoltre che la colonna contiene valori che definiscono una sequenza o un ordine. In questo tipo di contenuto, tuttavia, i valori utilizzati per l'ordinamento non implicano alcuna relazione di distanza o grandezza tra i valori del set. Se ad esempio una colonna attributo ordinata contiene informazioni sui livelli di competenza elencati in ordine di priorità da uno a cinque, la distanza tra i livelli di competenza non include alcuna informazione implicita, cioè un livello di competenza pari a cinque non è necessariamente superiore a un livello di competenza pari a uno.

Le colonne attributo ordinate vengono considerate come contenenti valori discreti.

Questo tipo di contenuto è applicabile a tutti i tipi di dati di data mining in Analysis Services. Tuttavia, la maggior parte degli algoritmi tratta i valori ordinati come valori discreti e non esegue speciali operazioni di elaborazione.

Classified

Oltre ai tipi di contenuto precedenti che sono di uso comune con tutti i modelli, per alcuni tipi di dati è possibile utilizzare le colonne classificate per definire i tipi di contenuto. Per ulteriori informazioni sulle colonne classificate, vedere Colonne classificate (Data mining).

Vedere anche

Condividi tramite