Creare una struttura di data mining OLAP

Articolo
07/30/2013

La creazione di un modello di data mining basato su un cubo OLAP o un altro archivio dati multidimensionale presenta numerosi vantaggi. Una soluzione OLAP contiene già enormi quantità di dati ben organizzati, puliti e formattati correttamente; tuttavia, la complessità dei dati è tale che difficilmente gli utenti possono trovare modelli significativi tramite l'esplorazione ad hoc. Il data mining consente di individuare nuove correlazioni e fornire informazioni su cui è possibile eseguire azioni.

In questo argomento viene descritto come creare una struttura di data mining OLAP, basata su una dimensione e misure correlate in una soluzione multidimensionale esistente.

Requisiti

Cenni preliminari sul processo di data mining OLAP

Scenari per l'utilizzo del data mining nelle soluzioni OLAP

Filtri

Utilizzo delle tabelle nidificate

Dimensioni di data mining

Requisiti per la struttura e i modelli di data mining OLAP

Se si progetta un modello di data mining OLAP, l'origine dati esiste già nel database utilizzato per compilare il cubo. Non è possibile connettersi a un cubo remoto e compilare oggetti di data mining; gli oggetti del cubo devono essere disponibili all'interno della stessa soluzione di database della struttura di data mining che viene compilata.

Se non si dispone dei file di progetto originali o non si desidera modificarli, è possibile utilizzare l'opzione di Visual Studio Importa da server (multidimensionale o data mining) per ottenere una copia dei metadati e degli oggetti della soluzione. È quindi possibile modificare la destinazione di distribuzione e le origini dati e utilizzare gli oggetti del cubo senza influire sugli oggetti esistenti.

Per ulteriori informazioni, vedere Importare un progetto di data mining utilizzando l'Importazione guidata di Analysis Services.

Cenni preliminari sul processo di data mining OLAP

Avviare la Creazione guidata modello di data mining facendo clic con il pulsante destro del mouse sul nodo Strutture di data mining in Esplora soluzioni e selezionando Nuova struttura di data mining. La procedura guidata consente di eseguire in modo semplificato i passaggi indicati di seguito per la creazione di una nuova struttura e un nuovo modello:

Selezione metodo di definizione: consente di selezionare un tipo di origine dati e scegliere Da cubo esistente.

[!NOTA]

Il cubo OLAP utilizzato come origine deve esistere all'interno dello stesso database della struttura di data mining, come descritto sopra. Inoltre, non è possibile utilizzare un cubo creato dal componente aggiuntivo PowerPivot per Excel come origine per il data mining.
Crea la struttura di data mining: consente di determinare se verrà compilata solo una struttura o una struttura con un modello di data mining.

È inoltre necessario scegliere un algoritmo appropriato per l'analisi dei dati. Per informazioni aggiuntive sull'algoritmo migliore per determinate attività, vedere Algoritmi di data mining (Analysis Services - Data mining).
Selezione dimensione cubo di origine: questo passaggio è uguale a quello di selezione dell'origine dati. È necessario scegliere la singola dimensione che contiene i dati più importanti utilizzati per il training del modello. È possibile aggiungere dati da altre dimensioni in un secondo momento oppure filtrare la dimensione.
Selezione chiave del case: all'interno della dimensione appena selezionata, scegliere un attributo (colonna) da utilizzare come identificatore univoco per i dati del case.

Una colonna sarà in genere preselezionata, ma è possibile modificarla se sono presenti più chiavi.
Selezione colonne livello case: consente di scegliere gli attributi dalla dimensione selezionata e le misure correlate, rilevanti per l'analisi. Questo passaggio equivale alla selezione di colonne da una tabella.

Nella creazione guidata sono automaticamente incluse per la revisione e la selezione eventuali misure create utilizzando gli attributi dalla dimensione selezionata.

Ad esempio, se il cubo contiene una misura per il calcolo del costo di spedizione in base all'ubicazione geografica del cliente e si sceglie la dimensione Customer come origine dati principale per la modellazione, la misura sarà proposta come candidato per l'aggiunta al modello. Prestare attenzione ad aggiungere troppe misure già basate direttamente sugli attributi, poiché esiste già una relazione implicita tra le colonne, come definito nella formula della misura, e la forza di questa correlazione (prevista) può nascondere altre relazioni che diversamente si potrebbero individuare.
Impostazione utilizzo colonne modello di data mining: per ogni attributo o misura aggiunta alla struttura, è necessario specificare se l'attributo deve essere utilizzato per la stima o come input. Se non si seleziona una di queste opzioni, i dati verranno elaborati ma non saranno utilizzati per l'analisi; tuttavia, saranno disponibili come dati in background nel caso successivamente si abiliti il drill-through.
Aggiungi tabelle nidificate: fare clic per aggiungere tabelle correlate. Nella finestra di dialogo Selezione dimensione gruppo di misure è possibile scegliere una singola dimensione tra quelle correlate alla dimensione corrente.

Successivamente, utilizzare la finestra di dialogo Seleziona colonna chiave tabella nidificata per definire la modalità di correlazione della nuova dimensione alla dimensione che contiene i dati del case.

Utilizzare la finestra di dialogo Selezione colonne tabella nidificata per scegliere gli attributi e le misure dalla nuova dimensione che si intende utilizzare nell'analisi. È inoltre necessario specificare se l'attributo nidificato sarà utilizzato per la stima.

Dopo avere aggiunto tutti gli attributi nidificati che potrebbero essere necessari, tornare alla pagina Impostazione utilizzo colonne modello di data mining e fare clic su Avanti.
Impostazione tipo di contenuto e dati delle colonne: a questo punto sono stati aggiunti tutti i dati che saranno utilizzati per l'analisi ed è necessario specificare il tipo di dati e il tipo di contenuto per ogni attributo.

In un modello OLAP non è possibile rilevare automaticamente i tipi di dati, perché il tipo di dati è già definito dalla soluzione multidimensionale e non può essere modificato. Anche le chiavi vengono identificate automaticamente. Per ulteriori informazioni, vedere Tipi di dati (data mining).

Il tipo di contenuto scelto per ogni colonna utilizzata nel modello indica all'algoritmo in che modo devono essere elaborati i dati. Per ulteriori informazioni, vedere Tipi di contenuto (Data mining).
Sezionamento cubo di origine: consente di definire i filtri in un cubo per selezionare solo un subset di dati ed eseguire il training dei modelli più interessati.

Per filtrare un cubo scegliere la dimensione in base a cui filtrare, selezionare il livello della gerarchia che contiene i criteri da utilizzare, quindi digitare una condizione da utilizzare come filtro.
Crea set di testing: in questa pagina è possibile definire nella procedura guidata la quantità di dati da mettere da parte durante il test del modello. Se i dati supporteranno più modelli, è consigliabile creare un set di dati di controllo, in modo da poter eseguire il test di tutti i modelli sugli stessi dati.

Per ulteriori informazioni, vedere Test e convalida (Data mining).
Completamento procedura guidata: in questa pagina si assegna un nome alla nuova struttura di data mining e al modello di data mining associato, quindi si salvano struttura e modello.

In questa pagina è inoltre possibile impostare le opzioni seguenti:
- Consenti drill-through
- Crea dimensione del modello di data mining
- Crea il cubo utilizzando la dimensione del modello di data mining
Per ulteriori informazioni su queste opzioni, vedere la sezione Informazioni sulle dimensioni di data mining e sul drill-through più avanti in questo argomento.

In questa fase la struttura di data mining e il modello sono esclusivamente metadati; sarà necessario elaborarli entrambi per ottenere risultati.

Scenari per l'utilizzo del data mining con dati OLAP

I cubi OLAP contengono spesso un numero talmente elevato di membri e dimensioni da rendere difficile la comprensione del punto di inizio del data mining. Per identificare i modelli inclusi nei cubi, in genere è necessario identificare una sola dimensione desiderata, quindi iniziare a esplorare i modelli correlati alla dimensione. Nella tabella seguente sono elencate diverse attività comuni di data mining OLAP e vengono descritti gli scenari di esempio in cui è possibile applicare ogni attività identificando l'algoritmo di data mining corrispondente da utilizzare.

Attività	Scenario di esempio	Algoritmo
Raggruppamento di membri in cluster	Segmentare una dimensione relativa ai clienti in base alle proprietà del membro corrispondente, ai prodotti acquistati dai clienti e alla quantità di denaro spesa dai clienti.	Algoritmo Microsoft Clustering
Ricerca di membri interessanti o anomali	Identificare membri interessanti o anomali in una dimensione relativa ai negozi in base a vendite, profitti, ubicazione e dimensioni del punto vendita.	Algoritmo Microsoft Decision Trees
Ricerca di celle interessanti o anomale	Identificare le vendite dei negozi che risultano controcorrente rispetto alle tendenze tipiche registrate nel tempo.	Algoritmo Microsoft Time Series
Trovare le correlazioni	Identificare i fattori correlati al tempo di inattività del server, tra cui area, tipo di computer, sistema operativo o data di acquisto.	Algoritmo Microsoft Naive Bayes

Sezionamento di un cubo eapplicazione di filtri ai modelli

Il sezionamento del cubo mentre si compila un modello equivale alla creazione di un filtro su un modello di data mining relazionale. In un modello relazionale il filtro sull'origine dati è definito come una clausola WHERE su un'istruzione SQL; in un cubo si utilizza l'editor per creare istruzioni di filtro utilizzando MDX.

Ad esempio, un cubo potrebbe contenere informazioni sugli acquisti di prodotti in tutto il mondo, ma per una campagna di marketing si desidera creare un modello basato sull'analisi dei clienti di sesso femminile oltre i 30 anni che vivono nel Regno Unito.

In questo scenario si creerebbero due filtri:

Per il primo filtro scegliere la dimensione Geography e la gerarchia per Region, quindi utilizzare l'elenco Espressione filtro per scegliere "United Kingdom" tra i valori possibili.
Per il secondo filtro scegliere la dimensione Customer, selezionare l'attributo Gender e "Female" dall'elenco di valori di attributo.

Dopo avere creato la struttura di data mining, è possibile modificare sia la definizione dei dati del cubo sia i criteri di filtro. Per ulteriori informazioni, vedere Filtrare il cubo di origine per una struttura di data mining.

Sia la scheda Struttura di data mining che la scheda Modello di data mining contengono un'opzione per l'aggiunta di un filtro a una struttura di data mining esistente, facendo clic su Definisci una sezione del cubo. Nella finestra di dialogo Seziona cubo è possibile compilare un'espressione di filtro MDX valida scegliendo un valore dagli elenchi a discesa.

Attenzione
Si noti che l'interfaccia per la progettazione e l'esplorazione dei cubi è stata modificata in SQL Server 2012. Per ulteriori informazioni, vedere Esplorare dati e metadati in un cubo.

Nel cubo è possibile aggiungere il numero di filtri necessari per restituire i dati desiderati per il modello di data mining. È inoltre possibile definire sezioni di singole sezioni del cubo. Se, ad esempio, la struttura contiene due tabelle nidificate basate sui prodotti, è possibile sezionare una tabella in corrispondenza del mese di marzo 2004 e l'altra tabella in corrispondenza del mese di aprile 2004. È quindi possibile utilizzare il modello risultante per stimare gli acquisti effettuati ad aprile in base agli acquisti effettuati a marzo.

Torna all'inizio

Utilizzo di tabelle nidificate in un modello di data mining OLAP

Quando si utilizza Creazione guidata modello di data mining per compilare un modello basato su dati del cubo, è possibile aggiungere tabelle nidificate specificando i nomi delle dimensioni correlate e scegliendo gli attributi o le misure da aggiungere al modello.

Ad esempio, se la dimensione principale utilizzata per i dati del case è Customer, è possibile aggiungere come dimensione correlata la dimensione Products, perché si prevede che un cliente possa avere acquistato più prodotti nel tempo e nel cubo ogni cliente è già collegato ai diversi prodotti tramite le tabelle dei fatti degli ordini.

Le tabelle nidificate vengono aggiunte nella pagina Impostazione utilizzo colonne modello di data mining della procedura guidata, facendo clic su Aggiungi tabelle nidificate. Verrà visualizzata una finestra di dialogo che agevola il processo di scelta di una dimensione correlata e di eventuali misure. Il case e le dimensioni nidificate devono essere correlati da una chiave esterna e le misure devono utilizzare uno degli attributi già inclusi nel case o nelle tabelle nidificate. Purtroppo, queste restrizioni in realtà non hanno alcun effetto sulla limitazione dell'ambito, pertanto è necessario fare attenzione nel selezionare solo gli attributi utili per la modellazione.

Per ogni attributo o misura che si aggiunge alla tabella nidificata, è necessario specificare se l'attributo nidificato sarà utilizzato o meno per la stima, selezionando Stimabile o Input nella finestra di dialogo Selezione colonne tabella nidificata. Se non si seleziona una di queste opzioni, i dati verranno aggiunti alla struttura di data mining senza essere utilizzati per l'analisi.

Per ogni attributo e misura, è inoltre necessario specificare se l'attributo è discreto, discretizzato o continuo. Nella procedura guidata verrà preselezionato un valore predefinito in base al tipo di dati dell'attributo, ma potrebbe essere necessario modificare questa selezione, a seconda dei requisiti dell'algoritmo. Se si sceglie un tipo di contenuto non compatibile con l'algoritmo scelto (ad esempio, si utilizza un tipo numerico continuo con un modello Naive Bayes), non si otterrà un messaggio di errore finché non si tenta di elaborare il modello.

Al termine dell'importazione di queste opzioni, la tabella nidificata verrà aggiunta alla tabella del case tramite la procedura guidata. Il nome predefinito della tabella nidificata corrisponde al nome della dimensione nidificata. È tuttavia possibile rinominare sia la tabella nidificata che le colonne corrispondenti. È possibile ripetere il processo per aggiungere più tabelle nidificate alla struttura di data mining.

La possibilità di utilizzare dati delle tabelle nidificate in questo modo è una funzionalità particolarmente efficace del data mining di SQL Server e in un cubo ci sono possibilità praticamente illimitate di utilizzare i subset di dati correlati.

Informazioni sulle dimensioni di data mining e sul drill-through

L'opzione Consenti drill-through consente di eseguire query nei dati del cubo sottostante durante l'esplorazione del modello. I dati non sono contenuti nella nuova dimensione di data mining, ma nel database Analysis Services è possibile utilizzare le associazioni dati per recuperare le informazioni dal cubo di origine.

L'opzione Crea dimensione del modello di data mining consente di generare una nuova dimensione all'interno del cubo esistente che contiene i modelli individuati dall'algoritmo. La gerarchia all'interno della nuova dimensione è determinata in gran parte dal tipo di modello. Ad esempio, la rappresentazione di un modello di clustering è piuttosto lineare, con il nodo (Tutto) in cima alla gerarchia e ogni cluster al livello successivo. Al contrario, la dimensione creata per un modello ad albero delle decisioni può avere una gerarchia molto profonda, che rappresenta le diramazioni dell'albero.

L'opzione Crea il cubo utilizzando la dimensione del modello di data mining consente di esportare la nuova dimensione di data mining in un nuovo cubo. Qualsiasi oggetto necessario per il drill-through sulla dimensione di data mining verrà incluso automaticamente.

Attenzione
Solo questi tipi di modelli supportano la creazione di dimensioni di data mining: modelli basati sull'algoritmo Microsoft Clustering, Microsoft Decision Trees o Microsoft Association.