Share via


Convalida dei modelli di data mining

Per convalidare l'accuratezza dei modelli di data mining e confrontarne la capacità predittiva in una struttura di data mining, è possibile utilizzare la scheda Grafico accuratezza modello di data mining di Progettazione modelli di data mining. Questa operazione è utile per la scelta dell'algoritmo corretto da utilizzare o per la modifica di parametri all'interno di un singolo algoritmo.

La convalida è un passaggio importante del processo di data mining. Prima di distribuire i modelli in un ambiente di produzione, è fondamentale verificarne il comportamento in caso di applicazione ai dati real. Per ulteriori informazioni sullo scopo della convalida dei modelli nel contesto più ampio del processo di data mining, vedere Concetti di base sul data mining.

Strumenti di convalida

Per la convalida dei modelli di data mining, nella scheda Grafico accuratezza modello di data mining sono disponibili gli strumenti seguenti:

  • Grafico lift
  • Matrice di classificazione

Grafico lift

I grafici lift vengono creati rappresentando i risultati delle query di stima ricavati da un set di dati di prova in base ai valori noti per la colonna stimabile esistente nel set di dati. Nel diagramma seguente viene illustrato un esempio di questo tipo di grafico.

Grafico lift della popolazione target rispetto alla popolazione totale

Nel grafico viene visualizzata una linea per i risultati del modello di data mining, insieme ad altre due linee di cui una rappresenta i risultati prodotti da un modello ideale con stime perfette che non contengono mai errori, mentre l'altra rappresenta i risultati di un'ipotesi casuale. I risultati dei modelli sono collocati tra il modello ideale e l'ipotesi casuale. Qualsiasi miglioramento alla linea dell'ipotesi casuale viene chiamato lift. Maggiore è il lift dimostrato, tanto più efficiente sarà il modello.

Nei grafici lift generati da attributi stimabili continui viene visualizzato un grafico a dispersione anziché linee.

Per implementare un grafico lift, sono necessari i seguenti elementi:

  • Uno o più modelli di data mining di cui è stato eseguito il training
  • Un set di dati di input che contiene un valore per la colonna stimabile
  • Un mapping tra i dati di input e la struttura del modello di data mining

Per ulteriori informazioni: Procedure per la scheda Grafico accuratezza modello di data mining, Mapping delle colonne (grafico lift), Grafico lift

Torna all'inizio

Matrice di classificazione

La scheda Matrice di classificazione offre un metodo alternativo per esaminare l'accuratezza delle stime create dai modelli di data mining in una struttura. Una matrice di classificazione viene generata mediante il confronto tra i valori effettivi esistenti nel set di dati di prova e i valori stimati dal modello di data mining. Tale matrice è uno strumento estremamente utile in quanto mostra non soltanto la frequenza dei valori stimati correttamente dal modello ma anche altri valori che il modello stima con maggiore frequenza in modo non corretto.

Si consideri ad esempio il case in cui è stato costruito un modello per la stima del tipo di carta fedeltà utilizzata dai clienti di un piccolo negozio di drogheria. Sono disponibili tre tipi di carta: Bronzo, Argento e Oro. Nella tabella seguente viene illustrata una matrice di classificazione per un modello che stima i valori della carta fedeltà in un database di prova in cui ognuno di tali valori è noto.

Bronzo Argento Oro

Bronzo

Valore effettivo

Errore per Bronzo

Errore per Bronzo

Argento

Errore per Argento

Valore effettivo

Errore per Argento

Oro

Errore per Oro

Errore per Oro

Valore effettivo

I valori ordinati in diagonale dall'angolo superiore sinistro all'angolo inferiore destro della matrice forniscono il numero corretto di valori effettivamente esistenti nel set di dati di prova. Le colonne della matrice rappresentano gli elementi stimati nel set di dati di prova. Le righe rappresentano lo stato effettivo dell'attributo nel set di dati di prova.

Si consideri ad esempio la stima eseguita dal modello di data mining per i clienti con carta Bronzo. Il valore dell'intersezione tra la colonna Bronzo e la riga Argento rappresenta il numero effettivo di clienti con carta Bronzo nel database di prova. Il valore dell'intersezione tra la colonna Argento e la riga Bronzo rappresenta il numero di casi stimati in modo non corretto come Argento quando in realtà sono Bronzo. I numero di valori stimati in modo non corretto per Bronzo corrispondono alla somma del valore dell'intersezione tra la colonna Bronzo e la riga Argento più il valore dell'intersezione tra la colonna Bronzo e la riga Oro. La stessa analisi è valida per gli altri tipi di carta.

Per ulteriori informazioni:Procedure per la scheda Grafico accuratezza modello di data mining, Mapping delle colonne (grafico lift), Matrice di classificazione

Torna all'inizio

Vedere anche

Concetti

Utilizzo degli strumenti di data mining
Concetti di base sul data mining
Utilizzo del data mining

Altre risorse

Procedure per la scheda Grafico accuratezza modello di data mining

Guida in linea e informazioni

Assistenza su SQL Server 2005