Algoritmo Árvores de Decisão da Microsoft

Aplica-se a: SQL Server 2019 e anteriores do Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

A mineração de dados foi preterida no SQL Server 2017 Analysis Services e agora foi descontinuada no SQL Server 2022 Analysis Services. A documentação não foi atualizada para recursos preteridos e descontinuados. Para saber mais, confira Compatibilidade com versões anteriores do Analysis Services.

O algoritmo Árvores de Decisão da Microsoft é um algoritmo de classificação e regressão para uso na modelagem preditiva de atributos discretos e contínuos.

No caso dos atributos discretos, o algoritmo faz previsões fundadas nas relações entre colunas de entrada em um conjunto de dados. Ele usa os valores, conhecidos como estados, dessas colunas para prever os estados de uma coluna que você define como previsível. Especificamente, o algoritmo identifica as colunas de entrada que são correlacionadas com a coluna previsível. Por exemplo, em um cenário em que se deseja prever a tendência dos clientes em adquirir uma bicicleta, se 9 de 10 clientes jovens comprarem uma bicicleta, mas apenas 2 de 10 clientes mais velhos fizerem o mesmo, o algoritmo infere que idade é um bom indicador para a compra de bicicletas. A árvore de decisão faz previsões com base nesta tendência para obter um resultado específico.

No caso de atributos contínuos, o algoritmo usa a regressão linear para determinar onde uma árvore de decisão se divide.

Se mais de uma coluna for definida como previsível, ou se os dados de entrada tiverem uma tabela aninhada configurada como previsível, o algoritmo criará uma árvore de decisão separada para cada coluna previsível.

Exemplo

O departamento de marketing da empresa Adventure Works Cycles deseja identificar as características de clientes anteriores que podem indicar se esses clientes provavelmente comprarão um produto no futuro. O banco de dados AdventureWorks2012 armazena informações demográficas que descrevem os clientes anteriores. Usando o algoritmo Árvores de Decisão da Microsoft para analisar essas informações, o departamento de marketing pode criar um modelo que prevê se um cliente específico comprará produtos, com base nos estados de colunas conhecidas sobre esse cliente, como dados demográficos ou padrões de compra anteriores.

Como o algoritmo funciona

O algoritmo Árvores de Decisão da Microsoft cria um modelo de mineração de dados criando uma série de divisões na árvore. Essas divisões são representadas como nós. O algoritmo adiciona um nó ao modelo toda vez que uma coluna de entrada é considerada significativamente correlacionada a uma coluna previsível. A forma que o algoritmo determina uma divisão depende do fato de ele estar prevendo uma coluna contínua ou discreta.

O algoritmo Árvores de Decisão da Microsoft usa a seleção de recursos para orientar a seleção dos atributos mais úteis. A seleção de recursos é usada por todos os algoritmos SQL Server Data Mining para melhorar o desempenho e a qualidade da análise. A seleção de recurso é importante para impedir que atributos sem-importância usem tempo do processador. Se você usar muitas entradas ou atributos previsíveis ao criar um modelo de mineração de dados, o modelo poderá demorar muito tempo para processar ou ainda esgotar a memória. Os métodos usados para determinar se a árvore deve ser dividida incluem métricas padrão do setor para entropia e redes bayesianas*.* Para obter mais informações sobre os métodos usados para selecionar atributos significativos e, em seguida, pontuar e classificar os atributos, consulte Seleção de Recursos (Mineração de Dados).

Um problema muito comum nos modelos de mineração de dados é que eles se tornam muito sensíveis a pequenas diferenças nos dados de treinamento. Nesse caso, nos referimos a eles como sobrecarregados ou muito treinados. Um modelo sobrecarregado não pode ser generalizado para outros conjuntos de dados. Para evitar o sobreajuste em qualquer conjunto específico de dados, o algoritmo Árvores de Decisão da Microsoft usa técnicas para controlar o crescimento da árvore. Para obter uma explicação mais detalhada de como o algoritmo Árvores de Decisão da Microsoft funciona, consulte Referência técnica do algoritmo árvores de decisão da Microsoft.

Prevendo colunas discretas

A maneira como o algoritmo Árvores de Decisão da Microsoft cria uma árvore para uma coluna previsível discreta pode ser demonstrada usando um histograma. O diagrama a seguir mostra um histograma que esboça uma coluna previsível, Compradores de bicicleta, em comparação com uma coluna de entrada, Idade. O histograma mostra que a idade de uma pessoa ajuda a distinguir se ela comprará uma bicicleta.

Histograma do algoritmo Árvores de Decisão da Microsoft

A correlação mostrada no diagrama faria com que o algoritmo Árvores de Decisão da Microsoft criasse um novo nó no modelo.

Nó de árvore de decisão Nó

À medida que o algoritmo acrescenta novos nós em um modelo, uma estrutura de árvore é formada. O nó superior da árvore indica a divisão da coluna previsível para a média da população de clientes. Como o modelo continua crescendo, o algoritmo considera todas as colunas.

Prevendo colunas contínuas

Quando o algoritmo Árvores de Decisão da Microsoft cria uma árvore com base em uma coluna previsível contínua, cada nó contém uma fórmula de regressão. Uma divisão ocorre em um ponto de não linearidade na fórmula de regressão. Por exemplo, considere o seguinte diagrama:

Várias linhas de regressão mostrando não linearidade

Em um modelo de regressão padrão, você deve tentar derivar uma única fórmula que represente as tendências e as relações para os dados como um todo. No entanto, uma única fórmula pode fazer um trabalho ruim de capturar a descontinuidade em dados complexos. Em vez disso, o algoritmo Árvores de Decisão da Microsoft procura segmentos da árvore que são em grande parte lineares e cria fórmulas separadas para esses segmentos. Ao dividir os dados em diferentes segmentos, o modelo pode fazer um trabalho melhor de aproximar dados.

O diagrama a seguir representa o diagrama de árvore para o modelo na dispersão acima. Para prever o resultado, o modelo fornece duas fórmulas diferentes: uma para ramificação à esquerda, com a fórmula y = 0,5x x 5 e outra para ramificação à direita, com a fórmula y = 0,25x + 8,75. O ponto no qual as duas linhas se encontram no diagrama de dispersão é o ponto de não linearidade e o ponto em que o nó de um modelo de árvore de decisão se dividiria.

Equação que representa um ponto de

Esse é um modelo simples com apenas duas equações lineares; portanto, a divisão na árvore é imediatamente após o nó Todos . No entanto, uma divisão pode ocorrer em qualquer nível da árvore. Isso significa que, em uma árvore contendo vários níveis e nós, em que cada nó é caracterizado por um conjunto diferente de atributos, uma fórmula pode ser compartilhada entre vários nós ou aplicar-se a somente um único nó. Por exemplo, você pode obter uma fórmula para um nó definido como "clientes acima de determinada idade e renda" e outra para um nó que represente "clientes que se deslocam longas distâncias". Para ver a fórmula para um nó ou segmento individual, basta clicar no nó.

Dados necessários para modelos de árvore de decisão

Ao preparar dados para usar em um modelo de árvore de decisão, você deve saber os requisitos do algoritmo específico, incluindo a quantidade de dados necessária e como eles são usados.

Os requisitos para um modelo de árvore de decisão são os seguintes:

  • Uma única coluna de chave Cada modelo deve conter uma coluna de texto ou numérica que identifique unicamente cada registro. Não são permitidas chaves compostas.

  • Uma coluna previsível Requer, pelo menos, uma coluna previsível. Você pode incluir vários atributos previsíveis em um modelo, e o atributo previsível pode ser de diferentes tipos, tanto numérico como discreto. Porém, o aumento no número de atributos previsíveis pode aumentar o tempo de processamento.

  • Colunas de entrada Requer colunas de entrada que podem ser discretas ou contínuas. O aumento no número de atributos de entrada afeta o tempo de processamento.

Para obter informações mais detalhadas sobre os tipos de conteúdo e de dados com suporte pelos modelos de árvore de decisão, consulte a seção Requisitos de Referência técnica do algoritmo de árvore de decisão da Microsoft.

Exibindo um modelo de árvore de decisão

Para explorar o modelo, você pode usar o Visualizador de Árvores da Microsoft. Caso seu modelo gere várias árvores, é possível selecionar uma árvore e o visualizador mostrará uma divisão de como os casos são categorizados para cada atributo previsível. Você também pode exibir a interação das árvores usando o visualizador de rede de dependência. Para obter mais informações, consulte Procurar um modelo usando o Visualizador de Árvores da Microsoft.

Se quiser obter mais detalhes sobre qualquer ramificação ou nó da árvore, você também pode explorar o modelo usando o Visualizador de Árvore de Conteúdo Genérica da Microsoft. O conteúdo armazenado para o modelo inclui a distribuição de todos os valores em cada nó, as probabilidades em cada nível da árvore e as fórmulas de regressão dos atributos contínuos. Para obter mais informações, consulte Conteúdo do modelo de mineração para modelos de árvore de decisão (Analysis Services – Mineração de dados).

Criando previsões

Depois que o modelo foi processado, os resultados são armazenados como um conjunto de padrões e estatísticas. Esse conjunto pode ser usado para explorar relações e fazer previsões.

Para obter exemplos de consultas a usar com um modelo de árvores de decisão, consulte Exemplos de consulta de modelo de árvores de decisão.

Para obter informações gerais sobre como criar consultas com base em modelos de mineração, consulte Consultas de mineração de dados.

Comentários

  • Suporta o uso de PMML (Predictive Model Markup Language) para criar modelos de mineração.

  • Dá suporte ao detalhamento.

  • Dá suporte ao uso de modelos de mineração OLAP e à criação de dimensões de mineração de dados.

Consulte Também

Algoritmos de mineração de dados (Analysis Services – Mineração de Dados)
Referência técnica do algoritmo Árvores de Decisão da Microsoft
Exemplos de consulta de modelo de árvores de decisão
Mining Model Content for Decision Tree Models (Analysis Services - Data Mining)