Início Tecnologia Transformação e discretização de dados: um guia abrangente

Transformação e discretização de dados: um guia abrangente

7
0

Transformação e discretização de dados são etapas críticas no pipeline de pré -processamento de dados. Eles preparam dados brutos para análise, convertendo -os em formulários adequados para mineração, melhorando a eficiência e a precisão dos algoritmos de mineração de dados. Este artigo mergulha profundamente nos conceitos, técnicas e aplicações práticas de transformação e discretização de dados.

1. O que é transformação de dados?

A transformação dos dados envolve a conversão de dados em formulários apropriados para mineração. Esta etapa é essencial porque os dados brutos geralmente são barulhentos, inconsistentes ou inadequados para análise direta. As estratégias comuns de transformação de dados incluem:

  1. Suavização: Remova o ruído dos dados (por exemplo, usando binning ou agrupamento).
  2. Construção de atributos: Crie novos atributos a partir dos existentes (por exemplo, área = altura × largura).
  3. Agregação: Resuma dados (por exemplo, vendas diárias → vendas mensais).
  4. Normalização: Escala dados para um intervalo menor (por exemplo, 0,0 a 1,0).
  5. Discretização: Substitua os valores numéricos por intervalos ou rótulos conceituais (por exemplo, idade → “juventude”, “adulto”, “sênior”).
  6. Geração de hierarquia conceitual: Generalize dados para conceitos de nível superior (por exemplo, rua → cidade → país).

2. Por que a transformação de dados é importante?

  • Melhora a qualidade dos dados: Remove ruído, inconsistências e redundâncias.
  • Aumenta a eficiência da mineração: Reduz o volume e a complexidade dos dados, acelerando os algoritmos.
  • Facilita melhores insights: Transforma dados em formulários mais fáceis de analisar e interpretar.

3. Técnicas de transformação de dados

3.1 Normalização

A normalização escala atributos numéricos para um intervalo específico, como [0.0, 1.0] ou [-1.0, 1.0]. Isso é particularmente útil para algoritmos de mineração baseados em distância (por exemplo, vizinhos mais antigos, agrupamentos) para evitar atributos com faixas maiores de dominar aqueles com faixas menores.

3.1.1 min-max normalização

  • Fórmula:

    • v* ‘*: valor original do atributo.
    • min⁡a: valor mínimo do atributo UM.
    • máxUM: Valor máximo do atributo UM.
    • new_minUM: Valor mínimo do novo intervalo (por exemplo, 0,0).
    • new_maxUM: Valor máximo do novo intervalo (por exemplo, 1.0).
  • Exemplo:

    • Suponha que o atributo “renda” tenha um valor mínimo de US $ 12.000 e um valor máximo de US $ 98.000.

    • Queremos normalizar um valor de renda de US $ 73.600 para o intervalo [0.0, 1.0].

    • O valor normalizado é 0,716.

3.1.2 Normalização do escore z

3.1.3 Normalização de escala decimal

  • Fórmula:

    • J: menor número inteiro de tal forma que (max (| v ‘|) <1).
  • Exemplo:

    • Suponha que o atributo “preço” tenha valores que variam de -986 a 917.

    • O valor absoluto máximo é 986.

    • O menor número inteiro (j) de modo que (986 /10^j <1) é J = 3.

    • Normalize o valor

    • O valor normalizado é -0,986.

3.2 Discretização

A discretização substitui os valores numéricos por rótulos de intervalo ou conceitual. Isso é útil para simplificar dados e tornar os padrões mais fáceis de entender.

3.2.1 Binning

Binning divide o alcance de um atributo em caixas (intervalos). Existem dois tipos principais:

  1. Binning de largura igual:
    • Divida o alcance em intervalos (k) de largura igual.
    • Exemplo: para o atributo “idade” com valores [12, 15, 18, 20, 22, 25, 30, 35, 40]Crie 3 caixas:
      • BIN 1: [12, 20]
      • BIN 2: [21, 30]
      • BIN 3: [31, 40]
  2. Binning de frequência igual:
    • Divida o intervalo em caixas (k), cada uma contendo aproximadamente o mesmo número de valores.
    • Exemplo: para os mesmos valores de “idade”, crie 3 caixas:
      • BIN 1: [12, 15, 18]
      • BIN 2: [20, 22, 25]
      • BIN 3: [30, 35, 40]

3.2.2 Análise do histograma

Os histogramas dividem os valores de um atributo em intervalos disjuntos (baldes). O algoritmo de análise de histograma pode ser aplicado recursivamente para gerar uma hierarquia de conceitos multiníveis.

  • Exemplo:
    • Para o atributo “preço” com valores [1, 1, 5, 5, 5, 5, 8, 8, 10, 10, 10, 10, 12, 14, 14, 15, 15, 15, 15, 15, 18, 18, 18, 18, 18, 18, 20, 20, 20, 20, 20, 20, 20, 21, 21, 21, 25, 25, 25, 25, 28, 28, 30, 30, 30]:
    • Crie um histograma de largura igual com uma largura de compartimento de US $ 10:
      • BIN 1: [$0, $10]
      • BIN 2: [$10, $20]
      • BIN 3: [$20, $30]

3.2.3 Cluster, Decision Tree and Correlation Análises

  1. Análise de Cluster:
    • Agrupe valores semelhantes em clusters e substitua os valores brutos por rótulos de cluster.
    • Exemplo: o cluster “idade” valoriza em “jovem”, “de meia-idade” e “sênior”.
  2. Análise de árvore de decisão:
    • Use árvores de decisão para dividir atributos numéricos em intervalos com base nos rótulos das classes.
    • Exemplo: divida “renda” em intervalos que melhor prevêem “risco de crédito”.
  3. Análise de correlação:
    • Use medidas como o qui-quadrado para mesclar intervalos com distribuições de classe semelhantes.
    • Exemplo: mesclar intervalos adjacentes se eles tiverem distribuições semelhantes de “comportamento de compra”.

3.3 Geração de hierarquia conceitual para dados nominais

Hierarquias de conceito generalizam atributos nominais para conceitos de nível superior (por exemplo, rua → cidade → país). Eles podem ser gerados manualmente ou automaticamente com base no número de valores distintos por atributo.

  • Exemplo:
    • Para os atributos “Street”, “City”, “Província” e “país”:
      • Classificar pelo número de valores distintos:
        • País (15) → Província (365) → Cidade (3567) → Street (674.339).
      • Gerar a hierarquia:
        • País → Província → Cidade → Rua.

4. Aplicações práticas

  • Segmentação do cliente: Normalize os atributos de renda e idade para agrupar os clientes em segmentos.
  • Análise da cesta de mercado: Discretize os valores de compra em intervalos para identificar padrões.
  • Detecção de fraude: Use hierarquias conceituais para generalizar os locais de transação (por exemplo, rua → cidade → país).

5. Conclusão

Transformação e discretização de dados são etapas essenciais no pré -processamento de dados. Eles melhoram a qualidade dos dados, aprimoram a eficiência da mineração e facilitam melhores insights. Ao normalizar, discretizar e gerar hierarquias conceituais, você pode transformar dados brutos em um formulário pronto para análise.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui