Início Tecnologia Transformação e discretização de dados: um guia abrangente

Tecnologia

Transformação e discretização de dados: um guia abrangente

Por

12 Março 2025

Transformação e discretização de dados são etapas críticas no pipeline de pré -processamento de dados. Eles preparam dados brutos para análise, convertendo -os em formulários adequados para mineração, melhorando a eficiência e a precisão dos algoritmos de mineração de dados. Este artigo mergulha profundamente nos conceitos, técnicas e aplicações práticas de transformação e discretização de dados.

1. O que é transformação de dados?

A transformação dos dados envolve a conversão de dados em formulários apropriados para mineração. Esta etapa é essencial porque os dados brutos geralmente são barulhentos, inconsistentes ou inadequados para análise direta. As estratégias comuns de transformação de dados incluem:

Suavização: Remova o ruído dos dados (por exemplo, usando binning ou agrupamento).
Construção de atributos: Crie novos atributos a partir dos existentes (por exemplo, área = altura × largura).
Agregação: Resuma dados (por exemplo, vendas diárias → vendas mensais).
Normalização: Escala dados para um intervalo menor (por exemplo, 0,0 a 1,0).
Discretização: Substitua os valores numéricos por intervalos ou rótulos conceituais (por exemplo, idade → “juventude”, “adulto”, “sênior”).
Geração de hierarquia conceitual: Generalize dados para conceitos de nível superior (por exemplo, rua → cidade → país).

2. Por que a transformação de dados é importante?

Melhora a qualidade dos dados: Remove ruído, inconsistências e redundâncias.
Aumenta a eficiência da mineração: Reduz o volume e a complexidade dos dados, acelerando os algoritmos.
Facilita melhores insights: Transforma dados em formulários mais fáceis de analisar e interpretar.

3. Técnicas de transformação de dados

3.1 Normalização

A normalização escala atributos numéricos para um intervalo específico, como [0.0, 1.0] ou [-1.0, 1.0]. Isso é particularmente útil para algoritmos de mineração baseados em distância (por exemplo, vizinhos mais antigos, agrupamentos) para evitar atributos com faixas maiores de dominar aqueles com faixas menores.

3.1.1 min-max normalização

Fórmula:
- v* ‘*: valor original do atributo.
- min⁡a: valor mínimo do atributo UM.
- máxUM: Valor máximo do atributo UM.
- new_minUM: Valor mínimo do novo intervalo (por exemplo, 0,0).
- new_maxUM: Valor máximo do novo intervalo (por exemplo, 1.0).
Exemplo:
- Suponha que o atributo “renda” tenha um valor mínimo de US $ 12.000 e um valor máximo de US $ 98.000.
- Queremos normalizar um valor de renda de US $ 73.600 para o intervalo [0.0, 1.0].
- O valor normalizado é 0,716.

3.1.2 Normalização do escore z

3.1.3 Normalização de escala decimal

Fórmula:
- J: menor número inteiro de tal forma que (max (| v ‘|) <1).
Exemplo:
- Suponha que o atributo “preço” tenha valores que variam de -986 a 917.
- O valor absoluto máximo é 986.
- O menor número inteiro (j) de modo que (986 /10^j <1) é J = 3.
- Normalize o valor
- O valor normalizado é -0,986.

3.2 Discretização

A discretização substitui os valores numéricos por rótulos de intervalo ou conceitual. Isso é útil para simplificar dados e tornar os padrões mais fáceis de entender.

3.2.1 Binning

Binning divide o alcance de um atributo em caixas (intervalos). Existem dois tipos principais:

Binning de largura igual:
- Divida o alcance em intervalos (k) de largura igual.
- Exemplo: para o atributo “idade” com valores [12, 15, 18, 20, 22, 25, 30, 35, 40]Crie 3 caixas:
  - BIN 1: [12, 20]
  - BIN 2: [21, 30]
  - BIN 3: [31, 40]
Binning de frequência igual:
- Divida o intervalo em caixas (k), cada uma contendo aproximadamente o mesmo número de valores.
- Exemplo: para os mesmos valores de “idade”, crie 3 caixas:
  - BIN 1: [12, 15, 18]
  - BIN 2: [20, 22, 25]
  - BIN 3: [30, 35, 40]

3.2.2 Análise do histograma

Os histogramas dividem os valores de um atributo em intervalos disjuntos (baldes). O algoritmo de análise de histograma pode ser aplicado recursivamente para gerar uma hierarquia de conceitos multiníveis.

Exemplo:
- Para o atributo “preço” com valores [1, 1, 5, 5, 5, 5, 8, 8, 10, 10, 10, 10, 12, 14, 14, 15, 15, 15, 15, 15, 18, 18, 18, 18, 18, 18, 20, 20, 20, 20, 20, 20, 20, 21, 21, 21, 25, 25, 25, 25, 28, 28, 30, 30, 30]:
- Crie um histograma de largura igual com uma largura de compartimento de US $ 10:
  - BIN 1: [$0, $10]
  - BIN 2: [$10, $20]
  - BIN 3: [$20, $30]

3.2.3 Cluster, Decision Tree and Correlation Análises

Análise de Cluster:
- Agrupe valores semelhantes em clusters e substitua os valores brutos por rótulos de cluster.
- Exemplo: o cluster “idade” valoriza em “jovem”, “de meia-idade” e “sênior”.
Análise de árvore de decisão:
- Use árvores de decisão para dividir atributos numéricos em intervalos com base nos rótulos das classes.
- Exemplo: divida “renda” em intervalos que melhor prevêem “risco de crédito”.
Análise de correlação:
- Use medidas como o qui-quadrado para mesclar intervalos com distribuições de classe semelhantes.
- Exemplo: mesclar intervalos adjacentes se eles tiverem distribuições semelhantes de “comportamento de compra”.

3.3 Geração de hierarquia conceitual para dados nominais

Hierarquias de conceito generalizam atributos nominais para conceitos de nível superior (por exemplo, rua → cidade → país). Eles podem ser gerados manualmente ou automaticamente com base no número de valores distintos por atributo.

Exemplo:
- Para os atributos “Street”, “City”, “Província” e “país”:
  - Classificar pelo número de valores distintos:
    - País (15) → Província (365) → Cidade (3567) → Street (674.339).
  - Gerar a hierarquia:
    - País → Província → Cidade → Rua.

4. Aplicações práticas

Segmentação do cliente: Normalize os atributos de renda e idade para agrupar os clientes em segmentos.
Análise da cesta de mercado: Discretize os valores de compra em intervalos para identificar padrões.
Detecção de fraude: Use hierarquias conceituais para generalizar os locais de transação (por exemplo, rua → cidade → país).

5. Conclusão

Transformação e discretização de dados são etapas essenciais no pré -processamento de dados. Eles melhoram a qualidade dos dados, aprimoram a eficiência da mineração e facilitam melhores insights. Ao normalizar, discretizar e gerar hierarquias conceituais, você pode transformar dados brutos em um formulário pronto para análise.

fonte

Transformação e discretização de dados: um guia abrangente

1. O que é transformação de dados?

2. Por que a transformação de dados é importante?

3. Técnicas de transformação de dados

3.1 Normalização

3.1.1 min-max normalização

3.1.2 Normalização do escore z

3.1.3 Normalização de escala decimal

3.2 Discretização

3.2.1 Binning

3.2.2 Análise do histograma

3.2.3 Cluster, Decision Tree and Correlation Análises

3.3 Geração de hierarquia conceitual para dados nominais

4. Aplicações práticas

5. Conclusão

DEIXE UMA RESPOSTA Cancelar resposta

última postagem

O Google está colocando Gemini AI em tocando de cartas, Slam...

Briefing de quinta -feira: uma guerra comercial crescente

A deputada Sarah McBride bate -se de volta ao legislador do...

Os fãs do Arsenal estão todos dizendo a mesma coisa depois...

A Rússia reivindica mais ganhos em Kursk como a Ucrânia sugere...

‘Wild Cards’ temporada 3? O status de renovação do programa de...

Floss Weekly Episódio 824: Gajagem Gratuita do umbigo

Trump acusa a Irlanda de roubar empresas americanas em se reunir...

Conners do Canadá, Taylor, esperando que o momento leve o Campeonato...

Esqueça os vazamentos do Google Pixel 10 Pro XL, o Pixel...