Skip to content

Definindo o modelo estatístico de regressão

13 de maio de 2021

A regressão é uma técnica de mineração de dados usada para prever uma gama de valores numéricos (também chamado valores contínuos), dado um determinado conjunto de dados. Por exemplo, a regressão pode ser usada para prever o custo de um produto ou serviço, dadas outras variáveis. A regressão é usada em vários setores para planejamento de negócios e marketing, previsão financeira, modelagem ambiental e análise de tendências.

Regressão vs. Classificação

A regressão e a classificação são técnicas de mineração de dados usadas para resolver problemas semelhantes, mas são frequentemente confundidas. Ambos são usados ​​na análise de previsão, mas a regressão é usada para prever um valor numérico ou contínuo, enquanto a classificação atribui dados em categorias discretas. Por exemplo, a regressão seria usada para prever o valor de uma casa com base em sua localização, pés quadrados, preço da última venda, o preço de casas semelhantes e outros fatores. A classificação estaria em ordem se você quisesse, em vez disso, organizar as casas em categorias, como capacidade para caminhar, tamanho do lote ou taxas de criminalidade.

Tipos de técnicas de regressão

A forma mais simples e mais antiga de regressão é a regressão linear usada para estimar uma relação entre duas variáveis. Esta técnica usa a fórmula matemática de uma linha reta (y = mx + b). Em termos simples, isso significa simplesmente que, dado um gráfico com um eixo Y e um eixo X, a relação entre X e Y é uma linha reta com poucos valores discrepantes. Por exemplo, podemos supor que, dado um aumento na população, a produção de alimentos aumentaria na mesma taxa – isso requer uma relação linear forte entre os dois números. Para visualizar isso, considere um gráfico no qual o eixo Y rastreia o aumento da população e o eixo X rastreia a produção de alimentos. Conforme o valor de Y aumenta, o valor de X aumentaria na mesma taxa, tornando a relação entre eles uma linha reta. Técnicas avançadas, como regressão múltipla, prevêem uma relação entre várias variáveis ​​- por exemplo, há uma correlação entre renda, educação e onde se escolhe morar? A adição de mais variáveis ​​aumenta consideravelmente a complexidade da previsão. Existem vários tipos de técnicas de regressão múltipla, incluindo padrão, hierárquica, setwise e stepwise, cada uma com sua própria aplicação. Neste ponto, é importante entender o que estamos tentando prever (o dependente ou previsto variável) e os dados que estamos usando para fazer a previsão (o independente ou preditor variáveis). Em nosso exemplo, queremos prever o local onde alguém escolhe morar (o previsto variável) dada a renda e educação (ambos preditor variáveis).

  • Regressão múltipla padrão considera todas as variáveis ​​preditoras ao mesmo tempo. Por exemplo 1) qual é a relação entre renda e educação (preditores) e escolha do bairro (previsto); e 2) em que grau cada um dos preditores individuais contribui para essa relação?
  • Regressão múltipla stepwise responde a uma pergunta totalmente diferente. Um algoritmo de regressão stepwise analisará quais preditores são mais bem usados ​​para prever a escolha da vizinhança – o que significa que o modelo stepwise avalia a ordem de importância das variáveis ​​preditoras e, em seguida, seleciona um subconjunto relevante. Este tipo de problema de regressão usa “etapas” para desenvolver a equação de regressão. Dado esse tipo de regressão, todos os preditores podem nem mesmo aparecer na equação de regressão final.
  • Regressão hierárquica, como passo a passo, é um processo sequencial, mas as variáveis ​​preditoras são inseridas no modelo em uma ordem pré-especificada definida com antecedência, ou seja, o algoritmo não contém um conjunto integrado de equações para determinar a ordem na qual inserir o preditores. Isso é usado com mais freqüência quando o indivíduo que está criando a equação de regressão tem conhecimento especializado da área.
  • Regressão setwise também é semelhante ao stepwise, mas analisa conjuntos de variáveis ​​em vez de variáveis ​​individuais.