Erros redutíveis: o viés e a variância em modelos estatísticos.
Ao utilizar modelos estatísticos para realizar tarefas envolvendo predição de resultados sendo eles em relação a variáveis contínuas, nominais ou binárias devemos entender que sempre haverá uma diferença entre os valores preditos e os valores observados. Ter clareza quanto aos tipos de erros associados é crucial para entender a performance do algoritmo utilizado e ajuda a evitar os problemas de underfitting e overfitting.
Os erros são classificados em duas categorias:
a) Erros irredutíveis
b) Erros redutíveis.
Enquanto não podemos atuar em cima dos erros irredutíveis por serem variáveis desconhecidas e decorrentes da variabilidade natural do sistema, podemos minimizar os erros redutíveis de forma a otimizar os algoritmos de machine learning. Ainda, os erros redutíveis podem ser divididos entre os erros decorrentes do viés e da variância do modelo e, assim, podemos observar na figura abaixo a composição total do erro.
Mas afinal, o que é o viés em modelos estatísticos?
Ao utilizar um modelo estatístico para realizar predições damos acesso ao algoritmo a uma parte dos dados para que ele possa aprender sobre os dados e de alguma forma detectar os padrões que existem, chamamos essa parte dos dados aos quais o modelo tem acesso previamente de dados de treino.
Após o treinamento, avaliamos a performance do algoritmo escolhido através da utilização de dados nunca vistos anteriormente, ou seja, o algoritmo agora vai tentar aplicar os padrões encontrados nos dados de treino nos dados de teste e assim realizar as predições para os dados nunca vistos.
A diferença entre as predições sobre os dados de teste e os valores reais dos dados de treino é o que chamamos de viés. Em geral, métodos mais flexíveis vão gerar um baixo viés e por consequência minimizam o erro.
Contudo, vai chegar um ponto em que o aumento da flexibilidade do modelo vai impactar tão pouco na redução do viés que o aumento ou redução do erro vai depender do comportamento do erro relacionado a variância do modelo.
E o que seria o erro relacionado a variância?
Enquanto o viés está relacionado a diferença dos valores preditos em relação aos dados de teste e os dados de treino, a variância está relacionada somente com os dados de treino.
Um modelo com alta variância é um algoritmo que decorou todos padrões existentes nos dados de treino de maneira que ao ser utilizado em dados nunca vistos não vai conseguir generalizar. Esse tipo de problema é chamado de overfitting.
A escolha entre viés e variância
Uma boa performance do modelo em dados de teste requerem baixo viés e baixa variância. Geralmente falamos em “trade-off” porque facilmente obtemos um método com baixo viés e alta variância (uma curva que passe por todos pontos dos dados de treino), ou um modelo com baixa variância e alto viés. O desafio é encontrar um modelo em que as duas variáveis quantitativas sejam baixas.
A figura abaixo ilustra o comportamento do viés (linha azul claro) e da variância (linha laranja) em relação ao erro (linha vermelha).
O gráfico da esquerda mostra a relação entre o viés, o erro e a variância de maneira geral, o gráfico central mostra para modelos lineares e o da direita para modelos não-lineares.
Métodos mais flexíveis geram um baixo viés, e por consequência minimizam o erro. Contudo, o baixo víeis causa uma alta variância, e a alteração dessas duas variáveis quantitativas determinam se o erro no teste vai aumentar ou diminuir.
Conclusões
- Para minimizar o erro precisamos que o modelo estatístico escolhido tenha baixo viés e baixa variância.
- Modelos lineares tem uma pequena redução no viés enquanto ocorre o aumento da variância. Além disso, há uma insignificante redução no erro até aumentar rapidamente de acordo com o aumento da variância.
- Modelos não lineares tem uma redução drástica do viés conforme o aumento da flexibilidade e há pequenas alterações na variância. Nesse caso o erro cai muito rápido até sofrer um pequeno aumento conforme a pequena mudança que ocorre na variância.