Avaliação de Previsões
Previsões
Após as etapas de estimação e diagnóstico dos modelos estimados, encontramos um modelo candidato, o próximo passo é avaliar a qualidade das previsões geradas pelo modelo. E por previsões vale distinguir os dois tipos:
- Previsão estática: usa na previsão de \(y_{T+h}\) o valor de \(y_{T+h-1}\). Também chamada de previsão um passo à frente, pois atualiza o valor da série até o período anterior para fazer a próxima previsão (útil para verificar o ajustamento do modelo).
- Previsão dinâmica: não usa a informação adicional para realimentar as previsões. Isto é, para prever \(y_{T+2}\), usa-se \(E(y_{T+1})\).
Uma boa estratégia para avaliar as previsões de um modelo de séries temporais é:
- Restringir a amostra de dados, omitindo um horizonte \(h\) de observações, geralmente do final da amostra;
- Estimar o modelo com a amostra restringida e gerar previsão dinâmica \(h\) passos a frente, conhecida como previsão pseudo out-of-sample;
- Calcular o erro de previsão \(e_{T+h} = y_{T+h} - E(y_{T+h|T})\), ou seja, os valores observados (que ficaram omitidos na estimação) menos o que foi previsto “fora da amostra” pelo modelo;
- Calcular métricas de acurácia (ME, MSE, RMSE, MAE, MPE, MAPE, U de Theil, etc.) para comparar a previsão entre modelos;
- Escolher o modelo que apresenta a melhor (menor) métrica de acurácia. Em geral, utiliza-se o RMSE para decidir entre modelos.
Cenários e variáveis exógenas
Note que, para o caso de modelos múltivariados, você precisará dos valores futuros das variáveis independentes para poder gerar previsões para a variável dependente. Ou seja, você precisa informar uma matriz com os \(h\) valores futuros das variáveis independentes no momento da previsão. Nos demais casos, modelos univariados e modelos multivariados endógenos, não há tal necessidade, a menos que contenham variáveis exógenas como dummies sazonais (nesse caso, informe uma matriz de dummies sazonais com \(h\) linhas).
Para quando isso é necessário, há múltiplas possibilidades: você pode simplesmente calcular a média histórica e usar esses valores na previsão; informar valores com base em previsões externas (Focus, por exemplo); informar valores com base em leitura da conjuntura econômica (com algum viés e arbitrariedade); etc.
Por fim, uma vez que você tenha um modelo candidato com boa performance em previsões, você pode usar a amostra completa de dados para gerar previsões fora da amostra.
Definindo as métricas
A primeira consiste simplesmente na média da série de erros de previsão, isto é, o erro médio (ME), dado conforme segue:
\[\begin{equation} ME = \frac{\sum_t^T{\varepsilon_t}}{T} \end{equation}\]
A segunda é a raiz quadrada do erro médio (RMSE), dada por \[\begin{equation} RMSE = \sqrt{\frac{\sum_t^T{\varepsilon_t^2}}{T}} \end{equation}\]
A terceira medida, por sua vez, é dada pela média dos erros em valores absolutos ou simplesmente erro médio absoluto (MAE), expressa conforme \[\begin{equation} MAE = \frac{\sum_t^T{|\varepsilon_t|}}{T} \end{equation}\]
Essas três medidas fazem parte do grupo de medidas que dependem da escala na qual os dados estão. Logo, elas podem ser utilizadas para efeito de comparação de diferentes modelos aplicados a mesma amostra de dados.
A quarta medida é o erro médio percentual (MPE), isto é, \[\begin{equation} MPE = \frac{\sum_t^T{p_t}}{T} \end{equation}\]
A quinta medida é o erro médio absoluto percentual (MAPE), dado conforme
\[\begin{equation} MAPE = \frac{\sum_t^T{|p_t|}}{T} \end{equation}\]
Por se tratarem de percentuais, essas medidas não são sensíveis à escala dos dados.
A sexta medida fornecida é a ACF1, isto é, o coeficiente de autocorrelação parcial de primeira ordem. Ele nos dá uma ideia de existência de estrutura nos erros de previsão, que, por suposição, deveriam ser um ruído branco. Quanto maior esta medida, maior será o indicio de existência de estrutura.
Por fim, temos o U de Theil dado por
\[\begin{equation} \text{Theil's U} = \sqrt{\frac{\sum_t^T p_t^2}{\sum_t^T(\frac{Y_{t+1}-Y_t}{Y_t})^2}} \end{equation}\]
Essa medida pertence à categoria de medidas relativas. Será dada pela razão entre a raiz quadrada da média do erro percentual quadrático e a raiz quadrada da média da taxa de variação percentual quadrática da série observada.
Em outros termos, o U de Theil nada mais é do que a comparação entre o modelo em questão e um simples passeio aleatório. Quanto menor o índice, portanto, melhor será o modelo, se comparado a um passeio aleatório.
Referências
Hyndman, R. J., e G. Athanasopoulos. 2013. Forecasting: Principles and Practice. OTexts.