Tratamiento de Puntos Atípicos en Series de Tiempo con R Software

Los puntos atípicos (también denominados puntos aberrantes o outliers) siempre son un problema al momento de querer ajustar una serie de tiempo, o querer hacer predicciones para valores futuros. Recordamos al lector que una serie de tiempo se define como un conjunto de valores observados en un horizonte de tiempo y cumplen con ser equidistantes (por lo tanto, pueden ser observaciones tomadas por días, meses, trimestres, años, etc.).

Además, otra observación importante es que la decisión a tomar con respecto a qué se debe hacer con dichos valores es una elección que considera aspectos cuantitativos como cualitativos, ya que si bien se pueden utilizar test para decidir qué hacer con el punto, la decisión final siempre dependerá del modelador: pueden haber aspectos importantes en los datos que un test estadístico no es capaz de evaluar, y si el modelador cree que el punto debe estar por que representa un aspecto de la realidad, entonces se deberán asumir las consecuencias que implica dejar un punto que cuantitativamente puede ser considerado atípico.

En este artículo presentamos una forma de tratar puntos atípicos en una serie de tiempo. Los datos presentados se ordenan mensualmente en un horizonte de 8 años, y se utilizará R software (un programa freeware) para identificar y eliminar dichos puntos.

Siempre lo primero que debemos realizar al tener un conjunto de datos, es graficarlos para ver a priori su comportamiento. Este ejemplo utiliza una librería llamada “tseries”. Para descargarla, se debe seguir la siguiente instrucción: En el menú superior ir a la pestaña Paquetes:

Paquetes ==> Instalar Paquete(s)… ==> Seleccionar servidor ==> tseries

La siguiente porción de código permite cargar los datos, transformarlos en una serie y luego graficarlos.

#R Code
library(tseries) #Cargamos la librería
#Los datos están guardados en la variable data
data <- read.table("EjemploGEO.txt",header=T) 
#La serie de tiempo está guardada en la varaible fit
fit <- ts(data,frequency=12,start=2000)
#Dividimos la pantalla de gráfico en dos
par(mfrow=c(1,2))
#Graficamos la serie de tiempo y una caja con bigotes
plot(fit)
boxplot(fit)

El resultado se puede apreciar en la siguiente imagen:

datos atípicos series de tiempo

Como se puede ver, gráficamente podemos identificar dos puntos aberrantes, cerca del año 2002 y 2006. Además, un análisis mediante la caja con bigotes nos muestra cuatro puntos aberrantes. Este diagrama puede ser un poco más estricto, por lo tanto acá es importante destacar que es decisión del modelador sacar los cuatro, sólo dos (los de mayor impacto que se ven en el gráfico de la izquierda) o ninguno.

Para este ejemplo, consideraremos que vamos a sacar sólo los puntos que generan un mayor impacto en la serie, y son los que se pueden ver en el gráfico de la izquierda.

El análisis gráfico nos ayuda pero nunca es concluyente. Por lo anterior debemos utilizar siempre métodos cuantitativos para identificar los puntos (recordando nuevamente que la decisión sobre qué hacer con ellos depende tanto de factores cuantitativos como cualitativos).

Para poder identificar puntos outliers en la serie de tiempo, ocuparemos la librería “tsoutliers” la cual se puede descargar de la misma forma enseñada anteriormente.

#R Code
library(tsoutliers) #Cargamos la librería
#El comando tso identifica los puntos atípicos de la serie
outliers <- tso(fit) 
#Graficamos la nueva serie
plot(outliers)

El resultado se muestra a continuación:

dato atípico r software

Podemos ver que esta función logra identificar (y pone en rojo) los puntos que considera aberrantes en la serie, y no sólo hace eso, sino que gráfica una serie “ajustada” (en azul), calculando un nuevo valor para dichos puntos en base a la información de los otros puntos pertenecientes a los datos.

¿Qué hacer con los puntos aberrantes?: Podemos sacarlos, modificarlos o dejarlos como están. Si los sacamos perdemos información; pero si los dejamos como están afectarán en la predicción de los valores futuros.

Una primera aproximación en estos casos siempre es calcular un promedio de los valores que están cerca del punto donde se produce el dato atípico, además, los estadísticos han desarrollado métodos más sofisticados para tratar con ellos, y dejamos este estudio al lector.

Como mencionamos anteriormente, esta función genera un valor que se ajusta de acuerdo al comportamiento de los datos (como se puede ver en el gráfico azul), por lo que utilizaremos dichos valores para ajustar una nueva serie, la cual tendrá los puntos aberrantes corregidos (dejamos también al estudio del lector la forma en que esta función modifica los datos, lo cual se puede encontrar en la documentación de la función disponible vía web).

#R Code
#Obtenemos los valores modificados
newserie <- outliers$yadj 
#Dividimos la pantalla de gráficos en 2
par(mfrow=c(1,2))
#Graficamos la serie antigua y la nueva
plot(fit)
plot(newserie) 

serie de tiempo r software

Podemos ver la nueva forma que tiene la serie, al tener valores modificados para los puntos atípicos (cuidado: la serie ha cambiado su forma drásticamente debido a los puntos aberrantes, pero el efecto se incrementa ya que ha cambiado la escala a la que se muestran ambos gráficos, notar que en el de la izquierda llega hasta 2.500 y ahora sólo hasta 1.400).

Como hemos podido ver, este simple método nos ha permitido hacer un tratamiento sobre los puntos atípicos identificados en la serie de datos. Como hemos mencionado reiteradamente, existen varios métodos para poder hacer esto, y la decisión final siempre tendrá una parte subjetiva que depende del modelador, ya que los criterios pueden variar, y puede ser que el origen de los datos justifique (y permita) la existencia de los puntos aberrantes. Para concluir, con la modificación realizada ahora si podemos pensar en predecir los valores futuros de la serie.

Cómo se relaciona el Coeficiente de Correlación de Pearson (r) y el Coeficiente de Determinación r Cuadrado (r²)

El coeficiente de correlación de Pearson o r es una prueba estadística que permite analizar la relación entre dos variables medidas en un nivel por intervalos o de razón, donde r mide el grado de asociación lineal entre dos variables X e Y. La prueba en sí no considera a una como independiente y a otra como dependiente, ya que no se trata de una prueba que evalúa causalidad. El coeficiente r de Pearson se estima de acuerdo a la siguiente fórmula:

r pearson

El coeficiente r de puede variar de -1 a 1, donde el signo indica la dirección de la correlación y el valor numérico, la magnitud de la correlación. En este contexto se resumen algunos criterios de interpretación:

  • -1,00 = Correlación negativa perfecta
  • -0,90 = Correlación negativa muy fuerte
  • -0,75 = Correlación negativa considerable
  • -0,50 = Correlación negativa media
  • -0,10 = Correlación negativa débil
  • 0,00  = No existe correlación lineal alguna entre las variables
  • 0,10  = Correlación positiva débil
  • 0,50  = Correlación positiva media
  •  0,75 = Correlación positiva considerable
  •  0,90  = Correlación positiva muy fuerte
  • 1,00  = Correlación positiva perfecta

A continuación se presentan algunos ejemplos de diagramas de dispersión con diferentes valores del coeficiente de correlación de Pearson (poblacional).

diagramas-correlacion-de-pe

Cuando el coeficiente r de Pearson se eleva al cuadrado, el resultado indica el porcentaje de la variación de una variable debido a la variación de la otra y viceversa. Es decir, el coeficiente de determinación, r al cuadrado o r², es la proporción de la variación en Y explicada por X. Puede adoptar cualquier valor entre 0 y 1, inclusive.

Ejemplo: Una empresa comercial tiene establecimientos en varias ciudades de Chile. El gerente comercial planea lanzar al aire un anuncio comercial por radio en las estaciones locales, al menos dos veces antes de una promoción (liquidación) que empezará el Sábado y terminará el Domingo. Planea tener las cifras de las ventas de grabadoras de vídeos (Blu-Ray) del Sábado y Domingo en sus diferentes locales y compararlas con el número de veces que apareció el comercial en la radio. El objetivo fundamental de la investigación es determinar si existe relación entre el número de veces que se transmitió el anuncio y las ventas de sus productos. Los datos son:

correlacion-anuncios-y-vent

Con la información de la tabla anterior se desea responder las siguientes interrogantes:

1. ¿Cuál es la variable dependiente?. La variable dependiente son las Ventas.

2. Trace el diagrama o gráfico de dispersión.

grafico-de-dispersion
3. ¿Parece haber alguna relación entre X e Y?. Si existe una fuerte correlación positiva.
4. Determine el coeficiente de correlación. Para ello utilizaremos la herramienta de Análisis de Datos la cual se encuentra disponible en el menú de Datos de Excel. Luego seleccionamos Regresión según se observa a continuación:

herramienta-analisis-de-dat

En las opciones de regresión seleccionamos los datos de Ventas de Sábado y Domingo como Rango Y de entrada (variable dependiente) y los datos del N° de Anuncios corresponderá al Rango X de entrada (variable independiente).

analisis-de-datos-excel

Al seleccionar Aceptar se obtienen las estadísticas de la regresión donde el coeficiente de correlación de Pearson o r es de 0,93 (aproximado) y en consecuencia el coeficiente de determinación r² es de r²=(0,929516)²=0,864.

estadisticas-de-la-regresio

Notar que un procedimiento alternativo para obtener el coeficiente de determinación r² es mediante la incorporación de una línea de tendencia lineal en el diagrama de dispersión tal cual abordamos en el artículo Cómo utilizar una Regresión Lineal para realizar un Pronóstico de Demanda.

grafico-lineal-r-cuadrado

5. Evalúe la intensidad de la relación entre X e Y. 0,93 indica una correlación positiva fuerte entre el número de veces que sale publicado el anuncio, y las ventas.

Ejemplo de Gráfica de Control P o de Proporciones en el Control Estadístico de Procesos

La gráfica de control de proporciones o gráfica p corresponde a una herramienta del Control Estadístico de Procesos (CEP) utilizada particularmente en la evaluación del cumplimiento de determinadas características del producto que son fáciles de evaluar (con frecuencia mediante inspección visual) asumiendo sólo 2 valores posibles: «cumple» o «no cumple», «aprobado» o «no aprobado», etc. Utilizar datos de atributos requiere de muestras relativamente grandes para obtener resultados estadísticos válidos. En el siguiente artículo de describe el procedimiento para la confección de una gráfica p utilizando distintos niveles de significancia estadística al momento de definir los límites de control.

Ejemplo Gráfica de Control P

Todos los días se tomaban muestras de las formas llenas, de un departamento en particular, en una compañía de seguros para revisar la calidad del desempeño de ese departamento. Con el fin de establecer una norma tentativa para el departamento, se tomó una muestra de 300 unidades al día (n=300) durante 10 días, obteniendo los siguientes resultados:

tabla-muestras-grafica-p

Desarrolle una gráfica de proporciones o gráfica p utilizando un intervalo de confianza de un 90% para las 10 muestras recolectadas. ¿Qué comentarios puede hacer sobre el proceso?. ¿Qué sucede ahora si los límites de control se definen a un σ del promedio de defectos?.

En primer lugar calculamos el promedio de unidades defectuosas para cada una de las muestras (celdas color celeste). Por ejemplo la muestra 1 presenta 10 defectos (de un total de 300 unidades inspeccionadas), en consecuencia el porcentaje de defectos de dicha muestra corresponde aproximadamente a un 3,33% (10/300). Luego se obtiene el promedio de unidades defectuosas del total de las muestras (celda amarilla) correspondiente a un 3,03% (se obtiene de [3,33%+2,67%+3,00%+…+2,67%]/10).

calculo-promedio-defectuoso

A continuación se procede con la estimación de la desviación estándar (Sp):

calculo-sp-grafica-p

De la tabla de la distribución normal estándar un intervalo de confianza de un 90% equivale a definir los límites de control a 1,645*Sp. Con esto podemos calcular el Límite de Control superior (LCS) y Límite de Control Inferior (LCI) respectivamente (notar que los resultados han sido aproximados).

  • LCS = 3,03% + 1,645*0,9896% = 4,66%
  • LCI = 3,03% – 1,645*0,9896% = 1,40%

A continuación y con la ayuda de Excel se procede a graficar los límites de control (líneas verdes y violeta), el promedio de unidades defectuosas de cada una de las muestras (línea azul) y el promedio de defectos total (línea roja). El proceso se encuentra bajo control estadístico. Los promedios de defectuosos se encuentran dentro de los límites de control estadístico.

grafica-proporciones-p

Si en cambio los límites de control se definen a un σ del promedio de defectos será necesario recalcular los límites de control estadístico obteniendo los siguientes resultados (aproximados):

  • LCS = 3,03% + 0,9896% = 4,02%
  • LCI = 3,03% – 0,9896% = 2,04%

grafica-p-un-sigma

Al estrechar los límites de control el proceso ya no se encuentra bajo control estadístico. La muestra n° 4 presenta un porcentaje de defectuosos mayor al LCS.

Ejemplo de Gráfica de Promedios y Gráfica de Rangos en el Control Estadístico de Procesos

El Control Estadístico de Procesos (CEP) es una metodología que da la confianza estadística de que un componente está dentro de una tolerancia sin tener la necesidad de medir cada componente. Como su nombre lo sugiere es un control del proceso (no del producto) y es un indicador más que una solución. En este contexto la importancia del Control Estadístico de Procesos radica en los siguientes aspectos:

  1. Se utiliza como apoyo al proceso de Control de Gestión.
  2. Consiste en la aplicación de métodos estadísticos a la medición y análisis de la variación en cualquier proceso.
  3. Permite diagnosticar el estado del proceso: Se dice que el proceso está bajo control estadístico (estable) si no presenta señales de que existe alguna causa asignable de variación y en consecuencia representa un proceso predecible. Una causa asignable es detectable y posible de eliminar con una justificación económica.

Las principales herramientas del Control Estadístico de Procesos lo constituyen las cartas de control (de promedios y rangos), las cuales se aplican en el monitoreo de las características de calidad de un producto y detecta cuando el proceso esta fuera de control. A continuación presentaremos un ejemplo que permite la evaluación de si un proceso se encuentra bajo control estadístico mediante la elaboración e interpretación de las gráficas de control de promedios y rangos.

Gráfica de Promedios y Gráfica de Rangos

Una máquina automatizada a alta velocidad fabrica resistores para circuitos electrónicos. La máquina está programada para producir un lote muy numeroso de resistores de 1000 OHMS cada uno, siendo éste el valor ideal para cada resistor y admitiéndose una variación sobre dicho valor de ± 25 OHMS.

Con el fin de ajustar la máquina y crear una gráfica de control para utilizarla a lo largo de todo el proceso, se tomaron 15 muestras con cuatro resistores cada una. La lista completa de muestras y sus valores medidos es la siguiente:

tabla-datos-control-estadis

¿Se encuentran el proceso bajo control estadístico?. Grafique los datos en una gráfica de control de promedio (X) y de rango (R) con los limites de control. Para el cálculo del promedio muestral considere los resultados aproximados a un decimal. Comente e interprete los resultados.

En primer lugar necesitamos calcular los límites de control estadístico para las gráficas de promedio y rango. Para ello se deben considerar las siguientes fórmulas y parámetros:

formulas-limites-de-control
tabla-parametros-control-es

Con esta información procedemos a calcular el promedio y rango de cada una de las 15 muestras. Por ejemplo el promedio de la muestra 1 se obtiene de X1=(1010+991+985+986)/4=993 y el rango R1=1010-985=25 (la diferencia en magnitud de la mayor y menor observación de la muestra). Se replica el procedimiento para el resto de las muestras lo cual se facilita haciendo uso de una planilla Excel según se observa a continuación:

calculo-promedio-y-rango

Finalmente se obtienen los límites de control estadístico los cuales se resumen en la siguiente tabla:

calculo-limites-de-control-

A continuación se grafican los resultados de cada una de las muestras (celdas color amarillo de la planilla anterior) en contrastes con los límites de control.

grafica-promedios-control-e
grafica-rangos-control-esta

  • El proceso se encuentra bajo control estadístico. Tanto en la gráfica de promedios y rangos los resultados de las muestras están dentro de los límites de control. Recomendamos a nuestros usuarios revisar el artículo Gráfico de Promedios y Gráfico de Rangos en el Control Estadístico de Procesos con Minitab 17.

  • En la gráfica de promedios se observa una dispersión aleatoria respecto a la media del proceso aun cuando llama la atención de la media de las muestras 4 y 5.

  • En la gráfica de rangos se observa un leve tendencia creciente a contar de la muestra 9. Si bien las observaciones se mantienen dentro de los límites de control, esta situación se debe tener bajo alerta dado que muestra un aumento en la variabilidad.

Cómo ajustar una Función de Probabilidad Teórica a una serie de datos Empíricos

En el análisis del comportamiento de una línea de espera se suele considerar  la premisa de que el tiempo entre llegada de los clientes se distribuye exponencial con parámetro lambda (λ). Si bien esta presunción es válida en muchas situaciones es conveniente realizar un diagnóstico de dicha situación a través de test estadísticos ad hoc. En este contexto el siguiente artículo aborda el problema de ajuste de una función de probabilidad teórica a una serie de datos empíricos que como se menciono anteriormente es un asunto de interés en el análisis de los sistemas de espera como así también en un sin número de aplicaciones estadísticas clásicas.

La data que utilizaremos en este tutorial fue obtenida del Libro Matching Supply with Demand: An Introduction to Operations Management. Esta corresponde a las 686 llamadas que ha recibido un Call Center en un período de 4 horas según se muestra a continuación:

tabla-data-call-center

La pregunta que queremos responder es: ¿El tiempo entre llamada de los clientes se distribuye exponencial?. Análogamente ¿Qué función de probabilidad teórica ajusta de mejor forma los datos empíricos?. Para enfrentar dichas interrogantes utilizaremos el software Easyfit que hemos abordado en artículos anteriores para la confección de histogramas y análisis de estadísticas descriptivas.

Preliminarmente ordenaremos los datos recolectados en una columna y procedemos a calcular el tiempo transcurrido entre cada llamada (Iai), por ejemplo, entre la primera y segunda llamada pasan 23 segundos, entre la segunda y tercera llamada pasan 1 minuto y 24 segundos (equivalente a 84 segundos) y así sucesivamente. A continuación se muestra un extracto de dicho procedimiento:

calculo-del-tiempo-entre-ll

Con los tiempos entre llamadas en segundos (o su equivalencia en minutos si así se desea) se hace uso de Easyfit. Copiamos dichos tiempos en la columna A tal se muestra en la siguiente imagen y luego la opción «Ajustar distribuciones»:

ajustar-distribuciones-easy

Luego seleccionamos «OK»:

datos-de-entrada-easyfit

El programa se ejecuta y proporciona los resultados de los ajustes de los datos empíricos a un importante número de distribuciones teóricas, proporcionando una estimación de los parámetros respectivos.

ajuste-easyfit-datos-empiri

La distribución Wakeby es la que muestra el mejor ajuste, considerando los siguientes parámetros:

parametros-wakeby

Adicionalmente podemos obtener los test de bondad de ajuste (en la pestaña «Bondad de ajuste»). Probablemente el más conocido de ellos es el test Chi-cuadrado (notar que las distribuciones han sido ordenadas en base a este criterio). También se puede obtener el detalle de las pruebas de hipótesis para distintos niveles de significancia estadística (valores de alfa).

bondad-de-ajuste-easyfit
valores-p-easyfit

Una interpretación exhaustiva de los test de bondad de ajuste requiere de una discusión más detallada que escapa a los propósitos de este artículo. No obstante queda de manifiesto que existen herramientas computacionales que permite simplificar este tipo de análisis que es recurrente en el ámbito de la estadística y por cierto en el de la gestión de operaciones.