Cálculo Electoral presenta un agregador de encuestas y un modelo de pronóstico electoral para las elecciones presidenciales de Argentina. Algunos de los métodos que empleamos son tomados del trabajo que Nate Silver realiza en 538, y Kiko Llaneras en El País. Aquí describimos paso a paso de donde vienen los números que publicamos.


1. Agregador de Encuestas

La intención de voto de cada candidato (a la fecha de la última encuesta disponible) se lo obtiene siguiendo los siguientes cuatro pasos: recopilación de información, cálculo de ponderaciones para cada encuesta, homologación de resultados y estimación del promedio de intención de voto.

1.1. Recopilación de Información

Prestaremos particular atención a aquellas encuestas con alcance nacional y que hayan referido información completa de datos en todas las categorías de respuesta, incluyendo voto blanco y nulo. En caso de que surgieran otras fuentes de información publicadas en medios de comunicación o portales institucionales de encuestadoras, dichas fuentes serán incorporadas al modelo siempre y cuando provengan de empresas registradas en la Cámara Nacional Electoral (CNE), o si son entidades de investigación con trayectoria comprobable y con participaron previa en trabajos en las PASO.

De esta manera, utilizamos 14 encuestas finales de las siguientes instituciones/encuestadoras: CB Consultora, CIGP, Gustavo Córdoba & Asociados, Oh! Panel, Celag, Circuitos, Federico González & Asociados, Opina Argentina, Opinaia, Ricardo Rouvier & Asociados, Trespuntozero, Universidad de San Andrés.

1.2. Cálculo de Ponderaciones

Para poder calcular un promedio ponderado, debemos primero asignar pesos a cada encuesta. Utilizamos una escala de 100 puntos para calificar a cada encuesta en base a los siguientes cuatro criterios:

  • - Capacidad para predecir las elecciones primarias (PASO) del 11 de agosto de 2019*
  • - Actualidad de la encuesta (número de días antes de las elecciones)

El primer criterio otorga una calificación calculada en base a las diferencias entre el último sondeo de cada encuestadora y el resultado final para cada candidato en las Elecciones PASO de agosto de 2019. Este variable puede ser interpretada como un nivel de acierto o capacidad de predicción, cuyo insumo base puede ser consultado en el análisis “Encarando la Primera Vuelta de las Presidenciales: ¿Cómo les fue a las encuestas en las PASO?”, siendo normalizado a 100 la empresa con mejor calificación que cuente con el menor error relativo.

El último criterio es utilizado para tomar en cuenta la proximidad temporal de cada encuesta al día de la elección. Al primer criterio le multiplicamos por una función exponencial que hace las veces de filtro temporal. La constante de tiempo de este filtro se la determina a partir de la evolución temporal del nivel de decisión que reportan algunas encuestadoras. Al parametrizar las curvas del nivel de decisión para estas elecciones, encontramos que la constante de tiempo es de 4 días. Esto quiere decir que una encuesta publicada el día de hoy tendría 2.7 veces más influencia que una publicada hace 4 días.

1.3. Ajustes para Homologar Encuestas

Los números que difunden las encuestadoras corresponden a las preferencias de los encuestados quienes escogen entre los N = 6 candidatos, blanco o indeciso.

Para poder elaborar nuestros modelos y pronósticos, distribuimos el voto indeciso entre 4 grupos: los tres candidatos con más opciones quienes reciben equitativamente 3/4 del total de indecisos (1/4 cada uno), y el resto de candidatos (junto con el voto en blanco) que reciben el sobrante 1/4 (esto es, 1/(4*(N-2)) cada opción). Una vez que los indecisos han sido considerados, la suma de intenciones de voto de los N candidatos en disputa más el voto en blanco es de 100%. El paso final para homologar estos números consiste en normalizarlos a votos afirmativos (es decir, excluyendo del universo a los blancos).

1.4. Promedios Ponderados

El estimado de la intención de voto es el resultado de un promedio con pesos de las encuestas seleccionadas. El promedio se lo realiza individualmente para cada candidato. El momento que conozcamos de algún nuevo sondeo, lo someteremos al procedimiento descrito en los pasos anteriores para poder actualizar el estimado de la intención de voto.


2. Pronósticos

Reportamos pronósticos con base en un análisis de cómo evolucionan las tendencias de cada candidato, y además, estudiamos las principales fuentes de incertidumbre para poder simular la elección miles de veces. Los resultados de estas simulaciones son catalogados de acuerdo a sus diferentes desenlaces, y al contar resultados de similar desenlace (por ejemplo, cuántas veces el candidato ganador supera el 50%), podemos estimar cuál es la probabilidad de que dichos desenlaces ocurran al final de la contienda electoral.

2.1. Cálculo y Ajuste de Tendencias

El modelo hace comparaciones entre diferentes ediciones de la misma encuestadora. Por ejemplo, si Rouvier registra que uno de los candidatos tiene un 33% de intención de voto en el mes de agosto y obtiene un 36% en una versión de la encuesta con similar metodología durante el mes de septiembre, esto sugiere que dicho candidato ganó 3 puntos porcentuales. Si hay suficientes datos, realizamos estas comparaciones para cada candidato y encuestadora por separado. Luego, tomamos estas comparaciones y trazamos una línea de tendencia haciendo uso de una regresión local. Estas tendencias por encuestadora nos ayudan a decidir cómo calcular tendencias globales conforme aparecen nuevos puntos para ser agregados. Cuando esta información no está disponible, hacemos una regresión local directamente sobre los puntos que aparecen en el agregador de encuestas (independientemente de la encuestadora). Procuramos utilizar funciones con pocos parámetros y de bajo orden, para evitar efectos no lineales en extrapolaciones. Nos aseguramos de que el sumatorio de cada punto (en el tiempo) de las líneas de tendencia sume 100%, y que sea posible para cada candidato ganar o perder votos.

Esta metodología fue puesta a prueba durante las elecciones presidenciales Ecuador 2017: tanto en la primera vuelta, como en el balotaje. Estos resultados demostraron que el tratamiento que dimos a los datos para homologarlos fue adecuado. Los pronósticos de Cálculo Electoral fueron los que más se acercaron a los resultados de dichas elecciones. También participamos con éxito en las recientes elecciones presidenciales Chile 2017 y Colombia 2018.

2.2. Estimación de la Incertidumbre

El promedio proyectado de intención de voto para cada candidato se lo obtiene a partir de variables que tienen sus propios errores probabilísticos y/o sistemáticos. Estas variables son: la intención de voto por candidato difundida por encuestadoras, y la fracción de indecisos o indeterminados asignada a cada candidato. Para poder estimar la incertidumbre total, utilizamos el modelo simplificado de propagación de errores para funciones no-lineales (en donde se asume variables independientes). Las incertidumbres en las intenciones de voto son proporcionales a la discrepancia que existe entre los datos publicados por las diferentes encuestadoras. La incertidumbre en la segunda variable es proporcional a la fracción asignada a cada candidato.

2.3. Generación de Trayectorias

Una vez que tenemos la proyección de la intención de voto (al día de las elecciones) y un estimado de la incertidumbre para cada candidato, podemos simular la elección miles de veces. Al resultado de cada una de estas simulaciones la llamamos trayectoria. Cada una de estas trayectorias es generada a partir de una distribución de probabilidad beta, cuyos parámetros alfa y beta son calculados en base al promedio proyectado y a la incertidumbre asignada a cada candidato.**

2.4. Cálculo de Probabilidades

En cada trayectoria nos haremos las siguientes preguntas: ¿hay segunda vuelta?, y ¿cuáles son los dos candidatos que aparecen en los primeros lugares?. Contando el número de trayectorias de similares respuestas y dividiendo para el total de trayectorias generadas (N = 50000), podemos estimar probabilidades.


Errores y Omisiones

Intentamos evitar manipular el modelo una vez que se publica, pero siempre estamos atentos a errores. Si hay cambios significativos en el modelo, los divulgaremos aquí.



* En otros comicios hemos incluido para el cálculo de ponderación variables tales como: técnica utilizada para entrevistar, ámbito (cobertura) en el universo de la muestra, trayectoria, etc. No descartamos en posteriores experimentos internos utilizar dichas variables para la asignación ponderada con dichas variables como en comicios anteriores, pero para efectos de la coyuntura nos es muy útil contar con un antecedente directo de filtro como lo es el nivel de acierto de las últimas lecturas de encuestadoras en las elecciones primarias.

** Consideraremos en un futuro utilizar distribuciones t, ya que teóricamente son más apropiadas cuando las muestras son pequeñas. Además, estas tienen colas más largas que una distribución normal, o una beta (particularmente las distribuciones t con pocos grados de libertad). En este momento es difícil decidir el número de grados de libertad que se debe emplear, ya que no tenemos suficientes datos para saber como se comporta la cola de la distribución. Por ejemplo, ¿cuál es la probabilidad de que un candidato que va perdiendo por 20 puntos en las encuestas termine ganando la elección? La respuesta podría cambiar por varios ordenes de magnitud (1, 0.1 ó 0.01% chances de ganar) dependiendo de cuantos grados de libertad se utilicen en la distribución t. Una distribución t bien parametrizada ayudaría a modelar de mejor manera estos casos extremos.