Diagnóstico a partir de los datos

Acerca de este capítulo

En esta sección se desarrolla todo el análisis que permite entender las dinámicas y las consecuencias que cada decisión o nueva implementación que se hace en las herramientas de participación digital puestas en marcha. También es de especial relevancia el análisis comparativo de datos entre comportamientos dentro de Madrid Decide y en las redes sociales buscando e identificando comunidades activas.

Análisis interno

Tarea de investigación: Estructura de la Comunidad

Para analizar la estructura de la comunidad de Decide Madrid, nos centramos en dos tipos de redes: red de usuarios y red de tags.

Red de usuarios

El dataset de BetaDemic dispone de todos los comentarios a debates/propuestas incluyendo el autor del comentario y el autor del post/debate/comentario que está siendo respondido. De este conjunto de comentarios, construimos una grafo ponderando y dirigido que comprende un conjunto de 8,916 nodos (usuarios) y un conjunto de 29,638 aristas (respuestas entre los usuarios).

La red se subió a Gephi para calcular los nodos más relevantes según PageRank (Page, Brin, Motwani, y Winograd, 1999) y para establecer el tamaño del cada nodo según esta métrica. Los colores fueron asignados según las comunidades detectadas a través del método Louvain (Blondel, Guillaume, Lambiotte, y Lefebvre, 2008), un algoritmo de detección de comunidad basado en la optimización de la modularidad de la red. El método Louvain detectó 165 comunidades y alcanzó un óptimo de modularidad en 0,48. Dado que muchas comunidades están formadas por unos pocos nodos aislados, nos enfocamos sólo en las 8 comunidades principales (5,439 nodos). Finalmente se aplicó el algoritmo de layout Force Atlas 2 (Jacomy, Heymann, Venturini, y Bastian) para reforzar la representación de los diferentes clusters.

Tras este proceso, exportamos la red en una visualización interactiva (ver Figura 16). La primera observación de la red revela que Force Atlas 2 no fue capaz de particionar la red en comunidades separadas de manera clara. Aunque la cyberbalkanización es un patrón común de las redes sociales, la visualización de la red de Decide Madrid no muestra una fuerte preferencia de los usuarios para interactaar con los miembros de su misma comunidad.

La única comunidad situada lejos del componente principal de la red según Atlas 2 es la formada en torno a Zatch. Zatch es el autor de "Monumento a Roto2 en La Puerta del Sol". El debate se corresponde a una acción de trolleo ya que Roto2 es la mascota de Forocoches. Este debate obtuvo más de 350 comentarios de miembros activos de Forocoches que, sin embargo, no comentan en otros debates. Así, con esta metodología hemos detectado una comunidad periférica en la estructura de Decide Madrid.

Red de usuarios Red de usuarios.

Red de tags

Las propuestas y debates del dataset también incluyen los tags establecidos por los autores. De esta colección, hemos construido un grafo ponderado no dirigido que comprende un conjunto de 1,709 nodos (tags) y un conjunto de 2,954 aristas (concurrencias de tags en un debate/propuesta). De nuevo, se ha subido la red a Gephi para calcular PageRank y aplicar el método Louvain que detectó 222 comunidades con un valor óptimo de modularidad de 0.314.

Debido a que la red de tags es mucho más densa que la red de usuarios, sólo mantuvimos los nodos más profundos de la red: aquellos cuyo k-índice (Seidman, 1983) es mayor que o igual a 25 (36 nodos). La figura 17 muestra la visualización de la red de tags tras aplicar Force Atlas 2. La exploración de la red demuestra que la mayoría de los tags están conectados; es decir, hay al menos un debate/propuesta que incluye cualquier par de tags. Sin embargo, según Louvain, los tags se dividen en 3 comunidades:

  1. Nodos verdes: movilidad, medio Ambiente, sostenibilidad, centro, salud, deportes, seguridad y emergencias, latina,
  2. Nodos rojos: cultura, derechos sociales, economía, participación, empleo, igualdad, medios, transparencia, asociaciones,
  3. Nodos azules: arganzuela, retiro, carabanchel, puente de vallecas, salamanca, villa de vallecas, usera, chamberí, fuencarral-el pardo, san blas-canillejas, ciudad lineal, moncloa-aravaca, tetuán, villaverde, barajas, chamartín, hortaleza, vicálvaro, moratalaz.

Teniendo que cuenta que:

1.1. los nodos verdes son principalmente tags relacionados con movilidad, medio ambiente y salud,

2.1. los nodos rojos son principalmente tags relacionados con derechos civiles y servicios sociales,

3.1. los nodos azules son barrios de Madrid,

Observamos que la partición de nodos de la visualización de la red revela 3 principales áreas temáticas en Decide Madrid.

Red de Tags Red de tags.

Tarea de investigación: Ciclo de vida de las propuestas.

La siguiente tarea de investigación fue diseñada para entender mejor la dinámica de propuestas en Decide Madrid. En primer lugar, se examinó la distribución de las propuestas según el número de apoyos recibidos. Para ello, se utilizó un gráfico lineal tomando el número de apoyos para el eje X y el número de propuestas para el eje Y. Para aumentar la legibilidad del grafo (1) se estableció una granularidad de 100 para el eje X, (2) se aplicó una escala de raíz cuadrada para el eje Y y (3) se suavizaron las líneas que conectan los puntos.

La gráfica resultante se muestra en la Figura 18 donde se observa una long tail en la que la mayoría de las propuestas reciben entre 0 y 100 apoyos (5,094), algunas propuestas reciben entre 100 y 1000 apoyos (954) y unas pocas propuestas superan los 1000 apoyos (53). A continuación, se examinó en detalle el primer subconjunto de propuestas (entre 0 y 100 apoyos) mediante una mayor granularidad (ver Figura 19). La visualización revela un interesante patrón de crecimiento de 0 a 9 apoyos y un patrón de decrecimiento a partir de 9 apoyos. Es decir, las propuestas son propensas a obtener un número mínimo de apoyos en torno a 9.

A continuación, se realizó un análisis longitudinal de los 3 subgrupos de propuestas. La figura 20 muestra para cada fecha el porcentaje de propuestas con 0-100 apoyos (verdes), 100-1000 apoyos (amarillo) y más de 1.000 apoyos (rojo). Observamos que la mayoría de las propuestas que recibieron más de 1.000 apoyos se produjeron en los primeros días. De hecho, sólo unas pocas propuestas publicadas a finales de octubre y principios de noviembre alcanzaron los 1000 apoyos. En concreto, corresponde a un conjunto de 5 propuestas en las que 4 eran iniciativas para forzar al Ayuntamiento para mantener los belenes de Navidad (ver Tabla 3). Curiosamente, la propuesta más apoyada no fue la primera en ser publicada sino la que recibió atención mediática por la implicación de Tamara Falcó.

Title Date Supports
Respetar la tradición de los belenes 30/10/2015 2484
Belén en Navidad 04/11/2015 2030
que se instale este año tambien el belen tradicional en el ayuntamiento 27/10/2015 1282
Montar el Belén de Navidad en Madrid 03/11/2015 1005

Tabla 3: Propuestas sobre Belenes de finales de octubre y incluir en las experiencias, aplicaciones prácticas y no sólo europeas (Islandia - Constitución; reforma constitucional de Irlanda; Dos Hermanas (Sevilla) principios de noviembre.

Distribución propuestas por apoyo

Distribución de propuestas por apoyos

Distribución de propuestas por apoyos (entre 0 y 100 apoyos)

Distribución de propuestas por apoyos (entre 0 y 100 apoyos)

Porcentaje de propuestas por fechas y número de apoyos

Porcentaje de propuestas por fechas y número de apoyos

Tiempo de vida de las propuestas

El tiempo de vida de las propuestas se ha calculado como los días transcurridos desde su creación hasta su último comentario, eliminando aquellas propuestas que han recibido comentarios en los últimos 30 días por considerarse que todavía están vivas. El 80% de las propuestas sólo tiene actividad su primer día. El resto tiene una vida que decae exponencialmente con el transcurso de los días, es decir que porcentualmente son muy pocas las propuestas que aguantan el paso del tiempo.

Tiempo de vida de las propuestas. Número de propuestas que sólo reciben comentarios durante los primeros días (izda) y en total en escala logarítmica (dcha)

Tiempo de vida de las propuestas. Número de propuestas que sólo reciben comentarios durante los primeros días (izda) y en total en escala logarítmica (dcha)

Evolución del número de comentarios en las propuestas

El número de comentarios recibidos en cada propuesta también decae exponencialmente con el tiempo, es decir que la novedad de una propuesta es un factor decisivo para que se comente. En la gráfica logarítmica se observa que el día 2 tiene más comentarios que la tendencia exponencial, seguramente debido a una excesiva visibilidad de la propuesta en la portada de la web durante los primeros días. Por otro lado, el valor del día 1 está truncado porque los datos no incluyen la hora de inicio (sólo se incluyen los comentarios desde que se escribe la propuesta hasta las 24h, no un día entero). Para poder valorarse, se necesitaría una API con acceso a la hora de propuestas y comentarios.

Alrededor del día 7 (y en menor medida el día 13), hay una ligera mayor actividad que puede ser debida a la reactivación de la propuesta por parte del promotor. Aparte de eso, el decaimiento de comentarios parece tender a estabilizarse a partir de la tercera semana, es decir finalizando el periodo de interés inicial en la propuesta, pero no puede asegurarse debido al poco tiempo transcurrido desde la inauguración de la web.

Evolución del número de comentarios por día en las propuestas. Primeros días (izda) y en total en escala logarítimica (dcha) Evolución del número de comentarios por día en las propuestas. Primeros días (izda) y en total en escala logarítimica (dcha).

Tarea de investigación: Ciclo de vida de los usuarios

La tarea anterior examinó el ciclo de vida de las propuestas en Decide Madrid. Esta tarea se orienta a estudiar el ciclo de vida de los usuarios. En primer lugar, hemos obtenido para cada usuario:

1. fecha y hora de su primera publicación,

2. tipo de publicación (debate, comentario en debate, propuesta, comentario en propuesta),

3. el hilo al que pertenece la publicación.

Con estos datos se generó un gráfico circular para comparar el tipo de primeros contenidos. Los resultados se presentan en la Figura 22 (izquierda) y revelan que la acción inicial más común son las propuestas (4,117 usuarios; 38,82%), seguida de comentarios en los debates (2,478 usuarios; 23,43%), comentarios en propuestas (2,431 usuarios; 22,98%), y finalmente posts en debates (1,552 usuarios; 14,67%). Para los comentarios en debates/propuestas, se generó un nuevo gráfico de tarta con un anillo secundario que presenta la distribución de los hilos a los que pertenecen los comentarios. La Figura 22 (derecha) muestra esta distribución en la que figuran como propuestas principales:

* “Respetar la tradición de los belenes” (79 usuarios; 3.25%).

* “Salvar la cooperativa metropolitan” (71 usuarios; 2.92%).

* “Madrid -- 100% sostenible” (57 usuarios; 2.34%).

* “Eliminar los festejos taurinos y las subvenciones” (56 usuarios; 2.3%).

La primera de ellas era lógica ya que, como hemos comentado, se trata de la propuesta que recibió atención de los medios de comunicación. La segunda propuesta tiene como objetivo evitar el desahucio de familias de la cooperativa Metropolitan. Esto podría explicarse por la aparición e implicación de nuevos usuarios vinculados a ciudadanos de las familias afectadas. Las otras dos propuestas son dos de las tres propuestas destacadas en la página principal de Decide Madrid (ver Figura 21). Las propuestas destacadas se seleccionan por el número de apoyos, por tanto, la visibilidad constante de estas propuestas afecta de manera clara a su capacidad de atraer nuevos usuarios. Para los debates, las discusiones que atrajeron a más usuarios nuevos son:

- “Monumento a roto2 en la puerta del sol” (197 usuarios; 7.95%)

- “Multar por los excrementos de los perros” (90 usuarios; 3.63%)

- “#Túpreguntas: manuela carmena, alcaldesa de madrid” (88 usuarios; 3.55%)

- “Cambiar de medio de transporte público sin pagar otro billete” (74 usuarios; 2.99%)

El primer debate es el trolleo de Forocoches. El segundo y cuarto debates fueron publicadas en el primer día de la plataforma, el día en que se publicaron más comentarios. El tercer debate es la iniciada por Manuela Carmena.

Para examinar la distribución de las primeras publicaciones en el tiempo se construyó un gráfico de área con la componente temporal en el eje X y el número de contenidos para el Eje Y. El área de la tabla también se divide de acuerdo con el tipo de contenido (ver Figura 23). Observamos picos similares a los de la distribución global de contenidos. De nuevo, una vez que se lanzaron las propuestas, los debates cayeron en desuso. Las únicas fechas en las que surgen nuevos usuarios en debates son las correspondientes a los debates con Manuela Carmena y concejales. También encontramos de interés que el día en que las propuestas estaban disponibles en la plataforma, las primeras publicaciones fueron más propensas a ser comentarios en propuestas que nuevas propuestas. Por el contrario, cuando la difusión de una campaña se puso en marcha, los nuevos usuarios comenzaron por generar una propuesta en vez de comentar las ya existentes.

Propuestas destacadas en Decide Madrid Propuestas destacadas en Decide Madrid

Distribución del tipo de los primeros contenidos de los usuarios (izquierda) y distribución de los primeros contenidos según hilo en caso de que sean comentarios (derecha) Distribución del tipo de los primeros contenidos de los usuarios (izquierda) y distribución de los primeros contenidos según hilo en caso de que sean comentarios (derecha)

Distribución del tipo de los primeros contenidos de los usuarios a través del tiempo Distribución del tipo de los primeros contenidos de los usuarios a través del tiempo.

Tiempo de vida de los usuarios

A falta de más datos, el tiempo de vida de los usuarios se ha calculado como el intervalo entre su primera y última actividad registrada (propuestas, debates o comentarios realizados). En el análisis sólo se ha incluido usuarios sin actividad en los últimos treinta días (un 96%). Destaca el elevado número de usuarios que sólo tienen actividad un día (un 75%). Aparte de ellos, la vida de los usuarios decae exponencialmente en el tiempo, es decir que la mayor parte de usuarios sólo tiene actividad durante unos pocos días.

Tiempo de vida de los usuarios. Número de usuarios que sólo tienen actividad durante sus primeros días (izda) y en total en escala logarítmica (dcha).

Tiempo de vida de los usuarios. Número de usuarios que sólo tienen actividad durante sus primeros días (izda) y en total en escala logarítmica (dcha).

Actividad de los usuarios

La actividad de los usuarios también sigue una tendencia exponencial, de forma que son muchos usuarios los que generan poco contenido, y pocos usuarios los generan mucho contenido. Concretamente, en las gráficas se observa como la gran mayoría de usuarios no han hecho ninguna o sólo una propuesta (55% y 38% respectivamente, es decir el 93%). Respecto al número de comentarios, la exponencial no es tan acusada y los usuarios son más propensos a participar, aún cuando el 75% únicamente ha realizado 2 o menos comentarios.

En relación a los hábitos de los usuarios, no se disponen datos sobre la hora a la que se realizan las actividades. En cuanto al día de la semana, la mayor actividad se produce durante los viernes y fines de semana.

Actividad de los usuarios. Número de usuarios según su número de propuestas (izda) o de comentarios (centro), y actividad según día de la semana (dcha) Actividad de los usuarios. Número de usuarios según su número de propuestas (izda) o de comentarios (centro), y actividad según día de la semana (dcha).

Evolución de la actividad de los usuarios.

La actividad de los usuarios también decae exponencialmente conforme al tiempo transcurrido desde su primera actividad. En general, decae principalmente durante la primera semana, teniendo el primer día más comentarios que respecto a la tendencia exponencial debido a que muchos usuarios (75%) sólo tienen actividad un único día. En la gráfica logarítmica se aprecian repuntes hacia los días 7 y 14 debido a una estacionalidad que refleja los hábitos semanales de conexión a la web.

Evolución de los comentarios realizados

Tarea de investigación: Modelado de debates.

La última tarea de este estudio se centró en la caracterización de la estructura de la discusión de los debates. Según el Área de Participación Ciudadana y Transparencia, uno de los principales objetivos de Decide Madrid es promover discusiones que conduzcan a la deliberación política.

En nuestro estudio hemos seguido un marco del estado-del-arte que permite el análisis y comparación de diferentes tecnologías de Internet para la promoción dbue la deliberación política (González-Bailón, Kaltenbrunner, y Banchs, 2010). En este marco los debates se clasifican según dos características: (1) el grado de representación y (2) la intensidad de la argumentación. La representatividad de un debate se relaciona con el nivel de participación y se cuantifica a través del número de comentarios. Por otro lado, la argumentación expresa cómo alcanzar conclusiones a través del razonamiento lógico y se cuantifica a través del número de niveles de la discusión (la profundidad). La figura 24 muestra un mapa sencillo de posibilidades democráticas en estas dos dimensiones:

Cuadrante I: deliberación colectiva.

Cuadrante II: deliberación de un selecto grupo de expertos o de élite.

Cuadrante III: democracia de masas-encuesta promovida por medios de comunicación.

Cuadrante IV: democracia plebiscitaria.

Modelos deliberativos La deliberación en debates según la anchura y la profundidad del árbol

Tomando los valores de cada hilo en el dataset, hemos replicado el mapa de cuadrantes democráticos mediante el trazado de un gráfico de puntos tomando el número de comentarios para el eje X y la profundidad para el eje Y. La figura 26 muestra el gráfico correspondiente y revela que, aunque la mayoría de las discusiones caen en el cuadrante III, algunos hilos presentan niveles notables de representación y/o argumentación.

Con el fin de calcular qué nodos están más cerca de pertenecer al cuadrante I (deliberación colectiva), se calculó el k-index de la discusión tomando como base la definición encontrada en (Kaltenbrunner y Laniado, 2012). El k-index es una medida que equilibra la anchura y la profundidad de un hilo y corresponde al número máximo k de tal manera que hay por lo menos n comentarios de profundidad n (siendo n<=k). La Figura 25 proporciona un ejemplo para el cálculo del h-index.

Cálculo del h-index de una (h-index = 3)

Cálculo del h-index de una (h-index = 3) (Fuente (Kaltenbrunner y Laniado, 2012))

La Tabla 4 presenta los principales hilos por el número de comentarios, profundidad y h-index. Observamos que los hilos con mayor representación (número de comentarios) son los hilos populares que hemos observado en las tareas anteriores (por ejemplo, el trolleo de Forocoches y el debate con Manuela Carmena). Por el contrario, encontramos otros hilos de acuerdo con el nivel de la argumentación (profundidad). Resulta interesante que los dos hilos más profundos (profundidad=20) adquieren diferentes niveles de índice h (h=10; h=3). Aunque ambos mostraron el mismo grado de argumentación según su profundidad, "Cuidado con Los que se van a beneficiar de la remunicipalizacion" es un mejor ejemplo de la deliberación de "Que se retiren las Marcas de debates inadecuados un debate con sentido común", debido a su representatividad (es decir, número de comentarios).

Title #comments depth h index
monumento a roto2 en la puerta del sol 383 6 5
multar por los excrementos de los perros 383 9 6
#túpreguntas: Manuela Carmena, alcaldesa de Madrid 323 9 5
cuidado con los que se van a beneficiar de la remunicipalización 156 20 10
que se retiren las marcas de debates inadecuados a debates con sentido común 35 20 3
implementar software libre en todo el ayuntamiento y organismos dependientes 40 13 4
carriles bici y calles bici 35 12 6
multar por los excrementos de los perros 142 9 6

Tabla X: Top hilos según número de comentarios, profundidad y h-index

La Figura 24 (derecha) ilustra la estructura típica de hilos de discusión para los cuatro cuadrantes existentes. Con el fin de explorar visualmente y entender las estructuras de los debates anteriores hemos implementado un software de visualización de hilos de discusión en el que (1) el tamaño de cada nodo corresponde al número de votos de ese comentario, y (2) los colores de los nodos describen la relación de votos positivos/negativos:

Negro: Nodo central (post)

Gris: Comentario sin votos

Verde (en escala): Comentario con mayoría de votos positivos

Rojo (en escala): Comentario con mayoría de votos negativos

Naranja: Comentario sin una clara diferencia de votos positivos/negativos

La visualización también incluye un tooltip al posicionar el cursor sobre un nodo que indica autor, mensaje, timestamp y número de votos positivos/negativos.

Los dos hilos más profundos de la Tabla 4 se exploraron visualmente con este visualizar. "cuidado con los que se van a beneficiar de la remunicipalizacion" se presenta en la Figura 27 y "que se retiren las marcas de debates inadecuados a debates con sentido común" se muestra en la Figura 28. La primera visualización de la red describe una estructura compleja y, por tanto, su alto nivel de deliberación (representatividad y argumentación) como el k-index indica. Por otro lado, la estructura del segundo hilo se compone principalmente de una larga cadena de mensajes entre dos usuarios, es decir argumentación sin representatividad. La tercera visualización en la figura 29 corresponde al debate de Forocoches. En él se ve una gran representación de usuarios pero sin una estructura argumentativa y, por tanto, escasa deliberación.

Distribución de las discusiones por número de comentarios y profundidad

Distribución de las discusiones por número de comentarios y profundidad

Hilo del debate "cuidado con los que se van a beneficiar de la remunicipalizacion" Hilo del debate "cuidado con los que se van a beneficiar de la remunicipalizacion"

Hilo del debate  "que se retiren las marcas de debates inadecuados a debates con sentido común" Hilo del debate "que se retiren las marcas de debates inadecuados a debates con sentido común"

Hilo del debate "monumento a roto2 en la puerta del sol" Hilo del debate "monumento a roto2 en la puerta del sol"

Modelado de propuestas mediante mapas auto-organizados.

Los mapas auto-organizados son un tipo de redes neuronales que, en este caso, ofrecen información acerca de cómo son los diferentes tipos de propuestas según los datos que las definen. Es una forma de visualizar simultáneamente todos los datos de las propuestas, y analizar cómo se relacionan y configuran sus ciclos de vida. Como se ha mencionado en otros apartados, las conclusiones están limitadas por las características de los datos analizados. Cada una de las gráficas mostradas a continuación es una componente (tipo de dato) de un mapa auto-organizado entrenado con los datos de las propuestas de decide.madrid.es. La escala de color a la derecha de cada gráfica muestra el rango de valores que toma la componente dentro de la gráfica. De esta forma, cada zona de las gráficas (por ejemplo, arriba a la derecha) representa un conjunto de propuestas con unas características determinadas (por ejemplo, propuestas antiguas muy apoyadas). Analizando cada zona a través de las diferentes gráficas, se pueden inferir cómo se relacionan los datos de cada zona, dando lugar a diferencias cualitativas que permiten categorizar las propuestas y predecir sus recorridos vitales.

El eje vertical del mapa está alineado, aproximadamente, según el número de apoyos de la propuesta. Así, la gráfica “Apoyos” indica que las propuestas con escasos apoyos estarán situadas en las zonas inferiores del mapa mientras que las propuestas más valoradas estarán en las zonas superiores.

La gráfica de “Días totales” indica que la mayoría de las propuestas comienzan su andadura en la zona inferior, lo que es lógico dado que es la zona con pocos apoyos. Sin embargo, unas pocas propuestas comienzan en la esquina superior izquierda, es decir con un elevado número de apoyos desde su origen, indicando que estas propuestas tienen un apoyo inicial debido a causas externas. Tal como indica el degrado horizontal de este mapa, a grosso modo, las propuestas más antiguas acaban en la parte derecha del mapa. Esto nos da una idea de las trayectorias que seguirán las propuestas durante sus posibles ciclos de vida. La gráfica de “Días viva” muestra cuántos días ha estado viva la propuesta, es decir la duración desde su nacimiento hasta el último comentario. En ella se observa una clara separación de las propuestas que viven únicamente unos pocos días, en azul oscuro. La escasez de valores intermedios (en contraste con la presencia de estos valores en la gráfica anterior) indica la existencia de una causa que discrimina las propuestas entre vivir unos pocos días o tener una actividad a largo plazo. Es probable que esta causa sea el algoritmo de selección de propuestas de la portada de la web, ya que cuando se obtuvieron los datos dicho algoritmo premiaba en exceso las propuestas novedosas.

Texto alternativo

Respecto al número de comentarios, se observan tres zonas. A la izquierda y derecha de la gráfica se sitúan las propuestas con un número medio de comentarios, mientras que las de la zona central apenas tiene comentarios. Esta distribución no es natural, en el sentido que la zona izquierda son propuestas de corta vida a pesar de la intervención de los usuarios, por lo que sería interesante solventar la causa que provoca su muerte prematura. La gráfica sobre los comentarios iniciales, es decir el número de comentarios recibido por cada propuesta durante su primera semana de vida, es similar a la del número total de comentarios. Esto indica que se puede predecir, al menos de forma aproximada, los comentarios que va a recibir una propuesta a partir únicamente de los datos de la primera semana.

En cuanto a la profundidad de los comentarios, se observa que, de forma natural, las propuestas con más comentarios son también las que generan más debate interno. Más interesante es analizar los tres grupos de propuestas que aparecen destacados en rojo, es decir con más debate interno. El grupo inferior son propuestas con escasos apoyos, incitando a pensar que su asunto ha generado debate pero no consenso (por ejemplo, temas polémicos). El grupo superior izquierdo esta formado por propuestas con muchos apoyos pero una vida corta, por lo que de nuevo sería interesante solventar la causa que no ha permitido su desarrollo. Por último, el grupo suprior derecho son propuestas con debates profundos de largo plazo que han generado muchos apoyos, es decir el objetivo a priori de este proyecto.

Texto alternativo

En la gráfica de la frecuencia viva de comentarios, es decir el ratio de comentarios mientras está viva la propuesta, vuelven a aparecer dos de los grupos antes mencionados. Es una forma de verificar la diferenciación cualitativa de estos grupos, muy bien delimitados en esta visualización. La ausencia del tercer grupo se debe a que, al ser propuestas de larga vida, su frecuencia de comentarios es pequeña aún siendo elevado el número de los mismos.

Respecto al número de usuarios que intervienen en los comentarios de cada propuesta, merece la pena destacar que no aparece el grupo de propuestas de pocos apoyos antes mencionado. Esto indica que en los debates que se generan en dicho grupo intervienen pocas personas, por lo que cabe deducir que son propuestas poco interesantes para la comunidad. Por último, se muestra la gráfica de la longitud del texto de la propuesta. Es una distribución muy fragmentada que no permite conclusiones precisas. Sin embargo, hacia la esquina superior derecha se detecta una tendencia a que propuestas más largas, es decir más elaboradas, vivan más tiempo y generen más apoyos. La zona superior izquierda muestra que el grupo de propuestas ahí localizado, con muchos apoyos pero de corta vida, tienden a ser muy escuetas. Esta tendencia sugiere que quizá una redacción más extensa de su contenido pueda favorecer que estas propuestas tengan una vida más larga.

Texto alternativo

Externo.

Caso de estudio: Campañas de difusión.

El primer caso de estudio se centró en el impacto de las campañas de difusión del Ayuntamiento para promover Decide Madrid. En primer lugar, exploramos la actividad diaria desde el día de lanzamiento de la plataforma (7 de septiembre de 2015). Para ello elaboramos un gráfico de área con la dimensión temporal en el eje X y el número de publicaciones (posts en debates, propuestas y comentarios en debates/propuestas) como eje Y (ver figura 12). En él observamos dos grandes picos de actividad en el día de lanzamiento y en el 14 de septiembre. La segunda fecha corresponde al lanzamiento de las propuestas de Decide Madrid, en la primera semana sólo existían los debates. Tras los picos iniciales, la actividad se estabilizó en, aproximadamente, 500 publicaciones diarias hasta principios de noviembre. Es en esa fecha cuando el Ayuntamiento lanzó una nueva campaña de difusión mediante el envío de correos electrónicos a los ciudadanos y la colocación de pancartas y panfletos en edificios públicos (ver Figura 11). Los próximos picos de actividad se registraron a partir del 12 de noviembre, fecha en la que algunos concejales y Manuela Carmena abrieron nuevos debates para dialogar con la comunidad de Decide Madrid.

Para comprender mejor todos estos picos se dividió el área del gráfico según los 4 tipos de publicaciones (ver Figura 13). Como era de esperar, el primer pico está basado en debates mientras que siguientes se deben a propuestas en su mayoría. De hecho, la actividad en torno a debates cae drásticamente una vez que existen las propuestas. Los debates sólo vuelven a tomar relevancia cuando Carmena y algunos concejales inician discusiones. Todas estas observaciones también se pueden observar en la Figura 14 que muestra el porcentaje de publicaciones diarias por tipo, en lugar del recuento absoluto. Alternativamente, la Figura 15 muestra la misma distribución de la Figura 12, dividiendo en gráfico en gráficos independientes según el tipo.

Tweets que informaron la campaña de difusión de Decide Madrid Tweets que informaron la campaña de difusión de Decide Madrid

Publicaciones diarias en Decide Madrid

Publicaciones diarias en Decide Madrid

Publicaciones diarias en Decide Madrid dividiendo el área por tipo (debates, propuestas y observaciones) Publicaciones diarias en Decide Madrid dividiendo el área por tipo (debates, propuestas y observaciones)

Porcentaje de publicaciones diarias en Decide Madrid dividiendo el área por tipo (debates, propuestas y observaciones)

Porcentaje de publicaciones diarias en Decide Madrid dividiendo el área por tipo (debates, propuestas y observaciones)

Publicaciones diarias en Decide Madrid divididas por tipo (debates, propuestas y observaciones) Publicaciones diarias en Decide Madrid divididas por tipo (debates, propuestas y observaciones)

Redes e interacciones fuera de Madrid Decide.

Decide Madrid es un proyecto que apuesta por la deliberación y participación de las personas. Lejos de encerrarnos en nuestra plataforma, nos interesa conocer los debates que el proyecto provoca fuera de sus fronteras, en otras esferas digitales. Queremos comprender los procesos de transmedia, donde el contenido se adapta y difunde por distintas esferas digitales. Para ello rastreamos la actividad en las principales plataformas sociales (Facebook y Twitter) y medios digitales como diarios, blogs y foros. Los datos aquí expuestos están actualizados a 10 de diciembre de 2015.

En la siguiente visualización comparamos el "tamaño del tema" en las plataformas sociales dimensionando las métricas disponibles que mejor cuentan el número de interacciones con el medio sin olvidar que las métricas de cada plataforma no son completamente comparables ni los temas son cuantitativos.

Texto alternativo

En Facebook encontramos el mayor volumen de actividad con más de 187.000 interacciones entre "likes", "shares" y "commnets" dirigidos a publicaciones públicas o privadas con una url de la web de Madrid Decide. La API de Facebook facilita información agregada para monitorizar la actividad relacionada con urls. Los datos se han extraído con Facebook Like Counter.

Encontramos mayor proporción de likes ya que es una interacción facilitada por la plataforma frente al resto que conlleva mayor coste en tiempo para el usuario que lo realiza. Como veremos más adelante, en alguna propuesta no se guarda esta proporción entre las métricas. 1.435 propuestas sobre el total alcanzaron al menos una interacción en esta plataforma.

En Twitter encontramos más de 16.000 publicaciones entre tuits originales y retuits. Al menos 894 propuestas fueron compartidas en esta plataforma.

Por su parte Google ha indexado algunas propuestas compartidas en grupos de correo públicos, hilos de discusión en Forocoches, portales de organizaciones sociales, medios nativos digitales como Playground y blogs personales.

Evolución de métricas en plataformas sociales.

La naturaleza de las métricas en Twitter nos permite visualizar la evolución temporal de la actividad relacionada a URLs de debates y propuestas.

Texto alternativo Explorar twits aquí

Los picos de actividad nos cuentan la actualidad en torno a Decide Madrid. Observamos que las URLs de debates tras la inauguración pierden relevancia hasta la puesta en marcha de las entrevistas colectivas. Algunos picos son debidos a propuestas polémicas como la de Madrid Capital Taurina. Otros se deben a la promoción de propuestas de organizaciones sociales. En concreto Madrid Sin Mordazas apoyando la propuesta de No Somos Delito en contra de la Ley Mordaza se comparte a lo largo del tiempo. Podemos concluir que es una campaña mantenida en el tiempo.

Las métricas de Facebook carecen de información temporal. Por ello visualizamos la evolución de las métricas ordenando las propuestas según su fecha de creación en Decide Madrid.

Texto alternativo

Observamos mayor concentración de interacciones (engagement) entre las primeras propuestas. En esta tendencia pueden influir el efecto de la inauguración que provocó más visitas a la página y el hecho que las propuestas más recientes han tenido menos tiempo material para capitalizar la visibilidad en la red. Destacamos también las propuestas virales en Facebook como casos puntuales.

Métricas propuesta a propuesta.

Texto alternativoTexto alternativo Observando las métricas de medios sociales que capitalizan las 5 propuestas con más apoyos podemos intuir que no siempre son variables relacionadas. A pesar de ello entre las 894 propuestas que sí se compartieron en Twitter encontramos que el coeficiente de correlación es de 0,27 entre las veces que se comparte la propuesta en un tuit original o por retuit y el número de apoyos dentro de Decide Madrid. Entre las 1.435 propuestas que se compartieron en Facebook encontramos que el coeficiente de correlación es de 0,36 entre las interacciones y los apoyos dentro de Decide Madrid. Obtenemos un índice similar, de 0,33 entre los apoyos con likes, bastante mayor, de 0,44 en relación a los shares y menor, de 0,25, en relación a los comentarios. Aunque el estadístico no nos permite establecer el sentido causa-efecto, la visibilidad de las propuestas es un aspecto fundamental para la capitalización de apoyos, y una mayor relación con la métrica de share fortalece este supuesto. En cambio, la menor correlación entre los apoyos y la métrica de comments se puede deber a que esta métrica refleja una acción que puede tener muchos significados. Aunque también indica visibilidad al contenido, el sentimiento de los comentarios pueden ser positivos o negativos.

Texto alternativo

Texto alternativo Observando las propuestas con mejor desempeño en Twitter y Facebook encontramos que parte de estas son propuestas promovidas por colectivos donde plasman sus demandas. La propuesta con mayor interacción en Facebook, en relación a los belenes de Navidad, ha sido una propuesta con gran repercusión en medios. Como dato curioso, encontramos dos propuestas en relación a la tauromaquia. En Twitter a favor de las corridas, en Facebook en contra. Sorprende que la propuesta de una casa autogestionada para mujeres obtenga tantas interacciones en Facebook y tan pocos apoyos. Esto se debe a que es una propuesta promovida a nivel individual desde su blog personal y que alcanza un medio digital nativo, PlayGround. Este medio está dirigido a medios sociales y tiene gran impacto en Facebook.

Como podemos ver, quién plantea la propuesta y la promueve es un aspecto relevante. El siguiente análisis de comunidades en Twitter nos indica algunos líderes de opinión de la plataforma que generan actividad en torno a las propuestas.

Texto alternativo Cada nodo es un usuario de Twitter y las aristas entre usuarios representan relaciones por retuit. Los usuarios más interconectados se sitúan más próximos. Los colores codifican conjuntos de usuarios con mayor densidad de relaciones.

En esta estructura de red se observan tres principales centros. Uno más institucional, con tres identidades muy relevantes. Se trata de la cuenta del Área de Participación, (@AbriendoMadrid) que está muy integrada con la cuenta oficial del Ayuntamiento de Madrid y con la identidad secundaria de Demic_Lab. Estos actores comparten parte de las audiencias que han involucrado en el tema que nos ocupa. Con una comunidad algo separada y distanciada se encuentra la comunidad de Ahora Madrid. La cuenta de Manuela Carmena tiene una audiencia propia y otras que también forman parte de los actores comentados. Por ello se encuentra entre la cuenta del partido y las institucionales del ayuntamiento.

El perfil de NoSomosDelito genera una gran comunidad siendo el único usuario con gran relevancia. En cambio en la comunicación de la comunidad de la PHA hay varios actores con impacto siguiendo un modelo de comunicación en red.

Perfiles alejados del activismo como Tamara Falcó defendiendo los belenes navideños o Madrid and Music defendiendo la entrada de menores acompañados a los conciertos, alcanzan cierto impacto pero quedan aislados con contadas conexiones con el resto de comunidades.

PROMOCIÓN DE PROPUESTAS:

Las esferas digitales reflejan diversas acciones motivadas a promocionar propuestas de Madrid Decide, algunas llevadas a cabo de forma más individual y otras más coordinadas a través de campañas.

#Promoción individual de propuestas:
1. Trasladar el link de la propuesta a redes sociales u otros espacios digitales.

2. Crear  páginas de Facebook en torno a una propuesta

3. Posts en blogs personales

4. Spamear en los comentarios de otras propuestas

5. Menciones en Twitter 

6. Declaraciones de personajes mediáticos

Ejemplos:

1. Trasladar el link de la propuesta a redes sociales u otros espacios digitales: 

Facebook

Texto alternativo

Twitter Texto alternativo

  • Forocoches:

En ForoCoches se inicia un hilo sobre una propuesta de Decide que pide la reconstrucción del antiguo mercado de la Latina. Se debate el alto coste e inviablidad de la propuesta, se habla de los planes que hubo sobre este terreno y se profundiza en el estado actual de este rincón de Madrid, tanto su historia como su presente. El hilo tiene una profundidad de 19 respuestas.

Texto alternativo

  • Crear páginas de Facebook en torno a una propuesta: Ejemplo: Página de Facebook por una "Escultura de Rosendo en Carabanchel YA !!"
  • Texto alternativo
  • Posts en blogs personales: Como por ejemplo la propuesta Casa autogestionada autosuficiente de mujeres mayores de 50 años creada por Celia Estévez Lozano que lo publica en su blog

  • Publicaciones en medios digitales: La propuesta de Casa autogestionada autosuficiente de mujeres mayores de 50 años se adapta al formato de publicación en la revista digital PlayGround.

  • Spamear en los comentarios de otras propuestas: Es freucente que algunos usuarios escriben en los comentarios de otras propuestas de Madrid Decide trasladoando el link de la propuesta y pidiendo apoyo aunque las dos propuestas no tengan relación. En ocosaiones se pide el apoyo recíproco.

Texto alternativo

  • Menciones en Twitter: Pedir explícitamente el apoyo a personajes públicos. La empresa Madrid & Music consigue que el grupo Vetusta Morla y el actor Daviz Martinez concedan el retuit rogado para difundir la propuesta "Menores acompañados a las salas de conciertos".

Texto alternativo

  • Declaraciones de personajes mediáticos: El apoyo a propuestas de personajes conocidos tiene un efecto viral que se traduce en apoyos a la propuesta aunque de momento no suficientes para su aprobación. Diversos medios se hacen eco de las declaraciones (El Mundo: "Tamara Falcó pide a Carmena que no retire los belenes"). Usuarios a nivel individual crean propuestas similares que capitalizan bastantes apoyos.

Texto alternativo

Texto alternativo Caso ejemplo de propuesta promocionada individualmente:

Texto alternativo La propuesta Casa autogestionada autosuficiente de mujeres mayores de 50 años es una propuesta elaborada, que genera alta actividad en Facebook pero pocos apoyos y poca actividad en Twitter. Creada por Celia Estévez Lozano que lo publica en su blog y también en PlayGround (medio muy centrado en el social media). Según el traker de actividad en medios sociales de PlayGround se ha compartido 964 veces, de estas, según datos propios, 560 veces fue en Facebook y más de 44 en Twitter. Todo parece indicar que el alcance de esta propuesta en Facebook (que no en apoyos) se debe a estas publicaciones en medios digitales. Los contenidos son ricos en contenidos visuales que en ocasiones tienen poca relación con la propuesta o sirven para ejemplificar el proyecto.

Imagen blog personal Celia Estévez LozanoTexto alternativo Imagen Blog personal Celia Estévez

Imagen PlayGround Imagen PlayGround

#Promoción colectiva de propuestas:

La acción colectiva en la promoción de propuestas suele estar coordinada en forma de campañas e identificamos diversos formatos:

- Publicaciones en los blogs de los portales de las organizaciones

- Publicaciones en páginas de Facebook propias y afines

- Creación de Infografías

- Eventos presenciales: En jornadas con temática similar se presenta la propuesta y se debate sobre la misma. 

- Campañas de Twitter mantenidas en el tiempo

- Mailing: Distribución de correos, por ejemplo por google groups

Ejemplos de campañas:

Campaña "Deroguemos las leyes mordaza"

Texto alternativo

Propuesta: Deroguemos las leyes mordaza El colectivo No Somos Delito es el principal agente detrás de la promoción de esta propuesta. Centra su campaña principalmente en Twitter donde se mantiene en el tiempo e involucra a otros actores activistas como SOSracismo y SOSLaciana. En Facebook encontramos publicaciones en su págnia principal y afines:

- [Post FB NoSomosDelito (12k fans)](https://www.facebook.com/permalink.php?id=1588887288023940&story_fbid=1655144048064930)

- [Post FB Asamblea Popular de Madrid  (600 fans)](https://www.facebook.com/permalink.php?story_fbid=976411825712869&id=232222786798447)

- [Post FB StopMordazas (189 fans)](https://www.facebook.com/permalink.php?id=1478916622428328&story_fbid=1496052604048063)

Las métricas relativas son las siguientes:

Deroguemos leyes mordaza

Encontramos que es una campaña algo inclinada hacia Twitter pero bastante amplia, puesto que incluye publicaciones en la web del colectivo (Post: Red de ciudades libres de mordaza), difusión por mailing (Mails por Google Groups), y eventos presenciales al incluirse la presentación de la propuesta en las actividades del colectivo (Ej: Jornadas DibujandoMordaza y Jornada Festiva de Activismo Abierto por un #MadridSinMordazas)

Campaña "Madrid 100% Sostenible"

Texto alternativo La propuesta Madrid -- 100% sostenible tiene como principal promotor al colectivo "Nuevo Modelo Energético". Fundación Renovables también aporta bastante en su difusión. Siendo la segunda propuesta con más apoyos de todo Madrid Decide entendemos que su estrategia de acción es acertada. Las métricas en redes sociales revelan que el alcance en tre Facebook y Twitter es más equilibrado, siendo mayor en Facebook y considerable en Twitter aunque no podemos decir que la actividad en la plataforma de microblogging haya sido mantenida en el tiempo.

Texto alternativo

En Facebook encontramos estos dos principales posts en páginas propias y afines:

- [Post Facebook Alianza por el Clima](https://www.facebook.com/alianzaclima/photos/a.1004301872925143.1073741828.1002379389784058/1004300916258572/)

- [Post Facebook Geenpace Madrid](https://www.facebook.com/permalink.php?id=139671119431632&story_fbid=939917576073645)

La campaña más allá de las redes sociales se publica en un post del blog Alianza por el clima, alcanza el Google groups en Ecologistas en Acción y se incluye en eventos presenciales.

Texto alternativo

Aunque el material gráfico no es muy abundante, en esta campaña hemos encontrado la producción de una ifnografía con el objetivo de recabar apoyos:

Texto alternativo

CONCLUSIÓN DIAGNÓSTICO HERRAMIENTA

Para introducir de lo que hablaremos a continuación: interfaz y ordenación de propuestas a la entrada, así como proceso de creación de una propuesta y desarrollo de la misma (acompañamiento)

- Interfaz.

- Algoritmos de filtrado de portada.

INTERFAZ:

Algoritmos de mostrado y ordenación.

Este es el componente responsable de presentar las listas de propuestas y debates, así como su ordenación, cuando un usuario visita la pagina. La hipótesis de trabajo es que el rendimiento de la pagina es muy sensible a cambios en este componente, por lo que es importante su optimización.

Métricas relevantes a la hora de optimizar

  • Usuarios totales.
  • Vistas de una propuesta, incluido por usuario.
  • Apoyos de una propuesta
    • Apoyos internos (hecho desde fuera de la propuesta).
    • Apoyos externos.
  • Vistas de un comentario, incluido por usuario.
  • Votos de un comentario.
  • Número de comentarios ?

Posibles objetivos.

Evitar que en su escalada las propuestas queden en espacios oscuros en los cuales solo se puede acceder a su visualización a través de difusión externa. Cualquiera activa debería pasar por portada o por un filtro principal de manera regular.
  • Maximizar el numero de apoyos totales.
  • Maximizar el numero de propuestas con apoyos superando cierto umbral.
  • Maximizar el numero de vistas totales de propuestas.
  • Maximizar el numero de comentarios de propuestas.
  • Maximizar el numero de votos positivos de comentarios.

Algoritmos actuales.

Propuestas más activas hoy [default]

Cuya implementación se puede ver aquí

El peso del elemento temporal desborda el ranking y esconde propuestas rápidamente.

offset = Math.log([score.abs, 1].max, 10) * (ups / [total, 1].max) seconds = ((date || Time.now) - EPOC).to_f

(((offset sign) + (seconds/TIME_UNIT)) 10000000).round

Una propuesta 24 horas mas joven tiene una ventaja equivalente a 100 apoyos. Una propuesta 36 horas mas joven tiene una ventaja equivalente a 1000 apoyos.

eg por cada 12 horas, equivale a 10^x votos más.

Sugerencia.

Definir el score de propuestas para el ranking más activas como el exponential smoothing (o también weighted moving average) de los apoyos de la propuesta. Toda propuesta tiene al menos 1 voto cuya fecha es la de la creación de la propuesta.

  • Más apoyadas.
  • Más nuevas.
  • Más comentadas.
  • Aleatorias.

Comentarios más votados [default]

Cuya implementación se puede ver aquí

Discussion:

Ver correo sobre el problema de esta implementación. Creo que es esto: Anlisis del confident Score de comentarios

[Data Análisis]Fechas aproximadas de la reordenación de comentarios en decide.madrid.es

* Nuevos primero.
* Antiguos primero. 
* Algoritmos posibles óptimos

Algoritmos para Propuestas.

Todos estos algoritmos necesitan definir un binomial failure (solución fácil es visto y no apoyado, o mostrado y no visto)

* [Multi armed bandit](https://en.wikipedia.org/wiki/Multi-armed_bandit) para approvals

Use Thompson sampling with the beta posterior.See

The binomial failure would be defined as the approval being clicked for details and not approved. Another possibility would be defining failure as appearing in a list, but i don't think this is good.

* Multi armed bandit para views

Same as above but applied to views instead of approvals. The binomial failure would be defined as the proposal appearing in a list and not being clicked for detail.

* Wilson confidence interval lower bound approvals

This is equivalent to the current implementation of confidence on Reddit. It accounts for uncertainty in the scoring of approvals but ignores the exploration factor.

* Wilson confidence interval lower bound views

See below on Thompson sampling use the beta posterior

* Probability of reaching threshold (usando usuarios restantes)

Using the beta posterior one can calculate probabilities of reaching a goal threshold either with a binomial or hypergeometric. Probably contains the same information as both wilson score and multi-armed bandit so it may be redundant.

* Maximize expected Kullback Leibler divergence (usando usuarios restantes)

In this approach a display of proposals is regarded as a set of binomial experiments. Using principles of bayesian experimental design the aim is to maximize the information gain over the probability of reaching the goal threshold. Once favors showing proposals that maximize the reduction in uncertainty in the probability of reaching goal. Tricky as there are feedback effects and some sort of equilibrium algorithm has to be used. Unsure as to benefits vs multi-armed bandit. One possible benefit is that proposals that are sure to be approved would get less exposure, and would allow other proposals with higher uncertainty to show up.

Algoritmos dependientes del usuario.

* "Recommended" ranking based on user similarities (using CF, see pdf hackpad: CF survey)

Use history of approvals by users to find matching users, then make recommendations. This is basic collaborative filtering a la amazon.

* Hiding proposals that the user has approved.

This can be applied to any of the algorithms. By removing already approved proposals in certain views, display space is freed up to show other proposals that the user would not have seen. Would be nice to combine this with a view of "my approved proposals", and "my comments".

* Stratification.
* Ranking based on distributions exploiting user similarities.
* Decaying/Smoothing.

Se puede incluir un factor de decrecimiento temporal en todos los algoritmos basados en distribución binomial eliminando experimentos según pasa el tiempo. Por ejemplo en el caso de usar Beta, al eliminar experimentos la distribución tendera a volver al prior uniforme B(1, 1), y por consiguiente de máxima incertidumbre. Tambien se pueden aplicar otros factores de correccion temporal como moving average y exponential smoothing.

Algoritmos para Comentarios.

* Multi armed bandit (as above)
* Wilson confidence interval lower bound (as above)

Recomendaciones.

1) Arreglar el hot_score usando wilson score o función 'piecewise' (ver correo con subject [Data Análisis]Fechas aproximadas de la reordenación de comentarios en decide.madrid.es). 2) Guardar pares usuario-visita de propuesta y usuario-apoyo a propuesta (con fecha). 3) Eliminar apoyo desde fuera de propuesta. 4) Pestaña "Mejores propuestas" => Thompson sampling sobre beta posterior de apoyadas / vistas (usando 2). 5) Pestaña "Mas activas" => Exponential smoothing usando apoyos y sus fechas (usando 2). 6) Pestaña "Mas apoyadas" => Igual. 7) Pestaña "Mas comentadas" => Igual. 8) Pestaña "Random" => Igual. 9) Añadir sección "mis propuestas", propuestas apoyadas o creadas por el usuario. 10) Pestaña "Recomendadas" => Thompson sampling de propuestas no apoyadas (o no vistas, ver 4) aun por el usuario + resultado de collaborative filtering usando por ejemplo Jaccard index. Ver

Mejor que con una pestaña se podria implementar esto como el "Who to follow" de twitter junto con la sugerencia 11) para ir eliminando sugerencias, el sistema propone nuevas. 11) Añadir opción de "dismiss" para ocultar propuestas que el usuario no ha apoyado y no quiere ver mas. (Libera espacio para juzgar mas propuestas)

Discussion

Si hay n visitas con voto y N-n visitas sin voto para una determinada propuesta, la probabilidad de una frecuencia q esta dada por P(q|n,N-n)=(N+1)!/(n!(N-n)!) q^n (1-q)^(N-n) Prior(q). Con el Prior uniforme, esto en una distribución beta y la media y desviacion estandar son: media=(n+1)/(N+2) (lo cual tambien es comocido como la regla de sucesion de Laplace,; veo que te gustan las 'buzz words') y std=Sqrt(media*(1-media)/(N+3)).

Yes, como dije la beta es un conjugate prior del binomial, que es por lo que todo esto resulta sencillo. Esto es asi con o sin prior uniforme, pero como dices lo logico es usar el prior uniforme alpha = beta = 1, o sea B(1, 1)

Es tentador entonces ordenar propuestas por una calidad definida como la media de la beta, esto es basicamente la proporcion de visitadas votadas n/N (la media de la beta es casi eso). Pero esta tentacion no es buena porque hay que tener en cuenta la std de la beta, no solo su media, que es lo que David decia de explotacion/exploracion. Para la exploracion David proponia algoritmos random. A mi me parece el mas razonable simplemente ordenar las propuestas en cada visita a la pagina por un sampling de la distribucion beta de cada propuesta.

results matching ""

    No results matching ""