Raspando Menéame

Hace un par de meses leí que OpenAI estaba raspando de forma agresiva la web para obtener datos para alimentar a su IA, y me vino la idea de retomar un proyecto que tenía como hobby, analizar los datos de menéame, con un raspado elaborado en Python en Jupyter Notebooks con la librería Beautiful soup y un análisis en Power BI, herramientas que escogí porque eran baratas y lo único que gastaba es tiempo.

No ha sido hasta todo el revuelo que se ha levantado con la venta, multipropiedad, tokenización sin tokens, cuentaparticipación o como quieran llamarlo que me decidí a hacer públicos algunos datos de mis análisis.

El análisis es únicamente de las portadas, por lo cual el nivel de colaboración podría cambiar si se tienen en cuenta todos los envíos, aún así como es mi primera aportación en este aspecto he querido dar una visión general y, si veo que genera interés, iré sacando análisis más detallados de forma mensual.

Antes de exponer quiero decir que estos datos están visibles para cualquiera consultando la página web, lo único que hice fue recopilarlos con un programa de forma automática.

También dejo para los admins o quien quiera coger el guante, la posibilidad de configurar un acceso a estas estadísticas y métricas en la plataforma que de seguro podrían resultan muy interesantes para los diversos medios digitales y de esta manera rascar dinero de cuentas premium.

En el primer bloque de análisis, contabilicé las interacciones de los artículos de portada, en los que 1416 noticias generaron un total de casi 500K de meneos y más 2,5kk de clics. De la misma forma, el número de comentarios generados en dichas noticias alcanzó casi los 100k. Me abstengo de usar medias porque creo que desdibujan mucho una imagen detallada.

No es una mala estadística si lo miramos en términos de interacción, pero está bastante lejos de los años dorados de la plataforma.

Medios en portada

La variedad de medios que han alcanzado portada son 396, si bien un 38,9% (552 portadas) se engloban dentro de 10 medios, que alcanzan un mínimo de 24 portadas, los medios que tienen el mismo valor han sido posicionados siguiendo orden alfabético, por lo que algún medio con un valor igual ha quedado descartado.

Para ver como se reparten el pastel estos diez medios, los he reflejado en un diagrama de tarta excluyendo los otros medios que no se posición en los diez primeros.

En este aspecto, como medida para evitar la predominancia de medios, se podría cambiar el algoritmo para que el karma generado por noticias que ya han alcanzado múltiples portadas, fuera menor, por lo que necesitarían más votos para ponerse en portada, una especie de juego de oferta y demanda, con el valor actual como el mínimo para un medio.

Usuarios que hacen portada

Los usuarios que hacen portada son menos, 241, aunque hay más que participan y septiembre no es un mes especialmente activo en este aspecto. En este caso, un 37,7% de los envíos que hacen portada corresponden a 10 usuarios que destacan en su actividad.

Estos usuarios presentan una gran concentración de los medios que más portadas han conseguido, correspondiendo un total de 216 envíos de los diez primeros (Que recordemos que sumaban 552 portadas), por tanto el 39% de sus portadas son de estos diez medios que tienen gran presencia. La persona que más portadas tiene en los 10 medios más meneados es Delay, con un total de 45 de sus 75 portadas distribuidas en cuatro medios, mientras que la menor representación la tiene VerdaderoFalso, con solo 4 de sus 31 portadas en los diez medios más representados en portada.

Votos

En el aspecto de los votos, las noticias se han votado más de medio millón de veces, siendo aproximadamente un tercio de los votos de forma anónima, por lo tanto generados por usuarios que no estaban logueados en la plataforma.

Los ratios de los votos emitidos indican un enfoque bastante positivo, con apenas un 1,16% de votos negativos.

Temáticas

En esto hay una menor variedad, actualidad copa más del 50% de las portadas, con un total de 783 noticias, seguido de cultura, política, ocio y tecnología por ese orden. Un total de 1351 envíos se encuentran en las 10 comunidades más representadas en portada.

Entre las comunidades con menos representación en portada están algunas que solo han logrado una portada, como mitología, historia o numismática.

Portadas

He querido también tener un vistazo a las portadas que más interacciones han generado, aquí hay una serie de medios que no aparecen reflejados en los 10 mejores, quizás el valor más interesante es el de la noticia de xataka, que generó una gran cantidad de clics que no suele verse normalmente en las noticias de portada, que normalmente fluctúan entre los 3k y los 10k de clics

La noticia de Garamendi fue la que generó más comentarios, una cifra que entre los diez medios más presentes ronda entre los 150 y 400 comentarios.

En cuanto al Karma, la noticia de las siete maravillas es la que mas karma ha conseguido, o sea que ha sido votada por más usuarios con karma alto, el resto de noticias del top 10 obtuvieron una cantidad entre 528 y 675.

Noticias más destacadas por medio

Por otra parte, para ver cuales han sido las noticias mejor representadas en este ranking de los 3 medios que abarcan casi un 20% de las portadas os dejo a continuación.

En el caso de El diario, las noticias mejor posicionadas han sido:

En cuanto a Youtube:

En cuanto a X:

Podía haber desarrollado un poco más, pero creo que esto puede dar una visión bastante acertada de la actividad en la plataforma. Si veo que la publicación genera interés podría considerar ampliar el análisis a las noticias que no hacen portada y tener una vista algo más completa de todo.