El sub de las noticias (in)deseadas

encontrados: 3, tiempo total: 0.020 segundos rss2
#66 #anclado CLICK AQUÍ PARA INFORMACIÓN DEL GRUPO

TDTChannels - Grupo oficial
Comunidad de Canales de televisión, y radio, que se emiten en abierto por Internet. 100% abierto, 100% legal, 100% gratuito y sin publicidad. Enfocado a España, y a canales internacionales de gran audiencia.

Grupo: t.me/tdtchannels
Canal: t.me/tdtchannels_avisos
Listas: www.tdtchannels.com/lists
EPG - TV: www.tdtchannels.com/epg/TV.xml
App Android: www.tdtchannels.com/android
App Android Open: github.com/LaQuay/TDTChannels-APP (Click en Releases, assets y en el apk)

{0x1f447} {0x1f447} {0x1f447}
¡Nos basamos en donaciones y colaboraciones!
www.buymeacoffee.com/mLaQuay
Más opciones disponibles, contactar con @LaQuay
{0x1f446} {0x1f446} {0x1f446}…   » ver todo el comentario
Es un problema muy grande. La base de datos de digg es monstruosa y analizar textos muy costoso.

Evidentemente lo primero es buscar URL idénticas. Pero no es tan fácil, deben previamente ser canonicalizarlas de alguna manera para que sea efectivo. Y no es nada trivial, por ejemplo, ¿tenemos en cuenta subdominios o solo los de primer nivel? ¿quitamos las barras que sobran? provad esta URL:
meneame.net////story/digg-estrena-sistema-infalible-para-evitar-envio-
¿Raro, no? ¿Quitamos el #ancla? En algunas páginas, como la wikipedia llevarían a la misma página. En otras, donde son parámetros para el javascript/ajax de la página resultarían distintas (ej: facebook).

Y eso es solo el paso más fácil. Yo seguramente seguiría buscando envios similares a través de las…   » ver todo el comentario

menéame