TDTChannels - Grupo oficial
Comunidad de Canales de televisión, y radio, que se emiten en abierto por Internet. 100% abierto, 100% legal, 100% gratuito y sin publicidad. Enfocado a España, y a canales internacionales de gran audiencia.
Es un problema muy grande. La base de datos de digg es monstruosa y analizar textos muy costoso.
Evidentemente lo primero es buscar URL idénticas. Pero no es tan fácil, deben previamente ser canonicalizarlas de alguna manera para que sea efectivo. Y no es nada trivial, por ejemplo, ¿tenemos en cuenta subdominios o solo los de primer nivel? ¿quitamos las barras que sobran? provad esta URL: meneame.net////story/digg-estrena-sistema-infalible-para-evitar-envio-
¿Raro, no? ¿Quitamos el #ancla? En algunas páginas, como la wikipedia llevarían a la misma página. En otras, donde son parámetros para el javascript/ajax de la página resultarían distintas (ej: facebook).
Y eso es solo el paso más fácil. Yo seguramente seguiría buscando envios similares a través de las… » ver todo el comentario