edición general

encontrados: 29, tiempo total: 0.004 segundos rss2
14 meneos
17 clics
Google es ahora el único buscador que funciona en Reddit gracias a un acuerdo sobre IA (ENG)

Google es ahora el único buscador que funciona en Reddit gracias a un acuerdo sobre IA (ENG)

Google es ahora el único motor de búsqueda que puede mostrar resultados de Reddit, convirtiendo uno de los repositorios más valiosos de la web de contenido generado por el usuario en exclusivo para el motor de búsqueda ya dominante de Internet. Si utilizas Bing, DuckDuckGo, Mojeek, Qwant o cualquier otro motor de búsqueda alternativo que no dependa de la indexación de Google y buscas en Reddit utilizando "site:reddit.com", no verás ningún resultado de la última semana.
11 meneos
194 clics
La desaparición de los datos que alimentan la IA: Un problema en auge

La desaparición de los datos que alimentan la IA: Un problema en auge

En estos días, el panorama de la inteligencia artificial (IA) está cambiando rápidamente, y no siempre para mejor. Durante años, los desarrolladores de IA han dependido de vastos conjuntos de datos extraídos de internet para entrenar sus modelos. Sin embargo, la disponibilidad de estos datos está disminuyendo drásticamente.
13 meneos
136 clics

Google publica el código fuente de su analizador de robots.txt (ENG)

Durante 25 años, el Protocolo de Exclusión de Robots (REP) fue sólo un estándar de facto. Esto tenía implicaciones frustrantes a veces. Por un lado, para los webmasters, significaba incertidumbre en casos límite, como cuando su editor de texto incluía caracteres BOM en sus archivos robots.txt. Por otro lado, para los desarrolladores de crawlers y herramientas, también trajo incertidumbre; por ejemplo, ¿cómo deberían tratar con archivos robots.txt que tienen cientos de megabytes de tamaño?
598 meneos
2619 clics
Google condenada a indemnizar con 8000 euros por indexar un indulto publicado en el BOE

Google condenada a indemnizar con 8000 euros por indexar un indulto publicado en el BOE

Durante un periodo de al menos 10 meses, Google mantuvo indexado un indulto publicado en el BOE en el año 1999 a pesar de que existía una Resolución de la Agencia de Protección de Datos que le obligaba a retirarlo y de que la web del Boletín Oficial había utilizado el fichero robots.txt para evitar la indexación de ese concreto indulto. Google es ahora condenada a indemnizar al afectado con 8000 euros.
16 meneos
71 clics
Este envío tiene varios votos negativos. Asegúrate antes de menear

¿Aceptaría AEDE ampliar el protocolo ROBOTS para cobrar la cantidad exacta por los artículos de enlace remunerado?

Estoy seguro de que todas las empresas y usuarios de internet aceptarían, diseñarían y respetarían una extensión del protocolo robots.txt que indicase cuales son los contenidos por cuyos enlaces hay que pagar, a quién y cuánto.
48 meneos
50 clics

El Boletín Oficial de Alicante decide no ser indexado por los buscadores

El Boletín Oficial de Alicante ha decidido que todo lo que se publique en su Boletín no aparezca en los buscadores de Internet. Hace uso del fichero robots.txt: ov.dip-alicante.es/robots.txt para indicar que todo el boletín al completo no sea indexado. La consecuencia es que nada de lo que se ha publicado en el BO de Alicante aparece ya en Google: www.google.es/search?q=site:ov.dip-alicante.es&oq=site:ov.dip-alic Relacionada: www.meneame.net/story/robots-txt-boe-google-no-indexe-condenas-indulto
3 meneos
25 clics

La Casa Real aún sigue intentando eliminar a Iñaki Urdangarin

Como curiosidad, quitando la parte técnica del artículo que enlazo, exponen un caso de la Casa Real en el que se muestra que siguen intentando eliminar el rastro de Iñaki Urdangarin de su página web.
2 1 11 K -119 tecnología
2 1 11 K -119 tecnología
22 meneos
567 clics
Este envío tiene varios votos negativos. Asegúrate antes de menear

Best robots.txt EVER

Best robots.txt EVER
4 meneos
46 clics

Los Repudiados

Muchos sitios web hacen uso de expertos en SEO (Search Engine Optimization) y SEM (Search Engine Marketing) para posicionar correctamente las páginas web junto con los resultados que les interesan. Esto es una dura tarea en varias áreas, pero podríamos simplificarla con un "Salir lo más arriba en los resultados de un buscador en los términos que interese a la compañía", lo que parece muy evidente, pero también "Salir lo más abajo o no salir junto a los términos que no interese".
54 meneos
149 clics
Este envío tiene varios votos negativos. Asegúrate antes de menear

La Casa Real Española impide que Google indexe y rastree la palabra "Urdangarin" en su web

La Casa Real Española impide que Google (y el resto de buscadores) indexen y rastreen la palabra "Urdangarin" en su web. Enlace: www.casareal.es/robots.txt
49 5 34 K 110
49 5 34 K 110
7 meneos
67 clics

El BOE, obligado a utilizar el fichero robots.txt

El derecho a ser olvidado en Internet también afecta al Boletín Oficial del Estado. El BOE ha sido obligado a usar el robots.txt para que los buscadores no puedan indexar determinados textos legales que afectan a datos personales. Así lo ha establecido la Agencia Española de Protección de Datos al resolver un recurso del propio BOE.
48 meneos
889 clics
Este envío tiene varios votos negativos. Asegúrate antes de menear

El robots.txt de la SGAE

El robots.txt de la SGAE donde podemos ver es lo que quieren que google no indexe...
43 5 18 K 136
43 5 18 K 136
12 meneos
65 clics

Los misterios del BOE

Los lectores y/o espectadores del libro/film 1984 recordarán cómo el protagonista trabajaba alterando las noticias del pasado. Si Oceanía pasa de ser aliado de Asia Oriental a ser su mortal enemigo, un ejército de burócratas volvían a re-escribir revistas y periódicos, hasta que las hemerotecas reflejaba fielmente lo que el gobierno ha dicho.En la actualidad, Internet se presta a una re-escritura de la historia.[...] ahora el BOE es electrónico. ¿Hasta qué punto estamos en condiciones de reescribir la Historia?
11 1 0 K 93
11 1 0 K 93
1 meneos
36 clics

Aprende a configurar un "Robots.txt" para tu web. SEO

Son conocidos como Web Wanderers, Crawlers, or Spiders (Web vagabundas, rastreadores o arañas). ¿Que son los Robots Web? Son programas que recorren la Web de forma automática. Los motores de búsqueda como Google, Bing y Yahoo utilizan para indexar el contenido de la web. Bien hasta ahora ya tenemos un concepto de que es un Robot web, pues ahora les daré una pequeña guía de cómo utilizar el robots.txt...
1 0 5 K -48
1 0 5 K -48
16 meneos
99 clics

Humans TXT: We Are People, Not Machines

A modo de homenaje del estándar Robots.txt (www.robotstxt.org/), un grupo de humanos ha creado Humans.txt, para mostrar de forma rápida y simple quiénes son las personas de carne y hueso que están detrás de una página web. (www.microsiervos.com/archivo/internet/humans-txt.html)
14 2 0 K 122
14 2 0 K 122
24 meneos
 

Robots.txt anti Google Street View

Cuando queremos que un buscador no indexe nuestra página web utilizamos el fichero robots.txt, pero...¿Cómo hacer para que Google Street no viole la privacidad de nuestra calle o nuestro barrio?. En Eppelheim (Alemania) han encontrado un modo.
22 2 0 K 182
22 2 0 K 182
3 meneos
 

configurar robots.txt

Analizamos desde el punto del seo la importancia de configurar robots.txt, o las metaetiqueta robots. ¿Qué les permitimos indexar y que no? Aquí estan algunas respuestas
3 0 8 K -56
3 0 8 K -56
17 meneos
 

Manual de robots.txt y Sitemap, lo más olvidado de tecnicas SEO

El fichero robots.txt tiene la finalidad de indicarle a un webcrawler (spider / web-spider / crawler o como se conozca) lo que el diseñador del sitio le recomienda a la hora de inspeccionar web. Los Sitemaps son una forma fácil que tienen los webmasters para informar a los motores de búsqueda de las páginas que se pueden rastrear en sus sitios web...
15 2 1 K 107
15 2 1 K 107
18 meneos
 
Este envío tiene varios votos negativos. Asegúrate antes de menear

Obama y el robots.txt de la Casablanca

Se ha hablando mucho acerca de cómo Barack Obama ha aprovechado internet para dar a conocer su candidatura y para conseguir movilizar votantes. También se ha comentado en muchos blogs el ambicioso plan tecnológico de Obama para EEUU (puede leerse aquí). Pero una de las cosas que ha llamado más la atención y que pocas personas han advertido: el cambio que ha sufrido el Robots.txt de la página web de la Casablanca, muy en línea con lo que Obama predica. En este artículo se muestra el robots.txt de Bush y se compara con el de Obama.
16 2 16 K -26
16 2 16 K -26
2 meneos
 

EL nuevo robots.txt de Obama

Uno de los primeros cambios visibles con la llegada de Obama a la Casa Blanca es el que se ha producido en la página oficial www.whitehouse.gov, no solo en su aspecto, sino también en su robots.txt:
1 1 9 K -64
1 1 9 K -64
4 meneos
 

Video de google sobre el fichero robots.txt

Google explica en su blog orientado a webmasters como se debe utilizar el archivo robots.txt para ocultar contenido al Googlebot.
6 meneos
 

Diarios y publicaciones online implantaran nueva versión de “robots.txt” para proteger sus contenidos de los buscadores

El nuevo fichero, basado en una tecnología denominada ACAP, opera como un DRM fijando permisos para rastrear los ficheros contenidos en el servidor. El ACAP otorgará permisos a los buscadores y robots que indexan los sitios indicando que contenidos pueden rastrearse y por cuanto tiempo. Es como una especie de DRM de contenidos digitales y según los promotores de esta tecnología ofrece unos excelentes resultados como lo ha demostrado la prueba que durante un año se ha venido realizando con el buscador francés Exalead.
38 meneos
 

Robots.txt : Todo lo que deberias saber

Un crawler es un robot de una entidad (generalmente buscadores) que acceden a las páginas web de un sitio para buscar información en ella, añadirla en los buscadores, etc.Por ejemplo, Googlebot es el nombre del crawler del buscador Google.
29 9 0 K 271
29 9 0 K 271
11 meneos
 

Un robots.txt puede costar 10.000 dólares

A SEOBook se le ha ido la mano al usar comodines y las consecuencias no se han hecho esperar... Aunque corrigió el error inmediatamente Google ha sido más rápido que él y ha añadido a su lista de resultados suplementarios varias páginas reduciendo mucho su tráfico y haciéndole perder 10.000$.
12 meneos
 
Este envío tiene varios votos negativos. Asegúrate antes de menear

ThursdayInternet deja al descubierto los datos personales de sus asistentes

De nuevo, una mala configuración del archivo robots.txt deja al descubierto TODOS los datos personales de los asistentes al evento ThursdayInternet, desde el teléfono, e-mail hasta la empresa y el cargo... Con lo fácil de configurar que es...
« anterior12

menéame