búsqueda de «robots.txt»

14 meneos

17 clics

Google es ahora el único buscador que funciona en Reddit gracias a un acuerdo sobre IA (ENG)

Google es ahora el único motor de búsqueda que puede mostrar resultados de Reddit, convirtiendo uno de los repositorios más valiosos de la web de contenido generado por el usuario en exclusivo para el motor de búsqueda ya dominante de Internet. Si utilizas Bing, DuckDuckGo, Mojeek, Qwant o cualquier otro motor de búsqueda alternativo que no dependa de la indexación de Google y buscas en Reddit utilizando "site:reddit.com", no verás ningún resultado de la última semana.

11 3 0 K 7 tecnología

10 comentarios

11 3 0 K 7 tecnología

11 meneos

194 clics

La desaparición de los datos que alimentan la IA: Un problema en auge

En estos días, el panorama de la inteligencia artificial (IA) está cambiando rápidamente, y no siempre para mejor. Durante años, los desarrolladores de IA han dependido de vastos conjuntos de datos extraídos de internet para entrenar sus modelos. Sin embargo, la disponibilidad de estos datos está disminuyendo drásticamente.

9 2 0 K 13 tecnología

10 comentarios

9 2 0 K 13 tecnología

13 meneos

136 clics

Google publica el código fuente de su analizador de robots.txt (ENG)

Durante 25 años, el Protocolo de Exclusión de Robots (REP) fue sólo un estándar de facto. Esto tenía implicaciones frustrantes a veces. Por un lado, para los webmasters, significaba incertidumbre en casos límite, como cuando su editor de texto incluía caracteres BOM en sus archivos robots.txt. Por otro lado, para los desarrolladores de crawlers y herramientas, también trajo incertidumbre; por ejemplo, ¿cómo deberían tratar con archivos robots.txt que tienen cientos de megabytes de tamaño?

10 3 0 K 13 tecnología

sin comentarios

10 3 0 K 13 tecnología

598 meneos

2619 clics

Google condenada a indemnizar con 8000 euros por indexar un indulto publicado en el BOE

Durante un periodo de al menos 10 meses, Google mantuvo indexado un indulto publicado en el BOE en el año 1999 a pesar de que existía una Resolución de la Agencia de Protección de Datos que le obligaba a retirarlo y de que la web del Boletín Oficial había utilizado el fichero robots.txt para evitar la indexación de ese concreto indulto. Google es ahora condenada a indemnizar al afectado con 8000 euros.

236 362 0 K 584 tecnología

86 comentarios

236 362 0 K 584 tecnología

16 meneos

71 clics

Este envío tiene varios votos negativos. Asegúrate antes de menear

¿Aceptaría AEDE ampliar el protocolo ROBOTS para cobrar la cantidad exacta por los artículos de enlace remunerado?

Estoy seguro de que todas las empresas y usuarios de internet aceptarían, diseñarían y respetarían una extensión del protocolo robots.txt que indicase cuales son los contenidos por cuyos enlaces hay que pagar, a quién y cuánto.

13 3 8 K 10 tecnología

20 comentarios

13 3 8 K 10 tecnología

48 meneos

50 clics

El Boletín Oficial de Alicante decide no ser indexado por los buscadores

El Boletín Oficial de Alicante ha decidido que todo lo que se publique en su Boletín no aparezca en los buscadores de Internet. Hace uso del fichero robots.txt: ov.dip-alicante.es/robots.txt para indicar que todo el boletín al completo no sea indexado. La consecuencia es que nada de lo que se ha publicado en el BO de Alicante aparece ya en Google: www.google.es/search?q=site:ov.dip-alicante.es&oq=site:ov.dip-alic Relacionada: www.meneame.net/story/robots-txt-boe-google-no-indexe-condenas-indulto

41 7 2 K 62 tecnología

12 comentarios

41 7 2 K 62 tecnología

3 meneos

25 clics

La Casa Real aún sigue intentando eliminar a Iñaki Urdangarin

Como curiosidad, quitando la parte técnica del artículo que enlazo, exponen un caso de la Casa Real en el que se muestra que siguen intentando eliminar el rastro de Iñaki Urdangarin de su página web.

2 1 11 K -119 tecnología

2 comentarios

2 1 11 K -119 tecnología

22 meneos

567 clics

Este envío tiene varios votos negativos. Asegúrate antes de menear

Best robots.txt EVER

18 4 12 K 45 tecnología

15 comentarios

18 4 12 K 45 tecnología

4 meneos

46 clics

Los Repudiados

Muchos sitios web hacen uso de expertos en SEO (Search Engine Optimization) y SEM (Search Engine Marketing) para posicionar correctamente las páginas web junto con los resultados que les interesan. Esto es una dura tarea en varias áreas, pero podríamos simplificarla con un "Salir lo más arriba en los resultados de un buscador en los términos que interese a la compañía", lo que parece muy evidente, pero también "Salir lo más abajo o no salir junto a los términos que no interese".

3 1 0 K 45

1 comentarios

3 1 0 K 45

54 meneos

149 clics

Este envío tiene varios votos negativos. Asegúrate antes de menear

La Casa Real Española impide que Google indexe y rastree la palabra "Urdangarin" en su web

La Casa Real Española impide que Google (y el resto de buscadores) indexen y rastreen la palabra "Urdangarin" en su web. Enlace: www.casareal.es/robots.txt

49 5 34 K 110

49 comentarios

49 5 34 K 110

7 meneos

67 clics

El BOE, obligado a utilizar el fichero robots.txt

El derecho a ser olvidado en Internet también afecta al Boletín Oficial del Estado. El BOE ha sido obligado a usar el robots.txt para que los buscadores no puedan indexar determinados textos legales que afectan a datos personales. Así lo ha establecido la Agencia Española de Protección de Datos al resolver un recurso del propio BOE.

6 1 0 K 66

7 comentarios

6 1 0 K 66

48 meneos

889 clics

Este envío tiene varios votos negativos. Asegúrate antes de menear

El robots.txt de la SGAE

El robots.txt de la SGAE donde podemos ver es lo que quieren que google no indexe...

43 5 18 K 136

13 comentarios

43 5 18 K 136

12 meneos

65 clics

Los misterios del BOE

Los lectores y/o espectadores del libro/film 1984 recordarán cómo el protagonista trabajaba alterando las noticias del pasado. Si Oceanía pasa de ser aliado de Asia Oriental a ser su mortal enemigo, un ejército de burócratas volvían a re-escribir revistas y periódicos, hasta que las hemerotecas reflejaba fielmente lo que el gobierno ha dicho.En la actualidad, Internet se presta a una re-escritura de la historia.[...] ahora el BOE es electrónico. ¿Hasta qué punto estamos en condiciones de reescribir la Historia?

11 1 0 K 93

2 comentarios

11 1 0 K 93

1 meneos

36 clics

Aprende a configurar un "Robots.txt" para tu web. SEO

Son conocidos como Web Wanderers, Crawlers, or Spiders (Web vagabundas, rastreadores o arañas). ¿Que son los Robots Web? Son programas que recorren la Web de forma automática. Los motores de búsqueda como Google, Bing y Yahoo utilizan para indexar el contenido de la web. Bien hasta ahora ya tenemos un concepto de que es un Robot web, pues ahora les daré una pequeña guía de cómo utilizar el robots.txt...

1 0 5 K -48

sin comentarios

1 0 5 K -48

16 meneos

99 clics

Humans TXT: We Are People, Not Machines

A modo de homenaje del estándar Robots.txt (www.robotstxt.org/), un grupo de humanos ha creado Humans.txt, para mostrar de forma rápida y simple quiénes son las personas de carne y hueso que están detrás de una página web. (www.microsiervos.com/archivo/internet/humans-txt.html)

14 2 0 K 122

3 comentarios

14 2 0 K 122

24 meneos

Robots.txt anti Google Street View

Cuando queremos que un buscador no indexe nuestra página web utilizamos el fichero robots.txt, pero...¿Cómo hacer para que Google Street no viole la privacidad de nuestra calle o nuestro barrio?. En Eppelheim (Alemania) han encontrado un modo.

22 2 0 K 182

9 comentarios

22 2 0 K 182

3 meneos

configurar robots.txt

Analizamos desde el punto del seo la importancia de configurar robots.txt, o las metaetiqueta robots. ¿Qué les permitimos indexar y que no? Aquí estan algunas respuestas

3 0 8 K -56

3 comentarios

3 0 8 K -56

17 meneos

Manual de robots.txt y Sitemap, lo más olvidado de tecnicas SEO

El fichero robots.txt tiene la finalidad de indicarle a un webcrawler (spider / web-spider / crawler o como se conozca) lo que el diseñador del sitio le recomienda a la hora de inspeccionar web. Los Sitemaps son una forma fácil que tienen los webmasters para informar a los motores de búsqueda de las páginas que se pueden rastrear en sus sitios web...

15 2 1 K 107

sin comentarios

15 2 1 K 107

18 meneos

Este envío tiene varios votos negativos. Asegúrate antes de menear

Obama y el robots.txt de la Casablanca

Se ha hablando mucho acerca de cómo Barack Obama ha aprovechado internet para dar a conocer su candidatura y para conseguir movilizar votantes. También se ha comentado en muchos blogs el ambicioso plan tecnológico de Obama para EEUU (puede leerse aquí). Pero una de las cosas que ha llamado más la atención y que pocas personas han advertido: el cambio que ha sufrido el Robots.txt de la página web de la Casablanca, muy en línea con lo que Obama predica. En este artículo se muestra el robots.txt de Bush y se compara con el de Obama.

16 2 16 K -26

9 comentarios

16 2 16 K -26

2 meneos

EL nuevo robots.txt de Obama

Uno de los primeros cambios visibles con la llegada de Obama a la Casa Blanca es el que se ha producido en la página oficial www.whitehouse.gov, no solo en su aspecto, sino también en su robots.txt:

1 1 9 K -64

1 comentarios

1 1 9 K -64

4 meneos

Video de google sobre el fichero robots.txt

Google explica en su blog orientado a webmasters como se debe utilizar el archivo robots.txt para ocultar contenido al Googlebot.

4 0 1 K 15

sin comentarios

4 0 1 K 15

6 meneos

Diarios y publicaciones online implantaran nueva versión de “robots.txt” para proteger sus contenidos de los buscadores

El nuevo fichero, basado en una tecnología denominada ACAP, opera como un DRM fijando permisos para rastrear los ficheros contenidos en el servidor. El ACAP otorgará permisos a los buscadores y robots que indexan los sitios indicando que contenidos pueden rastrearse y por cuanto tiempo. Es como una especie de DRM de contenidos digitales y según los promotores de esta tecnología ofrece unos excelentes resultados como lo ha demostrado la prueba que durante un año se ha venido realizando con el buscador francés Exalead.

5 1 0 K 45

1 comentarios

5 1 0 K 45

38 meneos

Robots.txt : Todo lo que deberias saber

Un crawler es un robot de una entidad (generalmente buscadores) que acceden a las páginas web de un sitio para buscar información en ella, añadirla en los buscadores, etc.Por ejemplo, Googlebot es el nombre del crawler del buscador Google.

29 9 0 K 271

1 comentarios

29 9 0 K 271

11 meneos

Un robots.txt puede costar 10.000 dólares

A SEOBook se le ha ido la mano al usar comodines y las consecuencias no se han hecho esperar... Aunque corrigió el error inmediatamente Google ha sido más rápido que él y ha añadido a su lista de resultados suplementarios varias páginas reduciendo mucho su tráfico y haciéndole perder 10.000$.

9 2 0 K 82

sin comentarios

9 2 0 K 82

12 meneos

Este envío tiene varios votos negativos. Asegúrate antes de menear

ThursdayInternet deja al descubierto los datos personales de sus asistentes

De nuevo, una mala configuración del archivo robots.txt deja al descubierto TODOS los datos personales de los asistentes al evento ThursdayInternet, desde el teléfono, e-mail hasta la empresa y el cargo... Con lo fácil de configurar que es...

12 0 4 K 48

sin comentarios

12 0 4 K 48

suscripciones por RSS

Google es ahora el único buscador que funciona en Reddit gracias a un acuerdo sobre IA (ENG)

La desaparición de los datos que alimentan la IA: Un problema en auge

Google publica el código fuente de su analizador de robots.txt (ENG)

Google condenada a indemnizar con 8000 euros por indexar un indulto publicado en el BOE

¿Aceptaría AEDE ampliar el protocolo ROBOTS para cobrar la cantidad exacta por los artículos de enlace remunerado?

El Boletín Oficial de Alicante decide no ser indexado por los buscadores

La Casa Real aún sigue intentando eliminar a Iñaki Urdangarin

Best robots.txt EVER

Los Repudiados

La Casa Real Española impide que Google indexe y rastree la palabra "Urdangarin" en su web

El BOE, obligado a utilizar el fichero robots.txt

El robots.txt de la SGAE

Los misterios del BOE

Aprende a configurar un "Robots.txt" para tu web. SEO

Humans TXT: We Are People, Not Machines

Robots.txt anti Google Street View

configurar robots.txt

Manual de robots.txt y Sitemap, lo más olvidado de tecnicas SEO

Obama y el robots.txt de la Casablanca

EL nuevo robots.txt de Obama

Video de google sobre el fichero robots.txt

Diarios y publicaciones online implantaran nueva versión de “robots.txt” para proteger sus contenidos de los buscadores

Robots.txt : Todo lo que deberias saber

Un robots.txt puede costar 10.000 dólares

ThursdayInternet deja al descubierto los datos personales de sus asistentes

suscripciones por RSS

ayuda

+menéame

estadísticas