edición general
301 meneos
2310 clics

Un desarrollador crea un laberinto infinito que atrapa a los robots de entrenamiento de IA (ENG)

Un programador ha creado y publicado un «pozo de alquitrán» de código abierto para atrapar indefinidamente rastreadores web de entrenamiento de inteligencia artificial en una serie de páginas generadas aleatoriamente para hacerles perder tiempo y potencia de cálculo. El programa, llamado Nepenthes por el género de plantas carnívoras que atrapan y consumen a sus presas, puede ser utilizado por los propietarios de páginas web para proteger sus propios contenidos contra el «scraping» o puede desplegarse «ofensivamente» como una trampa.

| etiquetas: ia , crawlers , raspadores , laberinto , nepenthes
Algunos héroes llevan teclado
15 comentarios y ninguno ha dicho que el laberinto en realidad era la web de Renfe?
#17 Unos visionarios.
#17 Es que ha dicho que es infinito, no el transfinito ℵω :troll:
Vosotros ir tocando los algoritmos huevos a las IA y a los robots y veréis como acaba todo.
#32 Reza un rosario y lo mismo funciona mejor que eso.
Para mi, ese fichero es un pacto entre caballeros, una especie extinta desde hace muchísimo.
Que las pongan a competir en una partida de tres en raya :troll:
Debe ser el mismo sádico que inventó los laberintos para los ratones.
#7 y luego los establecimientos de ikea
Enseñando a la IA a reconocer el algoritmo y pirarse en 3,2,1....
#4 será peor te marcarán como "Rogue" por meter basura a las ias de los grandes y el tráfico legítimo no podrá encontrarte. Así es el tecnofeudalismo
#10 No me extrañaría que si jodes a Gemini, el buscador clásico de Google te penalice. Cada vez más buscadores implementan IA, por lo que puede ser una mala idea salvo que sea una web que no quieras posicionar.
#30 Pero si ya el posicionamiento es de pago
#31 No conozco muy bien el tema de las IA, pero en el caso de Google, el algoritmo es una basura y es imposible posicionarte salvo si pagas a una web con mucha autoridad para que te enlace.
#30: ¿Ese no es el signo de los que si te pones a hablar con ellos pueden tirarse horas y horas contándote cosas? xD

Pues lo mismo busca contraatacar la curiosidad que también caracteriza a ese signo usando sus mismas armas comunicativas, a base de contar una y otra cosa, que siempre hay una curiosidad nueva que aprender para cada ocasión.

Por cierto, ¿sabíais que la Wikipedia es su perdición? xD  media
#10 Advierte que usarlo hace desaparecer la web de todos los motores de búsqueda, no por las intenciones que tenga si no por el hecho de que el contenido que genera es interminable. Cc #30 es lo que dice el artículo.
#10 Incluso peor, pueden enviarte un requerimiento administrativo a resolver en la administración autonómica.
#4 Muy probablemente el próximo modelo que haya sido entrenado y "vea" esa web...

A parte, no se qué beneficio puede tener el dificultar el entrenamiento de las AI... yo uso todo local, así que mientras mejor sean, más me beneficiaré.
Lo mismo para investigadores, medicina, empresas, etc, etc...
#12 Que te destrozan el ancho de banda del servidor. A alguno le han acabado haciendo un ataque de denegación de servicio.

Es como la época que cambiábamos las imágenes por una polla para putear a los que te hacían hotlinking. No arreglabas nada, pero te reías un rato.
#13 ya nadie usa el robots.txt?
#32 las ias agresivas lo ignoran y te revientan. Chatgpt y Gemini si lo utilizan, pero hay muchas otras que no y te revientan. Curro para una empresa con muchas páginas públicas con mucho trafico y es un problemon que de pronto a las 4am tengas el pico de trafico más grande del año.
#13 Con texto? Normalmente lo "descargan" y lo "analizan" offline...
#13 #29 ¿Y si haces un "laberinto", no sobrecargas aún más el servidor?
#12 sobrecargas tu servidor de ancho de banda y te hacen pagar más cuota de server.
#12: Motivos hay muchos, a mí no me imoorta que me copien los humanos para hacer cosas típicas de humanos.

Que me copie un sistema automatizado que podría destruir empleo y perjudicar a otros humanos sí me importa.

Y ya no te digo si encima es ignorando las licencias y permisos de los sitios, que yo soy bastante abierto pero no tanto.
Y así empezó la guerra contra las máquinas... tocándoles los microchis... calienta John Connor que sales
Se ve que el robots.txt está sobrevalorado...
#21 O que las arañas se lo pasan por el forro de las narices.
#21 Eso solo vale para indicarles donde buscar. xD
Música para mis oídos neoluditas.
Yo quiero algo similar para los que llaman de mi comercializadora eléctrica
#16 El nombre es 100% esclarecedor para los que pintamos canas.
#9 Conoci a uno que decia: "Eso lo lleva mi hija de 3 años" y le pasaba el telefono :-D
#18 Me encanta xD
el profesor Falken estaría orgulloso
Pues me parece una idea cojonuda la verdad
#0 creo que el corrector te la ha jugado con "pseudonimo"
#1 viene de deepl pero no tiene mucho sentido, quito la palabra, gracias
Pero no lo digas huevón!!!
No he visto cómo funciona pero si usa técnicas tipo "slow loris" puede ser muy útil y gastar muy poco.
#44 en qué consiste?
#48 en dar la respuesta muy despacito para mantener la conexión abierta el mayor tiempo posible y llenar su tabla de conexiones con conexiones 'recibiendo' datos a muy baja velocidad.

Se usa en ataques ddos para que los firewalls no detecten picos de trafico y te corten.
No está mal. Tendrán que consumir contenido y preprocesarlo para poder saber si es válido o no. Que paguen por el contenido, que todo cuesta en esta vida.
A complicar más las cosas a Wayback Machine...
Tiempos viejunos....
<meta name="robots" content="noindex, nofollow">
#34 como ponen por aquí arriba, esto sólo funciona si se le quiere hacer caso, al final
Francamente, dudo que este tipo de comportamiento no sea detectable y que no se puedan programar contramedidas frente a este tipo de cosas... estoy casi seguro de que los principales LLM seguramente ni caigan en la trampa y que en el momento en que "les marees la perdiz" y vea más de 10-20 ramificaciones o más de X minutos en tiempos de espera seguramente tiren del enchufe o marquen esa fuente de información como fruta de árbol venenoso. :-D
Lo malo es que atrapes a un robot de búsqueda, quemes tu presupuesto de rastreo y te desindexe las páginas.

Es un arma de doble filo.
There is not currently a way to differentiate between web crawlers that are indexing sites for search purposes, vs crawlers that are training AI models. ANY SITE THIS SOFTWARE IS APPLIED TO WILL LIKELY DISAPPEAR FROM ALL SEARCH RESULTS.
Algunos no saben qué hacer para que se visiten sus webs y otros no saben qué hacer para que no.
:troll:

menéame