Un desarrollador crea un laberinto infinito que atrapa a los robots de entrenamiento de IA (ENG)

301 meneos

2310 clics

Un desarrollador crea un laberinto infinito que atrapa a los robots de entrenamiento de IA (ENG)

Un programador ha creado y publicado un «pozo de alquitrán» de código abierto para atrapar indefinidamente rastreadores web de entrenamiento de inteligencia artificial en una serie de páginas generadas aleatoriamente para hacerles perder tiempo y potencia de cálculo. El programa, llamado Nepenthes por el género de plantas carnívoras que atrapan y consumen a sus presas, puede ser utilizado por los propietarios de páginas web para proteger sus propios contenidos contra el «scraping» o puede desplegarse «ofensivamente» como una trampa.

| etiquetas: ia , crawlers , raspadores , laberinto , nepenthes

129 172 0 K 505 tecnología

52 comentarios

129 172 0 K 505 tecnología

Comentarios destacados:

#8 Cantro

Algunos héroes llevan teclado

15 158

#17 javipe

15 comentarios y ninguno ha dicho que el laberinto en realidad era la web de Renfe?

10 100

#22 Brigo

Unos visionarios.

1 20

#23 troll_hdlgp *

Es que ha dicho que es infinito, no el transfinito ℵ_ω

2 29

#47 mcfgdbbn3

: O la de Trenfe: sites.google.com/site/trenfeweb/home

0 11

#6 karakol

Vosotros ir tocando los ~~algoritmos~~ huevos a las IA y a los robots y veréis como acaba todo.

3 50

#41 Jesulisto

Reza un rosario y lo mismo funciona mejor que eso.
Para mi, ese fichero es un pacto entre caballeros, una especie extinta desde hace muchísimo.

3 42

#5 cybermouse

Que las pongan a competir en una partida de tres en raya

3 38

#7 jjmf

Debe ser el mismo sádico que inventó los laberintos para los ratones.

3 37

#20 diablos_maiq

y luego los establecimientos de ikea

10 96

#4 perej

Enseñando a la IA a reconocer el algoritmo y pirarse en 3,2,1....

3 30

#10 thorpedo

será peor te marcarán como "Rogue" por meter basura a las ias de los grandes y el tráfico legítimo no podrá encontrarte. Así es el tecnofeudalismo

18 150

#30 UNX

No me extrañaría que si jodes a Gemini, el buscador clásico de Google te penalice. Cada vez más buscadores implementan IA, por lo que puede ser una mala idea salvo que sea una web que no quieras posicionar.

2 33

#31 saqueador

Pero si ya el posicionamiento es de pago

2 30

#39 UNX

No conozco muy bien el tema de las IA, pero en el caso de Google, el algoritmo es una basura y es imposible posicionarte salvo si pagas a una web con mucha autoridad para que te enlace.

1 18

#45 mcfgdbbn3 *

: ¿Ese no es el signo de los que si te pones a hablar con ellos pueden tirarse horas y horas contándote cosas?

Pues lo mismo busca contraatacar la curiosidad que también caracteriza a ese signo usando sus mismas armas comunicativas, a base de contar una y otra cosa, que siempre hay una curiosidad nueva que aprender para cada ocasión.

Por cierto, ¿sabíais que la Wikipedia es su perdición?

0 11

#52 Aergon *

Advierte que usarlo hace desaparecer la web de todos los motores de búsqueda, no por las intenciones que tenga si no por el hecho de que el contenido que genera es interminable. Cc es lo que dice el artículo.

1 14

#40 cutty

Incluso peor, pueden enviarte un requerimiento administrativo a resolver en la administración autonómica.

1 20

#12 ralph

Muy probablemente el próximo modelo que haya sido entrenado y "vea" esa web...

A parte, no se qué beneficio puede tener el dificultar el entrenamiento de las AI... yo uso todo local, así que mientras mejor sean, más me beneficiaré.
Lo mismo para investigadores, medicina, empresas, etc, etc...

4 47

#13 cosmonauta

Que te destrozan el ancho de banda del servidor. A alguno le han acabado haciendo un ataque de denegación de servicio.

Es como la época que cambiábamos las imágenes por una polla para putear a los que te hacían hotlinking. No arreglabas nada, pero te reías un rato.

14 108

#32 LezoDeBlas

ya nadie usa el robots.txt?

0 9

#36 melocotoneroh

las ias agresivas lo ignoran y te revientan. Chatgpt y Gemini si lo utilizan, pero hay muchas otras que no y te revientan. Curro para una empresa con muchas páginas públicas con mucho trafico y es un problemon que de pronto a las 4am tengas el pico de trafico más grande del año.

1 18

#33 ralph

Con texto? Normalmente lo "descargan" y lo "analizan" offline...

0 10

#50 orangutan

¿Y si haces un "laberinto", no sobrecargas aún más el servidor?

0 10

#29 Astarion

sobrecargas tu servidor de ancho de banda y te hacen pagar más cuota de server.

1 17

#46 mcfgdbbn3

: Motivos hay muchos, a mí no me imoorta que me copien los humanos para hacer cosas típicas de humanos.

Que me copie un sistema automatizado que podría destruir empleo y perjudicar a otros humanos sí me importa.

Y ya no te digo si encima es ignorando las licencias y permisos de los sitios, que yo soy bastante abierto pero no tanto.

0 11

#11 jaramero

Y así empezó la guerra contra las máquinas... tocándoles los microchis... calienta John Connor que sales

2 28

#21 troll_hdlgp

Se ve que el robots.txt está sobrevalorado...

2 28

#35 sxentinel

O que las arañas se lo pasan por el forro de las narices.

5 57

#37 FooDev

Eso solo vale para indicarles donde buscar.

4 45

#28 Astarion

Música para mis oídos neoluditas.

2 27

#9 a69

Yo quiero algo similar para los que llaman de mi comercializadora eléctrica

1 22

#16 comadrejo

www.voip-info.org/asterisk-telemarketer-torture/

2 31

#25 JuanCarVen

El nombre es 100% esclarecedor para los que pintamos canas.

1 21

#18 dilsexico

Conoci a uno que decia: "Eso lo lleva mi hija de 3 años" y le pasaba el telefono

3 40

#24 BM75

Me encanta

2 29

#42 sheuron

el profesor Falken estaría orgulloso

1 20

#27 ed25519

Pues me parece una idea cojonuda la verdad

1 20

#1 Jesulisto

creo que el corrector te la ha jugado con "pseudonimo"

1 19

#2 ccguy

viene de deepl pero no tiene mucho sentido, quito la palabra, gracias

0 20

#3 chocoleches

Pero no lo digas huevón!!!

1 18

#44 LlevoRazonYpunto

No he visto cómo funciona pero si usa técnicas tipo "slow loris" puede ser muy útil y gastar muy poco.

1 17

#48 U5u4r10

en qué consiste?

0 9

#51 LlevoRazonYpunto

en dar la respuesta muy despacito para mantener la conexión abierta el mayor tiempo posible y llenar su tabla de conexiones con conexiones 'recibiendo' datos a muy baja velocidad.

Se usa en ataques ddos para que los firewalls no detecten picos de trafico y te corten.

1 15

#19 Berto_el_del_bombo

No está mal. Tendrán que consumir contenido y preprocesarlo para poder saber si es válido o no. Que paguen por el contenido, que todo cuesta en esta vida.

1 16

#14 Jakeukalane

A complicar más las cosas a Wayback Machine...

0 11

#34 Marisadoro

Tiempos viejunos....
<meta name="robots" content="noindex, nofollow">

0 11

#43 Jells

como ponen por aquí arriba, esto sólo funciona si se le quiere hacer caso, al final

1 17

#15 Westgard

Francamente, dudo que este tipo de comportamiento no sea detectable y que no se puedan programar contramedidas frente a este tipo de cosas... estoy casi seguro de que los principales LLM seguramente ni caigan en la trampa y que en el momento en que "les marees la perdiz" y vea más de 10-20 ramificaciones o más de X minutos en tiempos de espera seguramente tiren del enchufe o marquen esa fuente de información como fruta de árbol venenoso.

0 10

#38 Emosido_engañado

Lo malo es que atrapes a un robot de búsqueda, quemes tu presupuesto de rastreo y te desindexe las páginas.

Es un arma de doble filo.

0 9

#49 U5u4r10

There is not currently a way to differentiate between web crawlers that are indexing sites for search purposes, vs crawlers that are training AI models. ANY SITE THIS SOFTWARE IS APPLIED TO WILL LIKELY DISAPPEAR FROM ALL SEARCH RESULTS.

0 9

#26 Tecar

Algunos no saben qué hacer para que se visiten sus webs y otros no saben qué hacer para que no.

0 7

menéame

condiciones legales / de uso / y de cookies
/ quiénes somos
/ licencias: código, gráficos, contenido
/ HTML5
/ codigo fuente

más visitadas

DeepSeek y los tapones de plástico

La ONU activa por primera vez el Protocolo de Seguridad Planetaria por un asteroide peligroso: hay cinco posibles zonas de impacto

El ridículo de Franco en un vídeo de 1937

Un estadounidense llama a inmigración para que detenga a indocumentados en un supermercado

Chequia: El gobierno llevaba 7 años planeándola, los castores construyeron la presa en 2 días y les ahorró 1 millón de dólares [ENG]

más votadas

El Gobierno prohibirá este febrero las llamadas comerciales que se realizan con números de teléfono móvil

Tesla niega que el nombre de su nuevo Tesla Führer SS88 haga alusión alguna al nazismo y no entiende por qué se está vendiendo tan mal

Abogados Cristianos pierde la apelación y tendrá que pagar costas a los editores de 'El Niño Jesús no odia a los mariquitas'

Ayuso, acorralada en la Asamblea por su "matrimonio" con Ana Rosa: un "trato de favor" de 11 millones

Musk destituyó al jefe de la FAA de su cargo 10 días antes del accidente del avión y helicóptero en Washington

suscripciones por RSS

Un desarrollador crea un laberinto infinito que atrapa a los robots de entrenamiento de IA (ENG)