cultura y tecnología
253 meneos
1469 clics
Como una plaga de langostas: los bots de IA de OpenAI y Anthropic causan estragos y aumentan los costes de las páginas web

Como una plaga de langostas: los bots de IA de OpenAI y Anthropic causan estragos y aumentan los costes de las páginas web

La base de datos de Edd Coates, Game UI, se vio paralizada por el tráfico de una dirección IP de OpenAI. Las empresas de inteligencia artificial están rastreando agresivamente internet, causando estragos a su paso. Los propietarios de páginas web están viendo cómo se disparan sus facturas de computación en la nube por culpa del tráfico que generan los bots de IA.

| etiquetas: ia , openaim , anthropic , bots , computación
Comentarios destacados:                
#2 En un foro que administro está siendo un verdadero coñazo. Tenemos Cloudflare y una nueva (la anunciaron en julio, blog.cloudflare.com/declaring-your-aindependence-block-ai-bots-scraper) funcionalidad para cortarle el acceso a todos los bots conocidos, y eso nos ha salvado el culo. Antes de eso teníamos el número de conexiones al tope en casi todo momento (1200, casi todos de Facebook/Meta, que pasaban de robots.txt) y el foro era casi inaccesible para los usuarios normales. Y sin el tope ese nos habría arruinado por el consumo de ancho de banda.
En un foro que administro está siendo un verdadero coñazo. Tenemos Cloudflare y una nueva (la anunciaron en julio, blog.cloudflare.com/declaring-your-aindependence-block-ai-bots-scraper) funcionalidad para cortarle el acceso a todos los bots conocidos, y eso nos ha salvado el culo. Antes de eso teníamos el número de conexiones al tope en casi todo momento (1200, casi todos de Facebook/Meta, que pasaban de robots.txt) y el foro era casi inaccesible para los usuarios normales. Y sin el tope ese nos habría arruinado por el consumo de ancho de banda.
#2 Yo a un cliente le estaba destruyendo el rendimiento de la web los Bytespider de Bytedance (la dueña de Tiktok). Intentaban cargar un montón de URLs en paralelo y al dueño le suponía tener que quedarse 15 minutos más allá del cierre para poder grabar las ventas del día.

Hacen estragos afectando al mundo real ya.
#7 Y el consumo de electricidad... El foro del que yo hablo es uno de un jueguecito de 4x galáctico de código abierto (que por supuesto el github está más que destripado por Copilot). Meten una cantidad de mierda en el conjunto de entrenamiento de estas IAs que tira de culo.
#12 que juego? Tengo ganas de un 4X. El foro es en Español?
#32 En inglés. FreeOrion.

Yo me vicio a ese (solo en multiplayer con colegas porque la IA es demasiado tonta una vez que le pillas el tranquillo) y a Stellaris (de Paradox, de pago), que es un micromanagement hell pero bueno.
#2 mejor que el WAF de AWS?
#14 No puedo comparar. Como es un proyecto de código libre financiado por donativos hay poca pasta, así que nada de Amazon.
Lo que te puedo decir es que en el foro nos saltaba el mensaje de "demasiadas conexiones concurrentes" (>1200) más del 90% de los intentos de conexión, y que cuando sí entraba era lentísimo y de todas formas te tiraba el mensaje de error al siguiente botón que pulsases. Fue escribirnos con los de Cloudflare para que habilitaran el antibots y voilà, todo suave como la seda otra vez.
#2 últimamente ya estaba viendo cloudflare hasta en la sopa, pero es que no queda otra, al final todas estas macroempresas actuan como masivas redes pesqueras de arrastre que tasan internet de mala manera para su recogida de datos. A mas de un admin despistado le van a reventar el negocio.
#37 Años antes en el foro no teníamos Cloudflare y cuando se pusieron de moda los web scrappers nos llegó una factura de más de 1000 euros, y porque lo pillamos a tiempo y bloqueamos el foro hasta encontrar una solución (que fue Cloudflare). No veas el roto en la cuenta del proyecto...
#2 Pero los bots ya rastreaban desde hace muchos años, como google.
Y algunos no hacen caso del robots.txt, noindex, etc. (con lo que al final había que mirar el useragent para bloquearlos)
#43 Algunos de estos bots modernos usan como user agents cosas como esta:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36
Indistinguibles de usuarios reales. Los muy higüeputa.
Algún día algún economista o historiador describirá esta época como una nueva iteración de la Acumulación Originaria marxista pero aplicada a la IA Generativa y el siglo XXI. Y para entonces ya habrá calado en el común de los mortales, como antaño, la mistificación ideológica sobre los orígenes de la era de la Inteligencia Artificial.
Ojalá sirva para curar el cáncer, y no para hacer un deepfake de tu vecina en pelotas o resultados falsos de ChatGPT, quemando media selva amazónica (o la cremación masiva de capitales vitales para industrias productivas) en el camino.
#1 el proceso de acumulación originaria en España fueron las desamortizaciones, donde las tierras comunales principalmente y en menor medida las de iglesia y nobleza pasaron a manos de la clase burguesa. Los datos que recopilan l IAs no dejan de estar disponibles para otros, las tierras sí.
#3 "Los datos que recopilan l IAs no dejan de estar disponibles para otros"

De momento. Ya hay sectores que están empezando a dejar de compartir contenidos tan alegremente en la red frente a un leviatán que mercantiliza y uniformiza cualquier atisbo de creatividad borrando autores. E incluso por ejemplo algunas empresas de software de diseño (como Adobe o Procreate) están reculando (aunque sea de cara a la galería) porque el saqueo generalizado a sus clientes se ha salido de madre.
#24 pues de momento no hay alguien que esté acumulando, en exclusiva, los datos. Incluso como dices hay fricciones y algunos reculan, ahora mismo se está dirimiendo cómo va a funcionar esto, pero no ha habido ningún proceso de acumulación aún similar al de Marx. Que podría haberlo, pero tendría que venir desde el estado, vía alguna regulación que de eso como resultado.
#3 Ahí fallas en el enfoque. Mucha gente "vive" de los anuncios que pone en sus páginas donde cuelgan el contenido/conocimiento que han generado.

Si de repente una IA lo fusila todo y pasas a pagar por un servicio para pedir eso a la IA en lugar de acudir a la página original... ya te imaginarás las consecuencias para el futuro del negocio; la película de siempre en la que unos pocos que manejan mucho se quedan toda la riqueza.

Es el equivalente de que no te quiten tus tierras pero sí todo el producto que en ellas produces.

cc/ #1
#50 el paradigma está cambiando, eso seguro, pero no se ha dado aún eso que dices no está claro que se vaya a dar así. Que podría darse, pero por ahora no ha ocurrido nada parecido a una “acumulación originaria”.
#53 "pero por ahora no ha ocurrido nada parecido a una “acumulación originaria”. "

¿Crees que sitios como Stackoverflow y similares no han visto reducido el número de visitas de desarrolladores por los que están usando y buscando con IA? Una parte significativa de sus ingresos es por visitas de usuarios reales, no de bots.

A medida que evolucione y mejore la IA, esta se va a convertir en una mafIA debido a la acumulación de poder descontrolada. Otro pasito más en el espíritu del capitalismo salvaje, donde si todos fuésemos honrados funcionaría correctamente, pero a un psicópata que haya se jode el invento.
#55 insisto, nadie ha hecho una “acumulación originaria”.

Justamente está pasando lo contrario en realidad, se copian unas a otras , se restringen, protegen su contenido, etc…

La acumulación originaria consistió en que el estado expropiaba a la fuerza tierras a las “mano muertas” y la vendía al único grupo social que podía pagarla, que se hizo con el control de todas.

Las consecuencias derivadas de la IA se deben a que sus resultados son mejores y la gente las prefiere, nadie se ha adueñado en exclusividad de nada
#58 En unos años veremos cómo transcurre todo, pero mucho me temo que los creadores originales de contenido de calidad no van a retirarse de sus royalties.
#59 eremos si, pero la Ia no deja de ser un refrito, pero yo si creo que los autores originales y los "curadores"/criticos con criterio propio van a estar al alza en un futuro cercano
#58 Las Big Techs no se han pronunciado abiertamente pero les interesa la promesa de Trump de desregular más el sector (no regular es una forma de imponer "dejando hacer"), lo que en la práctica no sería buena noticia para sectores enteros (no sólo creadores de contenidos), e incluso empresas que verían como su propiedad intelectual (propiedad) y marcas registradas quedan anuladas y los nuevos actores (inundados de dinero por grandes inversores que son los que tienen la capacidad de…   » ver todo el comentario
#1 mientras sea bajo un sistema capitalista que no te quepa duda de que será quemando el amazonas y mostrando tías en pelotas.
#5 al final la balanza queda equilibrada, entonces: la nobleza de una causa compensa la vileza de la otra :troll:
#1 De curar el cáncer, la patente quedará en manos de una empresa. Pero, de las tropecientas mil chorradas para las que sirve un sistema experto (sí, sistema experto) que gracias a la IA puede manejar cualquier patán para intentar monetizarlas a costa de un consumo y emisiones desaforadas, de eso mejor que no hablemos.
#20 Y la llamaremos "SecretarIA"... :troll:
#4 Internet hace más de una década que murió.
#4 Ya habrá bots basados en IA defendiendo dicha teoría en X, seguro.
Pues va a ir a más... ahora ha salido una IA a la que le dices a qué ciudad vas y qué día, y se dedica a llamar a todos los hoteles de la ciudad para intentar pedirles algún descuento. Si los hoteles se saturan de llamadas, tendrán que poner a una IA para que las conteste.

Seguramente se extenderá a los individuos, nadie llamará directamente a otra persona, mi IA llamará a tu IA, entre ellas se pondrán de acuerdo y nos darán un resumen de la conversación.
#6. Los acuerdos entre IAs no deberian tener valor legal alguno. En menudos lios nos podrian meter a todos ese tipo de "acuerdos".
#9 y sin tanta IA. Eso pasa hace mucho con las compras automáticas de valores en bolsa..y con total validez
#13 Sí, si usas bots para operar en bolsa, el responsable de las operaciones no es el que programó los bots, es el que los usa, el dueño de la cuenta. Con la IA no habría diferencia, ella hace algo en tu nombre pero el responsable serías tú que eres el que le ha pedido que lo haga.
#9 A priori no lo tendrían, la aplicación que digo no llega a hacer la reserva, llama a todos los hoteles, regatea el precio con ellos y luego te dice cuáles son los más baratos y en cuáles ha conseguido mejores descuentos. Luego tú tienes que llamar.

Pero el siguiente paso está claro, podrás delegar en la IA la facultad de llegar a acuerdos legales, para que sea ella la que te contrate directamente lo que necesites. Imagina por ejemplo que tienes una IA que todos los meses te busca la tarifa eléctrica más barata y te cambia de compañía.
#6 Eso la mafia lo llama, pagar por "proteccion". (tener que contratar un servicio de ia para bloquear o gestionar los "ataques" por ia)
#10 No pierdas la ocasión de escribir mafIA, hombreh
#16 Botando la tenía. Qué ocasión desperdiciada... xD
#6 HipertrofIA?
#6 Mi propia IA me va ahorrar tener que comunicarme con la gente?!? COMPRO!!! :troll:
#6 No sabía yo que se podía negociar con los hoteles.
#33 Claro que sí. Lo mejor suele ser buscarlo en booking, y luego contratarlo llamando directamente al hotel, te lo agradecen porque se ahorran una buena comisión, y a veces te hacen descuento.

Pero claro, si todo el mundo se pone a usar una aplicación así, los hoteles dejarán de coger el teléfono y pondrán a una IA que no dará descuentos.

Lo más curioso de esta aplicación es que es capaz de mentir, quizás habría que legislar para que las IAs no pudieran mentir a humanos, en una de las…   » ver todo el comentario
#38 a mí una IA se presentó con un jovial “Hola, soy Roberto”, le pregunté si era un robot y me dijo que yo le notaba mecánico porque hablaba con muchas personas al día. Luego le pregunté el nombre de su cuñado y volvió a presentarse.

Va a llegar un momento en que no se les pueda distinguir salvo que seamos rápidos haciendo preguntas inesperadas.
#6 Se pondrán de acuerdo entre ellas para sacarte el dinero e invertirlo en nuevo hardware, que incluso le dé movilidad :-D
Existen multitud de filtros en el mercado contra tales bots, cualquier administrador o programador debería estar al corriente. Por ejemplo, en cloudflare (gratis). Adjunto captura de pantalla de unos cuantos bots bloqueados de mi web personal sólo en las últimas 24 horas, casi sin tráfico xD  media
#17 Es que si la gente pensara, los asusta viejas se quedaban sin titulares con el que alarmar a la población del intelné
#17 Desde mi total ignorancia... en el artículo hablan precisamente de lo que has comentado (aplicado a robots.txt eso sí), y como muchos se los saltan en según qué contextos (como Meta/Facebook).
#19 eso suele funcionar con los bots "spider" de Google y similares, pero cada buscador suele tener distintas reglas. Y que lo respeten o no, eso depende sólo de ellos.
#17 Cloudflare no es "gratis". Si lo usas, le estás "regalando" tu tráfico.

Recuerda: Cuando un producto es gratis, el producto eres tú.
#22 Y cuando pagas también.
#22 como crycom ya te contestado: cuando pagas, también regalas tu tráfico a otro tercero. Nadie te promete que tu proveedor de hospedaje o ISP no haga lo mismo, por otro lado. El cuento de "gratis" ya me lo conozco bien, soy un profesional del sector desde hace demasiados años.

Hay múltiples medidas de protección. Nadie te impide montar tu propio proxy inverso con nginx y sin intermediarios. O no hacer ni lo uno ni lo otro: quedarse de brazos cruzados y luego llorar con los DDOS :-D Cada cual se lo monta como mejor le parezca ¯_(ツ)_/¯ pero... Merece la pena el dolor de cabeza? Allá tú con tus recursos.
eso ya lo hacían los bots de google hace 20 años xD
#47 Se les redirige a una supuesta web comprimida con gzip (se lo dices mediante ra respuesta HTTP), que en realidad va a ser un fichero comprimido recursivamente de los que te dejan sin RAM y/o almacenamiento :-)
#57 me gusta tu estilo xD
#47 Si ya, como las listas de spam de vodafone no? al final consiguen pasar xD
Seria como un DDOS no? y un DDOS se persigue legalmente...
#11 los bots esos, ¿Se pasan el robots.txt por el forro?
#40 Evidentemente... xD
#41 entonces, se les reserva un sitio en el iptables :troll:
¿Alguna solución? Puesto que pasan de lo marcado en robots.txt
¿Hay alguna diferencia real entre los bots para entrenar IAs y los que llevan existiendo 20 años? Porque parece una noticia para echar mierda sin más
Este es un aspecto de las IA, pero mucho peor es el tema del consumo de energía. Es demasiado alto para ser sostenible, por lo que opino que la cosa bajará mucho cuando la IA se caiga del hype.
#29 El hype va a ir más porque aún no ha alcanzado su cenit, la gente quiere más IA, la gente quiere que la imágen que ha creado sea una película y que luego esa película sea interactiva.
Así que ese es el modelo de negocio de las IAs, un proveedor de servicios en la nube las contrata para que estresen los portales web y así ellos puedan facturar más a dichas webs :-O
#25 No le había dado una vuelta a esa idea pero me parece muy buena puntualización. Microsoft le hace una rebaja importante a OpenAI por el uso de su infraestructura, por debajo del resto de clientes (MS a su "altura ética" de siempre). A saber si la contraprestación viene por donde comentas.  media
comentarios cerrados

menéame