Tecnología, Internet y juegos
257 meneos
1500 clics
The Internet Archive está colapsado y la culpa la tiene una IA en proceso de entrenamiento

The Internet Archive está colapsado y la culpa la tiene una IA en proceso de entrenamiento

The Internet Archive se ha visto obligada a comunicar a los usuarios que su funcionamiento no está siendo el adecuado y el principal culpable detrás de esto es una IA que se encuentra en entrenamiento y que, por desgracia, está accediendo a toda la información de la página web de forma incesante. Al acceder de tal manera lo que está causando es que The Internet Archive sufra caídas de forma continúa y, sobre todo, que los usuarios no puedan visitar el enorme archivo de Internet que se almacena dentro de esta página web. Es un grave problema tan

| etiquetas: internet , archive , colapsado , ia , proceso , entrenamiento
114 143 6 K 439
114 143 6 K 439
Comentarios destacados:                  
#9 #8 bloquear bots maliciosos y/o abusivos no tiene nada que ver con la neutralidad en la red
  1. La neutralidad en la red, ese concepto de hace unos 10 años, debería estar más vigente que nunca: si unos desarrolladores de IA acaparan de esta manera un recurso como este, habrá que ver como limitarles y que siga teniendo acceso decente todo quisqui.
  2. Mejor dicho, un cabrón o una empresa cabrona que se aprovecha de recursos públicos para todos.
  3. Llegado el caso de necesitar acceso continuo ¿No sería mejor hacer una copia local de su base de datos? Y ¿Cuanto podría ocupar? No se si esa info está disponible acabo de buscarlo y son como 30 petabytes, unos 20000 discos duros. Y añaden unos 14 terabytes diarios, sobretodo de programas televisivos.
  4. #2 "recursos públicos"

    Cuéntame más
  5. #3 lo más razonable sería que limitaran acceso por ip de origen con algún tipo de cuota.
  6. Noticia erronea, en su momento dijeron que podría ser eso, al poco dijeron que no era el caso y en el comunicado del blog al que enlaza la noticia no dicen nada de una IA.
  7. #1 eso es lo contrario de la neutralidad de la red, que es tratar a todos por igual independientemente de para que usen la red. Y en este caso no es "la red" son los servidores de TIA
  8. #8 bloquear bots maliciosos y/o abusivos no tiene nada que ver con la neutralidad en la red
  9. #1 ??

    Qué tendrá que ver un DDOS (la noticia) con la neutralidad en la red? Esto es más bien un problema de distribución y acceso de recursos eficiente (técnico) y no un problema con la sacrosanta neutralidad de la read (problema político). La solución es que a la IP de esa IA se le asigne una cuota de acceso como se hace con cualquier otro sitio con IPs que abusan y ya está.
  10. #6 si yo fuera el webmaster de eso, ya estaría bloqueado todo ese rango de IPs
  11. #5 Bueno, es una organización sin ánimo de lucro y el contenido es de dominio público o similares. Igual no es 100% preciso, pero más o menos.
  12. #7 twitter.com/internetarchive/status/1662999547138945030?t=z3pzk-LASwhvw

    Internet Archive no tiene problema con que accedan al archivo (para eso esta) ni a que entrenen IAs con el, solo quieren que se haga de forma ordenada o mas tranquila

    Hay que ver que tirria le tiene la gente a la ia en este sitio, ennportada en 8 min siendo errónea
  13. #12 Lo que pasa que la gente confunde público con estatal.
  14. #13 la noticia no es erronea, la capacidad de los servidores se ve mermada al intentar acceder a todos esos documentos, lo cual hace petar
  15. #15 es erronea porque ningun proceso de entrenamiento de IA lo ha causado. Lo puso internet archive en twitter ybal poco dijeron que no era asi. En el comunicado del blog que enlaza la noticia no se menciona nada.

    La culpa no la tiene ninguna IA, al parecer es un usuario particular
  16. #15 De ahí el nombre de Petabyte. Porque si intentas acceder a todo eso al final peta.
  17. #1 La neutralidad de la red es justo lo contrario: no penalizar ni favorecer a ningún usuario de un servicio online por cualquier motivo.

    Dicho esto, es normal cortar bots y aplicar políticas de control del tráfico y del caudal de datos (traffic shaping y traffic throttling) para evitar que tiren un servicio, incurran en muchos gastos para el proveedor o simplemente se apropien de datos que no son de su propiedad.
  18. #10 Sería más bien un DoS, una sola 'D', ya que no es distribuido.
  19. #1: O mejor aún: si abusas de la conexión de un ordenador público para un fin lucrativo, tener que pagar una parte de esa conexión.

    Es que luego van y después de aprovecharse de todo, te sacan la AI sin citar autorías ni nada. Ya lo de los derechos de copia olvidado, porque lo que hay en Internet Archive en bastantes casos tiene todos los derechos de copia reservados, y lo que es Creative Commons, ni se mirarán qué es BY-SA (copyleft), lo que es NC-ND que es casi un copyright total... nada, todo a la coctelera y a los derechos del usuario final con las licencias Creative Commons y GPL, que les den. :palm: Luego vendrán los lloros cuando se ponga coto a todo esto, porque aquí el enfrentamiento va a ser doble: con las entidades de derechos de autor tradicionales (como la SGAE) y las que defienden la cultura libre, pero con derechos para el usuario final (licencias GPL y CC BY-SA y otras semilibres).

    Por cierto, mis comentarios en Menéame, salvo citas ajenas, son Creative Commons BY-SA, y las fotos adjuntas que sean de mi autoría (las que están hechas con una cámara PWNCAM for Special Trolling de Trollface), también son CC BY-SA.
  20. #16 Pues sí que estudia el chico ese, sí.
  21. #9 Un poco sí: neutralidad significa que no juzgas si son maliciosos o no según el criterio de alguien.

    ¿Qué tal si esta IA que están entrenando va a ser la que nos de la solución al calentamiento global o a la fusion nuclear? ¿Hay que bloquearla sólo porque usa mucho?
  22. #1 Tampoco es culpa de la IA en sí mismo, al final parece que la mala siempre es la IA. Eso pasa mucho con otro tipo de herramientas que extraen o indexan datos, todo ese tipo de herramientas tiene que tener límites de peticiones y de datos, es más, lo mismo deberían informar y pedir permiso aunque sea por cortesía.

    Lo normal en casi cualquier plataforma es que tenga su API para ese tipo de cosas, y muchas veces de pago.
  23. #21 Estaba copiándose internet en un disquete. Yo lo hago una vez al año, para tener todo más o menos actualizado si se va la red.
  24. #14 En general, la gente confunde términos especializados/técnicos con coloquiales, ambos usos son totalmente válidos según el contexto.
  25. #21 Y más que estudiar... ¿Cuánta pasta tiene para almacenar todo eso?
  26. #16 la caída realmente se debió a una oleada de tráfico "abusivo" de AWS, los servicios de computación en la nube de Amazon. De una empresa de inteligencia artificial que recolecta textos de Internet Archive a un ritmo extremo ( Ya sea el uso de Chatgpt, el que tambien cuenta como una IA) La noticia en si no es erronea!
  27. #9 Eso digo yo, la neutralidad de la Red se refiere a los proveedores de tráfico pero no a que yo no pueda hacer lo que me parezca con mi servidor o servicio.
  28. #13 La gente en general odia las nuevas tecnologías que no entienden, pasó con internet, el enemigo público número 1 en los 90, luego esos mismos aprendieron a usar internet para decir cuánto odiaban las criptomonedas, ahora usan internet para decir lo mala que es la IA, y en pocos años aprenderán a usar la IA para que les escriba comentarios diciendo lo mucho que odian la siguiente nueva tecnología que venga.
  29. #22 La neutralidad de la red es neutral. No debes juzgar a alguien por temas políticos (IA que investiga como hacer armas más mortales o una IA que desarrolla una fusión nuclear segura).

    > ¿Hay que bloquearla sólo porque usa mucho?

    Sí. De acuerdo a una serie de patrones técnicos.
  30. #19 No, es DDoS. Un servidor no se cae por una sola IP. Mucho menos un cluster.
  31. #17 Pues que rule.
  32. #22 #1 #8 #9 Una cosa es lo que decidas hacer con tus servidores ya que son tuyos y tienes derecho a permitir el acceso a unos sí, y a otros no.

    La neutralidad de la red es que los que gestionan la infraestructura no puedan priorizar a unos sobre otros en términos de accesos, velocidad etc etc en función de quienes sean.
  33. #29 Como buen usuario de estas redes se nota que has aprendido que los comentarios negativizando cosas tienen muchas mas interacciones que los que no lo hacen. :-*
  34. #22 el dueño del servidor decide quien puede acceder al servicio y bajo que criterios, los del administrador del servidor.

    Si el administrador del servidor recibe peticiones masivas que afectan a la estabilidad del servicio tiene todo el derecho a bloquearlas a su propio criterio.

    Sea una IA o sea un bot de spam, esta adquiriendo datos masivamente sin haber pedido permiso, creo que se podria abrir el debate sobre con que se estan alimentando las IAs, ya que estan incorporando contenido desarrollado por terceros a sus bases de datos, pero parece que el contenido desarrollado por pequeños webmasters no tiene propiedad intelecual.
  35. #27 Es errónea, o como mínimo sensacionalista, ya que la afirmación "y la culpa la tiene una IA en proceso de entrenamiento" es una especulación de un comentario de The Internet Archive que ellos mismos desmintieron 10 minutos después de decirlo.
  36. #35 el dueño del servidor decide quien puede acceder al servicio y bajo que criterios

    Si, o sea que de neutral nada.
  37. #25 Pero porque, bajo mi punto de vista, el uso de público se ha usado de una manera errónea intencionadamente para relacionarlo con lo que ofrece el estado a sus ciudadanos, cuando no es lo mismo.
  38. #36 un usuario de los AWS que, por algún motivo, requiriera grandísimas cantidades de información de la librería a través de ChatGPT (También es IA)
  39. #27 ¿alguna prueba de eso?. Porque Internet Archive ha dicho que no ha sido una empresa de IA y no ha vuelto a decir nada. Lo que si ha dicho es que no hay problema en que nadie use su archivo para lo que sea, pero que lo hagan con cuidado.
  40. #1 Es aún más eficaz hablar con ellos para que se ralenticen al ritmo que les digas.
  41. #37 La neutralidad se aplica a nivel de red, a que un proveedor de conexión no puede dar ventaja a un usuario sobre otro porque pague mas. Nadie debe poder ir a 300km/h por la autopista porque tenga mas pasta para pagar la multa.

    Una vez la conexión llega al servidor, estas en un recinto privado y debes comportarte como tal. Hay un limite físico a la cantidad de conexiones que puede responder un servidor. Si el admin dice que ningún usuario puede hacer mas de 4 conexiones concurrentes, y tu le tiras 256, entenderás que te corten la conexión y te denieguen el acceso.

    Osea, puedes jurar en arameo, en latin, soltar gritos de guerra nordicos y todo lo que tu quieras, porque nadie te quita el derecho a la pataleta, pero sabes que no tienes razón, y que si lo vuelves a intentar, te van a volver a tirar abajo.
  42. #1 ¿De hace unos 10 años? Internet se creó así, sin que ningún nodo tuviera más prioridad o visibilidad que otros. Luego se ha intentado crear autopistas de pago donde unos nodos tengan más visibilidad que otros y por esto se empezó a hablar de la "neutralidad de la red", porque siempre lo ha sido y se quiere romper esto.
  43. #19 En el blog de Archive.org decian que venia de 64 IPs distintas. Si, es un DDoS.
  44. Pues si la IA realiza un DDOS por la forma en la que está configurada, se le corta el acceso y a otra cosa.
  45. #41 Seria todavía aun mas eficaz meterles un frenazo a las conexiones por minuto, o a la velocidad de conexion, y que la velocidad vaya callendo a mas peticiones por minuto hagas. ¿Abres cuatro conexiones? Descargas entre todas a 500kbps. ¿Abres cinco? Bajamos a 450 entre todas. ¿Sigues abriendo conexiones? Sigue bajando el limite.

    Verás como cuando alguien diga "llevamos gastados 2000 dolares en AWS, ¿por que cada vez vamos mas despacio?", algún programador va y pregunta.
  46. #45 Mis disculpas, entonces.
  47. #21 "Lo primero es a ver como puedo quitarme del medio al mono pelado de mierda este, luego ya veremos..."
  48. #44 donde pone que era una IA entrenandose los que han tirado archive.org? En el blog de archive.org no. Archive si ha dicho en twitter que no ha sido una IA

    Que otro periodico repita una noticia erronea no la hace menos erronea
  49. #8 No creo que "neutralidad de la red" signifique dejar el culo abierto para que te lo peten.
  50. #51 ni yo, lo que señalo es que el comentarionoriginal mezcla conceptos erroneamente.

    Bloquear ips en tu servidor o limitsr el acceso no tiene nada que ver, ni psra bien ni para mal, von la neutralidad de la red
  51. #5 Cierto, quizá habría que decir "recursos de acceso público por parte de una organización sin ánimo de lucro".
  52. Es decir, que luego esa misma IA nos quitará el trabajo con lo que aprende.

    Eso es lo de "además de puta, poner la cama"
  53. #37 esta usted muy equivocado

    Me lo voy a llevar al terreno telefonico para que lo entienda mejor.

    La neutralidad en la red va de que su compañia de telefono no le puede decir a quien puede llamar por telefono y a quien no o aplicarle limitaciones a esa llamada (por ejemplo, imagine que telefonica no le permita llamar a Jazztel)
    Pero la neutralidad en la red no obliga a que a quien usted llame por telefono le coja la llamada o le atienda.

    Pues ahora lo mismo, pero llevado a internet
  54. #1 "demuestra que no sabes lo que es la neutralidad en la red sin decir que no sabes lo que es la neutralidad en la red"
  55. #37 La neutralidad va de las ISPs controlando el tráfico, no de lo que haga cada servidor. Creo que si supieses el coste en dinero y energía que puede suponer para el dueño de una web un ataque de estas dimensiones no hablarías con tanta ligereza.
  56. Pues que cobren a partir de un uso excesivo, lo mas normal del mundo.
    O que directamente, le ofrezcan hacerles una copia a un precio. No es que The Internet Archive quiera quedarse con la propiedad intelecual de lo que guarda, es una organización sin ánimo de lucro.
  57. #39 de donde sacas que ha sido via chatgpt?
  58. #56 tu en cambio de tópicos y chascarrillos sabes mucho, la originalidad de tu comentario es de valor negativo.
  59. #59 Solo leyendo se entiende que si millones de personas usan ChatGPT por ejemplo, desde un navegador normalmente con un plugin, son muchísimas peticiones, esto actuaria como un ataque DDOS a la pagina y se tumbe.
  60. #61 si vale, eso puede pasar. Pero no hay ninguna prueba ni indicio de que este sea el caso.
  61. Tuve varias discusiones con varios meneante sobre que este no es el camino.

    Las ias conversacionales actuales están diseñadas para funcionar por fuerza bruta y siempre van a tener problemas con las fuentes.

    Necesitan muchos recursos para cachear las fuentes o un acceso masivo al exterior. Esto significa que si una web clave en las fuentes de tu ia bloquea su acceso, sus respuestas no serán fiables.

    A lo que hay que añadir que el día que se obligue por ley a auditar las fuentes de entrenamiento de las ias, más de un gestor de derechos se va a frotar las manos. Entre ellas la sgae.
  62. #62 No tengo pruebas pero tampoco dudas :troll:
  63. Acabo de comprobar la web y está despejada
  64. #22 corrigeme si me equivoco, pero el efecto de esta IA aburrida es un comportamiento similar a un ataque de denegación de servicio ¿correcto?
  65. #30 La neutralidad de la red es un concepto a priori interesante pero el mundo cambia y puede ser necesario poner límites a la neutralidad como se ponen límites a la libertad individual para no invadir la libertad de los demás.

    En este caso parece que una IA está involuntariamente causando un ataque de denegación de servicio de tanto que accede a esta web. Me parece del todo normal que se limite el número de acceso de una IP o usuario esto es algo que ya se hace con muchas APIs públicas en las que si pides una licencia gratuita para desarrollo y pruebas, tienes un número limitado de solicitudes al día.
  66. #31 Un servidor se cae, o lo bloqueas para el resto, en un DDoS y en un DoS por el número de peticiones que recibe que no es capaz de tratar, no por de cuantos orígenes venga. Da absolutamente igual si vienen de una IP o varías, la causa de la caída es la misma. Si las peticiones vienen de un sitio sería DoS, si vienen de varios sería DDoS. A ver si ahora va a resultar que los DoS no existen. Que sea un cluster te garantizará, en principio (depende del enrutado y balanceo) que puedes manejar mas peticiones, pero sea en cluster o no sigue habiendo un límite de peticiones, da igual si vienen de una IP o de 10.
  67. #66 No lo creo. Un ataque de denegación de servicio requiere originarlo en miles o cientos de miles de ordenadores ubicados por todo el mundo. Limitar el ancho de banda de por cada cliente es algo bastante sencillo. Lo hace el propio Apache con una sencilla configuración. De esa forma se consigue una distribución "justa": si hay un solo cliente, todo el ancho de banda para él. Si hay dos, mitad para cada uno aunque uno de ellos necesite menos.
  68. Una cosa la Neutralidad de la Red, tiene que ver con la no priorización de paquetes, en redes residenciales o "Best Effort". Y de hecho sí existen servicios con prioridades, según el tipo de tráfico. Si bien en general, no siempre es así, la mayor prioridad la tienen aplicaciones en "tiempo real" ya que necesitan una latencia mucho menor, inferior a 3 ms, para funcionar correctamente. Después el tráfico contratado por empresas o "Gold" y por último el "Best Effort". La principal diferencia es que los dos primeros, tienen un tráfico o características garantizadas, mientras el último no. Por eso como pongo, las modalidades "Gold" y "RT" (Real Time) son mucho más caras. Eso sí, con las redes actuales, se pueden mezclar tipo de tráfico. No significa que tengan que ir por separado.

    Lo que sí violaba, claramente la Neutralidad de la Red, y confirmado por el TJUE, era el famoso "Zero Rating" que usaban ofertas como la de Vodafone Pass, y no fue porque no se avisara... Estamos hablando de una mera priorización del tráfico por motivos comerciales, que incluso dañaba a la competencia. Es decir yo hago un contrato con WhatsApp, porque el de Telegram, no tiene tanto dinero, por poner un ejemplo.

    Saludos.
  69. #45 DDoS confirmado 
  70. Ultron eres tú?
  71. #38 Tienes razón y estaba cayendo en ese mismo error.
  72. #68 Completamente de acuerdo.

    La mayor diferencia, técnicamente hablando, viene de la dificultad de mitigar el DDoS ( más chungo ) frente al DoS ( más sencillo, en principio ).

    Edito: De todos modos #45 confirma que es un DDoS, pero eso no quita que tu contestación sea correcta, a la afirmación de #31
comentarios cerrados

menéame