259 meneos
968 clics
ChatGPT en apuros: OpenAI demandada por robar todo lo que se ha escrito en Internet [ENG]
OpenAI recopiló una enorme cantidad de datos de diversas fuentes de Internet para entrenar sus avanzados modelos lingüísticos de IA. Estos conjuntos de datos consisten en una amplia gama de materiales, como artículos de Wikipedia, libros populares, publicaciones en redes sociales e incluso contenido explícito de géneros especializados. Y lo que es más importante, OpenAI adquirió todos estos datos sin pedir permiso a los creadores de los contenidos.
|
comentarios cerrados
¿cómo va a ser eso ilegítimo?
Surrealista, como estamos acostumbrados en este mundo de jetas y locos del copyright.
Van a tener que demostrar eso. OpenAI es una entidad sin ánimo de lucro. La financiación la obtienen de una subsidiaria con beneficios limitados.
openai.com/our-structure
vs OPENAI LP, OPENAI INCORPORATED, OPENAI GP, LLC, OPENAI STARTUP FUND I, LP, OPENAI STARTUP FUND GP I, LLC, OPENAI STARTUP FUND MANAGEMENT LLC, MICROSOFT CORPORATION
clarksonlawfirm.com/wp-content/uploads/2023/06/0001.-2023.06.28-OpenAI (157 páginas )
Que sería lo lógico para una IA que aprende de lo que ve, si no estuviéramos atontados por la exageración de celo en derechos de autor.
#4 ahora que lo recuerdo demandaron a Google por indexar la web y Google ganó el caso porque quién no quisiera que se enlazase su contenido podía utilizar el robots.txt para indicarlo.
¿cómo va a ser eso ilegítimo?
Surrealista, como estamos acostumbrados en este mundo de jetas y locos del copyright.
El día que auditaran las fuentes de datos utilizadas para los entrenamientos se iban a frotar las manos los abogados.
Chatgpt necesita una cantidad inmensa de datos para entrenar y un "internet" entero cacheado para poder responder con agilidad. Ese funcionamiento por fuerza bruta no es viable y algún día tenía que estrellarse. Cuando Musk, Gates y otros dijeron de echar el freno a las IA no descartaría que fuera por esto, porque no les ha dado tiempo a blindarse jurídicamente.
Microsoft podría recuperar encarta y su chatbot, se forrarían.
Por contra ChatGPT lo que hace es aprender de los contenidos y luego hace una creación nueva en base al aprendizaje obtenido, no es distinto a que tú te pasees por Internet y luego escribas en menéame en base a lo que has aprendido. ¿Crees que deberías pagar a todas las webs que has visto en tu vida por el comentario que acabas de escribir en menéame?
¿Cual es el problema si te da resultados literales de comentarios de esta web si son libres de uso y copia?
De todos modos solo tendrían que copiar el estilo de citas de Bing.
Tras aprender puede escribir texto similar, pero también el original. Y es secreto la fuente de sus datos, y admiten haber aprendido de datos que no pueden hacer públicos (lo cual es sospechoso de haber aprendido de datos privados).
Esa es una hipótesis que está por demostrar. Desconocemos si OpenAI ha respetado el robots.txt.
Tras aprender puede escribir texto similar, pero también el original.
Puede escribir el texto original en los mismos términos que puedes hacerlo tú intentando recordar lo que leíste, puedes intentarlo, puedes acercarte, a veces puedes conseguirlo, en otras tantas ocasiones solo será parecido.
Puede escribir el original si se lo pides explícitamente (ahora no puedo probarlo, me dice que me pasé de cuota).
Los defensores del copyright y estas leyes de mierda se van a llevar una ostia buena con todos los cambios que trae la tecnología de la IA al sector y a la sociedad.
Están intentando desprestigar estas aplicaciones generadoras de texto y las generadoras de imágenes... metiendo miedo conque van a traer desastres, pérdidas de trabajo, que estemos quietos 6 meses sin usarlas y blablabla.
Tonterías. La tecnología avanza y es imparable. Y se va a pasar todos los copyrights de la faz de la tierra por el mismísmo forro de los cojones.
Puede escribir el original si se lo pides explícitamente
Si se lo pides puede intentarlo, como tú.
Y si se le da acceso a Internet lo puede consultar cuando se lo pides, como tú.
A ver, el modelo de IA no es como yo, a diferencia de técnicas de DL se diferencian bastante de cómo trabaja una persona. Han hecho pruebas de autocompletar frases con nombres de protagonistas de libros y tiende a acertar mucho más de lo que lo haríamos tú y yo tras leer los libros (no siempre acierta, siempre tiene algo de aleatoriedad), si tienes curiosidad tienes el siguiente trabajo analizándolo (no hay datos públicos sobre su entrenamiento): arxiv.org/abs/2305.00118
Robots.txt ya existía, han podido respetarlo perfectamente por mucho que tú dudes de ello.
Han hecho pruebas de autocompletar frases con nombres de protagonistas de libros y tiende a acertar mucho más de lo que lo haríamos tú y yo tras leer los libros
Posiblemente haya humanos capaces de hacerlo mejor que tú o yo, y su cerebro se basa en los mismos principios. ChatGPT no es una base de datos como sí lo es el buscador de Google.
Para mi, estas acciones son otro mensaje claro diciendo: estáis abajo y ahí os vais a quedar.
Y una cosa que cuenta MUCHO en estos temas de derechos de autor es si haces, o no, negocio con el contenido generado por otros...
Que muiestren a un juez sino ha sido asi y listo....
Estos casos, como los de mala praxis medica, son asi: el acusado puede demostrar FACILMENTE que es inocente, el acusador dificilmente puede demostrar nada por muy obvio que sea, de modo que se le pide al acusado que se exculpe con pruebas o se asume que miente.
Por otro lado: pagare gustoso el 100% de lo que recibo comentando en meneame a todas esas paginas que he visitado.
- Y turgente!
Ya lo hago yo por ti, y si quieres comprobarlo verás que se lo ha inventado, eso no es literal de los libros.
Igual que con las imágenes. Si puedo ver una foto o una pintura, ¿cuál es el problema?
Todo lo que tuviera copyright abusivo* debería ser privado completamente. Ya verías tú que pronto se acabaría todo este mamoneo de los derechos abusivos.
* copyright lo tiene siempre el autor por el simple hecho de ser el autor de la obra.
The doctor died in 2018, and the artist assumes that the images were stolen after his death and published on the Internet.
Pues igual que un buscador como Google. Si tú haces una entrada en un blog y pones una foto robada en esa entrada Google lo indexará sin comprobar la legalidad de esa fotografía. El responsable de hacerla pública es quien crea la entrada del blog, los robots como Google u OpenIA u otros lo que hacen es pasearse por lo que hay publicado y lo indexan, respetando en todo caso el robots.txt.
Existen procedimientos para hacer reclamaciones tanto a Google como a otras empresas para la retirada de contenidos que cumplan los requisitos legales para ser retirados.
Igual que yo. Por ejemplo, cuando entro en la Wikipedia.
Igualmente, demuestra como el contenido que utilizan no es en su inmensa mayoría ni legal ni autorizado, ya que usan bases de datos que eso no lo respetan. Podrás solicitar que quiten tus imágenes, pero no tienes como sacarlas de los modelos de entrenamiento una vez la han aprendido ni tienes cómo saber cuales o cuantas la tienen en su base de datos ya.
Todos tenemos derecho a que nuestra información personal e imagen se respete y no se use sin nuestra autorización. Si no, podríamos permitir que las páginas webs almacenaran como quisieran las cookies y ya si no te gusta pues les pides después que las borren.
Cero multiplicado por mil millones sigue siendo cero.
No te lo pueden quitar de tu cerebro, lo mismo con GPT.
A quien hay que perseguir es a quien publicó de forma ilegal, no a quien lo vió publicado y aprendió de ello.
Sí se han mencionado "derechos de autor" porque el artículo meneado dice la palabra "copyright", y eso es un derecho de autor.
Otra cosa es que la justicia sentencie o no que se ha vulnerado ese derecho, pero ese derecho sí se ha mencionado.
También el artículo menciona "privacy" que puede relacionarse con el acceso ilegítimo a datos privados, como pueden ser correos electrónicos privados. Es decir, que haya algún acceso ilegítimo no implica que no pueda también haber violación de derechos de autor, y, viceversa.
Tan progresistas y luego tan celosos de la PROPIEDAD que no se puede hasta ni leer sin pagar, sin permiso.
Y con positivos.
"así les saquen los higadillos. " Izquierda siempre envidiosa. Violenta.
Izquiera hipócrita y retrógrada siempre. Lo de "progresista" es otra mentira, como todo en la izquierda.
Deja de retorcer los hechos para que se adapten a tu visión "marxista-hay-quepagar-por-leer" de la realidad. "Progresistas" que quieren impedir que se lea internet gratis sin pagar, porque es que los derechos de los propietarios de un artículo para leer gratis. Mientras te dicen lo que puedes hacer con tu casa, con tu coche y con tus cosas. Es que es alucinante.
No es solo permiso para "leer".
Si alguien como yo escribe algo de forma pública, como un blog, o este comentario de Meneame, se entiende que das permiso a cualquiera para leerlo. Por tanto, que lo "lean" no es problema.
El problema es si tomas un blog escrito por otro, lo copias, y lo pones en una web tuya ¡como si lo hubieras escrito tú! Sin mencionar al autor original. Esto es lo que se llama plagio, una violación de copyright. No mencionar al autor original es violar el derecho de reconocimiento (BY). Todo autor tiene derecho a que se reconozca que él fue el autor de esa obra.
Por otro lado, desde el momento que ChatGPT u otras herramientas de OpenAI cobran dinero por sus servicios, se están lucrando. Te dan información de obras que otros han creado y te cobran por ello... Eso es ánimo de lucro.
Lo de Google es diferente porque:
1. Aunque no sepa o no diga cuál es el autor original, te da el enlace a la fuente. Lo que quiere decir esto es que Google deja claro que esas creaciones NO son creación suya... No es un plagio. El enlace a la fuente lo que viene a decir es : alguien, en tal sitio escribió esto y puedes ir a la fuente...
2. Google no muestra la obra completa, sino un extracto. Esto creo que se considera uso aceptable (fair use) avalado por lo que conoce como "derecho de cita". No es que publique un artículo de periódico entero, sino que dice "estas frases aparecen en tal obra", como quien nombra una frase de una peli o de una novela.
3. Google no cobra a quienes da la información / frases escritas por otros... No se lucra exactamente con ese trabajo de otros, sino que cobra a unos anunciantes que quieren aparecer en las búsquedas.
4. Google da el derecho a ser excluido, a no aparecer en las búsquedas. Aunque no sé si el mismo "robots.txt" impediría a OpenAI usar esos datos.
5. El buscador Google no te muestra textos de mensajes privados, como podrían ser emails que alguien escribió en Gmail. Por lo que dicen otros, parece ser que OpenAI sí ha usado datos privados...
#9 Aunque el artículo meneado usa la palabra "robar", sin embargo, creo que puede ser un titular sensacionalista o una forma de hablar.
En lenguaje jurídico un robo es sustraer algo con violencia o amenaza (ej: a punta de pistola, o estrellando un coche contra un escaparate). En el caso de OpenAI no hay violencia, así que no puede ser "robo" en ese sentido jurídico. Por otro… » ver todo el comentario
No tiene nada que ver con lo que hacen las "IA" genéricas...
Tu puedes acceder a un numero infinito de contenidos en la red sin tener que pagar. El problema surge en el momento que haces un uso secundario de esos contenidos a los que has accedido libremente.
en.wikipedia.org/wiki/Creative_Commons_license#/media/File:Creative_co
No exactamente.
Todo lo escribes tú o yo, es una obra que en cierto modo pertenece a su autor. Ya sea una poesía breve o un comentario de Twitter o de Meneame.
Luego están los derechos de explotación, y otros derechos de difusión, copia, etc... Como usuario de una red social firmas un acuerdo por el cual cedes a cada empresa el derecho a difundir tu obra y lucrarse con ella, o incluso que terceros puedan difundir tu obra y lucrarse con ella... Creo que en general no pierdes tu derecho a lucrarte. Puedes hacer una canción con una poesía escrita en Menéame o en Twitter y lucrarte con esa canción sin que Twitter ni Meneame puedan decir que esa obra "es suya", porque no lo es, no es "suya", solo tienen unos derechos de difusión y explotación de la misma, nada más. Si copias Linux tienes derecho a distribuirlo si quieres, porque los autores te dieron ese permiso, o a lucrarte con él, pero eso NO significa que Linux sea "tuyo". Sigue siendo de sus autores.
Existen un tipo de derechos llamados "derechos morales" que son derechos de autor irrenunciables. Es decir, aunque Meneame te pagara dinero para que les des permiso para decir que tu comentario no lo escribiste tú sino que fue creado por Fulano... NO es legal renunciar a la autoría, tú sigues siendo el autor, por mucho que hayas cobrado dinero para negar que el autor fuiste tú. Y como autor tienes derecho a que se te reconozca la autoría, por tanto, después de haber cobrado dinero podrías demandar a quien diga que es el autor sin ser verdaderamente el autor. Puedes exigir que deje de decir que es el autor sin serlo de verdad, porque eso es mentir y los autores tienen derechos irrenunciables. A lo que sí puedes renunciar es a la explotación, a cobrar dinero por tu obra. Sigues siendo el autor, y la obra es "tuya" en ese sentido, pero otro la puede explotar y ser "suya" en este otro sentido.
Creo que ni en Twitter ni en Menéame se renuncia a la explotación así que sigue siendo tuya en el sentido de explotación, aunque no enteramente tuya, sino compartida con una empresa.
Openai tiene como objetivo remplazar al autor, y desconectarlo del beneficio de su trabajo. Quieren darte ellos la información, sin proporcionar siquiera reconocimiento a la fuente.