A principios del pasado año te hablábamos de DALL-E, la inteligencia artificial de OpenAI capaz de generar imágenes de cualquier texto que escribiéramos.
Sin exagerar, creo que es de los avances tecnológicos más espectaculares de lo que va de siglo y a penas lo he visto reflejado en los medios de comunicación. Cuanto más veo, más me alucino, creo que el grado de desarrollo que está alcanzando la IA es muy superior a lo que cree la mayoría de la gente.
#1 Lo único en lo que me falla en general, es en los ojos. En otras imágenes generadas me pasa igual. No sé qué es, pero me da la impresión de que algo falla.
We’ve limited the ability for DALL·E 2 to generate violent, hate, or adult images. By removing the most explicit content from the training data, we minimized DALL·E 2’s exposure to these concepts. We also used advanced techniques to prevent photorealistic generations of real individuals’ faces, including those of public figures.
Gracias a Dios que lo han tenido en cuenta. Me pregunto si en un rincón más oscuro de internet se generá una versión sin censurar.
#2 Uno de los mejores envíos de esta web en mucho tiempo, y los que tenéis la mente podrida por el fanatismo la llenáis de ataques políticos de mierda.
Por vuestra culpa tenemos una clase política terrible.
#15, yo también me he apuntado, este que enlazas también lo probé, pero esto bastante lejos. Por ahora me la paso enganchado al twitter de sus creadores, mientras van colgando imágenes.
#16 Algo de razón tienes, de hecho he dudado un poco en hacer la gracieta.
Pero sí, la gente tiene la mente podrida. Aunque puede servir como ejemplo de cosas que pedirá la gente a la web.
Recuerdo al principio de googlestreetview que se lo enseñé a unos conocidos. ¿ Sabes lo primero que buscaron ? Las putas que había en la calle en la zona de prostitución marginal. Es decir, tenían un montón de lugares del mundo para ver a pie de calle y eligieron eso. Ah y eran gente "normal" con algunos estudios
Supongo que yo no soy mejor.
#18, el problema que me he encontrado cuando he enseñado esto a mi círculo cercano es que no ven más allá de una app que hace bonitos dibujitos. Que es esto al lado del grafeno, el bosón de higgs o la cura semanal a la enfermedad del Alzheimer, verdad?
La verdad es que quizás no sea evidente, pero más allá de esto, lo que nos demuestra esta IA es que ha desarrollado una capacidad de abstracción y comprensión del lenguaje natural que se está empezando acercar a la humana de forma espectacular a la humana. Quizás, no sea lo más evidente, pero sin duda es lo más relevante. No por lo que tenemos delante, que ya de por sí resulta bello y espectacular, sino por lo que se atisba de cara al futuro.
#23 « lo que nos demuestra esta IA es que ha desarrollado una capacidad de abstracción y comprensión del lenguaje natural que se está empezando acercar a la humana de forma espectacular a la humana »
Yo creo que no. Esa interpretación ya la hacíamos los humanos en los tiempos del programa Eliza. De hecho, lo que hacen estos sistemas es "darnos el pego". Hacen cosas sorprendentes, pero de ahí a hablar de "capacidad de abstracción" o de "comprensión del lenguaje" va un abismo.
Una IA no sabe lo que es un gato, solo es capaz de encontrar elementos en común en imágenes etiquetadas como "gato".
#24, creo que confundes capacidad de abstracción con conciencia de la realidad. Lo de Eliza, con mis disculpas pero nada que ver, a la que apretabas un poco estos asistentes conversacionales fallaban más que una escopeta de feria, no tenían ninguna clase de consistencia. A falta de poder jugar un poco con ello, yo diría que esto no ocurre con este modelo.
#25 Si entendemos capacidad de abstracción en el sentido de extraer elementos en común y reglas de clasificación, en muchos dominios específicos ya nos ha superado.
#26, hasta ahora te diría que dependía mucho de en qué dominio, cuando la información estaba muy estructurada, sí era habitual encontrar modelos que superaran la capacidad humana.
Lo que me parece relevante de la noticia se este envío es que el dominio del que hablamos es el de las imágenes y el lenguaje natural, algo que per se no está estructurado pero que es la principal más importante que utilizamos los humanos comprender el mundo que nos rodea. Por eso me parecen tan relevantes los resultados de este trabajo. Había trabajos anteriores que ya apuntaron en esta dirección, Dall-e 1 y GPT-3, pero esto lo supera.
#8 no está pero tienes unas cuantas cosas basadas en modelos un poco peores como vqgan diffussion, midjourney (también la van a hacer de pago) hypnogram etc
#30, sí, además de GLIDE y a pesar de apuntar maneras, ninguno ha logrado la espectacularidad de este modelo. Pero lo que me preocupa más es que la gente se quede con la belleza de las imágenes resultantes antes que con la demostración de que es capaz de relacionar tan bien conceptos abstractos en un modelo multimodal de imágenes y texto.
#34 es flipante. Yo cuando hice el tutorial de vqgan mi hermana me decía "estas perdiendo el tiempo". Pero su marido nos dijo "pues esto tiene mucho potencial puede ser útil para mucha gente". Habiendo probado varios este tiene resultados tan espectaculares que la última vez que hablamos de esto (ayer, puede jaja) dudábamos de si el prompt era realmente sin retocar nada y no estaban usando las capas que dicen que soporta.
#36, sí, la crítica más importante que se le puede hacer es que no tenemos acceso al modelo y los desarrolladores pueden estar haciendo cherry picking.
#40 Solo dice vagamente que "aprovecha el potencial de GPT-3 para generar sus diseños". Y la única referencia a GPT-3 en el paper al que enlazan es "we generated 512 “artistic” captions using GPT-3 [4] by prompting it with captions for existing artwork".
#39, la frustración que siento yo es que veo que el común de los mortales no se dan cuenta del salto cualitativo que tenemos en frente. Por aquí me han dicho que Eliza, un modelo basado en reglas de los años 60 sin ninguna clase de aprendizaje automático, es más o menos igual se espectacular que eso.
No genera imagenes violentas, no genera rostros fotorealistas... que se lo metan en los cojones, y cuando salgamos de esta era de subnormalidad para ofendiditos igual o pruebo.
#11 Pues la llevan clara, si quieren forrarse con esto. Porque si en una obra no interviene directamente un humano (y no decir cuatro frases, para que una "máquina" os haga un dibujo, no vale) esa obra no puede tener derechos de autor, y ya hay dos sentencias en ese sentido, por el uso de IAs.
#52 no se preocupe, cosas de mi ignorancia con el ATPC. EDIT: Ah, joder, a tomar por el horto lol, pensaba que eran las siglas de algo ténico. Ya me disculpa.
Gracias a Dios que lo han tenido en cuenta. Me pregunto si en un rincón más oscuro de internet se generá una versión sin censurar.
#10 Parece que no
Aqui podéis jugar a algo parecido
huggingface.co/spaces/multimodalart/latentdiffusion
Yo estuve generando algunas imágenes hace unos días. Aunque parece que ahora tiene problemillas...
Por vuestra culpa tenemos una clase política terrible.
mobile.twitter.com/nickcammarata
mobile.twitter.com/prafdhar/status/1511863583906275328
mobile.twitter.com/Fraser
Pero sí, la gente tiene la mente podrida. Aunque puede servir como ejemplo de cosas que pedirá la gente a la web.
Recuerdo al principio de googlestreetview que se lo enseñé a unos conocidos. ¿ Sabes lo primero que buscaron ? Las putas que había en la calle en la zona de prostitución marginal. Es decir, tenían un montón de lugares del mundo para ver a pie de calle y eligieron eso. Ah y eran gente "normal" con algunos estudios
Supongo que yo no soy mejor.
La verdad es que quizás no sea evidente, pero más allá de esto, lo que nos demuestra esta IA es que ha desarrollado una capacidad de abstracción y comprensión del lenguaje natural que se está empezando acercar a la humana de forma espectacular a la humana. Quizás, no sea lo más evidente, pero sin duda es lo más relevante. No por lo que tenemos delante, que ya de por sí resulta bello y espectacular, sino por lo que se atisba de cara al futuro.
Yo creo que no. Esa interpretación ya la hacíamos los humanos en los tiempos del programa Eliza. De hecho, lo que hacen estos sistemas es "darnos el pego". Hacen cosas sorprendentes, pero de ahí a hablar de "capacidad de abstracción" o de "comprensión del lenguaje" va un abismo.
Una IA no sabe lo que es un gato, solo es capaz de encontrar elementos en común en imágenes etiquetadas como "gato".
Lo que me parece relevante de la noticia se este envío es que el dominio del que hablamos es el de las imágenes y el lenguaje natural, algo que per se no está estructurado pero que es la principal más importante que utilizamos los humanos comprender el mundo que nos rodea. Por eso me parecen tan relevantes los resultados de este trabajo. Había trabajos anteriores que ya apuntaron en esta dirección, Dall-e 1 y GPT-3, pero esto lo supera.
El envío bueno sería el de la primera versión , que crea dibujos con las palabras que pongas
Eso sí, era regulero. En esta noticia dicen que parece que lo han mejorado pero sigue siendo cerrado por lo que no lo podemos confirmar.
Porque dice que usan GPT3, igual que el otro, por lo que en tema de comprensión de textos no hay avances en esta versión.
Para que llegue la alternativa libre alguien tiene que poner el dinero que ha puesto Elon encima de la mesa.
En cualquier caso, aunque se derive de GPT-3, cosa que repito que no dicen ahí, decir que Dall-E es GPT3 sería como decir que Objective-C es C.
Saludos.
Saludos.
Saludos.