GPT-3, el nuevo modelo de lenguaje de OpenAI, es capaz de programar, diseñar y hasta conversar sobre política o economía

192 meneos

2522 clics

GPT-3, el nuevo modelo de lenguaje de OpenAI, es capaz de programar, diseñar y hasta conversar sobre política o economía

OpenAI publicó recientemente en forma de beta la API de su último modelo de lenguaje, GPT-3. Con esta herramienta algunos desarrolladores han comenzado a mostrar de qué es capaz esta plataforma capaz de generar contenido con tan sólo darle órdenes en inglés y de forma comprensible por cualquiera. Por ejemplo, "crea una web con siete botones con los colores del arcoíris" generará exactamente el código HTML de una web con siete botones de diferentes colores.

98 94 3 K 276

42 comentarios

98 94 3 K 276

#14 Katsumi *

La web de Renfe se hizo con esta herramienta: "haz una web para vender billetes de tren", y salió eso.

10 82
#2 pingON

Justo ayer estuve viendo este video que tenía pendiente de DOT CSV www.youtube.com/watch?v=cTQiN9dewIg y los siguiente que ha hecho al respecto de GPT-3 pero los tweets que enlaza este articulo de xataca me dejan flipando respecto a la programación, .

se abre una nueva era respecto a cómo vamos a interactuar con el conocimiento y la información. Eso si seguimos vivos ...

6 62
#4 CrudaVerdad *

"conversar sobre política", para eso no se necesita mucha IA, es sólo tomar consignas de muchos panfletos políticos y repetirlos hasta la saciedad, insultar a los adversarios y hacer caso omiso de cualquier argumento en contra.

4 54
#12 systembd

Ahora habrá que ponerla a prueba con el cliente medio. Ni la IA más avanzada puede cumplir los requisitos contradictorios que se sacan de la mano constantemente: "crea una web con 7 botones que no sean botones" => IA destruida por contradicción lógica.

5 48
#6 babuino

El fin de los picacódigos de FP.

5 46
#3 Dikastis

Se llama T-3... luego vendrá el T-4, el 5, y acabaremos con T-800 por todas partes...

5 42
#19 impaler

#6 www.youtube.com/watch?v=OgIRAjnnJzI

4 37
#5 sotillo

Hombre conversar sobre política y economía si ves cualquier tertulia se ve que muy inteligente precisamente no es

2 34
#20 fluffy

#17 Como persona que se dedica a esto, te confirmo que el coste de entrenar es el que es. No sé qué dices de gastos operacionales si no es un proyecto ni un producto, es entrenar un modelo, el coste operacional vendrá cuando tengas una operación. Además lee bien tu link, especifica claramente que son 12 millones de dólares en "compute credits".

Cuando pongo a entrenar un BERT a leerse la wikipedia en cantonés, el coste de "carga y bla bla bla" que tengo es "ok, aquí está el scrapper de la wikipedia, subo esto... ale a entrenar" que son unas 3 horas de preparar. Una vez arriba, tarda 3 semanitas en entrenar. ¿Qué crees que hago en esas tres semanas? ¿Mirar cada minuto el board para ver cómo va convergiendo y reduciendo el loss? No, no hago nada, me dedico a otras cosas.

La única vez que tuve un sobrecoste fuerte fue por culpa del puto español, entrenando un tacotron2 a aprender a hablar en español a partir de audiolibros, me olvidé de la ñ, tras dos semanas entrenando y haciendo pruebas con frases que no contenían ñ parecía que todo bien... y cuando terminó de entrenar y probé con la frase "estos niños deberían estar jugando a la pelota" y la voz dijo "estos ninos deberían estar jugando a la pelota" se me pusieron los ojos en blanco y a tomar por culo 2 semanas perdidas. No me vuelve a pasar, también te lo digo.

3 32
#10 ctrl_alt_del *

Cuñado Artificial. La auténtica evolución de la IA.

2 29
#40 CrudaVerdad

#12 "Quiero un smartphone con pantalla de 45 pulgadas y que quepa fácilmente en el bolsillo", "quiero que la batería dure varias semanas sin cargar pero que pese unos miligramos", "quiero que corra más rápido que el supercomputador de la NASA pero no genere calor", "quiero que tome fotos con la mayor resolución posible pero que el archivo sea de unos Kb"

1 26
#41 CrudaVerdad *

#39 GPT-3 es solo un SQL con esteroides cuando de hacer programas se trata.

1 23
#1 pedrobotero

Lo que le hacía falta al twitter...

2 21
#7 MellamoMulo

Y de ahí a Presidente de EE.UU solo le separa un peluquín naranja

0 19
#29 dilsexico

#22 100 años mas tarde GPT-3 llega a un planeta en Alpha Centauri despues de haber convertido todo el sistema solar en vacunas contra el Covid porque nadie le dijo cuando parar.

2 18
#34 fluffy

#33 Cuando vas a entrenar en tensorflow le pasas las muestras que debe usar para entrenar y las que debe usar para validación. Lo que genera son "audios" así que jamás el audio va a ser 100% exacto a lo que esperaba, así que si ya se parecen un 95% te puedes dar un canto en los dientes. No hay manera de comprobar de forma automática si la pronunciación para cada fonema es correcta, tienes solamente el dato numérico del loss.

Lo uso para industria. Si contratas un servicio de TTS de cualquiera de las grandes, ninguna de ellas te ofrece en español ni siquiera un nivel "wavenet", ni siquiera google, ya puedes pretender pagar lo que quieras que no lo tienen. Así que o te vas a algún proveedor local y te van a cobrar una pasta, o te dejas 1200€ y entrenas tu propia voz. Además, la voz es parte del branding de las empresas: que tengas la misma voz que tus competidores es contraproducente. Para cada país/región se hace un análisis de qué tipo de voz es más agradable o válida según varios criterios, así que una vez que entrenas tu Tacotron2 para el TTS, puedes afinarlo para que tenga la voz que tú quieras (clonas la voz de una persona real), y ese afinamiento es casi inmediato de entrenar.

Por otro lado, en cuanto a NLP, te puedo asegurar que no hay en el mercado ningún NLP suficientemente bueno en cuanto a precisión excepto Watson... Y es mejor hacer el tuyo propio, es bastante fácil

1 18
#23 FrEeDoOm

#3 Teniendo en cuenta que se han dejado $4.6M en hacer una sola ronda de entrenamiento del modelo, no sé yo si veremos un T4 o T5... OpenAI son bastante criticados en la comunidad por realizar sus "avances" a base de meterle poder de computación a modelos ya existentes. No suelen implementar modelos novedosos.

1 17
#28 babuino

#19 ¿Cómo se les puede colar eso? ¡Qué bueno!

1 16
#31 sin_animo_de_lucro *

#27 No quiero meterme en tu discusión. Pero creo que el que tiene aires de superioridad eres tu. En concreto algo que siempre llamo "soberbia del ingeniero". Hay dos tipos de personas que suelen ser muy extremistas y están equivocadas: el directivo que mira por encima del hombro a los "técnicos" como "frikis que programan" y también los ingenieros que ven a cualquier perfil más "de negocio" como "consultores trajeados que no tienen ni puta idea". Y como perfil que también se dedica a hacer de puente entre ambos, os digo que si no dejamos de lado la soberbia no se llega a un acuerdo. Ninguna postura está bien, y a las dos les falta saber de la otra parte.

Y ojo, que luego en la parte más técnica estoy más de acuerdo contigo, creo que el otro usuario se ha confundido, pero no son formas de decirlo, él simplemente intentaba hacer ver que hay otro tipo de costes según el tipo de empresa, caso de uso, etc.

Y por cierto, si gastaste 2 semanas en lo de la "ñ" es por no dividir bien el dataset en entrenamiento, test y validación. si lo divides bien la "ñ" debería haber entrado en entrenamiento y responder correctamente ante ella en validación. Hay que tener una estrategia para dividir los datos de forma correcta y repetible, no puede ser algo humano del tipo "que no se me olvide de poner la ñ"

1 16
#39 adevega

Los informáticos llevamos tanto tiempo automatizando las tareas de los demás y dejándolos sin trabajo, que cuando nos pase lo mismo a nosotros va a ser la justicia kármica más grande de la historia

Nota: No estoy ni en contra de la automatización ni culpabilizando a los informáticos (entre los que me incluyo) de nada. Sólo describo una realidad.

1 15
#11 sorrillo

Recordad que esto no tiene nada que ver con la inteligencia, la inteligencia es llorar.

0 11
#30 Penetrator

#10 Con la ventaja añadida de que, a diferencia de tu cuñado real, este se puede desconectar.

0 10
#8 pirulotropical

Da miedito

0 9
#37 sxentinel

#19 asdajksdjaslkdjaskl jajajajajajaja

0 9
#13 fluffy

#9 Eso es una completa exageración... son sólo 4.6 millones de $ usando una nube de GPU Tesla V100

0 8
#16 fluffy *

#15 Lambda Labs, de las mayores empresas de GPUs en nube
lambdalabs.com/blog/demystifying-gpt-3/

De todas maneras le pasa lo mismo que a BERT, normalmente no te gastas el dinero que cuesta entrenarlo sino que aprovechas modelos pre-entrenados y "ajustas" (fine tunning) los tuyos con transfer learning.

0 8
#32 fluffy

#31 Lo de la ñ es porque si quieres enseñar con tacotron2 un sistema de Text To Speech lo que tienes es, en mi caso, 600 horas de audio con sus subtítulos, de las que coges un 75% para entrenar y un 25% para validar con cross entropy. El problema es que el charset por defecto de tacotron no incluye la ñ, pero la frecuencia de la ñ en el español es 0.31%, con lo cual no afecta casi nada en la validación... es un error casi imposible de ver en el board hasta que haces pruebas reales que coincide que usas la ñ (de nuevo... 0.31%... las frases que usaba normalmente para probar no la incluían).

P.D.: no soy un friki que programa, pero a él se le oía a leguas a "consultora" de los que vienen a venderte la moto y tratan de colarte "expertos". Y tengo ya el culo pelado de esa gente, o de que intenten colarme juniors como seniors para tener una tarifa más elevada.

0 8
#36 fluffy

#35 Pues de la segunda parte como dato, depende. Si es un NLP para textos largos (sumarización, open question, etc) actualmente sí, Google se lleva la perra gorda, pero BERT es libre y lo puedes usar, va bastante bien, yo soy bastante activo en la parte de SQuAD con alBERT.
Pero si es un NLP para intent classification, dialogflow sucks Yo tengo mi propio NLP opensource, lo usan 15.000 proyectos actualmente, algún banco, aseguradora, transporte,... Y ya te confirmo que las métricas mucho mejor que Dialogflow.... el problema de las cajas negras es que no son tuneables y que "good enough" es todo lo que buscan porque llegar a "very good" cuesta dinero y trabajo... así que ahí se quedan. Mejor el tuyo propio.

0 8
#18 Pablo_Javier

Recordad esto que escribo...en x (no muchos) años ..van a trabajar 3 personas y el resto a comer pipas

0 7
#22 forms *

#2 GPT-3, por favor, crea una página web para crear una vacuna contra el COVID19

_{_{esto es un comando de voz}}

0 7
#42 suzudo

Paper preprint: arxiv.org/pdf/2005.14165.pdf

0 7
#9 Andres_age

No está al alcance de todos, eso si: requiere 12 millones de $ entrenarla.
Un artículo muy interesante:
venturebeat.com/2020/06/01/ai-machine-learning-openai-gpt-3-size-isnt-

0 6
#15 Andres_age *

#13 ¿Fuente de ese coste?

0 6
#17 Andres_age

#16 Gracias por el link. Ese coste es únicamente de hardware segun pone en la nota 1.
El del link que yo puse no detallan costes, pero me imagino que tomaran en cuenta mas cosas que solo hardware. Al fin y al cabo el valor de algo no es únicamente el coste de sus servidores. Diseñar la carga, ejecución, pruebas, reajustes, gastos operacionales, etc. no tiene un coste 0 nunca. Muchas veces excede el coste de los servidores en si...

0 6
#24 Andres_age *

#20 Es verdad, son créditos de computación. Puede que la diferencia sea que en lambdalabs calculan el precio con 3 años de aprovisionamiento y el otro no. No lo se, como sea en lambdalabs también han hecho los cálculos "a ojo de buen cubero", como ellos dicen "hay que esperar que OpenAI de más detalles al respecto", ellos se han limitado a coger los TFlops y a partir de ahí hacer cuentas. El error puede ser enorme al hacer las cuentas así porque te incurres en muchas premisas falsas (asumes cosas que no son, o no tienes en cuenta otras cosas, etc etc).
Ya solo poniendo 3 años de aprovisionamiento, te debería chirriar: si necesitas un pico de potencia durante 3 semanas, vas a contratarla durante 3 años? Si después usas una mínima parte para su operativa, puede que no te sea rentable (o sí, si tienes más proyectos que usen esa potencia, depende).

Como sea, veo que sigues sin ver más costes y creo que flaqueas en eso.
Para tí preparar la carga es solo "hacer un scraping" de 3 horas y ya está.

No es solo hacer un scraping de 3 horas, es pensar en todas las pruebas, implementarlas, etc. Y luego una vez terminado, ¿acaso no dedicas tiempo a verificar las cosas (lo que has comentado de los "niños"? Aun cuando sean "automáticos", ¿no has dedicado horas a preparar esos tests? ¿A cuanto cobras la hora? 0€? No creo.
Es más, ¿acaso no hay auténticos ejércitos de miles de indios/chinos/etc revisando, corrigiendo y entrenando las distintas IAs que hay en producción? Ese coste, por muy barato que sea, ¿es 0€?

Deberías intentar "medir" esas horas que dedicas y que ahora das por sentado, te llevarías una sorpresa.
Pero medirlas bien, no ponerte ahora a pensar y decir "pues una hora aquí y otra hora allí"... no, medirlo "de verdad", porque inconscientemente te dejarás cosas o le darás menos tiempo del que realmente es.

A un compañero le pasó hace poco, el decía que "en una semana estaba". Yo le dije que calculara también otras cosas que asumía y no metía en el análisis. El decía que era tan poco que ni lo tenía en cuenta. Le dije que todo, absolutamente todo lo midiera en los JIRAs.
3 semanas después estaba completo. 1 semana y media se lo pasó en hacer lo que el decía (bien) y otra semana y media en cosas que daba por sentado pero que eran necesarias y le atribuyó 0 horas. Casi nada

0 6
#26 Andres_age

#25 Si necesitas un pico de potencia durante 3 semanas, vas a contratarla durante 3 años? Si después usas una mínima parte para su operativa, puede que no te sea rentable (o sí, si tienes más proyectos que usen esa potencia, depende).

Es una pena esa actitud que tienes, de "yo tengo la verdad absoluta y los demás sois unos cuñados".
No creo que te vaya muy bien en la vida si eres así en la vida real con esa "superioridad" que crees tener.
Adios, no pienso contestarte más.

0 6
#33 sin_animo_de_lucro

#32 Divides entre entrenamiento y test (75-25%) pero no para validar? O te refieres a que dentro del 75% de entrenamiento ya va la división en entrenamiento y test para ir calculando el error por iteración?

Es que precisamente, aunque solo haya un 0.31% de ñ debería tener una muestra importante y detectar que para ese tipo de valores (la "ñ") siempre da un error frente a lo esperado (la pronunciación de la "ñ" en el audiolibro). No se si usas Tensorflow y con el board te refieres a Tensorboard, pero estos problemas tengo entendido que si se pueden ver. Lo que veo es que esto lo aplicas a otros modelos más "peliagudos" como probabilidad de fraude en tarjetas de crédito y resulta que todas las que terminan en 00 (un porcentaje pequeño) siempre las da por buenas, debería cantar.

Por otro lado, estás usando el tacotron para experimentos o te dedicas a investigación? entiendo que NLP, Text-to-speech, etc. a nivel "industria" no los utilizas, si no que utilizas los servicios que ya te ofrece alguien como Google o Amazon, no le veo mucha aplicación a meterte por ejemplo en las tripas de NLP frente a usar el de otros. Esto es una pregunta como curiosidad, que no digo que no tenga su sentido.

0 6
#35 sin_animo_de_lucro

#34 Vale, si, el text-to-speech lo entiendo, si es para clonar voz, necesitas tu propia data (tu voz), eso si lo entiendo.

Y lo del audio exacto también lo entiendo, pero la "n" y la "ñ" se pronuncian de forma muy diferente, entiendo que entrenando con un audio, si falla entre la "n" y la "ñ" se equivocaría antes entre la "c" y la "d" y muchas otras, que están más próximas en espectro sonoro. Si te calcula mal el error entre "n" y "ñ" entonces te lo calcula mal para muchas otras. Solo veo el problema que tu dices, de que "ñ" tiene poca frecuencia, pero eso se soluciona con más data y con mejor distribución, buscando datos hasta tener para todos los fonemas una muestra lo suficientemente grande como para poder entrenar con fiabilidad.

Lo del TTS lo entiendo, pero el NLP no, por lo menos para los casos de usos estándar, tipo topic extraction o sentiment analysis. El de IBM como bien dices está genial (llevan mucho tiempo en esto), pero Google creo que se lo terminará zampando con patatas por el enorme interés que tienen y la cantidad de beneficio que les puede reportar a su negocio. Se que hacer tu propio NLP es fácil, pero teniendo en cuenta que el dominio es el mismo (un lenguaje como el español) no le veo sentido, Google siempre va a tener más dato y los modelos más tuneados por la cantidad de recursos que tiene. Donde siempre le va a ganar un modelo propio a google, por poner un ejemplo, es en la predicción de compra de una tienda online, por ejemplo, porque cada tienda tiene su tipología de clientes, pero sin embargo todas las tiendas usan el mismo idioma inglés, el mismo español, etc. Puedo verle algo de sentido a tener un NLP entrenando con todo lo que escribes tu, y que prediga si estás cabreado, etc. porque cada uno tenemos nuestra forma particular de expresar sentimientos por escrito... le veo sentido, pero no aplicación práctica.

0 6
#38 sin_animo_de_lucro

#36 Si, Dialogflow confirmo que es una castaña, pero creo que irá mejorando, es lo que hace google, saca pronto (en beta eterna) y decide si tira a la basura o le mete una mejora brutal. Pero a eso iba, que BERT salió de Google, lo hacen opensource porque entonces se aprovechan de todo el talento de la comunidad (del tuyo, por ejemplo ) y luego ellos crecen mucho más rápido ahí. Es cierto que las cajas negras no van bien en ML, pero el NLP es tan poco variable, lo que comentaba, si es saber simplemente de que va un texto (topics) o análisis de sentimiento, no hay mucho que tunear.

En cuanto a un chatbot: si, estoy de acuerdo en que hay mucho fine tuning que hacer y es muy dependiente del dominio (lo mismo que lo que comentaba de predecir compra en un retail), pero en otras áreas o para empezar no va mal ir poco a poco y "comprar" antes que "construir". Yo he visto muchos casos de éxito en los que con BigQueryML, por ejemplo, empiezas a hacer tus pinitos, obtienes unos resultados decentes para conseguir más presupuesto y luego ya pasas a algo más complejo en Tensorflow.

Pero bueno, que interesante todo lo hablado, si no te importa pasarme tu NLP opensource quizá me plantee usarlo, se ve que controlas del tema, tengo que hacer algunas propuestas al respecto y podría ser útil.

Saludos.

0 6
#21 sisi

#5 Porque hablar de futbol....

1 4
#25 fluffy *

#24 3 años de provisionamiento? Tests?
Tú no has entrenado un modelo de IA en tu puta vida y vienes aquí con tus ínfulas de consultor....

Ale, ponte tu trajecito y tu corbatita y a cuñadear a Parla

1 -2
#27 fluffy

No son aires de superioridad. Vienes aquí, sin haber tocado en tu vida IA, sin haber entrenado un modelo, hablando de cosas que no sabes pero que crees saber por ser "informático", diciendo sandeces... Pones un artículo que habla claramente de 12 millones en computación, te digo que se puede hacer por el 33%, me pides fuente, te la doy, contestas que "pero no serán 12 millones en computación... habrá otros costes", te digo que tu propio artículo dice que son costes en computación... y en lugar de recoger soga sigues encabezonado y emperrado en que llevas la razón.

Pues no la llevas. Así que el de los aires de superioridad y el que no sabe recoger cuerda eres tú. Te va a ir mal con esos aires de superioridad

P.D: Cuando una la caga y no sabe de un tema, lo mejor es retirarse tío, la has cagado pero bien, has metido la pata tan hasta el fondo del hoyo que tienes los huevos aplastado contra el borde... Retírate bro

1 -2