Una investigación científica que acaba de ser publicada recuerda que la transparencia en el código es esencial para combatir los peligros de la información engañosa. Y, aunque ChatGPT haya llegado al mundo sorprendiendo por sus impresionantes capacidades de comprender el lenguaje natural, llevar a cabo muchísimas funciones y respondernos a muchas dudas, no hay por qué depender al 100% de una sola herramienta que, a su vez, depende de unas pocas empresas.
|
etiquetas: desarrolladores , open source , software español , inteligencia artificial , chatgpt
Si ya había polémica por los algoritmos usados en la asignación de ayudas públicas, colegio, seguro médico, sanidad, etc.. , imaginad que puede ocurrir cuando el sesgo de una IA empiece a discriminar ciudadanos, ideologías, etc.. Y nadie sea capaz de evaluar que cojones está pasando allí, porque ni siquiera hay un algoritmo que revisar.
"Es así porque lo dice el oráculo".
Con los generadores de imágenes online tipo Wall-e, etc, suelen haber filtros NSFW. Con estos procesadores de lenguaje pueden imponerse sesgos políticos de distinto tipo evitando que se generen respuestas "incorrectas". Hubo toda una polémica con AI Dungeon cuando decidieron empezar a banear a quien creaba (sin publicarlas, solo para consumo propio) historias NSFW que cruzaban alguna línea roja legal.
La libertad tiene riesgos, claro. Que tengas un generador de imágenes en tu PC te permite generar contenido pornográfico ilegal, o te facilitaría utilizarlo para hacer, pongamos, carteles e imágenes que impulsen al odio contra una minoría. Un procesador de lenguaje en tu PC te permitiría construir bots para spam o para difundir mensajes de odio en redes sociales.
Yo me inclino por el lado permisivo, a pesar de los potenciales problemas. Me parece mucho mejor que tener IAs "capadas" por decisiones que desconocemos y sobre las que no tenemos ningún control. Y que los problemas que surjan por un mal uso se arreglen (o incluso se castiguen) a posteriori, no con una censura previa.
Como si quieres una imagen de Ayuso desnuda posando. Se lo puedes preguntar y te lo genera.
Otra cosa son las pesadillas luego
Lo que hace falta es un stablediffusion para esto del chat.
De todos modos creo recordar que la versión online de stablediffusion sí tiene filtro, pero sí, si te lo bajas en local puedes generar lo que te salga de las pesadillas
El dataset con el que se ha entrenado puede estar sesgado, intencionalmente o no.
Y no sé si es el caso del texto, pero por lo menos en imágenes es carísimo entrenar un dataset, con lo que la empresa que lo haga puede poner lo que quiera.
Ya pasó en los modelos de Stable Diffusion 2.0 y 2.1, que la empresa ha puesto restricciones NSFW muy potentes en la generación de imágenes.
Y quitaron gente muy famosa.
Y el modelo base no te va a hacer a Ayuso porque se alimentó de sitios no españoles.
Otra cosa es que se pueda añadir, pero requiere cierto hardware y conocimientos técnicos para hacer algo coherente.
Y en el caso de esa tipa requiere tener cierto mal gusto.
Ese filtro se puede hacer no dándole ninguna imagen NSFW en el entrenamiento ni nada que pueda servir para luego generarlas, en este caso parece relativamente realista porque socialmente ya hacemos una distinción y filtros claros en las webs.
Pero ese filtro también se puede hacer, siendo menos efectivo, en la capa previa a la petición a la IA, filtrando las palabras que podrían generar como respuesta imàgenes NSFW.
En el caso de los chats de texto creo que el filtro es muchísimo más difícil hacerlo en el entrenamiento porque socialmente no hacemos ese filtro, no hay webs donde se hable de política y webs donde no se hable de política, o webs donde se hable de violencia y webs donde no. Por lo tanto el modelo acaba aprendiendo de ello y luego el filtro que sí puedes intentar, y posiblemente fracasar si hay empeño en ello, es en la petición que se le hace a la IA y posteriormente analizando la respuesta que se recibe de la IA antes que la vea el usuario.
Así vemos como el chatGPT de Bing empieza a dar una respuesta y a media respuesta se borra y te dice que no te puede responder. Eso se hace analizando esa respuesta.
esto va a tener repercusiones sociales, vitales, etc.
De ahí la necesidad de que sea público
Y todo ello sin que los seres humanos seamos capaces de comprender realmente lo que está sucediendo dentro de ellas.
¿Fascinante? Sin duda. ¿Peligroso? También.
Se le llama el problema de la caja negra:
www.investigacionyciencia.es/revistas/investigacion-y-ciencia/adaptado
Quién nos diría que podríamos obtener una imagen de un agujero negro hace tal sólo, no sé, 30 años. Seguro que había muchos que decían que era "totalmente imposible", y aún así quedarán muchos que digan "es que yo no lo he visto con mis propios ojos", "es que son radiofrecuencias y por tanto no es estrictamente visible"...... Lo que quieras, pero con tu actitud la humanidad no habría ni salido de las cavernas
La cuestión es que la tarea de entender cómo funcionan realmente estos sistemas va a ir inevitablemente por detrás (muy por detrás) de los "avances" y de su liberación en el mundo real. Así que, en la práctica, vamos a estar continuamente liberando modelos que solo entendemos parcialmente. Es difícil imaginar un escenario sociopolítico / tecnológico en el que las cosas puedan ser de otra manera.
(No es crítica, es que me ha hecho gracia la cifra de muertos, ni he leído noticia...)
Positivo por aguantar troleo
De petición (tu prompt con palabra 'sexual,violenta...' en cualquier idioma filtrada por IA)
De dataset (entrenado con datos filtrados) Otra IA estilo safesearch, comprueba que nadie se ofenda.
De respuesta (filtra resultado con otra IA tipo safesearch)
Con Stable Diffusion 1.5 no llegaron a implementar eso. Descargado y al DVD.
Open-assistant.io creo que no nos llegará limpio de filtros (calculo unos 200Gb de datos). Lástima.
¿Te puede contestar de todo? ¿Menos el por qué te hace una decision? Es más. La competencia (Por ejemplo, el buscador Bing) te mostrará las fuentes utilizadas del razonamiento que te hace.
Si una inteligencia artificial aprende. pues debe de aprender y no desaprender. De lo contrario, hay que empezar desde el principio.
Vamos, que lo que señalo es que todo esto no es tan sencillo como trasladar el paradigma del software libre a estos modelos, aquí el soporte hardware es un problema cardinal.
El entrenamiento consiste simplemente en calcular los parámetros de esa fórmula matemática.
No hay nada más.
Una cosa sería el resultado y otra sería la filosofía o el desarrollo del resultado.
De todas formas veo bien que se creen datasets libres, pero hay que señalar las limitaciones de estos proyectos y no vender a la gente la ilusión de que en breve podrán ejecutar su propio GPT en casa.
La única esperanza no la veo en que el hardware escale, sino en que se encuentre la forma de comprimir los modelos sin perder rendimiento.
Software libre = confiable
Sin embargo estamos llenos de software privado y parece no importarle a nadie.