Tecnología, ciencia y cultura digital
Es posible que se gane una comisión por los enlaces en esta página

Por qué la ‘IA’multimodal’ es lo más popular en tecnología en este momento

Hay una nueva carrera en la tecnología para hacer que la IA vea y escuche el mundo que lo rodea y, en última instancia, le dé sentido.

Es posible que se gane una comisión por los enlaces en esta página.
Imagen para el artículo titulado Por qué la ‘IA’multimodal’ es lo más popular en tecnología en este momento
Captura de pantalla: OpenAI

OpenAI y Google mostraron sus última y mejor tecnología de IA esta semana. Durante los dos últimos años, las empresas tecnológicas han competido para hacer que los modelos de IA sean más inteligentes, pero ahora ha surgido un nuevo enfoque: hacerlos multimodales. OpenAI y Google se están concentrando en una IA que puede cambiar sin problemas entre su boca, ojos y oídos robóticos.

“Multimodal” es la palabra de moda más grande a medida que las empresas tecnológicas apuestan por la forma más atractiva de sus modelos de IA en su vida cotidiana. Los chatbots han perdido su brillo desde el lanzamiento de ChatGPT en 2022. Por eso, las empresas esperan que hablar y compartir visualmente cosas con un asistente de IA Se siente más natural que escribir. Cuando ves la IA multimodal bien hecha, se siente como si la ciencia ficción cobrara vida.

Publicidad

El lunes, OpenAI se lució GPT-4 Omni, que recordaba extrañamente a la película distópica sobre la conexión humana perdida Ella. Omni significa “omnicanal” y OpenAI promocionó la capacidad del modelo para procesar video junto con audio. La demostración mostró ChatGPT mirando una matemática. problema a través de la cámara de un teléfono, mientras un miembro del personal de OpenAI le pedía verbalmente al chatbot que los guiara a través de él. OpenAI dice que se está implementando ahora para usuarios Premium.

Al día siguiente, Google desvelado Proyecto Astra, que prometía hacer más o menos lo mismo. Florence Ion de Gizmodo utilizó IA multimodal para identificar qué flores falsas estaba mirando. que identificó correctamente como tulipanes. Sin embargo, el Proyecto Astra parecía un poco más lento que GPT-4o y la voz era mucho más robótica. Más Siri que Su, pero dejaré que usted decida si eso es algo bueno. Sin embargo, Google dice que esto se encuentra en las primeras etapas, e incluso señala algunos retos actuales que OpenAI ha superado.

Publicidad

“Si bien hemos logrado avances increíbles en el desarrollo de sistemas de IA que pueden comprender información multimodal, reducir el tiempo de respuesta a algo conversacional es difícil. desafío de ingeniería”, dijo Google en un publicación de blog.

Ahora quizás lo recuerdes Vídeo de demostración de Géminis de Google de dic. de 2023 que resultó ser altamente manipulado. Seis meses después, Google aún no está listo para publicar lo que mostró en ese vídeo, pero OpenAI está avanzando a toda velocidad con GPT-4o. La IA multimodal representa la próxima gran carrera en el desarrollo de la IA, y OpenAI parece estar ganando.

Publicidad

Una diferencia clave para GPT-4o es que el modelo de IA único puede procesar de forma nativa audio, video y texto. Anteriormente, OpenAI necesitaba Separe modelos de IA para traducir voz y vídeo a texto, de modo que el GPT-4 subyacente, que se basa en el lenguaje, pueda comprender estos diferentes medios. Parece que Google todavía puede estar usando múltiples modelos de IA para realizar estas tareas, dados los tiempos de respuesta más lentos.

También hemos visto una adopción más amplia de Dispositivos portátiles de IA A medida que las empresas tecnológicas adoptan la IA multimodal, Humane AI Pin, Rabbit R1 y Meta Ray-Ban son todos ejemplos de dispositivos habilitados para IA. que utilizan estos diversos medios. Estos dispositivos prometen hacernos menos dependientes de los teléfonos inteligentes, aunque es posible que Siri y el Asistente de Google lo hagan Además, pronto podremos contar con IA multimodal.

Publicidad

La IA multimodal probablemente sea algo sobre lo que escuchará mucho más en los próximos meses y años. Su desarrollo e integración en productos podría hacer que la IA sea significativamente más útil. La tecnología finalmente le quita el peso de transcribir el mundo a un LLM y permite la IA para “ver” y “escuchar” el mundo por sí mismo.

Este contenido ha sido traducido automáticamente del material original. Debido a los matices de la traducción automática, pueden existir ligeras diferencias. Para la versión original, haga clic aquí.