La última innovación de OpenAI, el modelo GPT-4o, ha revolucionado la interacción con la inteligencia artificial. ChatGPT ahora simula conversaciones humanas con una fluidez sin precedentes, incluyendo entonaciones y traducciones en tiempo real.
OpenAI ha desvelado recientemente las impresionantes funcionalidades de GPT-4o. Este modelo es capaz de resolver problemas matemáticos, interpretar código y narrar historias con variaciones tonales, actuando como un traductor instantáneo y hasta realizando análisis faciales.
El GPT-4o, un modelo multimodal, integra y procesa entradas de audio, visuales y textuales de forma simultánea, permitiendo interacciones más fluidas y respuestas ágiles.
Este progreso es posible gracias a una novedosa técnica de entrenamiento integral, que permite a la IA procesar todas las entradas y salidas en una única red neuronal.
Antes, la IA requería tres etapas para procesar datos: convertir audio en texto, formular una respuesta textual y luego sintetizarla en audio. Estos pasos limitaban la habilidad de ChatGPT para discernir tonos, identificar múltiples hablantes y manifestar emociones como la risa o el canto.
GPT-4o ha superado estas limitaciones. Ahora, puede sostener diálogos en tiempo real, añadir matices emocionales a su voz e interactuar con contenido en vivo mediante una función de cámara para smartphones.
OpenAI afirma que GPT-4o iguala a GPT-4 Turbo en capacidades textuales, lógica y habilidades de programación, pero con un procesamiento más eficiente y económico, beneficiando a los desarrolladores que emplean su API.
En su lanzamiento, se mostró cómo GPT-4o puede variar su narrativa, solucionar ecuaciones al instante con la cámara de un smartphone y traducir entre idiomas al vuelo.
GPT-4o también puede examinar código detalladamente, ofreciendo retroalimentación precisa y explicando conceptos en formatos como gráficos.
Una ventaja notable de GPT-4o es su accesibilidad. Estará disponible gratuitamente, aunque con restricciones, y los usuarios de planes Plus disfrutarán de beneficios adicionales.
A partir del 13 de mayo, las funcionalidades de texto e imagen de GPT-4o se ofrecerán sin costo en ChatGPT, y los usuarios Plus tendrán límites de mensajes ampliados. La función de voz se lanzará en versión alfa para suscriptores próximamente.
Para desarrolladores, GPT-4o promete ser el doble de rápido y a la mitad de costo que GPT-4 Turbo, con mayores límites de uso.
Junto a GPT-4o, OpenAI ha introducido una aplicación de escritorio que permite realizar consultas instantáneas de contenido, ya sea seleccionando texto o capturando pantalla. Disponible primero para macOS y usuarios Plus, se espera una versión para Windows a finales de 2024.