OpenAI ha anunciado un avance significativo en inteligencia artificial con el lanzamiento de sus últimos modelos de la serie "o": "o3" y "o4-mini". Estos nuevos modelos representan una mejora sustancial en su capacidad para simular el razonamiento y, por primera vez, se integran completamente con el conjunto completo de herramientas disponibles dentro de ChatGPT.
Este progreso promete mejorar la capacidad de la IA para abordar problemas complejos, comprender entradas multimodales e interactuar de una manera más sofisticada y personalizada.
El modelo "o3", recientemente lanzado, se posiciona como el más inteligente de OpenAI hasta la fecha, optimizado específicamente para tareas intrincadas que exigen capacidades analíticas profundas. Sus puntos fuertes radican en áreas como las matemáticas avanzadas, los desafíos de codificación complejos y el razonamiento científico.
Además, o3 muestra una mejora notable en la comprensión visual, lo que le permite interpretar e incorporar información de imágenes, incluso aquellas de menor calidad como bocetos o diagramas, directamente en su proceso de razonamiento.
Complementando a "o3" se encuentra el modelo "o4-mini", diseñado para la eficiencia y la velocidad. Si bien es más ligero, "o4-mini" aún ofrece un rendimiento sólido en tareas relacionadas con la codificación, las matemáticas y el análisis visual.
OpenAI destaca que "o4-mini" supera a su predecesor, el "o3-mini", en varios puntos de referencia clave, lo que lo convierte en una solución rentable para aplicaciones que requieren un procesamiento rápido y de gran volumen. También se ofrece una versión de mayor capacidad, "o4-mini-high", a usuarios selectos para cargas de trabajo más exigentes.
Una innovación clave tanto en "o3" como en "o4-mini" es su capacidad para "pensar con imágenes". Esto significa que no solo pueden procesar datos visuales, sino que también los utilizan activamente como parte de su cadena de razonamiento. Los usuarios pueden cargar varias imágenes, como notas de pizarra o ilustraciones de libros de texto, y los modelos pueden interpretarlas y analizarlas para ayudar en la resolución de problemas. Esta capacidad se extiende a la manipulación dinámica de imágenes (rotar, hacer zoom, etc.) para mejorar aún más su comprensión.
Además, estos nuevos modelos están diseñados para utilizar las herramientas de ChatGPT (incluida la búsqueda web, el intérprete de código -Python-, el análisis de archivos y la generación de imágenes) de una manera más integrada e inteligente.
Están entrenados no solo en cómo usar estas herramientas, sino también en cuándo emplearlas, lo que lleva a estrategias de resolución de problemas más coherentes y efectivas para tareas de varios pasos. OpenAI enfatiza que esto marca un paso significativo hacia la creación de agentes de IA más autónomos capaces de manejar instrucciones complejas con menos intervención directa del usuario.
Para los usuarios, el acceso a estos nuevos modelos se está implementando en fases. Los suscriptores de ChatGPT Plus, Pro y Team pueden comenzar a usar "o3" y "o4-mini" de inmediato. Los usuarios empresariales y educativos obtendrán acceso durante la semana siguiente.
En particular, los usuarios de nivel gratuito también pueden experimentar las capacidades de "o4-mini" seleccionando una opción de "Pensar" antes de enviar sus indicaciones. Los desarrolladores también pueden aprovechar estos modelos a través de la API de Chat Completions y la API de Responses.
En un anuncio relacionado, OpenAI presentó Codex CLI, una nueva herramienta experimental que permite a los usuarios interactuar con modelos de razonamiento como "o3" y "o4-mini" directamente desde su terminal. Esta interfaz admite entrada multimodal, como capturas de pantalla, y proporciona acceso directo al código local.
El lanzamiento de "o3" y "o4-mini" significa el compromiso de OpenAI de superar los límites de las capacidades de la IA, particularmente en áreas que requieren un razonamiento complejo y una integración perfecta con un conjunto diverso de herramientas. Estos avances allanan el camino para aplicaciones de IA más potentes y versátiles en diversos campos.