OpenAI rompe moldes: ahora "piensa" con imágenes y opera ChatGPT por sí misma

Los nuevos modelos "o3" y "o4-mini" representan una mejora sustancial en su capacidad para simular el razonamiento.
OpenAI rompe moldes: ahora "piensa" con imágenes y opera ChatGPT por sí misma
OpenAI o3 mejora en la comprensión visual, lo que le permite interpretar e incorporar información de imágenes I CEDIDA

OpenAI ha anunciado un avance significativo en inteligencia artificial con el lanzamiento de sus últimos modelos de la serie "o": "o3" y "o4-mini". Estos nuevos modelos representan una mejora sustancial en su capacidad para simular el razonamiento y, por primera vez, se integran completamente con el conjunto completo de herramientas disponibles dentro de ChatGPT. 

 

Este progreso promete mejorar la capacidad de la IA para abordar problemas complejos, comprender entradas multimodales e interactuar de una manera más sofisticada y personalizada.

 

El modelo "o3", recientemente lanzado, se posiciona como el más inteligente de OpenAI hasta la fecha, optimizado específicamente para tareas intrincadas que exigen capacidades analíticas profundas. Sus puntos fuertes radican en áreas como las matemáticas avanzadas, los desafíos de codificación complejos y el razonamiento científico

 

Además, o3 muestra una mejora notable en la comprensión visual, lo que le permite interpretar e incorporar información de imágenes, incluso aquellas de menor calidad como bocetos o diagramas, directamente en su proceso de razonamiento.

Dan cristian padure h3kuhYUCE9A unsplash
Los puntos fuertes de "o3" son las matemáticas avanzadas, los desafíos de codificación y el razonamiento científico.  I DAN CRISTIAN PADURE
Codificación, matemáticas y análisis visual

Complementando a "o3" se encuentra el modelo "o4-mini", diseñado para la eficiencia y la velocidad. Si bien es más ligero, "o4-mini" aún ofrece un rendimiento sólido en tareas relacionadas con la codificación, las matemáticas y el análisis visual. 

 

OpenAI destaca que "o4-mini" supera a su predecesor, el "o3-mini", en varios puntos de referencia clave, lo que lo convierte en una solución rentable para aplicaciones que requieren un procesamiento rápido y de gran volumen. También se ofrece una versión de mayor capacidad, "o4-mini-high", a usuarios selectos para cargas de trabajo más exigentes.

 

Una innovación clave tanto en "o3" como en "o4-mini" es su capacidad para "pensar con imágenes". Esto significa que no solo pueden procesar datos visuales, sino que también los utilizan activamente como parte de su cadena de razonamiento. Los usuarios pueden cargar varias imágenes, como notas de pizarra o ilustraciones de libros de texto, y los modelos pueden interpretarlas y analizarlas para ayudar en la resolución de problemas. Esta capacidad se extiende a la manipulación dinámica de imágenes (rotar, hacer zoom, etc.) para mejorar aún más su comprensión.

Gemini Generated Image 9gw289gw289gw289
Los usuarios podrán cargar imágenes como notas de pizarra o ilustraciones I CEDIDA
Funcionamiento integrado

Además, estos nuevos modelos están diseñados para utilizar las herramientas de ChatGPT (incluida la búsqueda web, el intérprete de código -Python-, el análisis de archivos y la generación de imágenes) de una manera más integrada e inteligente

 

Están entrenados no solo en cómo usar estas herramientas, sino también en cuándo emplearlas, lo que lleva a estrategias de resolución de problemas más coherentes y efectivas para tareas de varios pasos. OpenAI enfatiza que esto marca un paso significativo hacia la creación de agentes de IA más autónomos capaces de manejar instrucciones complejas con menos intervención directa del usuario.

 

Acceso paulatino

Para los usuarios, el acceso a estos nuevos modelos se está implementando en fases. Los suscriptores de ChatGPT Plus, Pro y Team pueden comenzar a usar "o3" y "o4-mini" de inmediato. Los usuarios empresariales y educativos obtendrán acceso durante la semana siguiente

 

En particular, los usuarios de nivel gratuito también pueden experimentar las capacidades de "o4-mini" seleccionando una opción de "Pensar" antes de enviar sus indicaciones. Los desarrolladores también pueden aprovechar estos modelos a través de la API de Chat Completions y la API de Responses.

 

En un anuncio relacionado, OpenAI presentó Codex CLI, una nueva herramienta experimental que permite a los usuarios interactuar con modelos de razonamiento como "o3" y "o4-mini" directamente desde su terminal. Esta interfaz admite entrada multimodal, como capturas de pantalla, y proporciona acceso directo al código local.

 

El lanzamiento de "o3" y "o4-mini" significa el compromiso de OpenAI de superar los límites de las capacidades de la IA, particularmente en áreas que requieren un razonamiento complejo y una integración perfecta con un conjunto diverso de herramientas. Estos avances allanan el camino para aplicaciones de IA más potentes y versátiles en diversos campos.

OpenAI rompe moldes: ahora "piensa" con imágenes y opera ChatGPT por sí misma

Te puede interesar