OpenAI o3 y o4-mini: Nueva IA con Razonamiento Visual y Acceso Total a Herramientas ChatGPT

8º-12º sábado | 19 abril | 2025

OpenAI rompe moldes: ahora "piensa" con imágenes y opera ChatGPT por sí misma — OpenAI o3 mejora en la comprensión visual, lo que le permite interpretar e incorporar información de imágenes I CEDIDA

Redacción

17 de abril de 2025, 14:32

OpenAI ha anunciado un avance significativo en inteligencia artificial con el lanzamiento de sus últimos modelos de la serie "o": "o3" y "o4-mini". Estos nuevos modelos representan una mejora sustancial en su capacidad para simular el razonamiento y, por primera vez, se integran completamente con el conjunto completo de herramientas disponibles dentro de ChatGPT.

Este progreso promete mejorar la capacidad de la IA para abordar problemas complejos, comprender entradas multimodales e interactuar de una manera más sofisticada y personalizada.

El modelo "o3", recientemente lanzado, se posiciona como el más inteligente de OpenAI hasta la fecha, optimizado específicamente para tareas intrincadas que exigen capacidades analíticas profundas. Sus puntos fuertes radican en áreas como las matemáticas avanzadas, los desafíos de codificación complejos y el razonamiento científico.

Además, o3 muestra una mejora notable en la comprensión visual, lo que le permite interpretar e incorporar información de imágenes, incluso aquellas de menor calidad como bocetos o diagramas, directamente en su proceso de razonamiento.

Dan cristian padure h3kuhYUCE9A unsplash — Los puntos fuertes de "o3" son las matemáticas avanzadas, los desafíos de codificación y el razonamiento científico. I DAN CRISTIAN PADURE

Codificación, matemáticas y análisis visual

Complementando a "o3" se encuentra el modelo "o4-mini", diseñado para la eficiencia y la velocidad. Si bien es más ligero, "o4-mini" aún ofrece un rendimiento sólido en tareas relacionadas con la codificación, las matemáticas y el análisis visual.

OpenAI destaca que "o4-mini" supera a su predecesor, el "o3-mini", en varios puntos de referencia clave, lo que lo convierte en una solución rentable para aplicaciones que requieren un procesamiento rápido y de gran volumen. También se ofrece una versión de mayor capacidad, "o4-mini-high", a usuarios selectos para cargas de trabajo más exigentes.

Una innovación clave tanto en "o3" como en "o4-mini" es su capacidad para "pensar con imágenes". Esto significa que no solo pueden procesar datos visuales, sino que también los utilizan activamente como parte de su cadena de razonamiento. Los usuarios pueden cargar varias imágenes, como notas de pizarra o ilustraciones de libros de texto, y los modelos pueden interpretarlas y analizarlas para ayudar en la resolución de problemas. Esta capacidad se extiende a la manipulación dinámica de imágenes (rotar, hacer zoom, etc.) para mejorar aún más su comprensión.

Gemini Generated Image 9gw289gw289gw289 — Los usuarios podrán cargar imágenes como notas de pizarra o ilustraciones I CEDIDA

Funcionamiento integrado

Además, estos nuevos modelos están diseñados para utilizar las herramientas de ChatGPT (incluida la búsqueda web, el intérprete de código -Python-, el análisis de archivos y la generación de imágenes) de una manera más integrada e inteligente.

Están entrenados no solo en cómo usar estas herramientas, sino también en cuándo emplearlas, lo que lleva a estrategias de resolución de problemas más coherentes y efectivas para tareas de varios pasos. OpenAI enfatiza que esto marca un paso significativo hacia la creación de agentes de IA más autónomos capaces de manejar instrucciones complejas con menos intervención directa del usuario.

Acceso paulatino

Para los usuarios, el acceso a estos nuevos modelos se está implementando en fases. Los suscriptores de ChatGPT Plus, Pro y Team pueden comenzar a usar "o3" y "o4-mini" de inmediato. Los usuarios empresariales y educativos obtendrán acceso durante la semana siguiente.

En particular, los usuarios de nivel gratuito también pueden experimentar las capacidades de "o4-mini" seleccionando una opción de "Pensar" antes de enviar sus indicaciones. Los desarrolladores también pueden aprovechar estos modelos a través de la API de Chat Completions y la API de Responses.

En un anuncio relacionado, OpenAI presentó Codex CLI, una nueva herramienta experimental que permite a los usuarios interactuar con modelos de razonamiento como "o3" y "o4-mini" directamente desde su terminal. Esta interfaz admite entrada multimodal, como capturas de pantalla, y proporciona acceso directo al código local.

El lanzamiento de "o3" y "o4-mini" significa el compromiso de OpenAI de superar los límites de las capacidades de la IA, particularmente en áreas que requieren un razonamiento complejo y una integración perfecta con un conjunto diverso de herramientas. Estos avances allanan el camino para aplicaciones de IA más potentes y versátiles en diversos campos.

Innovación o3 o4-mini Inteligencia Artificial IA razonamiento visión procesamiento de imágenes herramientas web search code interpreter file analysis image generation lanzamiento multimodal Codex CLI

OpenAI rompe moldes: ahora "piensa" con imágenes y opera ChatGPT por sí misma

OpenAI rompe moldes: ahora "piensa" con imágenes y opera ChatGPT por sí misma

Innovación

Codificación, matemáticas y análisis visual

Funcionamiento integrado

Acceso paulatino

Te puede interesar

Lo más visto

Vecinos de Ferrol y Narón denuncian las malas prácticas de una empresa de pintura

Tres de tres: Dolores decide no arriesgar este Jueves Santo en Ferrol y suspender por lluvia la procesión del Cristo y la Piedad

La Merced suspende la primera de las procesiones de este Jueves Santo en Ferrol

Hieren a un músico en una procesión de Ferrol al cruzar por el medio de la banda