Microsoft sorprende: una IA diminuta (400MB) que compite con los modelos más grandes

Reduce drásticamente el tamaño de los modelos de lenguaje sin sacrificar rendimiento y abre nuevas posibilidades para dispositivos con recursos limitados
Microsoft sorprende: una IA diminuta (400MB) que compite con los modelos más grandes
Ordenador portátil muestra línea de código en el monitor I VINCENZO MAROTTA

Imagina que los modelos de inteligencia artificial que entienden y generan texto, como los que responden a preguntas o escriben historias, son como cerebros electrónicos muy grandes. Cuanto más grande es el cerebro (más "parámetros" tiene), más complejo puede ser lo que aprende y mejor puede hacerlo. Sin embargo, estos cerebros grandes necesitan mucha memoria y energía para funcionar, como si fueran computadoras muy potentes.

 

Ahora, Microsoft ha creado un modelo de lenguaje llamado BitNet b1.58 2B4T que es como un cerebro mucho más pequeño, de solo 400MB, pero con 2 mil millones de parámetros. Para hacernos una idea, es mucho más pequeño que muchas de las aplicaciones del móvil. Lo sorprendente es que, a pesar de su tamaño reducido, BitNet puede hacer muchas de las mismas cosas que los modelos mucho más grandes, como entender preguntas, escribir textos e incluso resolver problemas de matemáticas de primaria.

 

La clave está en cómo BitNet almacena la información. En lugar de usar números grandes y precisos para representar lo que ha aprendido (como hacen otros modelos), BitNet utiliza solo tres valores: -1, 0 y +1 (cuantización de 1.58 bits). Es como si en lugar de usar una paleta de colores infinita, solo usara negro, blanco y un tono de gris. Sorprendentemente, esto es suficiente para que el modelo funcione de manera eficiente en CPUs estándar, incluyendo el chip M2 de Apple, con velocidades de inferencia más rápidas y un menor consumo de energía.

 

¿Qué ventajas tiene esto?

 

  • Ocupa mucho menos espacio: al usar solo tres valores, BitNet necesita mucha menos memoria para guardar toda su información. Esto significa que puede funcionar en dispositivos con menos recursos, como ordenadores portátiles o incluso teléfonos móviles.   

 

  • Es más rápido: al realizar cálculos con números tan simples, BitNet puede procesar la información más rápidamente que los modelos que usan números más complejos.   

 

  • Consume menos energía: al ser más eficiente en memoria y procesamiento, BitNet también necesita menos energía para funcionar, lo que es bueno para el medio ambiente y para la batería de tus dispositivos. 

 

  • Podría hacer la IA más accesible: como BitNet puede funcionar en hardware más común, esto podría significar que más personas y empresas podrían usar la inteligencia artificial sin necesidad de tener equipos muy costosos.
Abid shah KZ4kkKlGp 4 unsplash
Isotipo de Microsoft en 3D I ABID SHAH 

BitNet se entrenó desde cero utilizando una técnica llamada "entrenamiento con reconocimiento de cuantización" en un corpus masivo de 4 billones de tokens. Los resultados de las evaluaciones han demostrado que BitNet se desempeña de manera competitiva e incluso supera a otros modelos pequeños de código abierto en varios benchmarks, destacando especialmente en su reducido uso de memoria y su rápida latencia en CPUs.

 

Las implicaciones de un modelo de lenguaje tan pequeño y eficiente son significativas. BitNet tiene el potencial de democratizar el acceso a la IA al permitir la implementación de modelos avanzados en dispositivos con recursos limitados, reducir los costos de infraestructura y mejorar la privacidad de los datos al facilitar el procesamiento en el dispositivo.

 

Código abierto

Microsoft ha publicado el modelo BitNet b1.58 2B4T y su framework de inferencia optimizado para CPU, bitnet.cpp, como código abierto, fomentando la investigación y el desarrollo en la comunidad de IA.

 

Los planes futuros incluyen la exploración de modelos BitNet más grandes, el aumento de la longitud del contexto, la mejora del rendimiento en tareas complejas y la compatibilidad con múltiples idiomas y arquitecturas multimodales. Un avance prometedor hacia modelos de lenguaje más eficientes, accesibles y sostenibles.

Microsoft sorprende: una IA diminuta (400MB) que compite con los modelos más grandes

Te puede interesar