Imagina que los modelos de inteligencia artificial que entienden y generan texto, como los que responden a preguntas o escriben historias, son como cerebros electrónicos muy grandes. Cuanto más grande es el cerebro (más "parámetros" tiene), más complejo puede ser lo que aprende y mejor puede hacerlo. Sin embargo, estos cerebros grandes necesitan mucha memoria y energía para funcionar, como si fueran computadoras muy potentes.
Ahora, Microsoft ha creado un modelo de lenguaje llamado BitNet b1.58 2B4T que es como un cerebro mucho más pequeño, de solo 400MB, pero con 2 mil millones de parámetros. Para hacernos una idea, es mucho más pequeño que muchas de las aplicaciones del móvil. Lo sorprendente es que, a pesar de su tamaño reducido, BitNet puede hacer muchas de las mismas cosas que los modelos mucho más grandes, como entender preguntas, escribir textos e incluso resolver problemas de matemáticas de primaria.
La clave está en cómo BitNet almacena la información. En lugar de usar números grandes y precisos para representar lo que ha aprendido (como hacen otros modelos), BitNet utiliza solo tres valores: -1, 0 y +1 (cuantización de 1.58 bits). Es como si en lugar de usar una paleta de colores infinita, solo usara negro, blanco y un tono de gris. Sorprendentemente, esto es suficiente para que el modelo funcione de manera eficiente en CPUs estándar, incluyendo el chip M2 de Apple, con velocidades de inferencia más rápidas y un menor consumo de energía.
BitNet se entrenó desde cero utilizando una técnica llamada "entrenamiento con reconocimiento de cuantización" en un corpus masivo de 4 billones de tokens. Los resultados de las evaluaciones han demostrado que BitNet se desempeña de manera competitiva e incluso supera a otros modelos pequeños de código abierto en varios benchmarks, destacando especialmente en su reducido uso de memoria y su rápida latencia en CPUs.
Las implicaciones de un modelo de lenguaje tan pequeño y eficiente son significativas. BitNet tiene el potencial de democratizar el acceso a la IA al permitir la implementación de modelos avanzados en dispositivos con recursos limitados, reducir los costos de infraestructura y mejorar la privacidad de los datos al facilitar el procesamiento en el dispositivo.
Microsoft ha publicado el modelo BitNet b1.58 2B4T y su framework de inferencia optimizado para CPU, bitnet.cpp, como código abierto, fomentando la investigación y el desarrollo en la comunidad de IA.
Los planes futuros incluyen la exploración de modelos BitNet más grandes, el aumento de la longitud del contexto, la mejora del rendimiento en tareas complejas y la compatibilidad con múltiples idiomas y arquitecturas multimodales. Un avance prometedor hacia modelos de lenguaje más eficientes, accesibles y sostenibles.