Small y Large Language Models: ¿Dónde está el futuro de la IA?

Los small y large languaje models son herramientas de inteligencia artificial para el procesamiento de lenguaje natural (PNL). Estos modelos de lenguaje grandes (LLM) y pequeños (SLM), entienden y pueden generar texto como si fueran una persona humana. 

Para ello, utilizan millones de parámetros con los que son entrenados. Por norma general, si hablamos de un large language model ha sido entrenado con, como mínimo, 100 millones de parámetros, mientras que los small language models pueden comenzar a partir del millón de parámetros. 

En un primer momento, parecía que el futuro venía marcado por los modelos de lenguaje grandes. Al fin y al cabo, al tener más parámetros, son capaces de manejar tareas de lenguaje más complejas, al menos a nivel general. Con ejemplos conocidos por todos como ChatGPT4 o Bard, estos modelos generan un texto coherente y pueden utilizarse para una gran variedad de tareas. 

Sin embargo, los modelos de lenguaje pequeños han demostrado poder ser más eficientes en campos muy concretos y para tareas específicas. Más económicos, se pueden entrenar para conseguir resultados mejores que los modelos grandes en campos concretos y con desarrollos a medida. En este sentido, podemos hablar de ejemplos como Phi2, TinyBERT y DistilBERT. 

En este artículo vamos a repasar la evolución de ambos modelos, sus ventajas y desventajas, así como su impacto en la industria y casos de éxito ideales para cada uno.  

EL PASADO Y PRESENTE DE LOS SMALL Y LARGE LANGUAGE MODELS 

La inteligencia artificial y el procesamiento del lenguaje natural (PLN) han sido los grandes protagonistas en un viaje que comenzó ya, de manera, rudimentaria, en los años 50 y que ha terminado creando los actuales modelos de lenguaje grandes y pequeños. 

De un principio con sistemas basados en reglas hasta las redes neuronales avanzadas del día de hoy, la evolución de estos modelos ha transformado por completo la manera en el que el ser humano interactúa y se comunica con las máquinas, haciendo posible la generación de texto coherente y enriquecida. 

Es ELIZA, creada en 1966, el primer programa relevante en este campo. Sin embargo, este primer bot conversacional era incapaz de comprender los matices del lenguaje humano. Aun así, este tipo de proyectos sentaron las bases de futuros desarrollos que siguieron buscando la manera de procesar y generar lenguaje natural de manera efectiva.  

Hay que esperar hasta la llegada de la década de 2010 para la aparición de los large language models (LLM). GPT-1 fue presentado en 2018 con 117 millones de parámetros. En el mismo año, surgió también la primera versión de BERT. 

Estos modelos aprovecharon los avances en potencia computacional y el acceso a amplios corpus de texto para ser capaces de producir texto coherente y contextualmente relevante. En estos momentos también comienzan a verse sus primeras aplicaciones prácticas, desde chatbots a traducción de idiomas o generación de contenido. 

Pocos años después, ya en 2022, se puede ver como el impacto de los LLM era indiscutible. A día de hoy, a comienzos de 2024, los LLM son utilizados habitualmente por un amplio porcentaje de empresas, generando código, presentaciones, artículos o imágenes, entre otros y mejorando la eficiencia.  

En esta última etapa, pero ganando prominencia en 2023, es cuando la evolución de los modelos de lenguaje ha vuelto a sorprender. En este caso, ha sido con la aparición de los small language models (SLM). Con TinyBert de Google o Phi-2 de Microsoft, vemos como los grandes players del sector se han dado cuenta de las ventajas de este nuevo modelo. 

Perfectos para la implementación en dispositivos con recursos limitados, mantienen un alto rendimiento mientras se entrenan con conjuntos de datos más reducidos. Se trata de modelos más accesibles y sostenibles, además de más responsables medioambientalmente. Pierden en generalidad, pero ganan en eficiencia y precisión cuando se trata de pequeñas áreas particulares. 

En conclusión, en el presente conviven ambos modelos. Mientras que los LLM ya son de uso común, tanto a nivel particular como empresarial, la tendencia en las grandes compañías está en apostar por los SLM, donde se está fraguando el futuro del procesamiento del lenguaje natural (PNL).  

VENTAJAS Y DESVENTAJAS 

A continuación, vamos a desglosar las ventajas y desventajas más importantes de cada uno de los modelos. Al fin y al cabo, tanto los LLM como los SLM son muy útiles en su contexto adecuado, contando también con desventajas si no los usamos correctamente. 

Entender dónde destacan y dónde es mejor utilizar la alternativa, permitirá a las empresas una visión más completa de los modelos de procesamiento del lenguaje natural con inteligencia artificial.  

VENTAJAS DE LOS LARGE LANGUAGE MODELS 

Por una parte, los LLM tienen las siguientes ventajas: 

  1. Rendimiento mejorado en comprensión y generación de texto: Los LLM, debido a su mayor cantidad de parámetros y complejidad, tienen una capacidad superior para comprender y generar texto que es tanto complejo como contextualmente relevante. Normalmente, cuentan con una mejor comprensión lectora y una mayor efectividad en en tareas lingüísticas en general.  
  2. Capacidad de contexto amplio y diverso: Al ser entrenados con extensos y variados conjuntos de datos, los LLM son capaces de capturar una amplia gama de patrones y contextos lingüísticos. Esto les permite manejar tareas que requieren una comprensión profunda y matizada del lenguaje, incluyendo el manejo de ambigüedades, ironías y referencias culturales. 
  3. Alta generalización en diversos campos: Los LLM muestran una gran capacidad para generalizarse a diferentes campos y tareas, incluso sin necesidad de ajustes específicos en los conjuntos de datos. Esta versatilidad los hace particularmente valiosos en aplicaciones donde se requiere adaptabilidad a nuevos contextos o tipos de información. 
  4. Generación de respuestas creativas y nuevas ideas: Gracias a su extenso entrenamiento y diversidad de datos, los LLM tienen la capacidad de generar respuestas y contenido creativo. Esto los hace útiles en campos como la publicidad, la generación de contenido creativo y la resolución de problemas que requieren pensamiento fuera de lo común. 
  5. Facilitación de la toma de decisiones basada en datos: Los LLM pueden analizar y sintetizar grandes cantidades de información, ayudando a las organizaciones a tomar decisiones informadas basadas en datos. Su capacidad para procesar y resumir información compleja los hace herramientas valiosas en la toma de decisiones estratégicas y el análisis empresarial. 

DESVENTAJAS DE LOS LARGE LANGUAGE MODELS 

Por otra, también cuentan con desventajas como: 

  1. Alto requerimiento de recursos y potencia computacional: Los LLM requieren una cantidad significativa de recursos tanto para su entrenamiento como para su mantenimiento. Dado que se entrenan con millones de puntos de datos, los costes asociados con la potencia computacional necesaria para su entrenamiento y despliegue pueden ser considerablemente altos. Esta exigencia de recursos puede representar un desafío, especialmente para organizaciones con presupuestos limitados o infraestructura menos avanzada. 
  2. Introducción de sesgos en el texto: Los LLM tienden a reflejar y amplificar los sesgos presentes en sus conjuntos de datos de entrenamiento. Esto significa que el texto generado por estos modelos puede incluir prejuicios y estereotipos, lo que plantea preocupaciones éticas y de justicia social en su aplicación, especialmente en contextos sensibles como la toma de decisiones automatizada y la interacción con el usuario final. 
  3. Generación de información inexacta: Aunque son capaces de generar texto coherente y contextualmente relevante, los LLM a veces pueden producir información que no es objetivamente precisa. Esto se debe a su tendencia a generar respuestas basadas en patrones lingüísticos en lugar de hechos verificados, lo que puede resultar en la difusión de información errónea o engañosa. La información estará bien escrita, pero no tiene por qué ser verdad.  
  4. Desafíos en la personalización y adaptación: A pesar de su capacidad para generalizar a través de múltiples temáticas, los LLM pueden enfrentar dificultades en la adaptación a necesidades específicas o en la personalización para casos de uso únicos. Ajustar estos modelos a requerimientos particulares puede requerir esfuerzos adicionales y expertise especializado. 
  5. Preocupaciones ambientales y de sostenibilidad: La gran cantidad de energía requerida para entrenar y operar LLM plantea preocupaciones ambientales. El uso intensivo de recursos computacionales y energéticos para entrenar estos modelos tiene un impacto ecológico, lo que plantea preguntas sobre la sostenibilidad de su uso a largo plazo. 

VENTAJAS DE LOS SMALL LANGUAGE MODELS 

En cuanto a los SLM, estas son sus principales ventajas: 

  1. Eficiencia en recursos y rápida implementación: Los SLM, al requerir menos potencia computacional y memoria, se caracterizan por su eficiencia en el uso de recursos. Esto facilita un entrenamiento e implementación más rápidos, haciéndolos ideales para aplicaciones con limitaciones de recursos o tiempo. Su menor tamaño permite una operación más ágil, lo cual es especialmente valioso en entornos donde la rapidez y la eficiencia son críticas. Eso sí, hay que entender que igualmente hablamos de millones de parámetros, por lo que es más eficiente respecto a los LLM, pero suponen igualmente un amplio esfuerzo.  
  2. Coste reducido en entrenamiento y mantenimiento: En comparación con los modelos de lenguaje más grandes, los SLM generalmente incurren en costes menores, tanto en términos de entrenamiento como de mantenimiento. Esta ventaja económica los hace accesibles para empresas de menor tamaño o proyectos con presupuestos algo más limitados, sin sacrificar la capacidad de procesamiento del lenguaje natural. 
  3. Especialización en tareas y materias específicas: Los SLM pueden ser eficientemente adaptados y especializados para materias o tareas específicas. Esta capacidad de especialización permite un rendimiento mejorado y una comprensión más precisa dentro de áreas particulares. Por ejemplo, un SLM podría ser la opción perfecta para generar descripciones de productos en un ecommerce, proporcionando resultados efectivos sin la necesidad de un modelo más grande y complejo. 
  4. Menor propensión a reproducir sesgos: Dado que los SLM se entrenan con conjuntos de datos más pequeños y específicos, hay una menor probabilidad de que reproduzcan sesgos a gran escala que suelen estar presentes en los conjuntos de datos masivos utilizados para entrenar LLM. Esto puede hacerlos más adecuados para aplicaciones sensibles donde el manejo ético del lenguaje es primordial. 
  5. Compatibilidad con más dispositivos: Los SLM son particularmente útiles para su implementación en dispositivos con recursos limitados, como teléfonos móviles, dispositivos IoT y otros gadgets de hardware más pequeños. Su tamaño reducido permite que funcionen eficientemente en los mismos, ampliando así el alcance y la accesibilidad de las aplicaciones basadas en PNL. 

DESVENTAJAS DE LOS SMALL LANGUAGE MODELS 

Por otra parte, también cuentan con algunas desventajas: 

  1. Generalización y adaptabilidad limitadas: Los SLM pueden enfrentar limitaciones en su capacidad para generalizar a partir de ejemplos de entrenamiento o adaptarse a nuevos contextos y tipos de tareas. Esto se debe a que el menor tamaño del modelo puede restringir la variedad y profundidad de los patrones lingüísticos y conocimientos que puede aprender y aplicar. 
  2. Menor capacidad para actualizaciones y aprendizaje continuo: Dado que los SLM están diseñados para ser más compactos y funcionar con menos recursos, pueden tener limitaciones en términos de actualizaciones y aprendizaje continuo. Esto significa que pueden no ser capaces de incorporar nueva información o ajustarse a cambios lingüísticos o de contenido con la misma eficacia que los modelos más grandes. 

CASOS DE USO IDEAL PARA LOS MODELOS DE LENGUAJE 

Una vez conocidas ventajas y desventajas, toca entender cuál es la aplicación práctica de estos modelos de lenguaje grandes y pequeños. A la hora de elegir entre un modelo y otro podemos tener en cuenta tres factores. 

En primer lugar, los requisitos de la tarea a realizar. En segundo, los recursos disponibles, tanto en lo referente a presupuesto, como memoria o potencia computacional. Por último, también lo específica que sea la tarea.  

Si hablamos de una tarea muy específica, el presupuesto no es muy elevado y los requisitos no implican conocimientos amplios ni mucha creatividad, los SLM son la mejor opción.  

Por poner algún ejemplo, un small language model puede utilizarse a la perfección para un chatbot de una empresa bancaria o de seguros, que responda con precisión a las dudas de los potenciales clientes. Otro ejemplo relacionado con el sector financiero, es la sistematización de extractos bancarios no estructurados en datos estandarizados que informan los ingresos comerciales para el análisis de riesgos crediticios. 

En el campo del entrenamiento, los SLM se utilizan para crear borradores de guiones de videojuegos, así como árboles de conversación dinámicos adaptados a contextos específicos. 

Por el contrario, un LLM como ChatGPT puede ser muy útil como asistente virtual para ayudar en la creación de presentaciones, generar código, crear eslóganes o responder emails sobre temáticas diversas. También es la mejor opción si requerimos integrarla con otras herramientas. 

Los large language models son opciones excelentes para tareas genéricas y poco especializadas, pero para las grandes empresas no suponen una diferencia tan grande como los modelos de lenguaje pequeños, que es donde tienen la oportunidad de despuntar.  

¿QUÉ ES LO PRÓXIMO EN SMALL Y LARGE LANGUAJE MODELS? 

Por lo que estamos viendo, el mercado está enfocándose en la creación de nuevos small language models, más eficientes y precisos para tareas pequeñas, sin dejar de lado el perfeccionamiento de los modelos de lenguaje grandes, ya que tras el hype inicial sus desventajas comienzan a ser más evidentes. 

En lo referente a los LLM la clave radica en ir del hype al ROI. Es decir, en comprender cómo utilizar estos grandes modelos de lenguaje para ser más eficientes, en vez de frustrarse por expectativas no realistas e inalcanzables.  

Mientras, los small language models seguirán creciendo y desarrollándose. El último en salir, el pasado 12 de diciembre de 2023, fue Phi-2, de Microsoft Research, que con 2.700 millones de parámetros ha demostrado ser más eficiente en ciertas pruebas que otros modelos más grandes como Gemini Nano 2, de Google.  

Los resultados de Phi-2 muestran por dónde está el camino para este 2024 y 2025. Vamos a presenciar el desarrollo de modelos más pequeños y eficientes en determinadas tareas, que estarán a disposición de las empresas y que competirán de tú a tú con modelos más masivos. 

Saber utilizar correctamente los SLM supondrá una gran ventaja competitiva en el mercado, que va a marcar la diferencia. Sin embargo, estamos ante tecnologías aún en evolución, que siguen creciendo y mejorando. Los próximos dos años serán clave para el desarrollo de los pequeños modelos de lenguaje y su adopción por las empresas.  

Las empresas más grandes podrán permitirse adoptar y desarrollar sus propios SLMs, mientras que las más pequeñas, por una cuestión de costes, tendrán que utilizar modelos ya existentes, sacándole un mayor partido a los modelos grandes al no poder afrontar la personalización de los pequeños.  

¿Cuál crees que serán los modelos más utilizados en el futuro? ¿De cuál se podría beneficiar más tu empresa? 

Junior Perassoli 

Head of Presales Serbatic