Liquid AI dévoile des modèles compacts pour une recherche multilingue rapide

Liquid AI a présenté deux modèles compacts de récupération conçus pour accélérer la recherche multilingue et interlingue sur 11 langues. Les nouveaux modèles, LFM2.5-Embedding-350M et LFM2.5-ColBERT-350M, comptent chacun 350 millions de paramètres et s'appuient sur l'architecture LFM2.5-350M-Base publiée plus tôt cette année. Tous deux sont adaptés pour des recherches rapides et efficaces dans des contextes tels que les catalogues de produits, les bases de connaissances FAQ et la documentation de support.
Deux approches complémentaires
Les deux modèles partagent une structure commune d'encodeur bidirectionnel mais diffèrent dans leur façon de représenter le texte. LFM2.5-Embedding-350M fonctionne comme un bi-encodeur dense, convertissant chaque document en un seul vecteur. Cette conception privilégie la rapidité et un stockage minimal, ce qui la rend idéale pour les applications où l'efficacité est cruciale. À l'inverse, LFM2.5-ColBERT-350M adopte une stratégie d'interaction tardive, générant des représentations vectorielles pour chaque token. Cette méthode permet un appariement mot à mot entre les requêtes et les documents, améliorant la précision et la généralisation au prix d'un index plus volumineux. Sa longueur de requête est limitée à 32 tokens, et il peut également réévaluer les résultats d'un premier étage de récupération sans nécessiter de construction d'index.
Passer du causal au bidirectionnel
Les deux modèles sont issus du point de contrôle généraliste LFM2.5-350M-Base, initialement un décodeur causal. Liquid AI a adapté l'architecture en appliquant des correctifs bidirectionnels : remplacement de la masque d'attention causal par une version bidirectionnelle et suppression des contraintes causales des convolutions courtes. Ces modifications permettent à chaque token d'accéder au contexte à gauche et à droite, améliorant ainsi la capacité du modèle à produire des représentations à contexte complet adaptées aux tâches de récupération. Malgré cette transformation architecturale, les modèles conservent l'efficacité du backbone LFM2, avec 17 couches — 10 de convolution, 6 d'attention et 1 de regroupement ou dense — et une longueur de contexte de 32 768 tokens, bien que les documents soient ajustés à 512 tokens.
Entraînement pour des performances multilingues
Les modèles suivent un processus d'entraînement en trois étapes : un préentraînement contrastif à grande échelle en anglais, une distillation multilingue et interlingue à partir d'un modèle enseignant performant couvrant les 11 langues, et un affinage final avec des négatifs difficiles à miner. Le modèle Embedding reçoit légèrement plus de données interlingues, reflétant les avantages naturels des configurations d'interaction tardive pour la récupération interlingue. Les données d'entraînement combinent des sources internes curatées avec des ensembles de données de récupération en anglais ouverts, augmentés par des traductions basées sur des LLM pour les paires multilingues et interlingues.
Liquid AI a évalué les modèles sur la récupération multilingue à l'aide de NanoBEIR et sur les questions-réponses en domaine ouvert interlingues avec MKQA-11, en publiant des résultats pour l'arabe, l'allemand, l'anglais, l'espagnol, le français, l'italien, le japonais, le coréen, le norvégien, le portugais et le suédois. En moyenne, les deux modèles se classent en tête de leurs catégories respectives dans les benchmarks de performance.
Source : MarkTechPost. Synthèse éditoriale assistée par IA — TechnoExpress.

