Google TabFM : prédictions sans entraînement sur des tableaux
Google AI a dévoilé TabFM, un modèle de base qui transforme la prédiction sur tableaux en un défi d'apprentissage en contexte. Contrairement aux approches traditionnelles exigeant un entraînement spécifique et une ingénierie des caractéristiques, TabFM génère des prédictions sur des tableaux inédits en une seule passe avant — sans ajustement, sans réentraînement, sans étapes supplémentaires.
De XGBoost aux tableaux en contexte
Pendant des années, les modèles basés sur des arbres comme XGBoost et les forêts aléatoires ont établi la norme pour les tâches sur données structurées, comme la prédiction de désabonnement ou la détection de fraude. Bien que fiables, ces méthodes nécessitent des heures d'ajustement d'hyperparamètres et de création manuelle de caractéristiques pour chaque nouveau jeu de données. TabFM supprime entièrement ce processus. En traitant l'ensemble du tableau comme une invite unifiée — mélangeant exemples d'entraînement et lignes cibles —, il imite la façon dont les grands modèles de langage apprennent des tâches à partir du seul contexte. Le modèle interprète les relations entre colonnes et lignes à la volée, évitant le coût des mises à jour de paramètres et de l'ingénierie des caractéristiques.
Comment l'attention hybride comble l'écart
Les données tabulaires sont bidimensionnelles et sans ordre ; lignes et colonnes peuvent être mélangées sans altérer le sens. Les modèles de langage standards, en revanche, s'attendent à des séquences ordonnées. TabFM comble ce fossé grâce à un mécanisme d'attention hybride. Il alterne entre l'attention par colonne et par ligne — inspiré de TabPFN — pour capturer les interactions et dépendances entre caractéristiques qui nécessiteraient autrement une ingénierie manuelle. Les informations de chaque ligne sont ensuite compressées en un vecteur dense, permettant à une couche de transformeur secondaire d'effectuer un apprentissage en contexte de manière efficace, même sur des jeux de données plus volumineux.
Construit à partir de données synthétiques
L'entraînement de modèles de base pour les données tabulaires se heurte à un manque de jeux de données open source de haute qualité. Les tableaux propriétaires des entreprises sont souvent inaccessibles. Pour contourner ce problème, Google a entraîné TabFM sur des centaines de millions de jeux de données synthétiques générés à partir de modèles causaux structurels. Le résultat est un modèle capable de généraliser sur des distributions tabulaires variées sans jamais avoir vu de données réelles pendant l'apprentissage préalable. Google prévoit d'exposer TabFM dans BigQuery via une commande SQL AI.PREDICT, intégrant la prédiction tabulaire sans entraînement aux flux de travail analytiques des entreprises.
Source : MarkTechPost. Synthèse éditoriale assistée par IA — TechnoExpress.

