DSpark de DeepSeek accélère la génération IA de 60 à 85 % sans nouveau modèle
DeepSeek s’attaque à nouveau à l’un des goulots d’étranglement les plus tenaces du déploiement IA : accélérer la génération de texte d’un grand modèle sans en changer l’architecture. Son nouveau cadre, DSpark, est une optimisation côté serveur et non une nouvelle version du modèle. Il greffe un module « brouillon » léger sur les poids existants de DeepSeek-V4 et, lors des tests en production, a réduit le temps de génération par utilisateur de 60 à 85 % par rapport à la référence MTP-1 de l’entreprise, tout en préservant la qualité des sorties. L’équipe a également open-sourcé DeepSpec, une base de code sous licence MIT dédiée à l’entraînement et à l’évaluation des modules de décodage spéculatif.
Trois leviers, pas une nouvelle architecture
Le décodage spéculatif existe depuis un moment, mais DSpark perfectionne le processus classique en deux étapes — génération puis vérification — en actionnant trois leviers simultanément. D’abord, il génère plus vite grâce à une structure parallèle (DFlash dans leur configuration) qui produit les logits de base pour chaque position en un seul passage avant. Ensuite, il génère mieux en ajoutant un petit module séquentiel qui oriente chaque token vers des suites localement cohérentes ; une tête de Markov avec une factorisation en rang faible (256) est utilisée par défaut. Enfin, il vérifie de manière plus intelligente : une tête de confiance et un planificateur sensible à la charge GPU déterminent combien de tokens à valider ou rejeter selon l’utilisation actuelle des GPU, évitant ainsi des calculs superflus en période de forte demande.
Poids ouverts, code d’entraînement ouvert
Les nouveaux points de contrôle — DeepSeek-V4-Pro-DSpark et DeepSeek-V4-Flash-DSpark — réutilisent les poids originaux de V4 et y ajoutent simplement le module de brouillon. DeepSpec, le cadre d’entraînement associé, est publié sous licence MIT, offrant aux équipes un moyen clé en main pour entraîner des modules personnalisés ou reproduire les résultats. Les benchmarks hors ligne montrent que la longueur des tokens acceptés par DSpark augmente de 26 à 31 % par rapport à Eagle3 et de 16 à 18 % par rapport à DFlash, tandis que les logs de production sur DeepSeek-V4 confirment l’accélération de 60 à 85 % par rapport à la référence MTP-1. La vérification garantit que la distribution du modèle cible reste inchangée, sans perte de qualité.
Source : MarkTechPost. Synthèse éditoriale assistée par IA — TechnoExpress.

