Développement25 juin 2026· via DEV Community

Le crawler web Rust étend son support à 14 langues et réduit l'usage mémoire

Le crawler web Rust étend son support à 14 langues et réduit l'usage mémoire

Image : DEV Community

kreuzcrawl, le crawler web basé sur Rust, atteint la version 0.3.0. Il étend sa couverture linguistique à quatorze langues avec l'ajout de Dart, Kotlin pour Android, Swift et Zig, tout en réduisant l'usage mémoire de pointe en streaming de 2,5 Go à environ 20 Mo.

Un écosystème polyglotte en expansion

Cette nouvelle version ajoute quatre nouvelles liaisons linguistiques — Dart, Kotlin pour Android, Swift et Zig — portant le total à quatorze. Toutes ces liaisons sont générées automatiquement depuis le noyau Rust grâce à l'outil alef, ce qui élimine le besoin de code manuel spécifique à chaque langue. Dart et Kotlin s'interfacent via la couche FFI C, Swift via clang, et Zig grâce à son interopérabilité avec le C. Le pipeline de génération a également été renforcé : les builds natifs remplacent l'émulation QEMU, et des sommes de contrôle automatisées sont désormais générées pour les paquets Swift.

Une efficacité mémoire redéfinie

Précédemment, les opérations de streaming conservaient chaque résultat de page en mémoire avant leur livraison, entraînant des pics d'utilisation mémoire autour de 2,5 Go lors de grands crawls. La version 0.3.0 modifie la gestion des droits de propriété : chaque page est immédiatement émise sous forme d'événement CrawlEvent::Page, permettant aux appelants de la traiter puis de la libérer. Le moteur ne conserve désormais que les pages en cours de traitement, réduisant l'usage mémoire à environ 20 Mo, indépendamment de la taille du crawl.

Sécurité et stabilité au cœur du projet

Cette mise à jour introduit un moteur de dispatch hiérarchisé et piloté par signaux, intégrant des empreintes WAF issues de 35 règles réparties sur huit éditeurs, avec un rechargement à chaud sans verrou via ArcSwap et un délai de 500 ms. Les défenses contre les attaques par falsification de requête côté serveur sont désormais activées par défaut sur tous les chemins de requêtes sortantes. Grâce à ces améliorations, le projet annonce sa première version API stable, marquant une étape majeure en termes de fiabilité et de sécurité pour les opérations de crawling web.


Source : DEV Community. Synthèse éditoriale assistée par IA — TechnoExpress.

Lire la source originale sur DEV Community →

← Retour à l'accueil