Automatiser sa veille tech : RSS, IA et publication

Suivre l'actualité tech est devenu un travail à temps plein que personne n'a le temps de faire. Entre les blogs d'éditeurs, les dépôts GitHub qui bougent, les newsletters et les flux d'actualité sécurité, un développeur ou un créateur de contenu peut facilement passer deux heures par jour à scroller — pour au final relire trois fois la même dépêche reformulée. L'idée d'un pipeline de veille automatisé est séduisante : une machine qui agrège, trie, résume et prépare la publication pendant que vous dormez.

C'est faisable, et nous le faisons. Mais autant le dire franchement dès le départ : l'automatisation totale produit du contenu médiocre. Un pipeline qui aspire des flux et recrache des résumés sans intervention humaine génère du texte générique, sans angle, souvent factuellement approximatif, et que Google traite de plus en plus mal. L'automatisation a un rôle clair : vous faire gagner du temps sur la collecte et le dégrossissage, pas remplacer votre cerveau. Ce guide décrit une méthode honnête, étape par étape, avec les outils possibles et les pièges concrets que nous avons rencontrés.

Pourquoi automatiser (et où s'arrêter)

Le gain réel de l'automatisation se situe sur les tâches répétitives et sans valeur ajoutée : aller chercher les flux, dédoublonner, écarter le bruit, produire un premier brouillon. C'est 80 % du temps pour 20 % de la valeur. À l'inverse, ce qui fait la différence — l'angle, l'analyse, la mise en perspective — reste profondément humain.

Les risques de tout déléguer à la machine sont réels :

Contenu générique : dix sites qui résument la même source avec la même IA produisent dix articles interchangeables.
Faible valeur perçue : sans analyse, vous n'apportez rien que le lecteur ne trouve à la source.
Problèmes SEO et qualité : Google sanctionne le « scaled content abuse » (contenu produit en masse sans valeur). Un pipeline 100 % auto vous expose directement à une perte de visibilité.
Erreurs factuelles : une IA qui résume invente parfois des chiffres ou inverse une conclusion. Sans relecture, vous publiez des fautes.

La règle que nous appliquons : l'IA produit le brouillon, l'humain décide et enrichit.

Étape 1 — Agréger : choisir et collecter les flux

Le socle reste le RSS/Atom, vieille technologie toujours imbattable pour la veille. La plupart des blogs tech, des dépôts GitHub (releases, tags), des forums et des sites d'actualité exposent un flux. Pour ceux qui n'en ont pas, des outils comme RSS-Bridge ou RSSHub reconstruisent un flux à partir d'une page.

Quelques principes qui changent tout :

Privilégier la source primaire. Le blog officiel de l'éditeur vaut mieux que l'agrégateur qui le recopie. Vous gagnez en fraîcheur et en fiabilité.
Limiter le nombre de sources. 20 à 40 flux bien choisis battent 300 flux qui noient le signal. Auditez votre liste tous les mois : supprimez les sources qui ne produisent jamais rien de retenu.
Gérer l'anti-doublon dès la collecte. Une même news circule sous dix titres. Hashez une clé stable (URL canonique normalisée, ou titre + date arrondie), et stockez-la pour ignorer ce qui est déjà passé. Un simple fichier SQLite ou un index des URL déjà vues suffit.

Côté outils : un parser comme feedparser (Python) ou rss-parser (Node) lit les flux ; un planificateur (cron, GitHub Actions, n8n) déclenche la collecte à intervalle régulier.

Étape 2 — Filtrer et sélectionner

C'est l'étape que tout le monde néglige et qui sépare une veille utile d'un déversoir. Un flux brut contient beaucoup de bruit : publi-rédactionnel, annonces produit déguisées, hors-sujet, marronniers.

Deux niveaux de filtrage :

Filtrage automatique grossier : mots-clés à inclure/exclure, langue, longueur minimale, ancienneté maximale. Écartez d'emblée les titres contenant « sponsorisé », « promo », « code promo », ou ne correspondant pas à vos thématiques. Un score de pertinence simple (présence de termes du domaine) suffit pour trier.
Pré-sélection par l'IA : demandez à un modèle de noter de 1 à 5 l'intérêt d'un item pour votre audience précise, avec une justification courte. Vous ne traitez ensuite que les items au-dessus d'un seuil.

Le piège classique : laisser le filtre automatique décider seul. Gardez un coup d'œil humain sur la liste retenue avant de lancer la machine à résumer. Cinq minutes pour cocher ce qui mérite un article économisent une heure de rédaction inutile.

Étape 3 — Résumer avec une IA

Le cœur du pipeline. La qualité du résumé dépend à 90 % du prompt et de la source fournie. Donnez à l'IA le texte complet de l'article (pas seulement le titre et le chapô du flux, souvent tronqués), sinon elle comble les trous en inventant.

Un bon prompt de résumé impose des contraintes explicites :

Tu es rédacteur tech. Résume l'article ci-dessous en français, en 150 à 200 mots.
Règles :
- Garde uniquement les faits présents dans le texte. N'invente aucun chiffre, nom ou date.
- Si une information manque, ne la mentionne pas. N'extrapole pas.
- Cite la source et conserve le lien d'origine.
- Pas de superlatifs marketing ("révolutionnaire", "incroyable").
- Termine par une phrase factuelle, pas une conclusion inventée.

Article :
[texte intégral]

Le point non négociable : garder les faits et tracer la source. Chaque résumé doit conserver l'URL d'origine et la mention de l'éditeur, pour le lecteur comme pour vous (vérification, droit de citation).

Local vs API, le vrai arbitrage :

API (Claude, GPT, Gemini…) : qualité de synthèse supérieure, suivi d'instructions fiable, multilingue solide. Coût à l'usage, dépendance réseau, données envoyées chez un tiers.
Local (Ollama avec Qwen, Llama, Mistral…) : gratuit à l'usage, données qui ne sortent pas, idéal pour un gros volume répétitif. En contrepartie, il faut une machine correcte (GPU ou beaucoup de RAM), et les petits modèles suivent moins bien les consignes — ils hallucinent davantage sur les chiffres.

Notre approche pragmatique : local pour le dégrossissage de masse, API pour les pièces où la qualité compte vraiment. Et dans tous les cas, on relit.

Étape 4 — Traduire et publier

Si vous visez un public bilingue, la traduction automatique est tentante. Elle marche bien sur le corps de texte, beaucoup moins sur le reste.

Les pièges de la traduction :

Les titres sont le point faible. Un titre traduit mot à mot perd son accroche ou devient absurde. Traitez le titre à part, avec un prompt dédié qui demande une adaptation et non une traduction littérale.
Le franglais inversé : une IA qui traduit vers le français laisse traîner « releaser », « scaler », « deployer ». Imposez dans le prompt soit le terme français, soit l'anglais en italique assumé — pas l'hybride bâtard.
Les noms propres et termes techniques ne se traduisent pas. Listez-les explicitement comme à ne pas toucher (« commit », « pull request », noms de produits).

Pour la publication, le combo gagnant reste le Markdown + build statique. Chaque article devient un fichier .md avec un frontmatter (titre, date, tags, source). Un générateur — Astro, Hugo, Eleventy, Next.js — transforme le tout en site rapide, versionnable dans Git, sans base de données à maintenir. Le pipeline écrit le fichier, un commit déclenche le build et le déploiement. Simple, traçable, réversible.

Étape 5 — Garder une valeur ajoutée humaine

C'est l'étape qui justifie tout le reste. Si le pipeline s'arrête à l'étape 4, vous publiez de la paraphrase. Ce qui transforme un résumé en contenu qui vaut la lecture :

Le « ce que ça change » : une ou deux phrases qui replacent l'info dans son contexte. Pourquoi cette release compte ? Qui est concerné ? Que faire concrètement ?
L'analyse et l'avis : votre lecture, vos réserves, le lien avec une tendance plus large. C'est ce qu'aucune source ne fournit.
La curation : choisir 3 news pertinentes et les écarter de 30 autres a déjà une valeur en soi.

Cette couche humaine est aussi votre assurance qualité : c'est là qu'on attrape les hallucinations, les contresens et les titres ratés avant publication.

Récapitulatif : briques, outils et pièges

Brique	Outils possibles	Piège fréquent
Agréger	feedparser, rss-parser, RSSHub, RSS-Bridge, cron/GitHub Actions	Trop de sources, pas d'anti-doublon
Filtrer	Mots-clés inclure/exclure, scoring IA, règles de langue	Laisser le filtre décider seul, sans regard humain
Résumer	Ollama (Qwen, Llama, Mistral), API Claude/GPT/Gemini	Résumer le chapô tronqué → l'IA invente
Traduire	Prompt dédié titre + corps, glossaire de termes intouchables	Titres traduits littéralement, franglais
Publier	Markdown + Astro/Hugo/Eleventy/Next.js, Git	Publier sans relecture, frontmatter incohérent
Valoriser	Relecture, ajout d'analyse, curation manuelle	Sauter l'étape → contenu générique sanctionné

Les erreurs à éviter

Tout automatiser de bout en bout. Le pipeline doit avoir un point d'arrêt humain obligatoire avant publication.
Faire confiance aux chiffres de l'IA. Recoupez systématiquement les données chiffrées avec la source.
Ignorer le droit de citation. Résumer n'est pas copier : reformulez, citez, liez. Ne republiez jamais un article intégral.
Négliger l'anti-doublon. Rien ne décrédibilise plus qu'une veille qui publie trois fois la même news.
Oublier la maintenance. Les flux meurent, changent d'URL, se remplissent de spam. Une veille s'entretient.
Publier en masse. Mieux vaut trois articles travaillés par jour que trente paraphrases.

Notre lecture

L'automatisation de la veille est un outil de productivité, pas une stratégie de contenu. Elle excelle à supprimer la corvée — collecter, dédoublonner, dégrossir — et libère du temps pour la seule chose qui compte vraiment : penser et écrire avec un angle. Le jour où vous laissez la machine publier sans vous, vous rejoignez le bruit de fond que tout le monde apprend à ignorer, et que les moteurs déclassent. Le bon pipeline n'est pas celui qui écrit à votre place ; c'est celui qui vous amène un brouillon propre et sourcé, pour que vous arriviez frais à l'étape où vous êtes irremplaçable.

Checklist de mise en place

Lister 20 à 40 sources primaires fiables et récupérer leurs flux RSS/Atom
Mettre en place un stockage des URL déjà vues (anti-doublon)
Planifier la collecte (cron, GitHub Actions, n8n)
Définir des règles de filtrage (mots-clés, langue, ancienneté) + scoring IA optionnel
Insérer un point de validation humaine sur la liste retenue
Choisir local (Ollama) ou API selon volume et budget, et rédiger un prompt de résumé strict (faits + source)
Prévoir un prompt de traduction dédié (titre à part, glossaire intouchable) si bilingue
Générer un fichier Markdown + frontmatter par article, brancher le build statique sur Git
Imposer une relecture + ajout d'analyse avant chaque publication
Auditer les sources et la qualité une fois par mois