Microsoft a entraîné ses modèles de langage AI sur des données Web non autorisées, malgré

Microsoft a entièrement utilisé des données Web non autorisées pour entraîner ses nouveaux modèles de langage AI. Bien que la compagnie affirme avoir utilisé des « données professionnelles de haute qualité, nettes et commercialement licites », elle n'a fait appel qu'à une partie de ces sources. La décision de Microsoft d'utiliser des data breaches comme source primordiale pour entraîner ses modèles AI a été révélée par le site The Decoder. Il est apparu que l'entreprise avait entièrement utilisé des données Web non autorisées, comme les données provenant du Common Crawl. Bien que Microsoft affirme avoir utilisé uniquement « clean and commercially licensed data », la réalité est tout autre chose. Les modèles AI entraînés par Microsoft ont été basés sur une combinaison de sources : une partie des données commercialement licites et l'autre, le reste, provenant de sites Web non autorisés. Cette pratique d'entrée dans les data breaches pourrait avoir un impact significatif sur la sécurité des données. Les utilisateurs devraient être conscient que leurs informations personnelles peuvent être exploitées sans leur consentement ou même lorsque ces informations sont considérées comme « clean and commercially licensed » par Microsoft. Microsoft a déclaré qu'elle applique le principe de fair use, ce qui signifie qu'elle ne fait appel à des ressources non autorisées que si elles sont utilisables dans une certaine mesure. Cependant, cela n'empêche pas l'utilisation d'une partie importante des données Web non autorisées pour entraîner ses modèles. L'article de The Decoder soulève également la question de savoir comment Microsoft a pu entrer en contact avec les sites Web sur lesquels il s'est appuyé et qui ont accepté de partager leurs données sans leur consentement. Cela met en lumière une autre dimension du problème : le fait que des entreprises peuvent utiliser des data breaches pour améliorer leurs produits sans avoir à obtenir l'accord préalable des utilisateurs ou des sites Web concernés. Microsoft a promis de mettre fin à cette pratique abusive et de se conformer aux réglementations en vigueur. Leur réponse soulève une question intéressante : la manière dont les entreprises peuvent utiliser les data breaches pour améliorer leurs produits sans compromettre la sécurité des données personnelles des utilisateurs.

Source : The Decoder. Synthèse éditoriale assistée par IA — TechnoExpress.

Microsoft a entraîné ses modèles de langage AI sur des données Web non autorisées, malgré

La tech essentielle, chaque matin