La perplexité du démarrage de l’IA rampe et gratte le contenu de sites Web qui ont explicitement indiqué qu’ils ne sont pas grattés, accord au fournisseur d’infrastructure Internet CloudFlare.
Lundi, CloudFlare a publié des recherches disant qu’elle a observé que la startup AI ignore les blocs et cache son activité rampante et grattant. Le géant de l’infrastructure du réseau a accusé la perplexité d’obscurcir son identité lorsqu’il essaie de gratter les pages Web «dans le but de contourner les préférences du site Web», ont écrit les chercheurs de Cloudflare.
Les produits d’IA comme ceux proposés par Perplexity reposent sur des amateurs de grands amants de données d’Internet, et les startups AI ont longtemps gratté du texte, des images et des vidéos d’Internet plusieurs fois sans l’autorisation de faire fonctionner leur produit. Ces derniers temps, les sites Web ont essayé de riposter en utilisant le fichier Web Robots.txt Standard, qui indique aux moteurs de recherche et aux sociétés d’IA quelles pages peuvent être indexées et qui ne devraient pas, les efforts qui ont vu des résultats mitigés jusqu’à présent.
La perplexité semble vouloir contourner ces blocs en modifiant «l’agent utilisateur» de ses bots, ce qui signifie un signal qui identifie un visiteur de site Web par leur type d’appareil et de version, ainsi que par la modification de leurs réseaux de systèmes autonomes, ou ASN, essentiellement un nombre qui identifie les grands réseaux sur Internet Cloudflare.
« Cette activité a été observée dans des dizaines de milliers de domaines et des millions de demandes par jour. Nous avons pu prendre des empreintes digitales ce robot en utilisant une combinaison d’apprentissage automatique et de signaux de réseau », lit le post de CloudFlare.
La porte-parole de Perplexity, Jesse Dwyer, a levé le billet de blog de Cloudflare en tant que «argumentaire de vente», ajoutant un e-mail à TechCrunch que les captures d’écran de l’article «montrent qu’aucun contenu n’a été accessible». Dans un e-mail de suivi, Dwyer a affirmé que le bot nommé dans le blog CloudFlare «n’est même pas le nôtre».
Cloudflare a déclaré qu’il avait d’abord remarqué le comportement après que ses clients se soient plaints que la perplexité rampait et gratte leurs sites, même après avoir ajouté des règles sur leur fichier de robots et pour bloquer spécifiquement les robots connus de Perplexity. CloudFlare a déclaré qu’il avait ensuite effectué des tests pour vérifier et confirmé que la perplexité contournait ces blocs.
Événement TechCrunch
San Francisco
|
27-29 octobre 2025
« Nous avons observé que Perplexity utilise non seulement leur agent utilisateur déclaré, mais aussi un navigateur générique destiné à usurper l’identité de Google Chrome sur MacOS lorsque leur Crawler déclaré a été bloqué », selon CloudFlare.
La société a également déclaré qu’elle avait désactivé les bottes de Perplexity de sa liste vérifiée et ajouté de nouvelles techniques pour les bloquer.
Cloudflare a récemment adopté une position publique contre les robots de l’IA. Le mois dernier, CloudFlare a annoncé le lancement d’un marché permettant aux propriétaires de sites Web et aux éditeurs de facturer des grattoirs d’IA qui visitent leurs sites. Le chef de la direction de Cloudflare, Matthew Prince, a sonné l’alarme à l’époque, affirmant que l’IA brise le modèle commercial d’Internet, en particulier les éditeurs. L’année dernière, CloudFlare a également lancé un outil gratuit pour empêcher les robots de gratter les sites Web pour former l’IA.
Ce n’est pas la première fois que la perplexité est accusée de grattage sans autorisation.
L’année dernière, les médias, tels que Wired, présumée perplexité plagiaient leur contenu. Quelques semaines plus tard, le PDG de Perplexity, Aravind Srinivas, n’a pas été en mesure d’imiter un an a demandé à profiter de la définition du plagiat de l’entreprise lors d’une interview avec Devin Coldewey de TechCrunch lors de la conférence Disrupt 2024.

