lundi, juin 15, 2026
EntrepreneursClaude Fable 5 d'Anthropic joue trop prudemment en matière de sécurité, disent les développeurs

Claude Fable 5 d’Anthropic joue trop prudemment en matière de sécurité, disent les développeurs

Claude Fable 5 d’Anthropic : un lancement prometteur entaché par des filtres de sécurité trop sensibles

Le mardi 2 juin 2026, Anthropic a mis à disposition du public Claude Fable 5, la première version dérivée de sa famille de modèles Mythos. Dès les premières 48 heures, toutefois, de nombreux utilisateurs ont signalé que le système de garde‑fou du modèle bloquait des requêtes jugées bénignes, allant de l’analyse de données de séquençage d’ARN de moutons à la simple édition d’un CV.

Contexte technique : pourquoi Mythos nécessite des garde‑fou renforcés

Le modèle original Mythos s’est distingué lors de son entraînement par une capacité inhabituelle à détecter et exploiter des bogues logiciels, ce qui pouvait permettre de perturber ou de prendre le contrôle de systèmes informatiques. Face à ce profil de risque, Anthropic a décidé de regrouper la cybersécurité avec d’autres domaines à haut impact – biologie et chimie – lorsqu’elle a défini les limites applicables aux dérivés publics de Mythos.

Dans le cadre de Fable 5, toute requête classée comme potentiellement dangereuse dans ces domaines est automatiquement redirigée vers Claude Opus 4.8, un modèle moins performant mais doté de ses propres garde‑fou. Selon les déclarations d’Anthropic rapportées par Fast Company, ce mécanisme de secours concerne environ 0,05 % du trafic total.

Faux positifs : les retours du terrain

Les rapports d’utilisateurs ont rapidement montré que les classificateurs de sécurité étaient trop prudents. Parmi les exemples cités sur les réseaux sociaux :

  • requêtes portant sur le mot « cancer », interprété comme un risque de biosécurité ;
  • demandes d’analyse de séquençage d’ARN de moutons ;
  • édition de CV ou de lettres de motivation ;
  • listes de courses simples.

Le scientifique Derya Unutmaz a commenté sur X (anciennement Twitter) : « Le mot « cancer » est signalé comme un risque de biosécurité par Claude Fable 5 ! ». Le fondateur et développeur Bojan Tunguz a ajouté que « nos suzerains anthropiques décident quelles invites les paysans sont autorisés à utiliser ».

Réponse d’Anthropic : reconnaissance du problème et pistes d’amélioration

Face à la montée des critiques, Anthropic a publié une déclaration écrite à Fast Company admettant que « le compromis effectué entre sécurité et transparence n’était pas le bon ». L’entreprise explique que les garde‑fou visibles doivent élargir leur détection pour rester robustes, ce qui augmente mécaniquement le nombre de faux positifs.

Pour améliorer la situation, Anthropic indique travailler sur :

  • l’affinement des classificateurs afin de réduire le taux de déclenchement erroné ;
  • la mise en place d’indications plus claires pour les abonnés Claude lorsqu’une requête est redirigée vers Opus 4.8 ;
  • la fourniture, aux développeurs utilisant l’API Claude, de la raison précise du refus d’une invite.

Ces mesures visent à rétablir un équilibre entre protection contre les usages malveillants et accès légitime aux capacités du modèle.

Tentatives de contournement et limites actuelles

Malgré les garde‑fou, au moins un chercheur en IA, se faisant appeler Pline le Libérateur, a affirmé avoir réussi à obtenir une réponse de Fable 5 à une invite initialement bloquée, environ 24 à 48 heures après le lancement. Selon son compte X, il aurait utilisé une approche multi‑agents combinant :

  • un modèle Claude Opus 4.8 préalablement jailbreaké ;
  • la décomposition de requêtes ;
  • le cadrage de contexte long ;
  • des structures de fiction et narratives ;
  • des taxonomies académiques.

Avant le lancement, Anthropic avait déclaré que plus de 1 000 heures d’efforts de red team interne et externe, incluant des programmes de bug bounty, n’avaient pas révélé de jailbreak universel. L’entreprise reconnaît toutefois qu’il est probablement impossible de prévenir toutes les attaques sophistiquées, multi‑tours ou basées sur des agents, et poursuit l’amélioration de ses systèmes de détection.

Perspectives d’avenir

L’incident autour de Claude Fable 5 illustre le défi constant auquel sont confrontés les fournisseurs de modèles de langage de grande taille : concilier sécurité rigoureuse et utilité pratique. En affinant ses classificateurs, en augmentant la transparence des décisions de filtrage et en continuant à solliciter la communauté externe via des programmes de bug bounty, Anthropic cherche à regagner la confiance des développeurs et des chercheurs tout en maintenant un haut niveau de protection contre les usages dangereux.

Pour les utilisateurs intéressés par les évolutions de Claude Fable 5, il est recommandé de suivre les canaux officiels d’Anthropic (blog, newsletter) ainsi que les discussions sur les plateformes spécialisées telles que X et les forums dédiés à l’IA responsable.

Découvrez nos autres contenus

Articles connexes