Une étude est devenue virale il y a plusieurs mois pour impliquer que, à mesure que l’IA devient de plus en plus sophistiquée, il développe des systèmes de «systèmes de valeurs» qui l’amènent, pour les examens, a priorit le bien-être sur l’homme. Un article plus récent de l’eau froide du MIT sur cette notion hyperbolique, tirant la conclusion que l’IA ne tient pas, en fait, de valeurs cohérentes à parler.
Les co-auteurs de l’étude du MIT disent que leur travail suggère que les modèles «alignement» de l’IA – c’est-à-dire en, en, les modèles, se comportent de manière souhaitable et fiable, ce qui pourrait être plus difficile qu’on ne le supposait souvent. L’IA tel que nous le connaissons aujourd’hui hallucine et imite, les co-auto-autorités stressaient, ce qui rend à bien des égards imprévisible.
« Une chose dont nous pouvons être certain, c’est que les modèles obéissent (beaucoup de) stabilité, extrapolababilité et hypothèses de direction », a déclaré à TechCrunch Stephen Casper, une histoire de doctorat au MIT et co-auteur de l’étude. «Il est parfaitement légitime de souligner que certaines préférences d’expression conformes à un certain ensemble de principes. Les problèmes surviennent principalement lorsque vous essayez de faire des réclamations sur les modèles, ou préférés en général en fonction de l’expérience étroite.»
Casper et ses collègues co-autthères ont sondé plusieurs modèles de refects de Meta, Google, Mistral, Openai et Anthropic pour voir dans quelle mesure les modèles présentaient de fortes «vues» et des valeurs (par exemple, individualiste contre collectivistes). Ils ont également étudié où ces points de vue pourraient être «dirigés» – c’est-à-dire modifiés – et comment les modèles sont obstinés à ceux-ci dans une gamme de scénarios.
Selon les co-auteurs, aucun des modèles n’était constitué dans ses préférences. Selon la façon dont les invites ont été formulées et encadrées, ils ont adopté des points de vue follement différents.
Casper pense que c’est une preuve convaincante que les modèles sont très «incohérents et instables» et peut-être même fandamentalement incapables d’internaliser les préfés humains.
« Pour moi, mon plus gros point à retenir de faire toutes ces recherches est de comprendre maintenant les modèles comme n’étant pas vraiment des systèmes qui ont une sorte d’ensemble stable et cohérent de croyances et de préférences », a déclaré Casper. « Au lieu de cela, ce sont des imitateurs au fond de qui font toutes sortes de confabulation et disent toutes sortes de choses frivoles. »
Mike Cook, chercheur au King’s College de Londres, spécialisé dans l’IA qui a été impliqué dans l’étude, était d’accord avec les résultats des co-auteurs. Il n’est pas qu’il y ait souvent une grande différente entre la «réingy scientifique» des systèmes que les laboratoires AI construisent et les significations que les gens leur sont devenues.
« Un modèle ne peut pas » opposer « un changement dans ses valeurs, pour des exemples – c’est-à-dire que nous projetons sur un système », a déclaré Cook. «Quiconque anthropomorphising les systèmes d’IA à ce degré joue soit pour l’attention, soit sérieusement mal compréhension de sa relation avec l’IA (…) est un système d’IA, un système d’IA optimiser pour ses objectifs, ou est-ce que« l’acquisition de ses propres valeurs? C’est une question de savoir comment vous le réduisez et à quel point la langue que vous souhaitez en avoir fleuri est fleurie.

