Lors d’une récente apparition dans la presse, le PDG d’Openai, Sam Altman, a déclaré qu’il avait observé le «QI» de l’IA s’améliorer rapidement au cours des dernières années.
« Très à peu près, c’est comme pour moi – ce n’est pas un accident scientifique, c’est juste une ambiance ou une réponse spirituelle – chaque année, nous déplaçons un écart-type du QI », a déclaré Altman.
Altman n’est pas le premier à utiliser le QI, une estimation de l’intelligence d’une personne, comme référence pour les progrès de l’IA. Les influenceurs d’IA sur les réseaux sociaux modélisent les tests de QI des QI et ont classé les résultats.
Mais de nombreux experts disent que le QI est une mauvaise mesure des capacités d’un modèle – et une erreur trompeuse.
« Il peut être très tentant d’utiliser les mêmes mesures que nous avons utilisées pour que les humains soient handicapés ou progresses, mais c’est comme comparer les pommes avec les oranges », a déclaré à TechCrunch Sandra Wachter, un chercheur étudiant la technologie et la réglementation à Oxford.
Dans ses commentaires à la presse, Altman a assimilé le QI à l’intelligence. Pourtant, les tests de QI sont relatifs – pas objectifs – des mesures de certains types d’intelligence. Il y a un consensus selon lequel le QI est un test raisonnable de la logique et du raisonnement abstrait. Mais cela ne mesure pas l’intelligence pratique – connu comment faire fonctionner les choses – et c’est au mieux un instantané.
«Le QI est un outil pour mesurer les capacités humaines – une contestée non moins – en fonction de ce que les scientifiques croient que l’intelligence humaine», a noté Wachter. «Mais vous ne pouvez pas utiliser la même mesure pour décrire la capacité d’IA. Une voiture est rapide que les humains, et un sous-marin est meilleur pour plonger. Mais cela ne signifie pas que les voitures ou les sous-marins dépassent l’intelligence humaine. Vous équivoquez un aspect de la performance avec l’intelligence humaine, qui est beaucoup plus complexe. «
Pour exceller à un test de QI, les origines dont certains historiens remontent à l’eugénisme, la théorie scientifique largement discréditée selon laquelle les gens peuvent être améliorés grâce à la reproduction sélective, un preneur de test doit avoir une forte mémoire de travail et une connaissance des normes culturelles occidentales. Cette opportunité invite le biais, de la course à pied, à savoir qu’un psychologue a appelé des tests de QI «modèles mécaniques corruptibles idéologiques» de l’intelligence.
Qu’un modèle puisse bien faire sur un test de QI indique davantage sur les défauts du test que les performances du modèle, selon OS Keyes, un doctorat candidat à l’Université de Washington pour étudier l’éthyth IA.
« (Ces tests) sont prêts à jouer si vous avez un amour pratiquement infini de la mémoire et de la patience », a déclaré Keyes. « Les tests de QI sont un moyen très limité de mesurer la cognition, la sensibilité et l’intelligence, quelque chose que nous avons connu de la vente avant l’invention de l’ordinateur numérique lui-même. »
L’IA a probablement un avantage injuste sur les tests de QI, étant donné que les modèles ont un amour massif de la mémoire et des connaissances intériorisées à leur disposition. Souvent, les modèles sont formés sur des données Web publics et le Web est plein de sujets tirés des tests de QI.
« Les tests ont tendance à répéter des modèles très similaires – un moyen assez infaillible d’élever votre QI est de pratiquer des tests de QI, ce qui est essentiellement ce que chaque (modèle) a fait », a déclaré Mike Cook, chercheur au King’s College London spécialisé dans l’IA Ai ai ai ai ai ai ai.
En fin de compte, les tests de QI sont biaisés comme ils sont conçus pour les humains, Cook a été intentionné comme un moyen d’évaluer les rejets généraux de résolution de problèmes. Ils inappropriés pour une technologie qui approche de la résolution de problèmes d’une manière très différente de celle des gens.
« Un corbeau peut être en mesure d’utiliser un outil pour récupérer une gâterie dans une boîte, mais cela ne signifie pas qu’il peut s’inscrire à Harvard », a déclaré Cook. «Lorsque je résolve un problème de mathématiques, mon cerveau se contente également de sa capacité à lire correctement les mots sur la page, pour ne pas penser aux achats que je dois faire sur le chemin du retour, ou s’il fait trop froid dans la pièce. En d’autres termes, les cerveaux humains se contentent de beaucoup plus de choses lorsqu’ils résolvent un problème – tout problème, les tests de QI ou autrement – et ils le font avec beaucoup moins d’aide (Thani.) »
Tout cela indique la nécessité de meilleurs tests d’IA, a déclaré à TechCrunch, scientifique en chef de l’IA à l’Institut de l’IA maintenant.
« Dans l’histoire du calcul, nous avons comparé la calcul de calcul à celle des humains précisément parce que la nature du calcul signifie que le système a toujours été en mesure de terminer les tâches déjà au-delà de la capacité humaine », a déclaré Khlaaf. «Cette idée que nous comparons directement les performances du système aux capacités humaines est un phénomène récent qui est très contesté, et ce qui entoure la controverse des bancs en constante expansion et en mouvement pour évaluer les systèmes d’IA.»