Mercredi, Wikimedia Deutschland a annoncé une nouvelle base de données qui rendra la richesse de connaissances de Wikipedia plus accessible aux modèles d’IA.
Appelé le projet d’intégration de Wikidata, le système a appliqué une technique de recherche sémantique basée sur un vecteur qui aide les ordinateurs à comprendre la signification et les relations entre les mots aux données existantes sur Wikipedia et ses plateformes sœurs, comprenant près de 120 millions d’entrées.
Combinée à un nouveau support pour le protocole de contexte du modèle (MCP), une norme qui aide les systèmes AI à communiquer avec les sources de données, le projet rend les données plus accessibles aux requêtes en langage naturel de LLMS.
Le projet a été entrepris par la succursale allemande de Wikimedia en collaboration avec la société de recherche neuronale Jina.ai et DataSax, une entreprise de données de formation en temps réel appartenant à IBM.
Wikidata propose des données lisibles par machine de Wikimedia Properties pendant des années, mais les outils préexistants n’ont permis que des recherches de mots clés et des requêtes SPARQL, un langage de requête spécialisé. Le nouveau système fonctionnera mieux avec les systèmes de génération (RAG) (RAG) de récupération qui permettent aux modèles d’IA de tirer des informations externes, donnant aux développeurs une chance pour fonder leurs modèles en connaissances vérifiées par les éditeurs de Wikipedia.
Les données sont également structurées pour fournir un contexte sémantique crucial. Interroger la base de données du mot «scientifique», par exemple, produira des listes de scientifiques nucléaires éminents ainsi que des scientifiques qui ont travaillé chez Bell Labs. Il y a aussi des traductions du mot «scientifique» dans une langue différente, une image produite par Wikimedia des scientifiques au travail et des extrapolations à des concepts connexes comme «chercheur» et «érudit».
La base de données est accessible au public sur Toolforge. Wikidata héberge également un webinaire pour des développeurs intéressants le 9 octobre.
Événement TechCrunch
San Francisco
|
27-29 octobre 2025
Le nouveau projet intervient lorsque les développeurs d’IA se précipitent pour des sources de données de haute qualité qui peuvent être utilisées pour affiner les modèles. Les systèmes de formation eux-mêmes sont devenus plus sophistiqués – souvent assemblés comme des légers d’entraînement complexes plutôt que des ensembles de données simples – mais ils nécessitent toujours des données étroitement organisées pour bien fonctionner. Pour les déploiements qui nécessitent une précision élevée, la nécessité de données fiables est particulièrement urgente, et bien que certains puissent regarder Wikipedia, ses données sont bien plus orientées vers les faits que les ensembles de données Catchall comme le rampe commune, qui est une collection massive de gratteaux de pages Web.
Dans certaines cases, la poussée des données de haute qualité peut avoir des conséquences existantes pour les laboratoires AI. En août, Anthropic a proposé de régler une poursuite avec un groupe d’auteurs dont les travaux avaient été utilisés comme matériel de formation, en acceptant de payer 1,5 milliard de dollars pour mettre fin à toute allégation d’actes répréhensibles.
Dans un statlement à la presse, le directeur de projet Wikidata AI, Philippe Saadé, a souligné l’indépendance de son projet par rapport aux principaux laboratoires AI ou aux grandes entreprises technologiques. « Ce lancement de projet d’intégration montre que les cotisations de l’IA puissantes n’ont pas à être contrôlées par une poignée d’entreprises », a déclaré Saadé aux journalistes. «Il peut être ouvert, collaboratif et construire pour servir tout le monde.»

