Le nouveau projet rend les données Wikipedia plus accessibles à l'IA

Mercredi, Wikimedia Deutschland a annoncé une nouvelle base de données qui rendra la richesse de connaissances de Wikipedia plus accessible aux modèles d’IA.

Appelé le projet d’intégration de Wikidata, le système a appliqué une technique de recherche sémantique basée sur un vecteur qui aide les ordinateurs à comprendre la signification et les relations entre les mots aux données existantes sur Wikipedia et ses plateformes sœurs, comprenant près de 120 millions d’entrées.

Combinée à un nouveau support pour le protocole de contexte du modèle (MCP), une norme qui aide les systèmes AI à communiquer avec les sources de données, le projet rend les données plus accessibles aux requêtes en langage naturel de LLMS.

Le projet a été entrepris par la succursale allemande de Wikimedia en collaboration avec la société de recherche neuronale Jina.ai et DataSax, une entreprise de données de formation en temps réel appartenant à IBM.

Wikidata propose des données lisibles par machine de Wikimedia Properties pendant des années, mais les outils préexistants n’ont permis que des recherches de mots clés et des requêtes SPARQL, un langage de requête spécialisé. Le nouveau système fonctionnera mieux avec les systèmes de génération (RAG) (RAG) de récupération qui permettent aux modèles d’IA de tirer des informations externes, donnant aux développeurs une chance pour fonder leurs modèles en connaissances vérifiées par les éditeurs de Wikipedia.

Les données sont également structurées pour fournir un contexte sémantique crucial. Interroger la base de données du mot «scientifique», par exemple, produira des listes de scientifiques nucléaires éminents ainsi que des scientifiques qui ont travaillé chez Bell Labs. Il y a aussi des traductions du mot «scientifique» dans une langue différente, une image produite par Wikimedia des scientifiques au travail et des extrapolations à des concepts connexes comme «chercheur» et «érudit».

La base de données est accessible au public sur Toolforge. Wikidata héberge également un webinaire pour des développeurs intéressants le 9 octobre.

Événement TechCrunch

San Francisco
|
27-29 octobre 2025

Le nouveau projet intervient lorsque les développeurs d’IA se précipitent pour des sources de données de haute qualité qui peuvent être utilisées pour affiner les modèles. Les systèmes de formation eux-mêmes sont devenus plus sophistiqués – souvent assemblés comme des légers d’entraînement complexes plutôt que des ensembles de données simples – mais ils nécessitent toujours des données étroitement organisées pour bien fonctionner. Pour les déploiements qui nécessitent une précision élevée, la nécessité de données fiables est particulièrement urgente, et bien que certains puissent regarder Wikipedia, ses données sont bien plus orientées vers les faits que les ensembles de données Catchall comme le rampe commune, qui est une collection massive de gratteaux de pages Web.

Dans certaines cases, la poussée des données de haute qualité peut avoir des conséquences existantes pour les laboratoires AI. En août, Anthropic a proposé de régler une poursuite avec un groupe d’auteurs dont les travaux avaient été utilisés comme matériel de formation, en acceptant de payer 1,5 milliard de dollars pour mettre fin à toute allégation d’actes répréhensibles.

Dans un statlement à la presse, le directeur de projet Wikidata AI, Philippe Saadé, a souligné l’indépendance de son projet par rapport aux principaux laboratoires AI ou aux grandes entreprises technologiques. « Ce lancement de projet d’intégration montre que les cotisations de l’IA puissantes n’ont pas à être contrôlées par une poignée d’entreprises », a déclaré Saadé aux journalistes. «Il peut être ouvert, collaboratif et construire pour servir tout le monde.»

Source link

What's Hot

Le président Trump annonce la nomination de Lance Schroyer, ancien soldat de l’État d’Oklahoma, à la tête de l’ICE

Baisse des taux de la Fed : chute de l’emploi, chute de l’inflation, Warsh déclare : « Les résultats sont globalement bons »

Instagram teste d’autres façons de personnaliser « Votre algorithme »

Le nouveau projet rend les données Wikipedia plus accessibles à l’IA

Instagram teste d’autres façons de personnaliser « Votre algorithme »

Le PDG de SoftBank n’est pas le seul à se poser des questions sur le battage médiatique des centres de données orbitaux d’Elon Musk

Le fondateur le plus en forme de la salle a eu un cancer. Voici comment il a utilisé l’IA pour riposter.

Des startups asiatiques d’IA lancent des modèles de type Mythos alors que l’interdiction d’exporter d’Anthropic se prolonge

Quelles actions fintech sont les meilleures à acheter en 2026 ?

Quelles actions fintech sont les meilleures à acheter en 2026 ?

Quelles actions fintech sont les meilleures à acheter en 2026 ?

Top Insights

Le président Trump annonce la nomination de Lance Schroyer, ancien soldat de l’État d’Oklahoma, à la tête de l’ICE

Baisse des taux de la Fed : chute de l’emploi, chute de l’inflation, Warsh déclare : « Les résultats sont globalement bons »

Instagram teste d’autres façons de personnaliser « Votre algorithme »

What's Hot

Le nouveau projet rend les données Wikipedia plus accessibles à l’IA

Related Posts

Subscribe to Updates