À mesure que les entreprises d’IA mûrissent, la lutte pour des données de haute qualité est devenue l’un des domaines les plus compétitifs du secteur, donnant naissance à des entreprises comme Mercor, Surge et, surtout, Scale AI d’Alexandr Wang. Mais maintenant que Wang est passé à la direction de l’IA chez Meta, de nombreux bailleurs de fonds voient une ouverture et sont prêts à financer des entreprises avec de nouvelles stratégies convaincantes pour collecter des données de formation.
Datacurve, diplômé de Y Combinator, est l’une de ces entreprises, qui se concentre sur les données de haute qualité pour le développement de logiciels. Jeudi, la société a annoncé un tour de table de série A de 15 millions de dollars, dirigé par Mark Goldberg de Chemistry avec la participation d’employés de DeepMind, Vercel, Anthropic et OpenAI. La série A fait suite à un tour de table de 2,7 millions de dollars, qui a attiré l’investissement de l’ancien CTO de Coinbase, Balaji Srinivasan.
Datacurve utilise un système de « chasseur de primes » pour attirer des ingénieurs logiciels qualifiés afin de compléter les ensembles de données les plus difficiles à obtenir. L’entreprise paie ces contributions, distribuant jusqu’à présent plus d’un million de dollars de primes.
Mais la cofondatrice Serena Ge (photo ci-dessus avec le cofondateur Charley Lee) affirme que la plus grande motivation n’est pas financière. Pour les services à forte valeur ajoutée tels que le développement de logiciels, le salaire sera toujours bien inférieur pour le travail sur les données à celui d’un emploi conventionnel. L’avantage le plus important de l’entreprise est donc une expérience utilisateur positive.
« Nous traitons cela comme un produit de consommation, et non comme une opération d’étiquetage de données », a déclaré Ge. « Nous passons beaucoup de temps à réfléchir : comment pouvons-nous l’optimiser pour que les personnes que nous souhaitons soient intéressées et accèdent à notre plateforme ?
Cela est particulièrement important à mesure que les besoins en données post-formation deviennent de plus en plus complexes. Alors que les modèles antérieurs étaient formés sur des ensembles de données simples, les produits d’IA d’aujourd’hui s’appuient sur des environnements RL complexes, qui doivent être construits grâce à une collecte de données spécifiques et stratégiques. À mesure que les environnements deviennent plus sophistiqués, les exigences en matière de données deviennent plus intenses, tant en quantité qu’en qualité – un facteur qui pourrait donner un avantage aux sociétés de collecte de données de haute qualité comme Datacurve.
En tant qu’entreprise en phase de démarrage, Datacurve se concentre sur le génie logiciel, mais Ge affirme que le modèle pourrait s’appliquer tout aussi facilement à des domaines comme la finance, le marketing ou même la médecine.
Événement Techcrunch
San Francisco
|
27-29 octobre 2025
« Ce que nous faisons actuellement, c’est créer une infrastructure pour la collecte de données post-formation qui attire et retient des personnes hautement compétentes dans leurs propres domaines », explique Ge.

