Google DeepMind Publie le Jeu de Données WebLI-100B, Favorisant l’Inclusion et la Diversité dans les Modèles Visuels-Linguistiques

Publication du Jeu de Données WebLI-100B
Le 14 février, le média technologique MarkTechPost a publié un article de blog annonçant que l'équipe de Google DeepMind avait publié le jeu de données WebLI-100B. Ce jeu de données améliore l'inclusion en renforçant la diversité culturelle et la multilinguisme, tout en réduisant les disparités de performance entre les sous-groupes, ce qui en fait une étape importante dans le développement des Modèles Visuels-Linguistiques (VLMs).
Défis Actuels
Les machines connectent des images et des textes en apprenant à partir de grands jeux de données; plus les données sont nombreuses, plus les modèles sont capables d'identifier des modèles et d'améliorer leur précision. Les modèles visuels-linguistiques dépendent actuellement de grands jeux de données comme Conceptual Captions et LAION, contenant des millions à des milliards de paires image-texte. Ces jeux de données soutiennent la classification zéro-shot et la génération de légendes pour images, mais leur développement s'est ralenti à environ 10 milliards de paires. Cette limitation réduit les perspectives d'améliorer la précision, l'inclusion et la compréhension multilingue des modèles. Les méthodes existantes dépendent des données collectées par le biais du scraping web, ce qui entraîne des problèmes tels que la qualité médiocre des échantillons, des biais linguistiques et un manque de représentation multiculturelle.
Avantages du Jeu de Données WebLI-100B
Pour surmonter les limitations liées à la diversité culturelle et la multilinguisme, les chercheurs de Google DeepMind ont introduit le jeu de données WebLI-100B, qui contient 100 milliards de paires image-texte, soit dix fois plus grand que les jeux de données précédents. Ce jeu de données capture des concepts culturels rares et améliore les performances dans des domaines moins explorés comme les langues à faibles ressources et les représentations diverses. Contrairement aux jeux de données précédents, WebLI-100B ne repose pas sur une filtration stricte (qui élimine souvent des détails culturels importants), mais se concentre sur l'expansion des données.
Entraînement et Effets du Jeu de Données
Le cadre de travail implique l'entraînement préalable de modèles sur différents sous-ensembles du jeu de données WebLI-100B (1B, 10B et 100B) pour analyser les effets de l'élargissement des données. Les modèles entraînés avec le jeu de données complet surpassent ceux entraînés avec de plus petits jeux de données sur des tâches culturelles et multilingues, même avec les mêmes ressources de calcul. Ce jeu de données n'a pas subi de filtrations agressives, mais a conservé une large représentation des éléments linguistiques et culturels, ce qui le rend plus inclusif.
Résultats de la Recherche
Les résultats de la recherche montrent qu'augmenter la taille du jeu de données de 10B à 100B a un impact minimal sur les tests de référence centrés sur l'Occident, mais apporte des améliorations significatives sur les tâches de diversité culturelle et la recherche dans les langues à faibles ressources. Cela montre que le jeu de données WebLI-100B joue un rôle clé dans la promotion de l'inclusivité et de la diversité dans les Modèles Visuels-Linguistiques.
Perspectives Futures
La publication du jeu de données WebLI-100B marque une avancée importante dans la diversité culturelle et multilingue des Modèles Visuels-Linguistiques. À l'avenir, avec l'introduction de jeux de données similaires, les Modèles Visuels-Linguistiques auront de meilleures performances dans des tâches telles que la génération de légendes d'images et la réponse aux questions visuelles, ce qui favorisera l'application mondiale de la technologie IA.
Conclusion
La publication du jeu de données WebLI-100B par l'équipe de Google DeepMind améliore l'inclusivité des Modèles Visuels-Linguistiques en renforçant la diversité culturelle et la multilinguisme, tout en réduisant les disparités de performance entre les sous-groupes. Cette publication stimule non seulement le développement des Modèles Visuels-Linguistiques, mais ouvre également de nouvelles possibilités pour l'application et l'adoption mondiales des technologies IA. À mesure que la technologie progresse, les Modèles Visuels-Linguistiques démontreront leur potentiel et leur valeur d'application dans de nombreux domaines.