Google DeepMind Выпустила Набор Данных WebLI-100B, Продвигая Инклюзивность и Разнообразие в Визуальных Языковых Моделях
Выпуск Набора Данных WebLI-100B
14 февраля технологическое издание MarkTechPost опубликовало блог, в котором сообщается, что команда Google DeepMind выпустила набор данных WebLI-100B. Этот набор данных способствует инклюзивности, усиливая культурное разнообразие и многоязычие, а также снижая различия в производительности между подгруппами, что делает его важной вехой в разработке визуальных языковых моделей (VLMs).
Текущие проблемы
Машины связывают изображения и текст, обучаясь на больших наборах данных; чем больше данных, тем лучше модели могут распознавать закономерности и повышать точность. Современные визуальные языковые модели зависят от таких больших наборов данных, как Conceptual Captions и LAION, которые содержат миллионы и миллиарды пар изображений и текста. Эти наборы данных поддерживают классификацию без обучения и генерацию подписей для изображений, однако их разработка замедлилась до примерно 10 миллиардов пар. Это ограничение снижает возможности улучшения точности модели, инклюзивности и многоязычного понимания. Существующие методы зависят от данных, собранных с помощью веб-скрапинга, что приводит к проблемам, таким как низкое качество образцов, языковые предвзятости и отсутствие культурного разнообразия.
Преимущества Набора Данных WebLI-100B
Чтобы решить ограничения, связанные с культурным разнообразием и многоязычием, исследователи Google DeepMind представили набор данных WebLI-100B, который содержит 100 миллиардов пар изображений и текста, что в 10 раз больше, чем у предыдущих наборов данных. Этот набор захватывает редкие культурные концепты и улучшает производительность в малоисследованных областях, таких как языки с ограниченными ресурсами и разнообразные представления. В отличие от предыдущих наборов данных, WebLI-100B не использует строгую фильтрацию (которая часто удаляет важные культурные детали), а фокусируется на расширении данных.
Обучение и Эффекты Набора Данных
В рамках проекта модель обучалась на различных подмножествах набора данных WebLI-100B (1B, 10B и 100B), чтобы проанализировать эффекты масштабирования данных. Модели, обученные на полном наборе данных, показывают лучшие результаты на культурных и многоязычных задачах по сравнению с моделями, обученными на меньших наборах данных, даже при одинаковых вычислительных ресурсах. Этот набор данных не подвергался жесткой фильтрации, но сохранял широкое представление языковых и культурных элементов, что делает его более инклюзивным.
Результаты Исследования
Результаты исследования показали, что увеличение размера набора данных с 10B до 100B оказывает минимальное влияние на западные ориентированные тесты, но приводит к значительным улучшениям в задачах культурного разнообразия и поиске на языках с ограниченными ресурсами. Это доказывает, что набор данных WebLI-100B играет ключевую роль в продвижении инклюзивности и разнообразия в визуальных языковых моделях.
Будущие Перспективы
Выпуск набора данных WebLI-100B стал важным шагом вперед в области культурного разнообразия и многоязычия для визуальных языковых моделей. В будущем, с введением других аналогичных наборов данных, визуальные языковые модели будут показывать лучшие результаты в таких задачах, как генерация подписей для изображений и ответы на визуальные вопросы, что будет способствовать глобальному применению технологий ИИ.
Заключение
Выпуск набора данных WebLI-100B командой Google DeepMind улучшает инклюзивность визуальных языковых моделей за счет усиления культурного разнообразия и многоязычия, а также уменьшения различий в производительности между подгруппами. Этот выпуск способствует не только развитию визуальных языковых моделей, но и открывает новые возможности для применения и распространения технологий ИИ по всему миру. С развитием технологий визуальные языковые модели будут демонстрировать свой огромный потенциал и ценность в различных областях.