DeepSeek представляет файловую систему Fire-Flyer: оптимизированную для ИИ параллельную файловую систему на базе Linux

  • Компания DeepSeek запустила Fire-Flyer File System (3FS) — высокопроизводительную файловую систему для искусственного интеллекта.
  • 3FS оптимизирует доступ к данным в процессах обучения и вывода моделей ИИ, используя сети SSD и RDMA.
  • Система опубликована с открытым исходным кодом под лицензией MIT, что позволяет сообществу использовать и модифицировать ее.
  • Благодаря производительности чтения 6.6 ТиБ/с он значительно превосходит другие решения для распределенного хранения данных.

Файловая система Fire-Flyer от DeekSeek

DeepSeekКитайская компания, специализирующаяся на искусственном интеллекте, сделала еще один шаг в разработке технологических инструментов для оптимизации обработки данных в больших объемах. Его новое предложение - Файловая система Fire-Flyer (3FS) — параллельная файловая система, предназначенная для повышения эффективности задач обучения и вывода моделей ИИ.

Хранение данных и доступ к ним являются важнейшими аспектами в средах искусственного интеллекта, особенно при обработке больших наборов данных и необходимости быстрой передачи информации. Традиционные системы не всегда отвечают современным требованиям и, в этом контексте, DeepSeek разработала 3FS как масштабируемое и высокопроизводительное решение..

Основные характеристики файловой системы Fire-Flyer

3FS — это распределенная файловая система на базе Linux, оптимизированная для использования в средах высокопроизводительных вычислений (HPC) и искусственного интеллекта. Его конструкция обеспечивает эффективное управление хранилищем, минимизирует задержки и улучшает доступ к данным.

  • Оптимизация для современного оборудования: 3FS в полной мере использует производительность твердотельных накопителей и сетей RDMA, обеспечивая скорость чтения до 6.6 ТиБ/с в кластерных конфигурациях из 180 узлов.
  • Параллельная архитектура: Распределенная конструкция облегчает расширение системы без ущерба для стабильности или скорости доступа.
  • На основе FUSE: Это позволяет системе работать в пользовательском пространстве без необходимости изменения ядра Linux, что облегчает ее реализацию и совместимость с различными дистрибутивами.
  • Сосредоточьтесь на скорости чтения: Приоритет случайного чтения над кэшированием, что имеет решающее значение в моделях ИИ, требующих немедленного доступа к большим объемам данных.

Система протестирована в реальных условиях

DeepSeek использует 3FS на своих серверах с 2019 года, что позволяет ему оттачивать свою производительность в реальных ситуациях. В ходе недавних испытаний система достигла 3.66 ТиБ/мин в тестах сортировки данных и более 40 ГиБ/с на узел для задач поиска KVCache.

Кроме того, эта система использовалась в кластере Fire-Flyer 2 компании, где она достигла производительности, сопоставимой с производительностью высокопроизводительных серверов, таких как NVIDIA DGX-A100, но при значительно меньших затратах. По данным, представленным компанией, они достигли 80% производительности DGX-A100 при 50% его стоимости и 60% его энергопотребления.

Повышение популярности экосистемы с открытым исходным кодом

Одним из самых поразительных аспектов этого релиза является то, что DeepSeek решила выпустить код 3FS под лицензией Лицензия MIT, что позволяет сообществу разработчиков получать доступ, изменять и адаптировать систему под свои нужды. Эта стратегия открытости является частью инициативы компании Open Source Week, в рамках которой были представлены и другие проекты, связанные с ИИ.

Код файловой системы Fire-Flyer: доступно на GitHub, что упрощает их внедрение для исследователей и компаний, стремящихся оптимизировать свои рабочие процессы в области искусственного интеллекта и высокопроизводительных вычислений.

Появление 3FS на рынке распределенных файловых систем обеспечивает альтернативу существующим решениям, таким как Ceph, которые в тестах производительности достигли всего лишь 1.1 ТиБ/с при чтении на меньших конфигурациях.

Этим запуском DeepSeek демонстрирует свою приверженность технологическим инновациям, применяемым в области искусственного интеллекта. Предлагая эффективную и доступную систему хранения данных, компания укрепляет свои позиции в секторе и предоставляет ключевые инструменты для разработки новых моделей машинного обучения и передовых вычислений.