Распределенные файловые системы :GridFS vs GlusterFS vs Ceph vs Hekafs Benchmarks [закрыто]

в настоящее время я ищу хорошую распределенную файловую систему.

надо:

  • быть открытым исходным кодом
  • быть горизонтально масштабируемым (репликация и sharding)
  • не имеют ни одной точки отказа
  • имеют относительно небольшую площадь

вот четыре наиболее перспективных кандидата на мой взгляд:

файловая система будет использоваться в основном для файлов мультимедиа (изображения и звука). Есть очень маленькие, а также файлы среднего размера (1 КБ - 10 МБ). Количество файлов должно быть около нескольких миллионов.

есть ли какие-либо критерии относительно производительность, CPU-load, памяти-потребление и масштабируемость? Каков ваш опыт использования тех или иных распределенных файловых систем?

4 ответов


Я не уверен, что ваш список верен. Это зависит от того, что вы подразумеваете под файловой системой.

Если вы имеете в виду файловую систему, которая монтируется в операционной системе и может использоваться любым приложением, которое читает и записывает файлы с помощью вызовов POSIX, то GridFS действительно не подходит. Это просто как MongoDB хранит БСЫНА-отформатированных объектов. Это объект системы вместо файловой системы.

здесь проект сделать GridFS mountable, но это немного странно, потому что GridFS не имеет концепций для таких вещей, как иерархические каталоги, хотя пути разрешены. Кроме того, я не уверен, как распределенные записи на GridFS-fuse будут.

GlusterFS С и Цеф сопоставимы и распределяются, тиражный монтируемых файловых систем. Ты можешь!--13-->читать сравнение между этими двумя (и последующее обновление сравнения), хотя имейте в виду, что контрольные показатели выполняются кто-то, кто немного предвзят. Вы также можете посмотреть эта дискуссия на тему.

Что касается HekaFS, это GlusterFS, который настроен для облачных вычислений, добавляя шифрование и многозадачность, а также административный пользовательский интерфейс.


после работы с ЦефXtreemFS, RozoFS и QuantcastFS но нашел их недостаточно хорошими.

рекомендую LizardFS, который является форком теперь закрытая MooseFS. LizardFS функции целостности данных, мониторинг и Превосходная производительность с очень небольшим количеством зависимостей.


OrangeFS, кто?

Я ищу HPC DFS и нашел это обсуждение здесь: http://forums.gentoo.org/viewtopic-t-901744-start-0.html

много хороших данных и сравнений:)

после некоторых разговоров ОП решил для OrangeFS, цитируя: "OrangeFS. Он не поддерживает квоты и блокировки файлов (хотя все операции ввода-вывода являются атомарными, и это последовательность пути сдержана без замков). Но это работает, и работает хорошо и стабильно. Кроме того Это не общая система, ориентированная на хранение файлов, а выделенная HPC, ориентированная на параллельный ввод-вывод, включая Поддержка Ромио. Все тесты были сделаны для распределения данных stripe. а) никаких квот-к черту квоты. Я отказался от них в любом случае, даже GlusterFS поддерживает не общий квоты на основе uid/gid, но ограничения размера каталога, больше похоже на LVM. b) несколько активных серверов метаданных поддерживаются и стабильны. По сравнению с выделенными метаданными хранение (одиночный узел) это дает + 50% производительность для небольших файлов и никакой существенной разницы на более крупный. c) превосходное представление на больших блоках данных (dd bs=1M). Он ограничен суммой локального жесткого диска (не забывайте, что каждый узел участвует в качестве сервера данных, а также) скорость и доступная пропускная способность сети. Потребление CPU при такой нагрузке приличное и составляет около 50% от одного ядра на клиентском узле и около 10% процентов друг на друге узлов сервера данных. d) справедливое представление на больших наборах небольших файлов. Для теста я untared ядра Linux 3.1. Прошло 5 протокол над OrangeFS (с настроенными параметрами) и почти 2 минуты над NFSv4 (настроенным также) для сравнения. Загрузка процессора составляет около 50% от одноядерного (конечно, он фактически распределен между ядрами) на клиенте и около нескольких процентов на каждом узле. e)поддержка ROMIO MPI I / O API. Это сладкая вкуснятина для приложений MPI, которые позволяют использовать PVFS2 / OrangeFS параллельные характеристики вход-выхода сразу от применений. f) отсутствие поддержки специальных файлов (сокетов, fifo, блочных устройств). Таким образом, нельзя безопасно использовать как / home, и я использую NFSv4 для этой задачи предоставляет пользователям ограниченное квотой небольшое домашнее пространство. Хотя наиболее распространены файловые системы не поддерживают файлы. "


Я не знаю о других системах, которые вы опубликовали, но я сделал сравнение 3 PHP CMS / фреймворков на локальном хранилище против GlusterFS, чтобы увидеть, если он делает лучше на реальных тестах, чем сырые бенчмарки. К сожалению, нет.

http://blog.lavoie.sl/2013/12/glusterfs-performance-on-different-frameworks.html