Авария кластерного транспорта

Если кластерный транспорт (gfs2), показывает ошибку. Или при просмотре расширенных сведений видно что какие-то сервера не передают данные.

Требуется произвести перезагрузку сервисов (watchdog, corosync, dlm) переподключить сервера в разделе Хранилища Luns

Для разблокировки GFS2 необходимо перезапустить сервис GFS2

На всех серверах, производим следующие действия (начиная с сервера контроллер + нода)

Перезагружаем сервисы командой в CLI:

Важно

В таком порядке watchdog, corosync, dlm

Перезапускаем все службы

systemctl services restart

Шаг 1

systemctl services restart watchdog

Шаг 2

systemctl services restart corosync

Шаг 3

systemctl services restart dlm

CLI

systemctl restart dlm.service

Вывод lsblk и services list на всех 3ех серверах

Заходим в shell, на любой сервер, и применяем команду:

Ищем процесс dlm

ps -ef | grep dlm

Убейте процесс /user/sbin/dlm_controld --foreground

Перезапускаем dlm

systemctl services restart dlm.service

Идем в var/run/dlm_controld проверяем есть ли там файлы, если есть (на всякий случай копируем в другое место), удаляем

Повторно перезапускаем dlm

Проверяем статус dlm

systemctl status dlm.service

Примечание

Сервис dlm отвечает за монтирование Lun, и отслеживания состояния подключения watchdog, мог принять множественные перезагрузки сервиса, как неисправность сервера и отправить сервер в ребут

Теперь в CLI вбиваем storage gfs2, на всех серверах.

Частный случай, могут быть другие варианты