Перейти к содержанию

Авария кластерного транспорта

Если кластерный транспорт (gfs2), показывает ошибку. Или при просмотре расширенных сведений видно что какие-то сервера не передают данные.

Требуется произвести перезагрузку сервисов (watchdog, corosync, dlm) переподключить сервера в разделе Хранилища Luns

Для разблокировки GFS2 необходимо перезапустить сервис GFS2

На всех серверах, производим следующие действия (начиная с сервера контроллер + нода)

Перезагружаем сервисы командой в CLI:

Важно

В таком порядке watchdog, corosync, dlm

Перезапускаем все службы
systemctl services restart
Шаг 1
systemctl services restart watchdog
Шаг 2
systemctl services restart corosync
Шаг 3
systemctl services restart dlm

img.png

CLI
systemctl restart dlm.service

Вывод lsblk и services list на всех 3ех серверах

img_1.png

img_2.png

Заходим в shell, на любой сервер, и применяем команду:

Ищем процесс dlm
ps -ef | grep dlm

img_3.png

Убейте процесс /user/sbin/dlm_controld --foreground

Перезапускаем dlm
systemctl services restart dlm.service

Идем в var/run/dlm_controld проверяем есть ли там файлы, если есть (на всякий случай копируем в другое место), удаляем

Повторно перезапускаем dlm

Проверяем статус dlm
systemctl status dlm.service

img_4.png

Примечание

Сервис dlm отвечает за монтирование Lun, и отслеживания состояния подключения watchdog, мог принять множественные перезагрузки сервиса, как неисправность сервера и отправить сервер в ребут

Теперь в CLI вбиваем storage gfs2, на всех серверах.

img_5.png

Частный случай, могут быть другие варианты