MDADM - как повторно собрать RAID-5 (сообщающий об устройстве или занятом ресурсе)

Question

MDADM - как повторно собрать RAID-5 (сообщающий об устройстве или занятом ресурсе)

Использовать rsync, и укажите --ignore-existing если Вы не хотите обновлять существующие файлы:

rsync -e ssh -av --ignore-existing /my/source/directory jim@foreign.machine.egg:/data/

Популярная дополнительная опция, которую я обычно добавляю, --progress таким образом, Вы видите то, что продолжается. Если Вы ожидаете прерывания, также говорите --partial, но я не уверен, как "неравнодушный" и "игнорируют - существующее" соединение, если Вы действительно становитесь отключенными во время передачи.

4

mdadm

Jeff Schaller 11.09.2016, 16:25

Ссылка

3 ответа

В ответ на Обновление 1

То, что "недостаточно запустить, массив" никогда не является хорошим сообщением для получения от mdadm. То, что это означает, - то, что mdadm нашел 10, изгоняет из Вашего массива RAID5 с 12 дисками, и поскольку я надеюсь, что Вы - осведомленный RAID5, может только пережить один отказ, не два.

Ну, давайте попытаемся соединить то, что произошло. Во-первых, по перезагрузке, было изменение буквы диска, которое является раздражающим для нас пытающийся понять это, но mdraid не заботится об этом. При прочтении вывода mdadm вот перекарта, которая произошла (отсортированный по диску набега #):

00 sdh1 -> sdb1
02 sdk1 -> sde1 [OUTDATED]
03 sdg1 -> sda1
04 sdf1 -> sdm1
05 sdd1 -> sdk1
06 sdm1 -> sdg1
07 sdc1 -> sdj1
08 sdi1 -> sdc1
09 sde1 -> sdl1
10 sdj1 -> sdd1
11 sdl1 -> sdf1
13 sdb1 -> sdi1 [SPARE]

02. Имеет более низкий счетчик 'событий', чем другие. Это означает, что оставило массив в какой-то момент.

Было бы хорошо, если Вы знаете часть истории этого массива — например, "RAID5 с 12 дисками, 1 горячее резервирование", корректное?

Я не совсем уверен, какова последовательность отказов, которые приводят к этому, все же. Кажется, что в какой-то момент, устройство № 1 перестало работать, и восстанавливание на устройство № 12 запустилось.

Но я не могу разобрать точно, что произошло затем. Возможно, у Вас есть журналы — или администратор для выяснения. Вот то, что я не могу объяснить:

Так или иначе № 12 стал № 13. Так или иначе № 2 стал № 12.

Так, это восстанавливает на № 12, должен был закончиться, и затем № 12 был бы № 1. Возможно, это не сделало — возможно, этому не удалось восстановить по некоторым причинам. Затем, возможно, № 2 перестал работать — или возможно № 2 перестал работать, то, почему восстанавливание не закончилось, и кто-то пытался удалить и повторно добавить № 2? Это могло бы сделать это № 12. Затем, возможно, удаленный и повторно добавленный запчасть, делая это № 13.

Хорошо, но конечно, в этой точке, у Вас было два отказа диска. Хорошо. Это имеет смысл.

Если это - то, что произошло, Вы перенесли два отказа диска. Это означает потерю данных. То, что Вы делаете затем, зависит от того, как важный, который данные (рассматривающий также, насколько хороший Ваши резервные копии).

Если данные очень ценны (и у Вас нет хороших резервных копий), специалисты по восстановлению контактных данных. Иначе:

Если данные достаточно ценны, необходимо использовать dd отображать все включенные диски (можно использовать большие диски и файлы на каждом, чтобы сэкономить деньги. Внешний облик на 2 или 3 ТБ, например). Затем сделайте копию изображений. Затем работа над восстановлением на той копии (можно использовать циклические устройства, чтобы сделать это).

Получите больше запчастей. Вероятно, у Вас есть один мертвый диск. У Вас есть по крайней мере несколько сомнительных дисков —smartctl смогите говорить Вам больше.

Далее --force к Вашему --assemble строка. Это заставит mdadm использовать устаревший диск так или иначе. Это означает, что некоторые секторы будут теперь иметь устаревшие данные, некоторые не будут. Добавьте в одном из тех новых дисков как запчасть, позвольте восстановить концу. Надо надеяться, Вы не поражаете сбойных блоков (который заставил бы восстанавливание перестать работать, и я полагаю, что единственный ответ должен заставить диск планировать их), Затем, fsck -f диск. Вероятно, будут ошибки. После того как они фиксируются, монтируют диск и видят то, что формирует Ваши данные, находится в.

Рекомендации

В будущем не создавайте RAID5s с 12 дисками. Вероятность двух отказов диска слишком высока. Используйте RAID6 или RAID10 вместо этого. Кроме того, удостоверьтесь, что обычно вычистили свои массивы для сбойных блоков (echo check > /sys/block/md0/md0/sync_action).

fro советование :) - попытается изучить как можно больше, :) привычка массива запускаются - недостаточно устройств. - добавили вывод к вопросу — Erwin Kuschke, 09.12.2011, 23:30
Привет Derobert Спасибо за всю помощь до сих пор!! очень ценивший :) - я скорее решил разочароваться в восстановлении (кажется, что это было движение для ценности больше проблемы/времени), таким образом, панорамирование должно теперь следовать за Вашим советовать, чтобы скорее убрать и преобразовать его в RAID-6. проблема - после нескольких часов, которые здание набега 6 также остановилось/привело к сбою с двумя дисками, которые перестали работать... :( что путь там для тестирования/отмечания дисков с поврежденными секторами и т.д.? (я не уверен, что вызовет диск не быть доступным для MDADM, чтобы завершить набег, но все еще иметь его в наличии для ОС?) - я предполагаю, что файлы журнала будут путем? — Erwin Kuschke, 11.12.2011, 13:45
@ErwinKuschke: Первая вещь посмотреть на была бы произведена от smartctl, и также журналы ядра. Но действительно было бы лучше попросить что как новый вопрос. Можно также хотеть спросить один относительно того, как необходимо настроить этот RAID-массив также (предоставляющий подробную информацию о как его попытка использоваться). — derobert, 11.12.2011, 14:34

fabceolin · Answer 2 · 27.01.2020, 20:51

Можно попытаться использовать команды mdadm, загружающиеся со следующим параметром ядра: init =/bin/bash

1

fabceolin 27.01.2020, 20:51

Ссылка

Lenar Hoyt · Answer 3 · 27.01.2020, 20:51

Не уверен, что это лучший способ, поэтому решите эту проблему, но это помогло мне, когда один диск в моем RAID10 вышел из синхронизации по неизвестной причине:

Во-первых, я остановил все контейнеры RAID, которые смог найти, с помощью sudo mdadm --stop /dev/md*(. Будьте осторожны, если вы используете несколько RAID, некоторые из которых могут зависеть от ). Затем я использовал команду сканирования, чтобы воссоздать все RAID :

.

sudo mdadm --assemble --scan --verbose

Однако это создало отдельный контейнер для диска, который не был синхронизирован, поэтому я остановил это с помощью sudo mdadm --stop /dev/mdX(, вы можете выяснить, какой X, проверив sudo mdadm --detail /dev/md*; там я также мог видеть имя устройства выхода -из -синхронизирующего диска, /dev/sdgв моем случае ). Наконец, я повторно -добавил этот диск в родительский контейнер, md127в моем случае:

sudo --manage /dev/md127 -a /dev/sdg

И теперь он начал синхронизироваться, как я понял, проверив

sudo watch cat /proc/mdstat
…
[===>............................] recovery = 8.3%
…

MDADM - как повторно собрать RAID-5 (сообщающий об устройстве или занятом ресурсе)

В ответ на Обновление 1

Рекомендации

Теги

Похожие вопросы