MDADM - как повторно собрать RAID-5 (сообщающий об устройстве или занятом ресурсе)

Использовать rsync, и укажите --ignore-existing если Вы не хотите обновлять существующие файлы:

rsync -e ssh -av --ignore-existing /my/source/directory jim@foreign.machine.egg:/data/

Популярная дополнительная опция, которую я обычно добавляю, --progress таким образом, Вы видите то, что продолжается. Если Вы ожидаете прерывания, также говорите --partial, но я не уверен, как "неравнодушный" и "игнорируют - существующее" соединение, если Вы действительно становитесь отключенными во время передачи.

4
11.09.2016, 16:25
3 ответа

Прежде всего диск, повторно обозначающий буквами просто, иногда происходит, в зависимости от того, как Ваша машина настраивается. Буквы дисков, как ожидают, не будут стабильны по перезагрузкам с тех пор, ummm, некоторое время. Таким образом, это не огромная озабоченность что Ваш диск, перемещенный в Вас.

Принятие dmraid и картопостроитель устройства не использует Ваши устройства:

Ну, mdadm --stop /dev/md0 мог бы заботиться о Ваших занятых сообщениях, я думаю вот почему его жалоба. Затем можно попробовать Ваш собирать строку снова. Если это не работает, - остановка, снова сопровождаемая, собирается с --run (без выполнения, - собираются - сканирование не запустит ухудшенный массив). Затем можно удалить и повторно добавить неисправный диск, чтобы позволить ему делать попытку восстанавливания.

/dev/sde устарело (посмотрите на счетчик событий). Другие смотрят хорошо на первый взгляд, таким образом, я думаю, что у Вас на самом деле есть довольно хороший шанс никаких трудностей.

Вы еще не должны обнулять суперблоки. Слишком высокий риск потери данных. Если - выполненный не работает, я думаю, что Вы собираетесь хотеть найти кого-то локально (или кто может ssh в), кто знает то, что он делает, чтобы попытаться зафиксировать.

В ответ на Обновление 1

То, что "недостаточно запустить, массив" никогда не является хорошим сообщением для получения от mdadm. То, что это означает, - то, что mdadm нашел 10, изгоняет из Вашего массива RAID5 с 12 дисками, и поскольку я надеюсь, что Вы - осведомленный RAID5, может только пережить один отказ, не два.

Ну, давайте попытаемся соединить то, что произошло. Во-первых, по перезагрузке, было изменение буквы диска, которое является раздражающим для нас пытающийся понять это, но mdraid не заботится об этом. При прочтении вывода mdadm вот перекарта, которая произошла (отсортированный по диску набега #):

00 sdh1 -> sdb1
02 sdk1 -> sde1 [OUTDATED]
03 sdg1 -> sda1
04 sdf1 -> sdm1
05 sdd1 -> sdk1
06 sdm1 -> sdg1
07 sdc1 -> sdj1
08 sdi1 -> sdc1
09 sde1 -> sdl1
10 sdj1 -> sdd1
11 sdl1 -> sdf1
13 sdb1 -> sdi1 [SPARE]

02. Имеет более низкий счетчик 'событий', чем другие. Это означает, что оставило массив в какой-то момент.

Было бы хорошо, если Вы знаете часть истории этого массива — например, "RAID5 с 12 дисками, 1 горячее резервирование", корректное?

Я не совсем уверен, какова последовательность отказов, которые приводят к этому, все же. Кажется, что в какой-то момент, устройство № 1 перестало работать, и восстанавливание на устройство № 12 запустилось.

Но я не могу разобрать точно, что произошло затем. Возможно, у Вас есть журналы — или администратор для выяснения. Вот то, что я не могу объяснить:

Так или иначе № 12 стал № 13. Так или иначе № 2 стал № 12.

Так, это восстанавливает на № 12, должен был закончиться, и затем № 12 был бы № 1. Возможно, это не сделало — возможно, этому не удалось восстановить по некоторым причинам. Затем, возможно, № 2 перестал работать — или возможно № 2 перестал работать, то, почему восстанавливание не закончилось, и кто-то пытался удалить и повторно добавить № 2? Это могло бы сделать это № 12. Затем, возможно, удаленный и повторно добавленный запчасть, делая это № 13.

Хорошо, но конечно, в этой точке, у Вас было два отказа диска. Хорошо. Это имеет смысл.

Если это - то, что произошло, Вы перенесли два отказа диска. Это означает потерю данных. То, что Вы делаете затем, зависит от того, как важный, который данные (рассматривающий также, насколько хороший Ваши резервные копии).

Если данные очень ценны (и у Вас нет хороших резервных копий), специалисты по восстановлению контактных данных. Иначе:

Если данные достаточно ценны, необходимо использовать dd отображать все включенные диски (можно использовать большие диски и файлы на каждом, чтобы сэкономить деньги. Внешний облик на 2 или 3 ТБ, например). Затем сделайте копию изображений. Затем работа над восстановлением на той копии (можно использовать циклические устройства, чтобы сделать это).

Получите больше запчастей. Вероятно, у Вас есть один мертвый диск. У Вас есть по крайней мере несколько сомнительных дисков —smartctl смогите говорить Вам больше.

Далее --force к Вашему --assemble строка. Это заставит mdadm использовать устаревший диск так или иначе. Это означает, что некоторые секторы будут теперь иметь устаревшие данные, некоторые не будут. Добавьте в одном из тех новых дисков как запчасть, позвольте восстановить концу. Надо надеяться, Вы не поражаете сбойных блоков (который заставил бы восстанавливание перестать работать, и я полагаю, что единственный ответ должен заставить диск планировать их), Затем, fsck -f диск. Вероятно, будут ошибки. После того как они фиксируются, монтируют диск и видят то, что формирует Ваши данные, находится в.

Рекомендации

В будущем не создавайте RAID5s с 12 дисками. Вероятность двух отказов диска слишком высока. Используйте RAID6 или RAID10 вместо этого. Кроме того, удостоверьтесь, что обычно вычистили свои массивы для сбойных блоков (echo check > /sys/block/md0/md0/sync_action).

6
27.01.2020, 20:51
  • 1
    fro советование :) - попытается изучить как можно больше, :) привычка массива запускаются - недостаточно устройств. - добавили вывод к вопросу –  Erwin Kuschke 09.12.2011, 23:30
  • 2
    Привет Derobert Спасибо за всю помощь до сих пор!! очень ценивший :) - я скорее решил разочароваться в восстановлении (кажется, что это было движение для ценности больше проблемы/времени), таким образом, панорамирование должно теперь следовать за Вашим советовать, чтобы скорее убрать и преобразовать его в RAID-6. проблема - после нескольких часов, которые здание набега 6 также остановилось/привело к сбою с двумя дисками, которые перестали работать... :( что путь там для тестирования/отмечания дисков с поврежденными секторами и т.д.? (я не уверен, что вызовет диск не быть доступным для MDADM, чтобы завершить набег, но все еще иметь его в наличии для ОС?) - я предполагаю, что файлы журнала будут путем? –  Erwin Kuschke 11.12.2011, 13:45
  • 3
    @ErwinKuschke: Первая вещь посмотреть на была бы произведена от smartctl, и также журналы ядра. Но действительно было бы лучше попросить что как новый вопрос. Можно также хотеть спросить один относительно того, как необходимо настроить этот RAID-массив также (предоставляющий подробную информацию о как его попытка использоваться). –  derobert 11.12.2011, 14:34

Можно попытаться использовать команды mdadm, загружающиеся со следующим параметром ядра: init =/bin/bash

1
27.01.2020, 20:51

Не уверен, что это лучший способ, поэтому решите эту проблему, но это помогло мне, когда один диск в моем RAID10 вышел из синхронизации по неизвестной причине:

Во-первых, я остановил все контейнеры RAID, которые смог найти, с помощью sudo mdadm --stop /dev/md*(. Будьте осторожны, если вы используете несколько RAID, некоторые из которых могут зависеть от ). Затем я использовал команду сканирования, чтобы воссоздать все RAID :

.
sudo mdadm --assemble --scan --verbose

Однако это создало отдельный контейнер для диска, который не был синхронизирован, поэтому я остановил это с помощью sudo mdadm --stop /dev/mdX(, вы можете выяснить, какой X, проверив sudo mdadm --detail /dev/md*; там я также мог видеть имя устройства выхода -из -синхронизирующего диска, /dev/sdgв моем случае ). Наконец, я повторно -добавил этот диск в родительский контейнер, md127в моем случае:

sudo --manage /dev/md127 -a /dev/sdg

И теперь он начал синхронизироваться, как я понял, проверив

sudo watch cat /proc/mdstat
…
[===>............................] recovery = 8.3%
…
0
27.01.2020, 20:51

Теги

Похожие вопросы