mod3m
Newbie | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору Может кто сталкивался, что-то уже не знаю куда копать. Гугл, по всем ошибкам приговаривает новый хард. Имеем сервер Intel 2U SR2500ALBRPR http://www.nix.ru/autocatalog/server_systems_intel/Intel_2U_SR2500ALBRPR_LGA771_i5000P_SATA_RAID_5xHotSwap_SATA_2xGbLAN_8DDRII_FBDIMM_750W_51530.html с интегрированным рейд контроллером. На нем win 2к3 с AD и 1Ской на борту. В рейде 10 два винта Seagate Barracuda ES.2 - 500 гб. Около двух недель назад, полетел один из дисков. По симптомам - просто зависла машина, перезагрузка не помогала, сервер просто висел пока не сдернули один из хардов. Было принято решение заменить сразу оба. Взяли такие: HP 500GB 7.2k HP MDL SATA 1y Wty HDD (458928-B21). Предварительно был прошит биос на материнки на всякий случай, рейд контроллер прошить не удалось. Вместо "сломанного" диска, был поставлен один новый и сразу был включен ребилд. Второй новый диск, был поставлен в Hot Spare. Собственно ребилд прошел нормально, что подтверждают логи - без ошибок. Цитата: 100 [Information, 0] 2012-09-29, 01:00:20 Controller ID: 0 Rebuild complete -:-:2 19 | Далее, был вытащен второй ещё рабочий "старый" диск: Цитата: 114 [Information, 0] 2012-10-01, 04:26:15 Controller ID: 0 State change: PD = -:-:1 Previous = Online Current = Offline 20 81 [Information, 0] 2012-10-01, 04:26:15 Controller ID: 0 State change on VD: 0 Previous = Optimal Current = Degraded 21 251 [Critical, 2] 2012-10-01, 04:26:15 Controller ID: 0 VD is now DEGRADED VD 0 22 112 [Warning, 1] 2012-10-01, 04:26:15 Controller ID: 0 PD removed: -:-:1 23 114 [Information, 0] 2012-10-01, 04:26:15 Controller ID: 0 State change: PD = -:-:1 Previous = Offline Current = Failed 24 114 [Information, 0] 2012-10-01, 04:26:16 Controller ID: 0 State change: PD = -:-:3 Previous = Hot Spare Current = Rebuild 25 105 [Information, 0] 2012-10-01, 04:26:16 Controller ID: 0 Rebuild started: PD -:-:3 26 | Сразу сработал Hot Spare, начал ребилд второго нового харда. Но не совсем корректно, как позже только выяснилось по логам со следующими ошибками: Цитата: 109 [Fatal, 3] 2012-10-01, 04:35:56 Controller ID: 0 Unrecoverable medium error during rebuild: PD -:-:2 Location 0x618bb0 29 109 [Fatal, 3] 2012-10-01, 04:35:45 Controller ID: 0 Unrecoverable medium error during rebuild: PD -:-:2 Location 0x60b433 28 | на первом новом рабочем винте (PD -:-:2 - находится в слоте 2). Сам ребилд завершился корректно: Цитата: 100 [Information, 0] 2012-10-02, 04:47:14 Controller ID: 0 Rebuild complete -:-:3 36 249 [Information, 0] 2012-10-02, 04:47:14 Controller ID: 0 VD is now OPTIMAL VD 0 35 81 [Information, 0] 2012-10-02, 04:47:14 Controller ID: 0 State change on VD: 0 Previous = Degraded Current = Optimal 34 | Собственно до сегодняшнего дня, точнее даже вчерашней ночи - все работало без проблем (это около 2ух недель). Через Raid Web Console 2 периодически мониторил. Но тут утром позвонили, с проблемой - не могут зайти по терминалу в 1С. Также потыкался по удаленки - не пускает. Пинги шли. Перезагрузили сервер с кнопки - вроде ок. Полез смотреть логи рейда сразу. В консоле все нормально - рейд не рассыпался, за исключением сообщений, каждые 10 минут: Цитата: 96 [Warning, 1] 2012-10-14, 12:36:47 Controller ID: 0 PD Predictive failure: -:-:2 59 96 [Warning, 1] 2012-10-14, 12:24:49 Controller ID: 0 PD Predictive failure: -:-:2 58 96 [Warning, 1] 2012-10-14, 12:12:52 Controller ID: 0 PD Predictive failure: -:-:2 57 96 [Warning, 1] 2012-10-14, 12:00:57 Controller ID: 0 PD Predictive failure: -:-:2 56 96 [Warning, 1] 2012-10-13, 23:49:01 Controller ID: 0 PD Predictive failure: -:-:2 55 96 [Warning, 1] 2012-10-13, 23:37:02 Controller ID: 0 PD Predictive failure: -:-:2 54 | Pred Fail Count растет. Пока читал логи, сервер опять виснет намертво.. Было принято решение сдернуть диск со 2го слота, но по ошибке сдернули с 3го.. Ладно опять загрузка Ос - рейд degraded. Вставили диск обратно - начался ребилд. После минуты ребилда уже замечено в логах: Цитата: 109 [Fatal, 3] 2012-10-14, 02:55:41 Controller ID: 0 Unrecoverable medium error during rebuild: PD -:-:2 Location 0x618bb0 80 109 [Fatal, 3] 2012-10-14, 02:55:35 Controller ID: 0 Unrecoverable medium error during rebuild: PD -:-:2 Location 0x60b433 79 | И так же сыпется: Цитата: 96 [Warning, 1] 2012-10-14, 03:16:46 Controller ID: 0 PD Predictive failure: -:-:2 82 | Но сервер не виснет. Часов за 5, ребилд был выполнен. Цитата: 96 [Warning, 1] 2012-10-14, 08:36:46 Controller ID: 0 PD Predictive failure: -:-:2 120 | Продолжают сыпаться. Запустил Start Consistency Check, сразу выдало: Цитата: 60 [Fatal, 3] 2012-10-14, 08:46:07 Controller ID: 0 Consistency Check detected uncorrectable multiple medium errors: (PD -:-:2 Location 0x618bb0, VD 0) 125 60 [Fatal, 3] 2012-10-14, 08:46:07 Controller ID: 0 Consistency Check detected uncorrectable multiple medium errors: (PD -:-:3 Location 0x618bb0, VD 0) 124 60 [Fatal, 3] 2012-10-14, 08:46:00 Controller ID: 0 Consistency Check detected uncorrectable multiple medium errors: (PD -:-:2 Location 0x60b433, VD 0) 123 60 [Fatal, 3] 2012-10-14, 08:46:00 Controller ID: 0 Consistency Check detected uncorrectable multiple medium errors: (PD -:-:3 Location 0x60b433, VD 0) 122 | Часа 3 была проверка, под конец вроде как перестали Predictive failure появляться. Итог проверки Цитата: 59 [Information, 0] 2012-10-14, 12:26:26 Controller ID: 0 Consistency Check done with corrections on VD: 0, (corrections = 6) 148 | На 1 HDD, который в слоте 2: Pred Fail Count 54, Media Error Count 4 На 2 HDD, который в слоте 3: Pred Fail Count 0, Media Error Count 2 У кого какие мысли, что делать дальше? Первый винт на замену? С него же началось сыпать. На втором сейчас смущает Media Error Count 2 Ещё думаю поменять слот, на 2ом слоте, как раз посыпался старый хард. И так же смарт посмотреть. |