Diman888
Newbie | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору Всем форумчанам привет! Бьемся над проблемой уже вторую неделю, и никак не можем побороть. Помогите пожалуйста найти пути решения. Уже не знаю что и думать - сегодня-завтра попробуем обновить прошивку на сторедже, но боюсь что она тут не при чем... Есть два хоста (supermicro x8dtu-f) подключены к стореджу LSI CTS 2600 по SAS напрямую(один линк к контроллеру А(активному), другой - к контроллеру В(standby)). Ежедневно один из хостов(по очереди - день один, день - другой) теряет подключение к стореджу. При этом виртуалки, hdd которых расположены на локальных хранилищах работают без проблем. При попытке ресканить сторедж - команда вылетает по тайм-ауту. Помогает только перезагрузка хоста. В течении дня в логах заметны только сообщения об увеличении задержки доступа к LUNам: 2012-07-03T06:58:34.943Z cpu6:4102)WARNING: ScsiDeviceIO: 1218: Device naa.60080e5000235ac2000004494e97c7d6 performance has deteriorated. I/O latency increased from average value of 2821 microseconds to 59723 microseconds. 2012-07-03T06:58:56.669Z cpu7:6319)ScsiDeviceIO: 1198: Device naa.60080e5000235ac2000004494e97c7d6 performance has improved. I/O latency reduced from 59723 microseconds to 11671 microseconds. На первом хосте - данный WARNING намного реже выскакивает, и графики производительности по дисковой подсистеме более спокойны, но все равно раз в два дня хост теряет сторедж. На втором хосте - в течении всего дня валятся эти сообщения. ESXi обновлен до версии 623860, а vCenter до 623373 . Пробовали поменять HBA-адаптеры(были dell, сейчас LSI) - ситуация не изменилась. Path Selection в соответствии с capatibilities guide'ами - MRU, но пробовали и Fixed - то же самое. Вот описание, похожее на мою проблему, и сторедж на базе CTS2600, только в solution ничего, что могло бы мне помочь.( http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=2019936 Содержание лога в момент потери хостом стореджа: 2012-07-02T16:46:23.698Z cpu22:122964)NMP: nmp_DeviceUpdatePathStates:547: Activated path "NULL" for NMP device "naa.60080e50001bd8ce000004614e97b6b4". 2012-07-02T16:46:23.698Z cpu22:122964)WARNING: VMW_SATP_LSI: satp_lsi_pathIsUsingPreferredController:714:Failed to get volume access control data for path "vmhba1:C0:T0:L0": No connection 2012-07-02T16:46:23.698Z cpu20:4276)WARNING: VMW_SATP_LSI: satp_lsi_pathIsUsingPreferredController:714:Failed to get volume access control data for path "vmhba1:C0:T1:L1": No connection 2012-07-02T16:46:23.698Z cpu20:4276)NMP: nmp_DeviceUpdatePathStates:547: Activated path "NULL" for NMP device "naa.60080e5000235ac2000004494e97c7d6". 2012-07-02T16:46:23.699Z cpu22:122964)WARNING: VMW_SATP_LSI: satp_lsi_pathIsUsingPreferredController:714:Failed to get volume access control data for path "vmhba1:C0:T1:L0": No connection 2012-07-02T16:46:23.699Z cpu20:4276)WARNING: VMW_SATP_LSI: satp_lsi_pathIsUsingPreferredController:714:Failed to get volume access control data for path "vmhba1:C0:T0:L1": No connection 2012-07-02T16:46:23.699Z cpu20:4276)WARNING: VMW_SATP_LSI: satp_lsi_pathIsUsingPreferredController:714:Failed to get volume access control data for path "vmhba1:C0:T1:L1": No connection 2012-07-02T16:46:23.699Z cpu23:124417)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60080e50001bd8ce000004614e97b6b4" - issuing command 0x4124416a9f40 2012-07-02T16:46:23.699Z cpu23:124417)WARNING: NMP: nmp_SelectPathAndIssueCommand:2693:PSP selected path "vmhba1:C0:T0:L0" in a bad state (dead)on device "naa.60080e50001bd8ce000004614e97b6b4". 2012-07-02T16:46:23.699Z cpu20:4786)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60080e5000235ac2000004494e97c7d6" - issuing command 0x412401a5d900 2012-07-02T16:46:23.699Z cpu23:124417)WARNING: NMP: nmpCompleteRetryForPath:348:Retry command 0x16 (0x4124416a9f40) to NMP device "naa.60080e50001bd8ce000004614e97b6b4" failed on physical path "vmhba1:C0:T0:L0" H:0x1 D:0x0 P:0x0 Possible sense da 16:46:23.699Z cpu20:4786)WARNING: NMP: nmp_SelectPathAndIssueCommand:2693:PSP selected path "vmhba1:C0:T0:L1" in a bad state (dead)on device "naa.60080e5000235ac2000004494e97c7d6". 2012-07-02T16:46:23.699Z cpu23:124417)WARNING: NMP: nmpCompleteRetryForPath:378:Logical device "naa.60080e50001bd8ce000004614e97b6b4": awaiting fast path state update before retrying failed command again... |