Victor_VG
Tracker Mod | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору Об особенностях работы модулей памяти LRDIMM на кластерных ЦП (период наблюдений около семи месяцев). Для ряда кластерных ЦП, например Intel Xeon E5 2600/4600 имеющих два и более независимых контроллера памяти допустимо использование нескольких типов ОЗУ - UDIMM (небуферизованные, без контроля ошибок), RDIMM (регистровые с ЕСС), LRDIMM (Load-Reduced Dual Inline Memory Module - полностью буферизованные модули с ЕСС и сниженной входной ёмкостью шин), но естественно, что смешивать разные типы модулей в одном массиве памяти нельзя - работать не будет. Но в любом случае на каждый контроллер памяти нужно ставить модули UDIMM/RDIMM одной марки, или в случае с UDIMM с одинаковыми таймигами, а в случае с LRDIMM ситуация сложнее - в пределах одной марки могут выпускаться модули с разными микросхемами iMB, но с одинаковыми таймингами. Например Samsung M386B4G70DM0-CMA/Samsung M386B4G70DM0-YMAмогут изготавливаться с разными микросхемами iMB (Isolation Memory Buffer), но тайминги в SPD для них одинаковые, а на марку используемой iMB указывает цифра после частотного кода -*MA1, *MA2, *MA3, *MA4 и хотя вроде чипы памяти на все ставят одинаковые, но модули разными iMB, например *MA3 и *MA4 можно ставить только попарно на каждый контроллер т.к. при том, что тайминги модулей одинаковы похоже что контроллер памяти ловит факт использования разных микросхем iMB и сбоит. Intel про такие особенности своих схем всегда молчала, а другие не знают. У себя как раз на это нарвался - был комплект четыре модуля, один отказал, просил прислать замену с таким же iMB, а приехал с другим. Пришлось подбирать пары, вроде пока сообщений об ошибках контроллера памяти в логах нет, а были с разными iMB и число таких ошибок достигало десятков, а после плата перезапускалась, с последствиями в журналах оси. Обычно контроллеры памяти ЦП разведены на платах по одному контроллеру на банк, например у Jingsha X79-P3 и Xeon E5 2697 v2: контроллер0 - DIMM0, DiMM1, контроллер1 - DIMM2, DiMM3. И при установке модулей -CMA3, -CMA3, -CMA4, -CMA4 память работает без ошибок, а так же в испаряются явно нереальные замеры температур ядер ЦП, например считаем видео на GPU, тепловыделение ЦП ~ 80W, а его температура аж +97! хотя после в тех же условиях она не превышает +69...
---------- Жив курилка! (Р. Ролан, "Кола Брюньон") Xeon E5 2697v2/C602/128 GB PC3-14900L/GTX 1660 Ti, Xeon E5-2697v2/C602J/128 Gb PC3-14900L/GTX 1660 Ti |
|