[過去ログ] Ryzen Threadripper 23足目 (1002レス)
1-

このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
118
(1): (ブーイモ MM26-l6gR) 2019/07/12(金)09:49 ID:kSRVkMjWM(1) AAS
>>115
昔、お客さん(わりとスーパーなエンジニア)がサーバーのチップセットの統計情報とってて、
結構な割合でECCによる訂正が起きてるのを見せてくれたことがある。
正確性が必要な計算だとあった方がいいと思う。
ゲームとか深層学習ならまあなくてもおいかな。
(数値計算系は基本的にはメモリー化けご法度なんだけど
深層学習に限ってはわざとノイズ入れたりするくらいだから)
119: (JP 0H67-1toC) 2019/07/12(金)10:10 ID:AO6QYd7wH(1) AAS
6台編成の計算ノードの一つでメモリに問題があって、沢山走っている並列プロセスが徐々に死んでいく
っていうことがあった。稼働して半年目のことだった。さんざん苦労して原因がわからず、
初心に帰って、memtestをしたら判明。
ケチってパーツショップのBTOにしたのが良くなかった。
1システムを構成する台数が増えれば、その分、要求される信頼性は高くなると学んだ次第。
120
(1): (アウアウクー MM7b-7mEl) 2019/07/12(金)10:54 ID:0bdyQHx5M(1) AAS
今回のryzenで一番被害受けたのはスリッパだな。2990wxはもちろん、2950xも含めて駆逐されてる
121: (オッペケ Sr3b-9kkb) [age] 2019/07/12(金)11:27 ID:nC9iQufGr(1/2) AAS
メモリも10万で32GBが4本買えちゃうしね。
こっちは256GB積めるけども。
122: (アウアウウー Sa47-EStg) 2019/07/12(金)11:33 ID:Yrao5M5Sa(1) AAS
>>120
性能面ではそうだけどやはり足まわりがな
あとTR4だと250W級でも空冷で余裕なのにAM4は厳しそうなところを見るとヒートスプレッダのサイズ違いも差があるなと思った
2950で今は凌ぎつつZEN2のスリッパを待つことにしたよ
123: (オッペケ Sr3b-S51s) 2019/07/12(金)12:34 ID:A+fybeTOr(1/2) AAS
大手鯖でeccメモリ使ってないとこみたことない
124: (オッペケ Sr3b-9kkb) [age] 2019/07/12(金)12:49 ID:nC9iQufGr(2/2) AAS
レジスタードメモリになるから必然的にECCつくしな
125: (ワッチョイ dac4-r2jq) 2019/07/12(金)12:57 ID:73bBMGeY0(2/2) AAS
xeon e3系はunbuffered eccだけどな。
126: (オッペケ Sr3b-S51s) 2019/07/12(金)14:12 ID:A+fybeTOr(2/2) AAS
Zen2スリッパいつ発売予定なんかな?
今回の放熱騒動で懲りたんで3950X買わずにスリッパ買いたい
デュアルチャネルアクセスがボトルネックになってるみたいだし
127: (ワッチョイ 0bb1-vLwt) 2019/07/12(金)15:26 ID:WhHfWhUQ0(1/2) AAS
アレぐらいの放熱だったら慣れた自作erだったらウキウキしながら対処するんでないかい
なんか初心者が過剰に騒いでるだけに見える
128: (スププ Sdba-JAS8) 2019/07/12(金)15:36 ID:lzsQQORvd(2/2) AAS
>>116
頭弱そうw
129: (スププ Sdba-JAS8) 2019/07/12(金)15:39 ID:F+G3d1emd(1) AAS
>>114
intelは共通のものがあっても
わざわざoffにしてるけど?
130: (ワッチョイ db86-pypi) 2019/07/12(金)17:39 ID:AIGiwhgM0(2/5) AAS
>>118
DDR2の頃からECCでの運用してるんだが、
エラーの原因が宇宙線とかでなく、意外とホコリがスロットやメモリに積もるのが原因っぽいのよ。

掃除するとエラー率がグッと下がるからさ。
ただ、そのホコリの量ってのがマジで微量でさ、
作りの悪いメモリだとチップと基盤の間に樹脂を流し込んでないので、
ちょっとしたホコリでエラーが出やすくなるっぽい。
131
(1): (ブーイモ MM26-l6gR) 2019/07/12(金)18:03 ID:sPJn5YRlM(1/2) AAS
えええ、そんなことでも化けるの...
132
(1): (ワッチョイ 36b3-P44A) 2019/07/12(金)18:42 ID:dSOcGbC20(1) AAS
素人丸出しで申し訳ないんだけどさ、エラー訂正機能のないメモリってエラー出したらそのままその値を使い続けるんでしょ?
よくもまあアプリケーションやOSは動き続けてるなぁ……
133: (ワッチョイ db86-pypi) 2019/07/12(金)19:00 ID:AIGiwhgM0(3/5) AAS
>>131
エラーつっても、うっすらホコリが確認できる程度なら1日1件くらいだ。
なお、そういう状態でECC無しのサーバーだと平均3日でクラッシュする(した)。
134
(1): (オッペケ Sr3b-9kkb) [age] 2019/07/12(金)19:06 ID:kjTVqr13r(1) AAS
社内サーバーの面倒見てるけどECCが発動すれば即イベント発報されるはずだが起きた事なんかないぞ。
10年に一回とかそんなもんじゃないの?
135: (ワッチョイ db86-pypi) 2019/07/12(金)19:20 ID:AIGiwhgM0(4/5) AAS
最近のECCメモリはだいたい基盤とチップ間に樹脂入っているからね。
DDR2のころはそうじゃない奴も結構あったので、ホコリが大敵だった。

あと、ホコリでエラーはDDR4になってからはかなり起こりにくくなったよ。
ECC無くても転送時の化け防止にCRCチェックが入るから、
ホコリによる転送化けは無視できる程度になったと言えるね。
136: (ワッチョイ 5b9d-JAS8) 2019/07/12(金)20:05 ID:1ptq/pSR0(1) AAS
ECCの安鯖
青画面なんてなかなか見ないが埃溜まると出るんだよな
静電気が溜まるのかねえ
137: (ワッチョイ 5f76-7lvz) 2019/07/12(金)20:57 ID:iV/y35jg0(1) AAS
>>132
不思議だよな
1-
あと 865 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.014s