[過去ログ] 【パイ焼き】y-cruncherベンチスレ【1億桁】 [転載禁止]©2ch.net (1002レス)
上下前次1-新
このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
330: 2017/11/28(火)22:39 ID:vIkJwN4U(1/2) AAS
>>327 Xeonはパワーリミットの制限あるから回らないのは当然。
>>313 や >>326 はXeonとはかけ離れた領域で動かしてる。
※Xeon Gold 6150や7980XEの通常命令の全コアTB 3.4GHzってなってるけど、
CINEBENCH R15だとパッケージパワー165Wじゃ到達できない。
165Wなんてそんなもん。
331: 2017/11/28(火)22:58 ID:vIkJwN4U(2/2) AAS
>>313 の2.6GHzのタイムがメモリクロック半減させたとき(>>308)のものだった。
正しいのは>>305。
332(3): 2017/11/29(水)23:21 ID:oPVt0ei6(1) AAS
AA省
333: 2017/11/30(木)03:03 ID:Ly5j6peW(1) AAS
ここまで出たらスリッパが見たいな
334(1): 2017/11/30(木)20:20 ID:UZ4oObTH(1) AAS
13-HSWと14-BDWって何が違うの?
そんな細かく最適化してあるの?
335(1): 2017/12/02(土)11:47 ID:25pBcZ8C(1) AAS
【 CPU 】 Core-i9 7980XE@3.5GHz (AVX2/AVX512 Offset: 0/0) 1.18V固定
【 Mem 】 DDR4-3733 17-17-17-37-1T 8GBx8
【 M/B 】 ASUS RAMPAGE VI EXTREME
【 SSD 】 Intel Optane 900P 280GB(PCIe)
【 O S 】 Win 10 Pro 64 (1709)
【 Ver. 】 v0.7.4 Build 9477 (17-SKX ~ Kotori)
【HypThread】 ON
【ComputeT.】 25.397 seconds
【Total Time】 28.341 seconds
【CPU Utiliz 】 3184.10 % + 3.69 % kernel overhead
省7
336: 2017/12/16(土)12:46 ID:QmO0P9fW(1) AAS
y-cruncher v0.7.4.9478 December 2, 2017
Fixed a serious bug that could cause very large computations to fail a redundancy check.
π1億桁は影響なしか。
337(2): 2017/12/16(土)17:42 ID:gvA+Wi8k(1) AAS
>>317
元になってるであろうsuperπの演算ルーチンが整数演算性能じゃなく浮動小数点演算性能に依存するのと同様に、このベンチも浮動小数点演算じゃないか?
SSEとかAVXとかの浮動小数点演算も含めてさ
338(2): 2017/12/17(日)23:22 ID:nqyGYX/2(1) AAS
>>337
AVX−>AVX2で倍速化したから、それは違うと思うよ
339(1): 2017/12/29(金)09:54 ID:mTb0++c3(1/5) AAS
>>334 作者がこの辺りに開発の様子を書いてるね。重要な部分は各CPUに合わせた
コードを用意したり、実際にどこでどのコードをどういうパラメタで使うのが最適かを
長時間掛けて評価してチューニングしてるようだね。
外部リンク[html]:www.numberworld.org
外部リンク[html]:www.numberworld.org
>>337 この辺りを分かる人が見れば分かるかな?
340(1): 2017/12/29(金)12:29 ID:DH3376JW(1/2) AAS
>>338
各CPU向けに最適化してるんだよな、FPU以外にもSSEやらAVXなど拡張命令の浮動小数点演算をフルに使ってるってだけなんじゃないの?
AVXさらAVX2での速度差程度だと整数演算のベンチだと主張する根拠としては弱すぎると思うけど
341: 2017/12/29(金)14:21 ID:mTb0++c3(2/5) AAS
>>340 y-cruncherと同じ計算方でπを求めるプログラムを書いた日本の人の話を
>>173に貼ってあります。整数が肝のようですよ。
>ループの中が浮動小数点演算という時点で, 計算速度が良くなるはずがないのです.
>割り算のコストもたぶんやばいことになっています.
>それに対して, Chudnovskyが圧倒的に速いのは, このアルゴリズムはループの中が
>全て整数の演算(しかも掛け算か足し算, 符号反転のみ, 割り算はありません)に収まって
>いるからです.
342: 2017/12/29(金)15:10 ID:DH3376JW(2/2) AAS
でも、そこのリンク先サイト、必須項目としてIEEE浮動書数点演算って明記してるじゃん
343(1): 2017/12/29(金)16:03 ID:mTb0++c3(3/5) AAS
なんか意固地になってませんか。
344(1): 2017/12/29(金)16:43 ID:9NWh0Kk8(1/2) AAS
>>339
14-BDWはBroadwellじゃなくてSkylakeの6820HKに最適化してあるのか、わぎらわしい
HaswellとBroadwellで何が変わったのか分からんかった
それにしてもアーキが大きく変わるたびに自前でハード買って最適化するなんて個人でよくやるなあ
次はCannonの予定らしいけどYしか出なかったらキャンセルか
345(2): 2017/12/29(金)16:53 ID:9NWh0Kk8(2/2) AAS
外部リンク[html]:www.numberworld.org
Medium-sized products are done using Floating-Point Fast Fourier Transform (Floating-Point FFT) convolution.
y-cruncher uses a modified FFT that is able to achieve Split-Radix computational complexity and numerical stability while maintaining the same friendly memory access pattern as the simple-radix algorithms.
FFT transform lengths of 2k, 3 * 2k, and 5 * 2k were used. Transform lengths of 7 * 2k were not used because they only benefit large products which are already handled by the Hybrid NTT algorithm below.
It also unnecessarily increases the sizes of the Twiddle Factor tables.
The FFT is currently the most heavily optimized part of the program and uses vector SSE2, SSE3, and SSE4.1 instructions. Despite the lack of hand-coded assembly,
the 64-bit version of the FFT achieves speeds comparable to that of prime95. (prime95 is known for having the fastest known FFT for x86 - much faster than FFTW)
省1
346(1): 2017/12/29(金)17:31 ID:mTb0++c3(4/5) AAS
>>344 ちょっとした趣味なんだろうけど我々はそれでコンピュータの進化の一端を実感できるってことかね。
実用上余り意味ないけど(※)。
コンシューマ向けはAVX512&多コアでほぼメモリ帯域の限界に達したから、今後はメモリ周り進歩がないと伸びなそう。
メインストリームはメモリ2chだから>>332の倍くらいのタイムで頭打ち。
外部記憶が必要な桁数なら、パーシステントメモリは効果があるかな。
※自分(>>332をやった7980XE+R6E)はπ 100億桁でメモリ設定が甘いの分かって役に立った。
(赤字で異常が表示されたり固まったり。赤字で異常が表示されて止まったときは>>345のページに書いて
あるように回復して続行できるみたいだね)
347(1): 2017/12/29(金)17:51 ID:BiZBxfg6(1) AAS
>>343
実数演算主体である高速フーリエ変換で計算してるんでしょ、
実数演算にFPU使うと遅いからSSE系命令セットつかって実数演算してるんでしょ
348(1): 2017/12/29(金)22:53 ID:mTb0++c3(5/5) AAS
>>347 Floating-Point FFTは下記のページの表にリンクがあるね。
外部リンク[html]:www.numberworld.org
中身がどうなってるのか分かんないけど、リンク先の頭で多数桁の数字の表現方法のページを
ポイントしてるけど(y-cruncher作者のページでも同じ話で始まっている)、その関係で整数演算
使う場面が沢山あるんじゃないかね。
AVX2の整数拡張以外の効果だと、HaswellではFMAとキャッシュくらい?
349(1): 2017/12/30(土)15:30 ID:6c3hXM+3(1/2) AAS
>>345
>>348
外部リンク[html]:www.numberworld.org
計算量によって使うアルゴリズム変えてるんだな
キャッシュに収まるようなときはFFTアルゴリズム
その次がNTTとHybrid NTT
500億桁より多いときに使うのがVSTアルゴリズムらしい、これは浮動小数点演算95%
"The VST Multiplication Algorithm"
外部リンク:www.numberworld.org
It is 95% floating-point and is highly sensitive to the SIMD capabilities of the machine
省11
上下前次1-新書関写板覧索設栞歴
あと 653 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.016s