[過去ログ] 【トリップ検索】MERIKEN's Tripcode Finder その5 (995レス)
上下前次1-新
このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
52: ◆Meriken//XXX 2013/09/19(木)18:40 ID:sTJqqQfeP(9/12) AAS
あれから素のSHA-1のルーチンの関数呼び出しのオーバーヘッドを
削って、合わせて27%の速度向上となりました。
VecTripperのルーチンは命令を削れるだけ削ってあるという印象です。
素晴らしいです。
最適化済みのルーチンもこんなふうに自分で書き直せればいいけど、
どうでしょうねえ〜
53(1): ◆JouJaku.IYSv 2013/09/19(木)19:10 ID:SvlqUu4y0(1) AAS
>>39
AVX2対応キターーー! ヽ(´Д`)ノ
AVX2が目的でHaswellを選ぶなら、高いK付きを選ぶ必要は無いと思います。
HaswellはAVXを使うと極端にOC耐性が落ちます。更に殻割り+液体金属必須です。
K無しを定格で使うのが良い、とK付きで殻割りOCまで試した私は思います。
54(1): ◆Meriken//XXX 2013/09/19(木)19:52 ID:sTJqqQfeP(10/12) AAS
>>53
確かにK付きはいらないですねえ。開発機の3770KもOC切っちゃったし…
その代わりにマザボを奮発してQuad CrossFireが出来るのにしようかな。
AVX-512がコンシューマー市場に下りてくるのは当分先でしょうしね。
55: ◆Meriken//XXX 2013/09/19(木)19:53 ID:sTJqqQfeP(11/12) AAS
最適化されたルーチンをじっと眺めてたらなんだか出来そうな気がしてきたぞ。
56: ◆Meriken//XXX 2013/09/19(木)22:14 ID:sTJqqQfeP(12/12) AAS
おもむろに少し書き換えてみたらうまくいきましたw
こりゃ思ったよりずっと簡単かも。
57: ◆Urotsuki/1Ca 2013/09/19(木)22:45 ID:Ywt2cZ170(2/2) AAS
開発が進んでいるようで何よりです
自分はPCの計算力を提供するぐらいしかできませんけど…
58: ◆Meriken//XXX 2013/09/20(金)04:43 ID:PXGklweqP(1/6) AAS
いやいや、それだけで十分すぎですw
うろつきさん、めちゃ速いですしね。
59: ◆Meriken//XXX 2013/09/20(金)04:50 ID:PXGklweqP(2/6) AAS
最適化済みのSHA-1のルーチンのアセンブラでの書き換えは
半分終わりました。既に元のSSE2 Intrinsicsでの実装より大分速くなっています。
思い切って手を付けてみて正解でした。
60: ◆Meriken//XXX 2013/09/20(金)11:51 ID:PXGklweqP(3/6) AAS
x64版のAVXでの書き換えは一応終了。
最適化されたルーチンは15%ほど速くなりました。
もうちょっと命令を削れそうな感じです。
61(2): 2013/09/20(金)12:28 ID:rdeXteVM0(1) AAS
>>54
Z87のマザーだと、ASUS MAXIMUS VI EXTREMEがPCIe 3.0(x8/x16/x8/x8)駆動で最大だからQuad CrossFireするには勿体無さそうに思うけどな。
外部リンク:www.asus.com
Quad CrossFireがPCIe 3.0(x16/x16/x16/x16)で動作保障してくれるマザーってあるんだっけ?
62(1): ◆Meriken//XXX 2013/09/20(金)12:39 ID:PXGklweqP(4/6) AAS
>>61
MTFでつかうぶんにはPCIeの帯域はほとんど関係ないので問題なしです。
買うとしたら検索君1号用なので他の用途には使わないですしね。
もうちょっと安いのでもいいんですけど、スロットの配置がいいのが
ないんですよね〜
63: ◆Meriken//XXX 2013/09/20(金)12:52 ID:PXGklweqP(5/6) AAS
命令を2つばかり削ってちょびっと速くなりました。
さすがに疲れたのこのへんにしときます。
後はこれをSSE2に移植して、32bit版を作らなきゃいけないんだよなあ。
まあのんびりやろうっと。
とりあえずAVX2対応の準備はできたので十分でしょう。
CPUだけで250M TPS出せるかもしれません。ぐへへへへ…
64: ◆Meriken//XXX 2013/09/20(金)17:44 ID:PXGklweqP(6/6) AAS
SSE2版を作って命令を2オペランド化してみたらかえって元のより遅くなったぞorz
たくさん作ってもメンテするの大変だし、アセンブラのルーチンは
64bit AVX/AVX2専用にしちゃおうかなあ。
…と、ここまで考えてから試しにVecTripperの真似をしてvmovdqaをmovaps に
変えたら、それだけでもとより速くなりましたw なぜだ…
65(1): ◆JouJaku.IYSv 2013/09/20(金)20:53 ID:BxgeVqsj0(1) AAS
>>61
ブリッジ挟んだなんちゃって仕様ならコレ。Haswellではありませんが。
外部リンク:www.asus.com
なんちゃってなので、グラフィック用です。
大量のデータ転送を同時に行うGPGPU用途には使えません。
Nativeならこれくらい逝かないと無理です。
外部リンク[cfm]:www.supermicro.com
66: ◆Meriken//XXX 2013/09/21(土)01:51 ID:axiLYME3P(1/5) AAS
>>65
今回の購入のメインはHaswellなので、やっぱりASUSのM6Eですかね〜
いやあ、楽しみだなあ。
67(3): ◆Meriken//XXX 2013/09/21(土)02:05 ID:axiLYME3P(2/5) AAS
最適化されたルーチンのSSE2への移植は完了しました。かなり速いです。
今まで58M TPSしか出ていなかったPhenom II X6で92M TPSでました。
Visual C++、効率が悪すぎだろう…
68: ◆Meriken//XXX 2013/09/21(土)02:41 ID:axiLYME3P(3/5) AAS
というわけで、64bit版は最適化されたルーチンに
一本化することにしました。これで大分すっきりとしました。
あと32bitだとxmmレジスタの数が足りなさすぎなので、
アセンブラで書きなおすのはやめにしました。
これで後は念の為にもう一回テストするだけです。
69: ◆Meriken//XXX 2013/09/21(土)02:55 ID:axiLYME3P(4/5) AAS
あ、でも最適化されたルーチンだけならレジスタ周りはそんなに厳しくないのか。
せっかくだから32bit版も書きなおそうかな。そうすれば大分すっきりするし…
70(1): ◆YSRKEN.ceVZZ 2013/09/21(土)10:51 ID:oxIT9/ma0(1/2) AAS
>>67
>Visual C++
iclですらない……そりゃ徹底的にアセンブラしたら速いでしょうねw
これで私もCPUのみで15MTPS逝きそうですな……
71(1): ◆Meriken//XXX 2013/09/21(土)14:05 ID:axiLYME3P(5/5) AAS
>>70
お、お久しぶりです。
Intelのも一応試してみたけどほとんど速度は変わりませんでしたよ。
まあそんなにうまい話は転がってないですね。
限界まで性能を出したいならコンパイラに頼らずに自分でやるしかないですね。
上下前次1-新書関写板覧索設栞歴
あと 924 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.234s*