[過去ログ]
【トリップ検索】MERIKEN's Tripcode Finder その5 (995レス)
【トリップ検索】MERIKEN's Tripcode Finder その5 http://anago.5ch.net/test/read.cgi/software/1379215931/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
このスレッドは過去ログ倉庫に格納されています。
次スレ検索
歴削→次スレ
栞削→次スレ
過去ログメニュー
171: ◆znjnB.IJwZLU [sage] 2013/09/26(木) 23:28:01.94 ID:6DsB6fP10 >>151 お久しぶりです。 日々の仕事をこなしつつトリップ検索のための正規表現エンジンのためのJITコンパイラを作るという作業にエタってました。 DESのS-Boxですがmovdqaが2個あるくらいなら速度差は出ないでしょう。 AVXでターゲットをSandy以降とする場合、ベクタ整数Logicは3op/cycleです。 従って速度を稼ぐには常に3命令を供給できるようにコードを書かなければなりません。 命令フェッチが16Byte/cycle、デコードが4op/cycleなので2ByteVEX(レジスタ間で4Byte)、3ByteVEX(レジスタ間で5Byte) のどちらでも達成可能ですし、数個のメモリオペレーションはOoOのキューで隠蔽されます。 ただし、メモリオペレーションを含む場合はLodeポートが2本、Storeポートが1本で命令長が多くの場合4Byteほど長くなることを意識する必要があります。 これはメモリオペレーションを含む論理演算は2ByteVEXの場合で2op/cycle、3ByteVEXの場合は1op/cycleしか命令を供給できないということですので、 間にレジスタ間演算を入れて供給命令数を維持するかループにしてuOPキャッシュを当て込むか、そういうものだと諦めるかしなければなりません。 2ByteVEXにすること自体は簡単で、VEX prefixのフォーマットを見るとわかりますが AVXop dist,src1,src2 という場合src2をxmm0〜xmm7に制限するだけです。 distとsrc1にはxmm0〜xmm15までの全てのレジスタを指定可能です。 まあ、レジスタ割付は面倒になります。 http://anago.5ch.net/test/read.cgi/software/1379215931/171
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
あと 824 レスあります
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.011s