NVIDIA「ゲームコンソールのSoCの増加でゲームセグメントの収益が増加した」 (358レス)
上
下
前
次
1-
新
296
(1)
:
警備員[Lv.8]
11/21(木)23:16
ID:HTVGc+gg0(1)
AA×
>>282
[240|
320
|
480
|
600
|
100%
|
GIF
|
べ
|
レス栞
|
レス消
]
296: 警備員[Lv.8] [sage] 2024/11/21(木) 23:16:04.88 ID:HTVGc+gg0 >>282 SSD内部で実際に何並列にI/Oを実行できるかはNANDチップの数×チャネル数で決まるから、それが32並列付近なら確かにキュー深度32(QD32)で「SSDの内部スループット」は飽和するのはその通りやね だからと言って1キューのQD32まででいいかと言うとそれは早計で、例えばトータル512ファイルを読みたいと言った場合、NVMeであれば16キュー×QD32で512リクエストを一度に発行できるためまずCPU側の管理コストが低くなる かつ各ファイルのサイズはまちまちだろうから、NANDコントローラが内部の最大並列度に応じて適切にスケジューリングして「同期待ち」を発生させずに最大のスループットを得ることができる そうじゃなく1キューxQD32で16回リクエストを投げるとなれば単純にCPU側の管理コストがかさばるし、1キュー処理し終えるまで次のキューは投げられないから、32ファイルのうち一番大きいものの転送が終わるまで待ってから次のキューを発行するというふうに、待ちが生じる これはGPUの並列処理でも似たような話で、GPUの物理スレッド数ちょっきりに分割してコマンド発行するとキャッシュミスでストールしてるスレッドは完全に停止する(待ちになる)が、物理スレッド数を超える論理スレッド数で一度に発行すれば、キャッシュミスでストールしたスレッドはコンテキストスイッチして待機スレッドの処理を走らせられるので最大効率に近づく (そしてCPUとしてもドローコール発行回数を減らせてWin-Win) http://krsw.5ch.net/test/read.cgi/ghard/1732148265/296
内部で実際に何並列にを実行できるかはチップの数チャネル数で決まるからそれが並列付近なら確かにキュー深度での内部スループットは飽和するのはその通りやね だからと言ってキューのまででいいかと言うとそれは早計で例えばトータルファイルを読みたいと言った場合であればキューでリクエストを一度に発行できるためまず側の管理コストが低くなる かつ各ファイルのサイズはまちまちだろうからコントローラが内部の最大並列度に応じて適切にスケジューリングして同期待ちを発生させずに最大のスループットを得ることができる そうじゃなくキューで回リクエストを投げるとなれば単純に側の管理コストがかさばるしキュー処理し終えるまで次のキューは投げられないからファイルのうち一番大きいものの転送が終わるまで待ってから次のキューを発行するというふうに待ちが生じる これはの並列処理でも似たような話での物理スレッド数ちょっきりに分割してコマンド発行するとキャッシュミスでストールしてるスレッドは完全に停止する待ちになるが物理スレッド数を超える論理スレッド数で一度に発行すればキャッシュミスでストールしたスレッドはコンテキストスイッチして待機スレッドの処理を走らせられるので最大効率に近づく そしてとしてもドローコール発行回数を減らせて
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
あと 62 レスあります
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
ぬこの手
ぬこTOP
0.037s