NVIDIA「ゲームコンソールのSoCの増加でゲームセグメントの収益が増加した」 (358レス)
前次1-
抽出解除 必死チェッカー(本家) (べ) レス栞 あぼーん

296
(1): 警備員[Lv.8] 11/21(木)23:16 ID:HTVGc+gg0(1) AAS
>>282
SSD内部で実際に何並列にI/Oを実行できるかはNANDチップの数×チャネル数で決まるから、それが32並列付近なら確かにキュー深度32(QD32)で「SSDの内部スループット」は飽和するのはその通りやね

だからと言って1キューのQD32まででいいかと言うとそれは早計で、例えばトータル512ファイルを読みたいと言った場合、NVMeであれば16キュー×QD32で512リクエストを一度に発行できるためまずCPU側の管理コストが低くなる

かつ各ファイルのサイズはまちまちだろうから、NANDコントローラが内部の最大並列度に応じて適切にスケジューリングして「同期待ち」を発生させずに最大のスループットを得ることができる

そうじゃなく1キューxQD32で16回リクエストを投げるとなれば単純にCPU側の管理コストがかさばるし、1キュー処理し終えるまで次のキューは投げられないから、32ファイルのうち一番大きいものの転送が終わるまで待ってから次のキューを発行するというふうに、待ちが生じる

これはGPUの並列処理でも似たような話で、GPUの物理スレッド数ちょっきりに分割してコマンド発行するとキャッシュミスでストールしてるスレッドは完全に停止する(待ちになる)が、物理スレッド数を超える論理スレッド数で一度に発行すれば、キャッシュミスでストールしたスレッドはコンテキストスイッチして待機スレッドの処理を走らせられるので最大効率に近づく
(そしてCPUとしてもドローコール発行回数を減らせてWin-Win)
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.927s*