ローカルLLMに18トークン/秒は遅いかと聞いてみた。
公開 2026/02/23 10:46
最終更新
-
NVIDIA製Nemotron-Nano-9b-v2に聞いてみた。
Xeon W-2125/Quadro P5000(16GB)搭載機でNemotron-Nano-9b-Japanese(Q4-K-S)、LM Studioから聞いてみた。
NVIDIAってどんな企業? 内容はともかく17.75トークン/秒と出た。
これって遅い?って聞いたら、NVIDIAの基準から言えば許容範囲外で遅いって。まあ、わかるが。
参考にもならないが、Core i7-9700/Geforce RTX3050(6GB)搭載機で同様の問い合わせを試したら、7.79トークン/秒だった。ま、Nemotron-Nano-9b-Japanese(Q4-K-S)でも、6Gを超える容量なので、GPU のメモリに収まり切れなかった問題もあるのだろうし、3050自体が速くないしな。
同機でQwen3-4b-instruct-2507は49.29トークン/秒、Thinkingを使わないせいか結構早い。
Xeon W-2125/Quadro P5000(16GB)搭載機でNemotron-Nano-9b-Japanese(Q4-K-S)、LM Studioから聞いてみた。
NVIDIAってどんな企業? 内容はともかく17.75トークン/秒と出た。
これって遅い?って聞いたら、NVIDIAの基準から言えば許容範囲外で遅いって。まあ、わかるが。
参考にもならないが、Core i7-9700/Geforce RTX3050(6GB)搭載機で同様の問い合わせを試したら、7.79トークン/秒だった。ま、Nemotron-Nano-9b-Japanese(Q4-K-S)でも、6Gを超える容量なので、GPU のメモリに収まり切れなかった問題もあるのだろうし、3050自体が速くないしな。
同機でQwen3-4b-instruct-2507は49.29トークン/秒、Thinkingを使わないせいか結構早い。
