データサイエンティストのひよこ

分析に関する日々の相談事項

データのサンプル数について考え方

サンプル数(標本数)への不安

 「サンプル数っていくつあればいいですか?」ってよく質問される。2週間前くらいにも、○○の分析したいんだけど、どれだけ標本数あればいいのって聞かれた。特に、レアイベントデータでは、全体数が多いのに、注目イベントのデータ件数が少なくて不安になる人が多いようだ。
 サンプル数の決め方については、いくつか目安となる理論があると思う。ただ、データ不十分だと思うので集めてくださいとか言われても困ると思うので、すぐ実行に移せるアドバイスが必要だと思う。私の場合は、このサンプル数が適切ですというアドバイスに加えて、現状のサンプル数ではこういう分析してくださいというアドバイスをしている。

 特に後者の指針を与えている情報が、いまいち聞こえてこなかったので考えてみた。

続きを読む