データサイエンティストのひよこ

分析に関する日々の相談事項

統計モデリング・物理モデリング

モデルを作る

モデリングについても、よく質問される。私が物理出身なので、私が言うモデルと統計に詳しい人のモデルの意味合いが少し異なるときがあり、齟齬が発生するようだ。
自分でもたまに説明に失敗することがあるので、自分のためにまとめておきたい*1

まず、「我々の言うモデル」とは、ある物事を代表的なパーツだけで表した現実の簡易版(ほとんどの場合、数式の集合)のことである。このような「我々の言うモデル」と言っても、統計モデル、物理モデル、確率モデルなどの数理モデルが対象であり、そのアプローチや哲学(重い…)の違いを学ぶことはないだろう。特に、学生として、一つの分野でいくつかの数式をこねくり回すだけだった方には、なかなかモデルとは何かの違いまでたどり着かなかった人も多いと思う。

*1:基本的にここに書く内容は、自分のために書いている

続きを読む

ビッグデータ分析とは

ビッグデータ分析で私の関わったこと

私は、ビッグデータ分析を専門としていた情報科学科の助教だった。細かい専門分野の名前を出すと、複雑系およびネットワーク解析の研究をしていた。

f:id:TamSan:20180906021801p:plain
図:Phys. Rev. E 91, 042815

複雑系出身のデータサイエンティストは、珍しいタイプだと思っていた。が、いろいろと調べてみると、データサイエンティストのなかでも同分野の人が、そこそこいることが分かった。

  • Media Lab.のAlex "Sandy" Pentland教授
  • JALのデータサイエンティスト 渋谷直正
  • データの見えざる手 矢野和男
  • ホットリンクR&D 榊剛史

しっかりした人の中にも意外と仲間がいてうれしい。話せばいくらでも話を膨らませることができるが、ただ、今回はネットワーク分析ではなくて、ビッグデータ分析についてまとめてみたい。

続きを読む

データサイエンティストの業務

データサイエンティストの業務ってなんだろ

 おそらく、データサイエンティストのブログにでもいけば、必ずこのテーマで記事があるんじゃないかというぐらい、ありふれた話題だ。自分も含めて、データサイエンティストがよく自問自答している。データサイエンス業務とは・・・、データサイエンティストとは・・・とかいまさら感が強いテーマだと思うけど、私も自問自答する機会が多くなった。

 ひとつの大きな理由は、これってデータサイエンティストの普通にやる仕事なの?って仕事をすることが多分にあるからだ。私が、データサイエンティスト自体を再定義するつもりはないが、データ分析プロジェクトの普通というものが、あまり調べても出てこなかったので、私の経験からまとめたい。

続きを読む

データのサンプル数について考え方

サンプル数(標本数)への不安

 「サンプル数っていくつあればいいですか?」ってほんとよく質問される。2週間前くらいにも、○○の分析したいんだけど、どれだけ標本数あればいいのって聞かれた。特に、レアイベントデータでは、全体数が多いのに、注目イベントのデータ件数が少なくて不安になる人が多いようだ。
 サンプル数の決め方については、いくつか目安となる理論があると思う。ただ、データ不十分だと思うので集めてくださいとか言われても困ると思うので、すぐ実行に移せるアドバイスが必要だと思う。私の場合は、このサンプル数が適切ですというアドバイスに加えて、現状のサンプル数ではこういう分析してくださいというアドバイスをしている。

 特に後者の指針を与えている情報が、いまいち聞こえてこなかったので考えてみた。

続きを読む