データサイエンティストのひよこ

分析に関する日々の相談事項

ネットワークとは

 ネットワーク解析に興味を持ったか、必要になって調べてきたかのどちらかだろうと思う。興味をもってくれたことはうれしいし、ネットワーク解析が必要になるような分析が実務の技術者の間にも広まってきたこともうれしい。
 ネットワーク解析は、関係性データ解析、グラフアルゴリズム圏論などと名前を変えて、さまざまな分野で研究されている。もちろん、分野によって対象とすることは異なるが、必要に応じて横断的に学ぶ必要も出てくるので、明確な線引きはないと思う。これから説明するネットワーク解析は、すこし情報科学や物理学的な側面をもとにまとめられている。主にネットワークやグラフ(ネットワークと同じもの)を対象とした分野は次のようなものがある。

関係性データ解析は、テンソル解析などの重厚な線形代数の計算や数値計算をこなさなければいけないものが多い。グラフアルゴリズムは、データ構造などをもとに経路探索や木の構成など、ネットワーク特有の構造の複雑性で生まれる厄介な方法を単純化したり、速くしたりする方法を扱う。グラフ理論圏論は幾何的構造をもとに分類したり、問題の可能性を議論する。理論の側面では整っているが、実務で使うのはなかなか難しい。
 ネットワーク解析は、教師なし学習として使われることがほとんどで、その他の機械学習の手法のように分析の主役となることが少ない。つまり、使いこなせたうえで、データを理解していないと結果が解釈できないのである。ただ、予測モデルに組み込む変数を作成したり、データの順位付けを行うことはできるので、使い方には慣れが必要かもしれない。使いどころがうまく判断できないと、何のためにあるかわからないといった感想をもってしまうだけの領域だが、ここを専門とする分析屋さんは、グラフアルゴリズムや行列計算などの重厚な分野を使いこなせる指標ともなるので、ぜひとも挑戦してほしいと思う。
 さてそんな、ネットワーク解析について、余力のあるときに書き進めていきたいと思う。

続きを読む

ページランクと被リンク数

ページランクとは

 ページランクPageRank)とは、Google検索エンジンで利用されているWebサイトの評価指数のことである。評価方法やそのビジネス利用において、Google創業者であるセルゲイ・ブリン、ラリー・ページが大学院在学中に開発したものであって、Googleの基幹技術であることは間違いない。ページランクは、より重要なウェブページからリンクされているウェブページほど重要であるという、再帰的な定義のもとに、ウェブページの重要度が評価されている。
 ページランクによって、個々のWEBサイトの重要度が指標化され、検索結果の順位に関わってくる。一見すると、どのようなウェブページが重要と判断されているのかが見えにくいこの定義だが、Google検索エンジンにおけるSEOにおいて、その攻略は必要不可欠となってくる。ページランクを高める方法というものが知られていて、その一つが、被リンク数をとにかく増やすという技である。
 あれっ?おかしい。重要なウェブページからリンクされているウェブページほど重要であるという定義に対して、被リンク数増やすだけって本当?と言いたくなる。ここを、数理的に振り返りたい。もちろん、Googleの実運用の中ではページランクを原点のまま利用しているはずはない。ここでは、その数理学的な背景を紹介し、データ分析方法を作る・発想するということを行いたい。

続きを読む

統計モデリング・物理モデリング

モデルを作る

モデリングについても、よく質問される。私が物理出身なので、私が言うモデルと統計に詳しい人のモデルの意味合いが少し異なるときがあり、齟齬が発生するようだ。
自分でもたまに説明に失敗することがあるので、自分のためにまとめておきたい*1

まず、「我々の言うモデル」とは、ある物事を代表的なパーツだけで表した現実の簡易版(ほとんどの場合、数式の集合)のことである。このような「我々の言うモデル」と言っても、統計モデル、物理モデル、確率モデルなどの数理モデルが対象であり、そのアプローチや哲学(重い…)の違いを学ぶことはないだろう。特に、学生として、一つの分野でいくつかの数式をこねくり回すだけだった方には、なかなかモデルとは何かの違いまでたどり着かなかった人も多いと思う。

*1:基本的にここに書く内容は、自分のために書いている

続きを読む

ビッグデータ分析とは

ビッグデータ分析で私の関わったこと

私は、ビッグデータ分析を専門としていた情報科学科の助教だった。細かい専門分野の名前を出すと、複雑系およびネットワーク解析の研究をしていた。

f:id:TamSan:20180906021801p:plain
図:Phys. Rev. E 91, 042815

複雑系出身のデータサイエンティストは、珍しいタイプだと思っていた。が、いろいろと調べてみると、データサイエンティストのなかでも同分野の人が、そこそこいることが分かった。

  • Media Lab.のAlex "Sandy" Pentland教授
  • JALのデータサイエンティスト 渋谷直正
  • データの見えざる手 矢野和男
  • ホットリンクR&D 榊剛史

しっかりした人の中にも意外と仲間がいてうれしい。話せばいくらでも話を膨らませることができるが、ただ、今回はネットワーク分析ではなくて、ビッグデータ分析についてまとめてみたい。

続きを読む

データサイエンティストの業務

データサイエンティストの業務ってなんだろ

 おそらく、データサイエンティストのブログにでもいけば、必ずこのテーマで記事があるんじゃないかというぐらい、ありふれた話題だ。自分も含めて、データサイエンティストがよく自問自答している。データサイエンス業務とは・・・、データサイエンティストとは・・・とかいまさら感が強いテーマだと思うけど、私も自問自答する機会が多くなった。

 ひとつの大きな理由は、これってデータサイエンティストの普通にやる仕事なの?って仕事をすることが多分にあるからだ。私が、データサイエンティスト自体を再定義するつもりはないが、データ分析プロジェクトの普通というものが、あまり調べても出てこなかったので、私の経験からまとめたい。

続きを読む

データのサンプル数について考え方

サンプル数(標本数)への不安

 「サンプル数っていくつあればいいですか?」ってほんとよく質問される。2週間前くらいにも、○○の分析したいんだけど、どれだけ標本数あればいいのって聞かれた。特に、レアイベントデータでは、全体数が多いのに、注目イベントのデータ件数が少なくて不安になる人が多いようだ。
 サンプル数の決め方については、いくつか目安となる理論があると思う。ただ、データ不十分だと思うので集めてくださいとか言われても困ると思うので、すぐ実行に移せるアドバイスが必要だと思う。私の場合は、このサンプル数が適切ですというアドバイスに加えて、現状のサンプル数ではこういう分析してくださいというアドバイスをしている。

 特に後者の指針を与えている情報が、いまいち聞こえてこなかったので考えてみた。

続きを読む