データサイエンティストのひよこ

分析に関する日々の相談事項

ページランクと被リンク数

ページランクとは

 ページランクPageRank)とは、Google検索エンジンで利用されているWebサイトの評価指数のことである。評価方法やそのビジネス利用において、Google創業者であるセルゲイ・ブリン、ラリー・ページが大学院在学中に開発したものであって、Googleの基幹技術であることは間違いない。ページランクは、より重要なウェブページからリンクされているウェブページほど重要であるという、再帰的な定義のもとに、ウェブページの重要度が評価されている。
 ページランクによって、個々のWEBサイトの重要度が指標化され、検索結果の順位に関わってくる。一見すると、どのようなウェブページが重要と判断されているのかが見えにくいこの定義だが、Google検索エンジンにおけるSEOにおいて、その攻略は必要不可欠となってくる。ページランクを高める方法というものが知られていて、その一つが、被リンク数をとにかく増やすという技である。
 あれっ?おかしい。重要なウェブページからリンクされているウェブページほど重要であるという定義に対して、被リンク数増やすだけって本当?と言いたくなる。ここを、数理的に振り返りたい。もちろん、Googleの実運用の中ではページランクを原点のまま利用しているはずはない。ここでは、その数理学的な背景を紹介し、データ分析方法を作る・発想するということを行いたい。

続きを読む

統計モデリング・物理モデリング

モデルを作る

モデリングについても、よく質問される。私が物理出身なので、私が言うモデルと統計に詳しい人のモデルの意味合いが少し異なるときがあり、齟齬が発生するようだ。
自分でもたまに説明に失敗することがあるので、自分のためにまとめておきたい*1

まず、「我々の言うモデル」とは、ある物事を代表的なパーツだけで表した現実の簡易版(ほとんどの場合、数式の集合)のことである。このような「我々の言うモデル」と言っても、統計モデル、物理モデル、確率モデルなどの数理モデルが対象であり、そのアプローチや哲学(重い…)の違いを学ぶことはないだろう。特に、学生として、一つの分野でいくつかの数式をこねくり回すだけだった方には、なかなかモデルとは何かの違いまでたどり着かなかった人も多いと思う。

*1:基本的にここに書く内容は、自分のために書いている

続きを読む

ビッグデータ分析とは

ビッグデータ分析で私の関わったこと

私は、ビッグデータ分析を専門としていた情報科学科の助教だった。細かい専門分野の名前を出すと、複雑系およびネットワーク解析の研究をしていた。

f:id:TamSan:20180906021801p:plain
図:Phys. Rev. E 91, 042815

複雑系出身のデータサイエンティストは、珍しいタイプだと思っていた。が、いろいろと調べてみると、データサイエンティストのなかでも同分野の人が、そこそこいることが分かった。

  • Media Lab.のAlex "Sandy" Pentland教授
  • JALのデータサイエンティスト 渋谷直正
  • データの見えざる手 矢野和男
  • ホットリンクR&D 榊剛史

しっかりした人の中にも意外と仲間がいてうれしい。話せばいくらでも話を膨らませることができるが、ただ、今回はネットワーク分析ではなくて、ビッグデータ分析についてまとめてみたい。

 ※2019/11/27:加筆修正

続きを読む

データサイエンティストの業務

データサイエンティストの業務ってなんだろ

 おそらく、データサイエンティストのブログにでもいけば、必ずこのテーマで記事があるんじゃないかというぐらい、ありふれた話題だ。自分も含めて、データサイエンティストがよく自問自答している。データサイエンス業務とは・・・、データサイエンティストとは・・・とかいまさら感が強いテーマだと思うけど、私も自問自答する機会が多くなった。

 ひとつの大きな理由は、これってデータサイエンティストの普通にやる仕事なの?って仕事をすることが多分にあるからだ。私が、データサイエンティスト自体を再定義するつもりはないが、データ分析プロジェクトの普通というものが、あまり調べても出てこなかったので、私の経験からまとめたい。

続きを読む

データのサンプル数について考え方

サンプル数(標本数)への不安

 「サンプル数っていくつあればいいですか?」ってよく質問される。2週間前くらいにも、○○の分析したいんだけど、どれだけ標本数あればいいのって聞かれた。特に、レアイベントデータでは、全体数が多いのに、注目イベントのデータ件数が少なくて不安になる人が多いようだ。
 サンプル数の決め方については、いくつか目安となる理論があると思う。ただ、データ不十分だと思うので集めてくださいとか言われても困ると思うので、すぐ実行に移せるアドバイスが必要だと思う。私の場合は、このサンプル数が適切ですというアドバイスに加えて、現状のサンプル数ではこういう分析してくださいというアドバイスをしている。

 特に後者の指針を与えている情報が、いまいち聞こえてこなかったので考えてみた。

続きを読む