データサイエンティストのひよこ

分析に関する日々の相談事項

データサイエンスに関連する資格

データサイエンティスト協会のデータサイエンスの資格に注目したい。↓データサイエンティスト検定™ リテラシーレベル www.datascientist.or.jpデータサイエンティスト協会から出た話題としては個人的に興味を持ったのと、私が資格が好きでちょうどよいので、…

投資のリターンと効果測定2:内部収益率法

投資のパフォーマンス測定に因果推論的な視点を見出し、ちょっと仕事にしている。見出しただけで、本当に関連付けられるかについてはよくわからない。あくまで因果推論でよくやる方法のように、ある投資(介入)の効果を測定するために、マクロトレンドをさ…

投資のリターンと効果測定1:投資のリターン

私はデータサイエンティストというより数理専門職として社内では認識されてしまったので、仕事ではクオンツのような金融の分析を行うこともある。おそらく、JTCの大きな企業に勤めていると、必ずしもデータサイエンスではない仕事でも、社内の部署の垣根を越…

形式手法言語Alloyを使ってSAT問題を解く

ナレッジグラフ推論チャレンジで、形式手法言語であるAlloyが評価されたので簡単に紹介をしたいと思う。 http://alloytools.org/ ナレッジグラフ推論チャレンジとは、解釈可能AIの基礎技術を探索する目的で2018年に開催されたコンテストだ。ちなみに、第2回…

データサイエンスの組織作り1(自社データ編)

2013年くらいはデータ分析ベンダーが、データサイエンティストを大量に囲い込んでいた。しかし、最近では事業会社に転職していくデータサイエンティストも非常に多くなっている。他社のデータを扱うことは、データの前処理以前のデータベースの理解から始ま…

データサイエンティストのモノ作り

半年ぶりくらいにデータサイエンティストの仕事について書きたいと思う。大学で数年データサイエンスに関わってきて、ここ1年ほど、企業に籍を移した。私がtwitterで日々つぶやいていることをまとめたようなものだから、あまり新しさは感じられないかもしれ…

ネットワークとは

ネットワーク解析に興味を持ったか、必要になって調べてきたかのどちらかだろうと思う。興味をもってくれたことはうれしいし、ネットワーク解析が必要になるような分析が実務の技術者の間にも広まってきたこともうれしい。 ネットワーク解析は、関係性データ…

ページランクと被リンク数

ページランクとは ページランク(PageRank)とは、Google検索エンジンで利用されているWebサイトの評価指数のことである。評価方法やそのビジネス利用において、Google創業者であるセルゲイ・ブリン、ラリー・ページが大学院在学中に開発したものであって、G…

統計モデリング・物理モデリング

モデルを作る モデリングについても、よく質問される。私が物理出身なので、私が言うモデルと統計に詳しい人のモデルの意味合いが少し異なるときがあり、齟齬が発生するようだ。 自分でもたまに説明に失敗することがあるので、自分のためにまとめておきたい*…

ビッグデータ分析とは

ビッグデータ分析で私の関わったこと 私は、ビッグデータ分析を専門としていた情報科学科の助教だった。細かい専門分野の名前を出すと、複雑系およびネットワーク解析の研究をしていた。 図:Phys. Rev. E 91, 042815複雑系出身のデータサイエンティストは、…

データサイエンティストの業務

データサイエンティストの業務ってなんだろ おそらく、データサイエンティストのブログにでもいけば、必ずこのテーマで記事があるんじゃないかというぐらい、ありふれた話題だ。自分も含めて、データサイエンティストがよく自問自答している。データサイエン…

データのサンプル数について考え方

「サンプル数っていくつあればいいですか?」ってほんとよく質問される。私の場合は、このサンプル数が適切ですというアドバイスに加えて、現状のサンプル数ではこういう分析してくださいというアドバイスをしている。特に後者の指針を与えている情報が、い…