データ分析の素晴らしさを伝えたい

VoY全国駅伝
1+

(Pythonでの実際のデータ分析の様子)

近頃、データ分析、あるいはデータサイエンスという言葉が頻繁に話題に上がります。Harvard Business Reviewからも“Data Scientist: The Sexiest Job of the 21st Century”という記事が出されるなど、データサイエンティストという職業が今世界中で注目を集めています。いまや、あらゆる分野でデータ分析が決定的に重要な役割を果たしていますが、いわゆる「AI(人工知能)」の核心技術である機械学習も、データ分析のために様々なアルゴリズムを駆使したものです。では、そもそもデータ分析とはどんなものでしょう。この記事では、その一端をご紹介できればと思います。

まず、データ分析の目的は大まかに「現象の説明・分析」と「将来の予測」に分けられますが、結局は「何かを明らかにしたい」というモチベーションがあります。ただし、何かを明らかにしたいとき、取ることのできる手段はほかにもあるでしょう。なんらかの「公式」を作ろうと模索することもあるでしょうし、コンピューターの中で数理的なシミュレーションを行うこともあるかもしれません。ただ結局はその結果を実験等での観測データからデータ分析という形で検証、修正していくことになります。つまり、選択肢は数多かれどデータ分析は必要不可欠なのです。

さて、私が思うに、データ分析とは「世界に世界自身を語らせる」ことです。これは「<わたし>が世界を語る」という行為とは本源的に異なるところです。19世紀プロイセンの鉄血宰相ことビスマルクは「愚者は経験に学び賢者は歴史に学ぶ」と言ったそうですが、ここでいう「歴史に学ぶ」ということを自分の頭だけで完結するより客観的に行うことができるのがまさしくデータ分析であると言えるでしょう。

ただし、いくつか留意すべき点はあります。まず、あるデータによって世界のすべてを語らせることはできないということです。観測・収集可能なデータの性質、形式、対象は限られています。すなわち、世界のどのような領域の、どのような性格を明らかにしたいのか、という点をあらかじめ詳細に切り分けて考えなければなりません。また、世界の言葉を純粋に受け取ることの難しさがあります。これには現実的な困難や、統計的な理論を適切に実践することの欠如など様々な要因がありますが、時としてそれが恣意的に引き起こされてしまうことがしばしば言及されます。それはすなわち、世界にむりやり「自分が語らせたいことを語らせる」ことに相当するでしょう。いたずらにデータ分析の結果を鵜呑みするような姿勢は、こうした事実と異なることをあたかも世界自身の声であるかのように誤解してしまうこと、つまり騙されてしまうことにもつながるために注意が必要です。

データは人が使うものですからこのような注意点を完全に消し去ることはできませんが、データ分析の強力な力を使わない手はありません。これを読んだ皆さんも興味が湧いたらぜひ今世紀最大にセクシーな作業を実践してみてはいかがでしょうか。


1+

東北大学在学。3度の飯より飯が好き。えくぼは恋の落とし穴。空前絶後の天邪鬼。