Since May 2020

【ビッグデータの活用例】検索エンジンのクエリからインフルエンザ流行ピークを予測

Photo by Stephen Phillips - Hostreviews.co.uk on Unsplash

ビッグデータの活用方法が再度注目を集めている。ビッグデータはいろいろな形で存在する。過去、ビッグデータがインフルエンザ流行のピークを予測するために利用できる研究が話題になったことがある。この記事ではその内容について説明したい。

Google検索クエリのデータを使用しインフルエンザ流行ピークを予測

https://unsplash.com/@markusspiske?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText

読者の中には仕事や勉強で調べ物をするとき、検索エンジンを使用する機会はよくあると思う。検索エンジンにはいろいろなものがあり、よく使用されるものの中にGoogleが運営するシステムがある。検索窓に単語やフレーズを入力すると関連する情報や記事がサジェストされるので、その中から欲しい情報にたどり着くことができるが、Googleにとっては検索エンジンに入力されたクエリはデータとして蓄積することができる。検索される同じまたは類似したクエリの頻度が多くなれば、リアルタイムで社会で起きている問題やその変化を知るきっかけにもなる。

2009年Google検索エンジンのクエリから得られたビッグデータがインフルエンザ対策に利用できることを示唆する論文が、国際的な総合科学ジャーナル Natureネーチャー)掲載された。論文の内容は、このビッグデータを使用して「インフルエンザと考えられる疾患」の流行のピークを、米国疾病予防管理センター(CDC)の既存のサーベイランス(監視)より1ー2週間早く予測できたと報告している。この研究はアメリカ疾病予防管理センターが行っている疾病サーベイランスと比較して、コストが抑えられるため期待は大きかった。

既存のCDCのサーベイランスのデータを使用しインフルエンザ流行ピークを予測

季節性インフルエンザの流行は主要な公衆衛生上の懸念事項である。世界中で、インフルエンザが原因で毎年25~50万人が死亡していると言われている。インフルエンザ・ウイルスは変異しやすいことが特徴で、これまでにない新たな変異株を生み出す可能性があるため、サーベイランスで継続的に監視することが重要だと考えられているため多くの国で実施されている。

米国は季節性インフルエンザのサーベイランスは、米国疾病予防管理センター(CDC)が一年を通して実施しており、定期的にデータを一般に公開している。サーベイランスから得られた情報は流行のピークを予測することができるので、データを利用して行政などが医療計画をすすめていくことができる。

ビッグデータ使用について限界を知らなければならない

Natureで「検索エンジンクエリからインフルエンザ流行のピークを予測する」についての論文が発表された直後、ビッグデータの更なる活用が期待された。しかし検索エンジンクエリから得られたビッグデータの質が問題になった。というのは、ビッグデータを使用して因果関係を語ることは難しい。ビッグデータを使って経時的な変化の推移を見ることはできる。因果関係に必要なエビデンスの高いデータは、RCTやコホート研究などの観察研究から得られたデータには今のところ勝てない。

しかし、ビッグデータは社会・経済の問題解決などに活用できるかもしれない。現在では、AIと組み合わせることで大きな可能性が出できた。

関連記事【エビデンスの質】エビデンスにはレベルがある

コメント