• 医療・健康系

医療・健康分野のデータサイエンスに関する期待と課題

目次

医療・健康という分野は、データサイエンスの活用領域としては、とても重要性の高い領域だといえるでしょう。

 洋の東西を問わず、誰もが“健康をできるだけ長く維持し、少しでも長く生き続けたい”と願っています。

1950年時点の日本人の平均寿命は男性58歳、女性で61.5歳でした。それが2000年には男性77.7歳、女性84.6歳となり、2019年の平均寿命は男性81.4歳、女性87.4歳となりました(2020年7月31日、厚生労働省発表)。

 人類がもつ健康・長寿への飽くなき欲求が医療や健康(ヘルスケア)を向上・発展させました。より有効な薬や効果的な治療法の開発によって、かつて不治の病とされていた病気を克服したり、病気の兆候を早期に発見する検査方法などの開発によって、病気の発症を未然に防いだりと、着実に成果を上げてきた結果といえます。

 そして、そうした医療や健康(ヘルスケア)の向上・発展に、データサイエンスが大きく寄与していることは論を待ちません。いやむしろ、データサイエンスがあればこその、医療・健康分野の向上・発展といっても過言ではないでしょう。

 昨今、何かと話題にのぼる新型コロナウイルスのパンデミックも、いくつかのワクチンが実用化され、普及していくにつれ、収束への期待が高まっています。こうしたワクチン開発においても、データサイエンスが活躍しています。

 実をいえば、医療・健康分野におけるデータサイエンスの活用という点では、日本は少々遅れ気味であり、イスラエルやスウェーデンなどの「ヘルスケア先進国」といわれる国々に比較すると、“まだまだ”の感は否めません。

 例えば、健康保険組合などが有する膨大なレセプトデータや、医療機関等が保有するカルテなどは、データサイエンスで適切に分析することができれば、創薬・診断・治療・予防医療などをさらに向上・発展させることが可能です。

 そのため、当然のことながら、当該分野のビジネスチャンスが広がるという意味においても大きな期待が寄せられています。

 しかしその一方で、統一的なデータ基盤が未整備であったり、そもそも、カルテなどについては、やっと電子化が進み始めたという状況であったりと、乗り越えるべき課題も山積しています。

 AI Labでは、幾多のデータサイエンティストたちが、これまでにも医療・健康分野のデータサイエンス・プロジェクトに関わっており、今後はますます関わりを強めていきたいと考えています。

 AI Labブログでは、そうした経験に基づくデータサイエンティストとしての知見の一部を紹介していますが、本稿において、まずは医療・健康分野のデータサイエンスに関する期待と課題のあり様について、俯瞰してみることにします。個別具体的なブログ記事に入る前のプロローグとして、あるいは個々のブログをお読みいただいた後のエピローグとして、ご一読いただければ幸甚です。

少統計の場合の統計学の適用というデータサイエンス活用の方向性

 ひとくちに、医療・健康分野のデータサイエンスといっても、その利活用の範囲は広く、「ヒトゲノムプロジェクト」のような一般の人々の日常生活とはおよそ無縁のものから、誰でもほぼ毎日のように見聞きするであろう「コロナ感染者統計」や、近年話題にのぼることが多くなったAIによる画像診断にも活用されるなど多様です。

 そもそも医療・健康分野でデータサイエンスが活用する方向性は、大きく2つあります。

ひとつは、「少統計の場合の統計学の適用」という方向性です。統計によって医療効果などを評価しようという際、例えば創薬の過程におけるヒトを対象とした治験の実施などでは、有効性・安全性が確認できるまで制限なく治験を続けるわけにもいきません。そこで、必要最低限の治験サンプルを解析して、その有効性・安全性を確認することが必要となります。そこで「少統計の場合の統計学の適用」というデータサイエンスの活用が求められるわけです。

 この方向性でのデータサイエンスの活用は多様で、レセプトデータの分析や電子カルテの分析などを挙げることができます。また、今日ではもっとも身近なデータサイエンスの活用例ともいえるのが、日々発表されるコロナに関する各種の統計データです。

「大容量データをコンピューターパワーで処理する」というデータサイエンス活用の方向性

 もうひとつの医療・健康分野でのデータサイエンスの活用の方向性は、「大容量データをコンピューターパワーで処理する」という方向性です。「少統計の場合の統計学の適用」というものは、そもそも医療サイドに解明したい“何か”があり、その解明はデータサイエンスの技術を活用することで可能になる、という前提があって取り組まれるものです。ニーズ志向の活用の方向性といえるかしもしれません。 これに対して、「大容量データをコンピューターパワーで処理する」というのは、技術志向の活用の方向性といえます。つまり、“コンピューターの処理能力がこれだけ高まったのだから、こういう活用ができるのではないか”という発想で、医療・健康にデータサイエンスを生かそうという方向性です。例えば、レントゲン画像やCT、MRI画像などを、AIを活用して解析し、悪性腫瘍などの発見に役立てようというのは、こちらの方向性といえます。

データサイエンスが、医療・健康分野に変革をもたらす

 ニーズ・オリエンテッドであろうと、テクノロジー・オリエンテッドであろうと、データサイエンスを活用することによって、医療・健康分野が向上・発展していくことは疑いがありません。

 時にそれは、現状からの向上・発展というよりも、ビッグバンとでもいうべき大変革というべきものになるかもしれません。

 今日、注目度を高めているバイオインフォマティクスにおいても、データサイエンスは密接に関連しており、例えば、新型コロナウイルスの変異に関する系統樹解析なども、バイオインフォマティクスにおけるデータサイエンスの活用事例といえます。

 また、データサイエンスを活用することで、ゲノム医療は着実に進化しており、昨今では、がんに関する治療法の発見や、がん発症以前に、その可能性を診断し、早期対応を促すといったことも具体的なってきています。

 ニューラルネットワークなど、いわゆるAIがますます進化して、画像認識・文字認識の精度が高まれば、画像診断によって体内の病巣を早期に発見できる可能性は高まるでしょうし、膨大に蓄積された手書きのカルテをスピーディにデジタルデータに置き換え、データベース基盤として活用できるようにもなるでしょう。  さらに今後注目に値するのが、ウェアラブルデバイスの多様化によって、さまざまなヘルスデータの集積が可能になれば、人の健康維持増進や、予防医療の在り方も大きく変革していくことでしょう。

コロナ禍で注目:データサイエンスが医療・健康分野に起こす変革とは

医療・健康分野の発展のための、日本版NDB構築への期待と実現のための課題

 日本でも政府主導でレセプトデータの利活用が進められています。1年あたり17億件ほどのレセプトデータが蓄積され続けているといわれ、過去の蓄積分と合わせれば、まさに医療ビッグデータと呼ぶにふさわしい量と質を備えたデータとなり得ます。

 またレセプトデータに加えて、特定健康診断の受診結果データも、利活用に値する重要なデータと目されており、さらに医師の診療録カード(いわゆる、カルテ)も含めて、医療・健康分野のデータ基盤として整備され、利活用が進むことが待望されています。

 こうしたさまざまな医療・健康関連データが、ひとつのデータ基盤として整備され、医療機関で自在に活用できるようにすることはもちろん、必要に応じて民間のデータサイエンス企業などが有効に活用できる仕組みづくりが求められます。いわゆる日本版NDBの構築です。

 しかし、実際にこれらのデータを統一的なデータ基盤としてNDB化し、データサイエンスでの利活用を促進するにあたっては、乗り越えるべきハードル、すなわち課題もあります。

 そのひとつが、個人情報保護法によるデータ利用制限であり、もうひとつが、データそのもののガラパゴス化という問題です。

 医療ビッグデータとして集められるデータは、極めて重大な個人情報であり、取扱いに慎重さを求められることは当然で、具体的には個人情報保護法を順守する必要があります。時に、これが足枷となって、思うようにデータの利活用ができないということがあるため、個人情報保護法の運用ルールを改訂するなどして、利活用しやすくしようという動きもあります。例えば、本人を特定できないように「匿名加工情報」化した上でなければ利用できないようにしたり、データの取得にあたっては、利用目的を極力特定することが求められたりといったことです。

 さらに、データ解析実務の視点からみて最も厄介なのが「第三者提供ができない」という点です。例えば、健康保険組合Aがもつ患者データを、解析や集計のために、民間企業X社に渡すことは違法行為となってしまうのです。医療機関なども同様です。

 そのため、健康保険組合や医療機関自体に、データ解析技術者がいなければ、せっかくの医療ビッグデータの利活用が進まないということになってしまうのです。

 こうした課題を改善するために、国もいろいろと試みています。

 ひとつが、「データ取得時のインフォームド・コンセントを、確実かつ簡便に遂行できる仕組み」を整えることで、個人情報保護法によるデータ利用制限を緩和しようという動きです。

 さらに「認定匿名加工医療情報作成事業者」の設置です。“第三者にはデータ提供ができない”というルールに対して、特別な認定を受けた事業者は例外にしましょう、という動きがあります。これにより、データサイエンスなどの民間企業がデータ解析を進めることが可能になります。

こうした改善によって、医療ビッグデータの利活用を促進することが可能となることでしょう。

 日本のレセプトデータは、民間が中心となって運営されている健康保険組合が保有しています。しかも国内の健康保険組合自体もひとつではなく複数団体あって、かつ保険制度も組合によって異なります。そのため、バラバラの保有形態のデータが、組合ごとにバラバラに保有されている、というのが実態です。これが、レセプトデータをガラパゴス化させてしまっている背景です。

 多くの関係者等が改善の必要性を認識してはいますが、データの形式統一には膨大な時間と多大なコストを要することが見込まれており、一朝一夕では進まないのが実態です。

 この問題に対して、日本政府はマイナンバーを活用して個人の医療関連データを結びつけることを検討しているようです。これまでは、転職などによって、属する健康保険組合が変わると、それまでの医療機関の受診履歴などは引き継がれませんでしたが、マイナンバーを軸にすると、そうした弊害は解消されるようになり、医療ビッグデータの利活用においては、大きな前進になるものと期待されます。

 ここで取り上げた2つの課題「個人情報保護法によるデータの取扱いハードル」や「データのガラパゴス化」が解消されることによって、医療ビッグデータの一元管理が可能になれば、データイエンスによるその利活用は飛躍的に進むことでしょう。

 そして、レセプトデータやカルテ情報などの医療ビッグデータをきちんと利活用できるようになれば、「新薬開発」「重複投薬回避」「未知の副作用の発見」「治療選択肢間の評価・比較」「CT画像等と実際の診断結果などを学習データとした診断支援ソフトの開発」などが可能になります。  さらに、今後ゲノム医療が発展していけば、一人ひとりにあわせた医療行為のカスタマイズ化、いわゆるパーソナル・ヘルスケアも現実のものとなることでしょう。

日本における医療ビッグデータの利活用:その期待と課題

医療ビッグデータのNDB化のための今後の課題

 前述のような未来の医療を具体的にするために、今後発生するであろう課題についても触れおくことにしましょう。

■入力データの精緻化:例えば電子カルテと表記ブレについて

 医療ビッグデータとして電子カルテが活用されるようになると、そこに入力される情報の精緻が不可欠となるでしょう。現状は、医師個人の書き方に委ねられていますが、今後は医薬規制用語集(MedDRA、 Medical Dictionary for Regulatory Activities)に従って記述される必要があります。また、既存のカルテについては、メディカルコーディング(医師の書いたカルテをMedDRAに沿ったものに書き直すこと)も必要になるでしょう。

■データ基盤となるプラットフォームについて

 さて、医療ビッグデータを一元的に管理・運用するためには、データ基盤となるプラットフォームをどうするのか、ということも大きな課題となります。保有するデータの性質に鑑みれば、国内に構築ことが望ましいといえますが、そのための投資額は膨大なものになると推測され、おいそれと手を出せるものではないかもしれません。

■人的リソースについて  整ったデータ基盤を十分に利活用して、さまざまな知見を見出すためには、医療・健康分野に関する業務知識(ドメインナレッジ)を有するデータサイエンティストが不可欠です。この分野に限らず、今後、データサイエンティストが大幅に不足するという統計データもある中で、医療知識を有するデータサイエンスティスという人的リソースの確保は、もっとも大きな将来的課題といえるかもしれません。

ヘルスケア先進国の取組みに学ぶ

■ヘルスケア先進国では、NDBの構築が進む

 日本における医療ビッグデータの基盤整備状況については、前述のとおりで、まだ日本版NDBと呼べるものは構築されていません。

しかし、海外のヘルスケア先進国と称される国の中には、国家レベルできちんとしたNDBが構築され、活用されている国がいくつもあります。

例えばイスラエルなどはその好例です。イスラエルも、日本同様に国民皆保険が基本で、イスラエル国内には健康維持機構といわれる団体が4つあります。それら4つの機構の加入者数の合計は、総人口のほぼ100%で、それらが統一的なデータ基盤に情報を集約しているのです。イスラエルのNDBということになります。イスラエル国内のすべての病院は、必要に応じてこのNDBにアクセスし、患者の医療データを活用できるようになっています。

また、このNDBに蓄積され続けるデータは、病院が患者の治療に活用するだけでなく、データサイエンスを駆使したデータ解析にも活用され、病気の早期発見や予防医療などのヘルスケア全般に活用されているのです。

日本が将来像として目指す姿が、イスラエルではすでに実現されているということです。

■ヘルスケア先進国では、先端的医療サービスにも積極的

 アメリカでは、グーグル社の関連会社が、手術支援ロボットの開発プロジェクトを進めています。こうした手術支援ロボットが実用化されると、大阪の病院にいる患者を、東京の医師が遠隔で手術するようなことが可能になります。

 また、装着するだけで血糖値を測定し、必要な薬剤の投与ができる機能をも備えた「スマートコンタクトレンズ」の開発が進み、順調にいけば2023年中にも製品化される可能性があることが「Science Advances」オンライン版(2020年4月)に掲載されました。

 さらにイスラエルでは、アーリーセンス社というスタートアップ企業が医療用IoTセンサーの事業を柱として急成長しています。該社の主要製品は、ベッドの下に配置するだけで、患者の呼吸・心拍数・体の動き(寝返り動作など)をモニタリングできる非接触型のセンサーです。通常こうした測定機器は、体に装着することが前提であるため、患者のストレスになってしまうことが指摘されてきたのです。  こうした非接触型のモニタリング機器が進化して、今後、健康管理上必要なデータが簡便に収集できるようになれば、ある数値が閾値を超えた時にアラートを発することで、病状などが暑かする前に医療的対処が可能になることでしょう。

ヘルスケア先進国と日本との間には、3つの「差」が存在する

 前述のように、ヘルスケア先進国では、最先端医療サービスの開発や、ヘルスケア製品の開発などが活発に行われています。そして、こうしたことを可能にしているのが、国家レベルで整備された医療ビッグデータのデータ基盤であり、その効果的な利活用の仕組みです。

 日本の実情と、ヘルスケア先進国といわれるいくつかの国々の状況を比較すると、大きく3つの「差」があるようです。

 1つは「インフラの差」です。すでにイスラエルの例を取り上げたように、ヘルスケア先進国の多くでは、統一的で国民のほとんどが対象となっており、医療機関や研究機関などが利用可能なデータベース基盤と、それを利用するための仕組みが整っています。しかし日本では、NDBの整備に向けた取組みにやっと動き出したというレベルであり、まずはデータの整備が急務であるというのが実情です。

 2つめが「医療サービスの差」です。海外のヘルスケア先進国では、データ基盤の整備が進み、それを活用できる仕組みが整っていることで、高度なレベルでのデータ解析が可能となり、そうしたデータの活用が一定の条件はあるにしろ、民間企業などの活用に供される仕組みがあることで、先端的医療サービスや、画期的な製品の開発につながっているということがいえます。結局のところ、日本ではまだ活用可能な医療ビッグデータのデータ基盤がないために、医療サービスにおいても、ヘルスケア先進国に大きく水をあけられているのだといえるでしょう。

 そして3つめの「差」は、「投資しているお金の差」です。例えば、日本版NDBを整備しようということになれば、それはまさに国家事業ともいうべき規模のプロジェクトになるに違いありません。それだけで数千億円規模の投資が必要なることでしょう。しかし、NDBを整備するだけでヘルスケア先進国に仲間入りできるわけではなく、その後に、構築されたNDBをデータサイエンスで利活用するシーンをも想定した幅広い公的投資も必要となるでしょう。

 しかし、その覚悟を持たなければ、日本がヘルスケア先進国になることは難しいかもしれません。

新型コロナウイルスのパンデミックをデータサイエンスする

 2020年の年初来、新型コロナウイルスによるパンデミックで、世界は震撼しました。

日本では、神奈川県に住む30代の男性が、2020年1月15日に国内で初めて新型コロナウイルスに感染していたことが確認され、以後、感染者が徐々に増え、4月には1度目の緊急事態宣言が発出され、人々は自粛生活を余儀なくされました。

以後、2021年6月までに、都合3回の緊急事態宣言が発出される事態となり、初感染者確認から1年半を過ぎた今も、収束まではほど遠いといわざるを得ない状況です。

最初のうちこそ、新型コロナウウイルスがどのようなウイルスなのかが明確にはわかっていなかったこともあり、感染予防対策も、感染者に対して提供される医療も、後手後手の感を否めませんでしたが、現在ではワクチンも複数のものが出回り、暗中模索という状況は脱しているようにも思われます。

さて昨年1月以降、コロナ禍が深刻化するに伴って、都道府県ごとの感染者数をはじめとするさまざまな統計データなどが国民の関心事となり、日々の感染者数の増減に一喜一憂する様子などもニュース報道されるようになりました。

日々発表される感染者数の推移、そもそも検査数がわからなければ感染者の絶対数だけ見ても何も判断できない、という声に応えるように、検査数や、陽性率なども公表されるようになりました。さらには、曜日によって検査数に大きな差があるから、日々の増減だけ見ても意味がないという声が起こり、それに応えるように移動平均で処理された数値なども公表されるなど、一般の人たちにもわかりやすい形で、統計データなどが伝えられるようになりました。

 幸か不幸か、コロナ禍が長引いたことによって、統計データが日々注目されるようになり、データサイエンスによるさまざまな解析などもなされるようになりました。

 AI Lab内でも、データ解析で新型コロナウイルス対策を評価するための因果推論について取り上げたり、感染リスク推定のためのAI・機械学習について基礎知識をまとめたりと、コロナ禍という世情を鑑みた考察をしています。

 たとえば、「因果推論で感染対策を評価する」ブログでは、因果推論を取り上げています。

データ解析でコロナウィルス対策の評価ができる?因果推論とは何か

 

因果推論の手法を用いて、緊急事態宣言が発出されたことによって、東京都における新型コロナウイルスの感染者がどのような影響を受けたか(どのくらい増えたか、どのくらい減ったか)を調べようという試みを展開しています。

 通常、ある施策を実施した場合の影響を評価したいなら、実施しなかった場合と比較すればよいのですが、コロナ禍のような現実社会での出来事に関して、特定の施策のありなしだけで比較するなど無理です。

 そうした場合に用いられる統計的手法が「因果推論」です。

 この因果推論には、「ランダム化比較試験」「傾向スコアマッチングを利用する方法」「差分の差分法」「回帰不連続デザイン」「回帰ねじれデザイン」など、実にさまざまな手法があるのですが、どのような状況下で、どのような解析が求められるのかによって、それぞれの手法には一長一短があります。

ここでは「2021年1月7日に首都圏で発令された緊急事態宣言の効果を東京都の新規感染者数の推移を利用して検証」するべく、回帰ねじれデザインの考え方を利用して効果検証を行っています。

さらに、「ベイズ統計」や「k-平均法」「感染症数理モデル」などを用いて、今般の新型コロナウイルスの感染リスク推定についても考察しています。

 ベイズ統計学は、昨今の機械学習の考え方に通じるものがあることから、機械学習がベイズ統計学によって、ますます発展したともいわれます。

 実際に、迷惑メールやスパムメールの判別においては、ベインジアンフィルターと呼ばれるメールフィルターが採用されているほどです。  このような高度な手法を駆使して、かつジョンズホプキンス大学などが公開する実際のデータを用いて、新型コロナウイルスの感染リスク等を分析し、レポートしています。

COVID-19感染リスク推定のためのAI・機械学習の基礎知識

医療・健康分野のデータサイエンスを加速させる上でクリアすべき課題とは

 今日、日本においても、医療・健康分野のビッグデータを活用して、医療や創薬を大きく発展・飛躍させようという動きが活発化しています。

 しかし、現在の日本では、データサイエンスによって医療や創薬を大きく発展させる上で、クリアしなければならない課題も多々あります。

 本稿の最後に、これから医療・健康分野のデータサイエンスに果敢に挑んでいく上での課題と、その課題解決の方向性について触れたいと思います。

 こちらについても、本稿は要約であり、詳細については、ブログ本編「医療・健康分野データサイエンスに挑むための5つの課題」をご一読のほど、お願いいたします。

医療・健康分野データサイエンスに挑むための5つの課題

■未整備かつ扱いが厳重なデータと、法による規制という課題

 すでに触れた通り、医療ビッグデータとして期待が高まるレセプトデータなどは、まだまだ整備途上にあり、データ利活用基盤といえるほどのものは構築されていません。

 また、医療ビッグデータを構成するデータとして期待される電子カルテのデータや、特定健康診断に関するデータなどもありますが、こうしたデータはそもそもデータサイエンスで解析することを前提にしたデータではないために、直接的に解析に供することのできないデータもあります。

 このように、データそのものがきちんと整備されていない状態にあること自体、大きな問題であるといえます。

 また、医療・健康に関する情報の多くは、個人情報の中でも、特に重要な情報であり、その取扱いついて厳密さが求められることは当然といえます。

 日本では、個人情報保護法によって、その取扱いが厳重に規制されており、データ解析等に活用するにあたっては、多くのハードルがあり、それらをきちんとクリアすることが求められます。

 前者の課題については、国や地方自治体などがさまざまな取組みを進めています。例えば「地域医療連携ネットワークの高度化(クラウド化)」などです。

 また後者に関しては、データの加工などにより、個人を特定できない形で分析に供するといった仕組みをルール化するなど、個人情報保護法の改正等によって、利活用が可能になりつつあります。個人情報保護法はじめ関連の法規制はたびたび改正されますので、常に最新の情報を把握し、万が一にも法律違反にならないように注意することが必要です。

■データサイエンティストの不足という課題

 経済産業省の報告書「IT人材需給に関する調査」によれば、今後は着実にデータサイエンティストが不足します。同報告書では、予想される人材需要の伸びを3段階に分けて予測していますが、中の予測で見ても、2030年には45万人の不足とされています。

 今後は、データサイエンスやAIを使いこなすことのできる、いわゆる先端IT人材の育成が不可欠の時代になってくるということです。

 当然、医療・健康分野のデータサイエンティストも不足します。ですから、データサイエンスを業とする企業であれば、人材の確保は喫緊の課題ですし、同時に「育成」ということにも力を入れる必要があります。

 基本的には医療に精通した先端IT人材採用できればいいのですが、それが難しければ、どちらかの専門性(医療かIT)をもつ人材を採用して、社内で育成を図る(もちろん、外部の教育機関活用もあり)ことも必要になるでしょう。この時、あらかじめ外部から専門家を招へいしておき、新規採用した人材には、当該専門家について実践的に学んでもらうという仕組みも必要になることでしょう。

■データサイエンスに取り組む企業の経営層のコミットメントという課題

 昨今、企業などがDX(デジタル・トランスフォーメーション)や、データサイエンスを自社内に導入しようという動きが活発化しています。

 経営層としては、DXやデータサイエンスなど時代の潮流に即した仕組みは、積極的に導入したいと考えます。若手層もこうした新しい動きには積極的なことが多いので、導入には前向きであることが多いようです。

しかし、いわゆるミドルマネジメント層は、諸手を上げて賛成、とはいかないようです。それは、多くのミドルマネジメント層が、現在進行形のビジネスに強い責任感で臨んでいるためです。DXやデータサイエンスなどへの取組みは、比較的中長期的な活動であり、短期的な成果を重視するミドルマネジメント層にとっては、あまり優先順位が高くならないのです。

それでも、経営層がDXやデータサイエンスを社内に導入しようとするのなら、やみくもに「やれ」と号令するのではなく、ビジョンを明らかにし、全社的な戦略の中での重要性を明示し、全社員の理解を得ることが肝要です。

必要ならば、組織の整備や予算配分をはじめ、計画の詳細を提示していくことも重要となります。

■データからの価値創出という課題

医療・健康分野でのデータサイエンスやAI、ビッグデータなどの活用にあたっては、それらを活用した結果のアウトプットとして、どれだけ高い価値を創出できるかが重要です。

 データサイエンスなどの新しい技術領域では、これまでにない斬新なビジネスモデルや、新サービスなどの創出が期待されるものですが、実際にうまくいくことはむしろ稀です。

 そして、失敗あるいは期待外れの結果で終わってしまうケースの多くは、さもさもの目的が不明確で、非効率な計画が実施されたことに起因しています。

 こうした失敗を回避するためには、戦略的アプローチが有効です。

よくやりがちなのは、最初にどんなデータなのかを確認した上で「(そのデータを)どのように使えるか」を考えるという、データからのアプローチです。

しかしデータサイエンスの取組みにおいては、「大きな価値創出ができそうなのは何か」を最初に明らかにすることです。つまり、価値創出という目的ありきで、必要なデータ資産を突き止め、データの価値を理解し、そのデータの使い方を戦略的に考えることが重要であり、それが戦略的アプローチなのです。

しかし、戦略的アプローチの実践は決して簡単なことではなく、その企業の既存組織、文化、風土といったものまで改革が必要になることもあります。いずれにしろ、中途半端な取組みでは、真に高い価値を創出することは難しいといわざるを得ません。

 日本におけるデータサイエンスを取り巻く環境は、決して順風満帆ということではなく、データの整備状況や取扱いの問題、恒常的なデータサイエンティストの不足と育成の問題、さらには組織的取組みにあたってのさまざまなハードルなど、幾重にも障壁があります。  しかしそうした障壁に果敢に挑み、克服することで、社会に有用な価値を提供し、人々のQOL(Quality of Life)に貢献することができるのであり、データサイエンティストの使命だといえるのではないでしょうか。