ビッグデータを入手できることこそ重要/野口悠紀雄
※本連載は第41回です。最初から読む方はこちら。
検索やSNSを通じて得られるデータ(ビッグデータ)の利用法は、ターゲティング広告だけではありません。コンピュータを教育するためのデータとして用いることができます。これによって、コンピュータがパタン認識の能力を獲得しました。
◆インターネットとラジオ、テレビは、実は違う
ターゲティング広告は、ラジオやテレビの広告を効率よくしたものに過ぎないように見えます。
グーグルやフェイスブックのビジネスモデルに、ラジオやテレビのそれを引き継いでいる側面があるのは事実ですが、実は、本質的な違いがあります。
それを知るために、もう一度ラジオ、テレビとインターネットを比較してみましょう。
ラジオやテレビの場合、情報の受信者を料金の支払い者だけに限定することは、事実上不可能です。したがって情報を有料で売ることは、技術的にほぼ不可能であり、そのために広告という手段に頼らざるをえなかったのです。
しかし、インターネットは、これとは違います。情報を伝達する手段という点ではラジオ、テレビと同じなのですが、インターネットでは、受信者を限定することができます。つまり、料金を払った人だけが情報やサービスを得られるようにすることが可能なのです。
事実、前回述べたように、オーバチュアは、検索エンジンを有料としました。
ところが、後から来て無料にしたグーグルにリープフロッグされたのです。
「有料化できるにもかかわらず無料で提供した」ことが、いかに大きな意味を持っていたかが分かります。
有料化できるのは、検索に限りません。ウェブページも有料化できます。事実、有料化しているサイトは多数あります。
新聞社などでは、料金を払っている人だけが記事を閲覧できる仕組みにしています。
これらは、従来からあった新聞・雑誌・書籍などの印刷物のビジネスモデルを引き継いでいます。そして、印刷物より低いコストで、情報を提供することができます。
しかし、こうした方法は、インターネットの時代に「生き延びる」ための方法ではあっても、グーグルやフェイスブックのように、社会のあり方を根本から変えてしまうようなことはありませんでした。
◆データの利用は広告だけではない
インターネットで成功したビジネスモデルは、「情報やサービスを有料で提供できるにもかかわらず無料にし、それによって得たデータを利用する」というものです。
データ利用の例として、前回はターゲティング広告を紹介しました。
ターゲティング広告は、データを用いてプロファイリングをしています。
しかも、従来から行われてきた「セグメンテーション」という手法ではなく、AIを用いてプロファイリングを行っています。
ところで、プロファイリングの用途は、広告だけではありません。
前回述べたように、選挙に用いられています。
そして、後で述べるように、プロファイリングの用途はさらに広がりつつあります。
◆データを機械学習に使う
データの使い道も、プロファイリングに限りません。もう一つ、非常に重要なものとして、「機械学習」があります。
これまでのコンピュータでは、データの処理方法を、一段階ずつ細かくプログラムして与えていました。ところが、最近では、そうした手続きの少なくとも一部分を、コンピュータがデータから「学習」することによって、自動的に行なうことができるようになったのです。
あらかじめ教えられたことだけでなく、与えられたデータによってコンピュータが自ら学習する。それによって賢くなる。これが機械学習です。
現在注目を浴びている手法は、「ニューラルネットワーク」による「ディープラーニング」と呼ばれるものです。
ニューラルネットワークとは、人間の脳の仕組みを真似たものです。データを用いて、このネットワークを進化させ、問題を解決できるようにします。
◆ビッグデータでパタン認識ができるようになった
機械学習の成果がもっとも印象深く現れたのは、「パタン認識」です。これは、図形や自然言語を認識することであり、これまでコンピュータが最も不得意な分野でした。
ところが、ディープラーニングによって、図形認識が可能になってきたのです。
これについて有名なのが、「グーグルの猫」と言われるものです。グーグルが、猫の写真を識別できるニューラルネットワークの構築に成功したのです。
この成果が公表されたのは2012年のことですから、それほど昔のことではありません。
ここで用いられたのは、YouTubeに投稿されていた動画から無作為に取り出した一千万枚の写真だったといいます。YouTubeに集まっていた膨大な量の写真や動画は、これまでもターゲティング広告に用いられていましたが、「グーグルの猫」の成功によって、新しい価値を持つようになりました。
こうした巨大な量のデータを、「ビッグデータ」といいます。猫の写真1枚では経済的な価値が高いとは言えませんが、それが一千万枚集まることによって機械学習のための有用なデータとなり、経済的な価値を持つにいたるのです。
◆パタン認識の広範囲な応用分野
パタン認識は、コンピュータのもっとも弱い分野でした。写真に写っているのが猫なのか犬なのかさえ識別できなかったのです。また、人間が話す言葉を理解することもできませんでした。このため、コンピュータへの入力は、キーボードなどを用いざるをえなかったのです。
パタン認識ができるようになると、この状況は大きく変わります。この技術は、実に広い利用範囲を持っています。
パタン認識の技術は、自動車の自動運転などで不可欠のものです。ロボットに応用すれば、その活動範囲が大きく広がります。
さらに無人店舗も可能になります。印刷された文字をコンピュータが直接に読めるため、事務処理の体制が大きく変化します。
音声認識機能の活用によって、コールセンターの自動化が進展しつつあります。
また、自動翻訳の性能も大きく進歩しました。
医療では、自動診療への応用が進められています。
ビッグデータの利用価値は、今後あらゆる面で、さらに高まるでしょう。
現在はまだ開発途上の技術なので、一般の企業利益に大きな影響を与えるところまではいっていませんが、将来は巨額の利益を生んでいくことになるでしょう。
したがって、ビッグデータを入手することができる企業の価値は、途方もないほど大きなものとなるでしょう。
◆21世紀のゴールドラッシュ
ここで重要なことは、グーグルやフェイスブックが、検索やSNSなどのサービスを、直接に収入を得る手段としてでなく、データを得るための手段と考えたことです。
有料化できるのにあえてしない。それよりデータを得るほうが重要なのです。
ただし、グーグルもフェイスブックも、発足した当初からそうしたビジネスモデルを実行したわけではありません。データを得ることを目的として検索やSNSのサービスを始めたわけではないのです。
グーグルの検索エンジンは、ペイジとブリンが大学院生のとき、純粋に知的好奇心から作り上げたものです。フェイスブックは、ザッカーバーグがハーバード大学の学生の時に、趣味として作り上げたシステムから発展したものです。
機械学習のデータも、最初からビッグデータとして利用するために意図的に集められたものばかりではありません。先に述べた、「グーグルの猫」のYouTubeの写真も、「気がついたら有益なデータがあった」という方が実態に近いでしょう。
グーグルやフェイスブックが保有する膨大なデータは、利用法が分かる前から既に蓄積されていたと考えるべきです。それらの利用方法が、最近になって開発されたのです。
そして、それらが大きな経済的価値を持つことが見いだされました。
これは、 突如として貴重な地下資源が発見されたようなものです。
このことは、しばしば「ビッグデータは21世紀における石油だ」と表現されます。世界経済フォーラムは、2011年1月に公表した報告「パーソナルデータ:新たな資産カテゴリーの出現」において、「パーソナルデータは、インターネットにおける新しい石油であり、デジタル世界における新たな通貨である」としました。
しかし、ビッグデータは、石油のように、使えばなくなってしまうものではありません。繰り返し利用できる資産です。この意味で、石油などの資源より価値があると言えるでしょう。
喩えるなら、金が発見されたようなものです。だから、いま起きていることは、「21世紀のゴールドラッシュ」なのです。
(連載第41回)
★第42回を読む。
■野口悠紀雄(のぐち・ゆきお)
1940年、東京に生まれる。 1963年、東京大学工学部卒業。 1964年、大蔵省入省。 1972年、エール大学Ph.D.(経済学博士号)を取得。 一橋大学教授、東京大学教授(先端経済工学研究センター長)、 スタンフォード大学客員教授などを経て、 2005年4月より早稲田大学大学院ファイナンス研究科教授。 2011年4月より 早稲田大学ファイナンス総合研究所顧問。一橋大学名誉教授。2017年9月より早稲田大学ビジネス・ファイナンス研究センター顧問。著書多数。