データ分析に戻る

ビッグデータ

0件の登録があります。

ビッグデータ (英: big data)とは、組織が非常に大きなデータセットとそれらが保存されている施設を作成、操作、および管理できるようにするすべての技術を指す。一般的なデータ管理・処理ソフトウェアで扱うことが困難なほど巨大で複雑なデータの集合を表す用語である。組織が非常に大きなデータセットを作成、操作、および管理できるようにするすべてのものと、これらが格納されている機能を指す。ビッグデータを取り巻く課題の範囲は、情報の収集、取捨選択、保管、検索、共有、転送、解析、可視化等多岐にわたる。これら課題を克服しビッグデータの傾向をつかむことで「ビジネスに使える発見、疾病予防、犯罪防止、リアルタイムの道路交通状況判断」に繋がる可能性がある。用語自体はデータマイニングで一般的に使われてきたが、2010年代に入ってある種のトレンドを示すキーワードとして、新聞・雑誌などでも広く取り上げられるようになってきた。ビッグデータに代わってAIが流行すると、マスメディアでセンセーショナルに取り上げられることは無くなった。分散型データセンター、データウェアハウス、クラウドベースのストレージは、今日の一般的な側面である。

概要

データ量の上限

コンピュータの性能に上限があるように、我々が取り扱えるデータ量の大きさにも上限がある。2012年現在、現実的な時間内に処理することが可能なデータサイズの上限は、エクサバイトのオーダーとされる。換言すると、我々は事実上これ以上のデータは扱えないという制限を抱えていると言える。科学者はしばしばこの制限に遭遇する。その分野にはゲノミクス、気象学、コネクトミクス、複雑な物理シミュレーション、生物調査および環境調査等がある。インターネット検索、金融、ビジネスインフォマティクスの分野でも、データ量の上限がビジネスや研究活動に制限を与える。このように近年データが増加しているのは、情報収集モバイル装置、空間センサー技術(リモートセンシング)、ソフトウェアログ、カメラ、マイクロフォン、無線ID読取機、ワイヤレス・センサネットワークの普及も1つの原因である。全世界の1人当たりの情報容量は1980年代以降40か月ごとに倍増し、2012年現在、1日あたり毎日250京(2.5×1018)バイトのデータが作成されたとされる。

課題

ビッグデータは、大部分の関係データベース管理システムやデータ分析ソフトでは処理が困難である。そのため、「数十台、数百台、ときには数千台ものサーバ上で動く大規模並列化ソフトウェア」が必要になる。大企業にとっての課題には、組織全体にまたがるビッグデータの主導権を誰が握るかということもある。何を「ビッグデータ」と考えるのかを明確にするのも企業毎の課題となる。これはデータを管理する組織の能力と分析アプリケーションの能力に依存するためである。数百ギガバイトのデータに直面して始めてデータ管理の選択肢について再検討を始めた組織もある。また数十、数百テラバイトのデータになって初めて真剣に検討が必要になった組織もある。

成長と今後の展開

データセットは、リモートセンサー、モバイルデバイス、カメラ、マイク、無線周波数識別(RFID)リーダー、および類似のテクノロジーによって収集されるものが増えるにつれて、増え続けている。2.5エクサバイト(2.5Å〜1018バイト)のデータが毎日作成され、世界のデータの90%がわずか2年間に作成されたと推定した研究も存在する。これらの数値は、おそらく今日より高くなっている。ビッグデータアプリケーションは、ビジネス、特にキャプチャして保存する大量のデータから利益を得るためにデータ製品とサービスを構築することを志向するビジネスにとって、ますます競争力のあるソースになりつつある。ビッグデータアプリケーションのメリットを享受する企業が増えるにつれて、企業にとってデータの活用がますます重要になることを示す兆候がある。

定義

データの収集、取捨選択、管理及び処理に関して、一般的なソフトウェアの能力を超えたサイズのデータ集合と定義される。2012年現在、数十テラバイトから数ペタバイトの範囲である。NoSQLのような新たなビッグデータ技術の普及により、その数値上の定義は変わっていくと考えられる。2001年の研究報告書で、METAグループ(現ガートナー )のアナリスト、ダグ・レイニーはビッグデータの特性としてボリューム(volume、データ量)、速度(velocity、入出力データの速度)、バラエティ(variety、データ種とデータ源の範囲)があると定義した。ガートナーはこの「3V」モデルを使用していたが、2012年、次のように定義を更新した:「ビッグデータは、高ボリューム、高速度、高バラエティのいずれか(あるいは全て)の情報資産であり、新しい形の処理を必要とし、意思決定の高度化、見識の発見、プロセスの最適化に寄与する」。さらに新しいV、正確さ(veracity)の追加の提案もある。

例としては、巨大科学、RFID、センサネットワーク、ソーシャルネットワーク、ビッグソーシャルデータ分析 (ソーシャルデータ革命による)、インターネット文書、インターネット検索のインデックス作成、通話記録明細、天文学、大気科学、ゲノミクス、生物地球化学、生物学、他の複雑でしばしば学際的な科学研究、軍事偵察、新しい住宅購入者用の通勤時間予測、医療記録、写真アーカイブ、ビデオアーカイブ、大規模なeコマースがある。

巨大科学

大型ハドロン衝突型加速器 (LHC) では約1億5000万のセンサーが毎秒40万のデータを発生させる。毎秒ほぼ6億回の衝突がある。99.999%のデータをフィルタリング・除去処理し、1秒あたり100の衝突が有用なデータとなる。その後、センサデータの0.001%未満を処理する。すべての4つのLHC実験は1年に25ペタバイトを発生する。これは複製後約200ペタバイトになる。もし全てのセンサデータがLHCで記録されるなら、データの処理は著しく困難になるであろう。データは複製前で1年に1.5億ペタバイト、すなわち一日あたり約500 エクサバイトを超えてしまうであろう。この数字は一日あたり5垓(5×1020)バイトで、世界すべての情報源を合計した数値の約200倍である。

科学研究

スローン・デジタル・スカイサーベイ (SDSS)は2000年に天文データを収集し始めたが、最初の数週間で天文学の歴史の中で収集したすべてのデータよりも、多くのデータを蓄積した。SDSSは、1晩約200GBの割合で継続して、140テラバイト以上の情報を集めている。SDSSの後継である、大型シノプティック・サーベイ望遠鏡は、2016年に運用開始後、同じ量のデータを5日おきに取得すると期待されている。ヒトゲノム計画は当初その処理に10年かかったが、今では一週間も経たないうちに達成することができる。DNAシーケンサは、過去10年間でシーケンシングのコストを1万分の1に削減した。これはムーアの法則の100倍である。計算機社会科学 — Tobias Preis et al. はGoogle Trendsデータを使用し、高いGDPを持つ国のインターネットユーザは、過去よりも将来の情報を検索することを示した。調査結果により、インターネット上の行動と現実世界の経済指標との間に関連性が存在することが示唆された 。著者らは、2010年に45の異なる国でインターネットユーザーによるGoogleのクエリのログを調べ、前年の検索のボリューム(2009年)と来年(2011年)の検索のボリュームを比較し、「将来期待指数」と呼んでいる。著者らは、それぞれの国の1人当たりGDPと将来期待指数を比較し、将来についてより検索が多いGoogleユーザは高いGDPを持つ傾向があることを発見した。NASA気候シミュレーションセンター(NCCS)は32ペタバイトの気象観測、シミュレーションデータをDiscoverスーパーコンピューティングクラスタ上に格納している。Tobias Preisと共同研究者のHelen Susannah Moat、ユージン・スタンレーは、Google Trendsにより提供される検索ボリュームデータに基づく取引戦略を用いて、インターネット上の株価の動きを予測する方法を紹介した。金融に関連した98の用語のGoogle検索ボリュームの分析はScientific Reportsに掲載され、金融に関連した検索語は、金融市場の大きな損失より前に出ていることを示した。

政府機関

2012年、オバマ政権は政府が直面する重要問題への対処に利用できるかを探るため、「ビッグ・データ・リサーチ・イニシアティブ」を発表した。イニシアティブは、6つの部門にまたがって84の異なるプログラムから構成されていた。ビッグデータ分析は、 バラク・オバマの2012年の再選運動に大きな貢献を果たした。米国連邦政府は、世界Top10のスーパーコンピュータのうち6台を所有している。ユタ・データ・センターは、現在、米国・国家安全保障局(NSA)によって建築中のデータセンターである。建設後は、インターネット上でPRISMによって収集されたヨタバイトの情報を扱うことができるようになる。民商事分野の判決のビッグデータ活用は、法律家の支援ツール開発などにつながり、紛争解決の迅速化や紛争予防に資するとの展望から、政府が裁判所から判決文の提供を受け、AI技術による匿名処理を施した上でDB化する計画が進められている。福岡県警察は、ビッグデータを活用して、指定暴力団・工藤會による襲撃から証人や情報提供者を警護するため、組員らの行動パターンを基に襲撃の予兆を把握するシステムを開発。捜査員が尾行で確認した組員らの動向や車両の使用状況といったデータをコンピュータ解析し、襲撃時期や地域を予測する。組員や車両が襲撃の予兆となる特異な動きを見せると検知し、危険度に応じて、最重要対象者を24時間態勢で警護する。

民間部門

Googleは、Google マップにおいて、スマートフォンのGPSおよびジャイロセンサーにより測定された位置および移動速度を、多数の端末から匿名情報として収集して分析し、マップ上に道路の混雑状況を表示する。さらに、Google マップナビにおいて、目的地までの経路の混雑状況に応じた通過速度を計算し、最適経路をユーザーにナビゲーションする。ウォルマートは1時間あたり百万以上のトランザクションを処理し、2.5ペタバイトのデータを保持する。これはアメリカ議会図書館に所蔵されているすべての書籍の167倍の情報量である。Facebookは、ユーザーの500億枚の写真を処理している。FICOファルコンクレジットカード詐欺検知システムは、世界全体で21億のアクティブなアカウントを保護している。ウィンダミア不動産は約1億の匿名のGPS信号を使用し、新しく家を買う人に1日の時間帯毎の通勤時間を提供している。ソフトバンクは、月間約10億件(2014年3月現在)の携帯電話のログ情報を処理して、電波の接続率の改善に役立てている。トヨタは、車載通信機(データ・コミュニケーション・モジュール:DCM)から車両データを送信し、トヨタスマートセンター内のトヨタビッグデータセンター(TBDC)に蓄積する。収集したデータを解析し、各種サービスへの展開に利用するとしている。

途上国の開発

ここ数十年で情報通信技術開発 (ICT4D)の分野で研究が進み, ビッグ・データが途上国の開発にも有用であることが示唆された。ビッグデータの出現は、医療、雇用、生産性、犯罪や公衆安全、自然災害や資源管理などの重要な開発分野の意思決定を改善する。その一方でビッグデータのよく知られた問題、例えば、プライバシー、相互運用性、不完全アルゴリズムを全知全能にする問題は、技術インフラの不足、経済および人的資源の不足のような未解決課題を悪化させている。これは新たな情報格差、意思決定の格差に繋がる。

市場性

ストレージコストの継続的な低下、データマイニングおよびビジネスインテリジェンス(BI)ツールの成熟、組織に大量の備蓄を引き起こした政府の規制や裁判など、多くの要因が「ビッグデータ」とビジネスネットワークの統合に貢献している。ビッグデータの専門家の需要は増加しておりSoftware AG、オラクル、IBM、マイクロソフト、SAP、EMC、HPといった企業は、データ管理と分析だけを専門とするソフトウェア会社に150億ドル以上を費やしている。2010年には1000億ドル以上の業界価値があり、年間約10%で成長していた。これはソフトウェアビジネス全体の約2倍の速さである。全世界の携帯電話契約数は約46億であり、10から20億人がインターネットにアクセスしている。通信ネットワークを介して交換される容量は、1986年に281ペタバイト、1993年に471ペタバイト、2000年には2.2エクサバイト、2007年には65エクサバイトであった。インターネット上のトラフィック量は2013年までに667エクサバイトに達すると予測されている。

解析・処理技術

インフラストラクチャー

従来のビジネスデータストレージおよび管理テクノロジには、リレーショナルデータベース管理システム(RDBMS)、ネットワーク接続ストレージ(NAS)、ストレージエリアネットワーク(SAN)、データウェアハウス(DW)、およびビジネスインテリジェンス(BI)分析が含まれる。従来のデータウェアハウスとBI分析システムは、企業インフラストラクチャ内で高度に集中化される傾向がある。これらには、RDBMS、高性能ストレージ、およびデータのマイニングと視覚化のためのオンライン分析処理(OLAP)ツールなどの分析ソフトウェアを備えた中央データリポジトリが含まれることがよくある。

ソフトウエア

2004年、GoogleはMapReduceと呼ばれるビッグデータ処理技術の論文を発表した。これはデータ処理を分割し、複数のコンピュータで並列に実行するものである。この分割と並列処理のステップを「マップ(Map)」と呼ぶ。各コンピュータの処理結果は最終的に一つに集められ、解析者に配信される。これを「リデュース(Reduce)」と呼ぶ。この技術は成功を収めたので、そのアルゴリズムを再現しようとした者もいた。実際にMapReduceはHadoopという名前で、Apacheのオープンソースプロジェクトに採択された。2011年マッキンゼーレポートによると、以下の技術が必要と示唆された。A/Bテスト、相関ルールの学習、統計分類、データ・クラスタリング、クラウドソーシング、データ融合と統合、アンサンブル学習、遺伝的アルゴリズム、機械学習、自然言語処理、ニューラルネットワーク、パターン認識 、異常検出、予測モデリング、回帰分析、感情分析、信号処理、教師あり学習と教師なし学習、シミュレーション、時系列解析、可視化である。多次元ビッグデータはテンソルとして表現でき、これは多線部分空間学習のようなテンソル・ベース計算にて効率的に処理できる。さらに関連技術には、超並列処理(MPP)データベース、 検索ベースのアプリケーション、データマイニンググリッド、分散ファイルシステム、分散データベース、クラウドコンピューティングとインターネットがある。一部のMPPリレーショナルデータベースは、ペタバイトを格納および管理する能力を持っている。加えて、暗黙的にRDBMSをロード、監視、バックアップする能力も必要となる。

ハードウェア

ビッグデータ分析の専門家は、一般的に遅い共有ストレージを敵視し、ソリッドステートドライブ(SSD)やダイレクトアタッチトストレージ(DAS)を好む。ストレージエリアネットワーク (SAN)やネットワークアタッチトストレージ (NAS)は遅く、複雑で、高価であると認識される。容易に入手可能で低コストなハードウエアをベースに成長するビッグデータ分析システムにこれらは適さない。

研究活動

2012年3月に、ホワイトハウスは6連邦政府省庁および政府機関で構成される「ビッグデータイニシアティブ」を発表した。2億ドル以上の予算が付与された。これにはカリフォルニア大学バークレー校 AMPLabへの、全米科学財団「計算機科学の探検」研究費、5年間 $1千万ドルが含まれる。AMPLabは加えてDARPAと10以上の産業界からの資金提供を受け、交通の混雑の予測、がん対策のような広範囲の課題に挑戦する。このイニシアティブにはまた、エネルギー省のローレンス・バークレー国立研究所が率いるスケーラブル・データ管理・分析・可視化(SDAV)研究所への5年間 $25百万ドルの資金提供も含まれる。SDAV研究所は、科学者が省のスーパーコンピュータ上のデータを管理、可視化するための新しいツールの開発を目指す。このために6国立研究所と7大学の専門知識を結集することを目指している。米国マサチューセッツ州は、2012年5月に「マサチューセッツ州ビッグデータイニシアティブ」を発表し、州政府や民間企業が資金を提供している。マサチューセッツ工科大学 はThe Intel Science and Technology Center for Big Data をMITコンピュータ科学・人工知能研究所で主催した。欧州委員会はビッグデータ・プライベート・フォーラムに資金提供する。これには企業、教育機関、その他のビッグデータ関係者が参加している。プロジェクトの目標は、研究と技術革新の面で戦略を定義することである。このプロジェクトの成果は、次のフレームワークプログラムであるHorizon 2020で利用される。IBMは毎年開催される学生の国際プログラミングコンテスト、"Battle of the Brains"のスポンサーとなった。ビッグデータ世界選手権は、2014年にテキサス州オースチンで初めて開催された。

批判

ビッグデータパラダイムへの批判

実証科学の性質による根本的な限界があるので、ビッグデータパラダイムは実証科学によるものなので、ビッグデータにも実証科学と同様の限界がある。2012年4月のハーバードビジネスレビューの記事によると、ビッグデータはどんなにわかりやすく分析されたとしても、大きな決断(ビッグディシジョン)によって補完されなければならないとされた。同時に、ビッグデータの解析結果は「過去に知られたものか、良くても現在のもの」にしかならないと指摘された。過去の経験が多数入力されれば、過去と同じ事象を予想する可能性がある。要するに、想像力を使わずにビッグデータだけで論理的な推論を行うことは、革命的な視点を生み出すことはできない。パラダイムから独立して科学的に真偽を決定することは不可能である。オットー・ノイラートは科学を、外海に再建しなければいけないボートと比較している。データの統計的処理では科学的であったが、なぜ錯覚が生まれるかというメカニズムの解明では、仮説を立て実験データとの照合を論じてはいたものの、その仮説自体はやはり思弁に過ぎなかった。脳科学の進歩によって急速に、認識論と存在論の2つの世界は大きく浸食されつつある。脳細胞をシミュレートする深層学習技術は、10年前の人間の想像を超えているということである。機械学習とディープラーニングを使用したビッグデータは、10年前の限界を超えている。

科学的観点からの批判

ダナ・ボイドは標本調査に基づき代表的な母集団を選ぶという科学の基本的原則を無視し、異種のデータ源から成る大量のデータの処理にこだわることに懸念を示した。このやり方は、偏った結果につながる可能性があるにもかかわらず、多くの科学者はこのような統合は最も有望な科学の最先端と主張している。

脚注

注釈

出典

参考文献

Big Data for Good.The Rise of Industrial Big DataHilbert, Martin; López, Priscila (2011). “The World's Technological Capacity to Store, Communicate, and Compute Information”. Science 332 (6025): 60–65. doi:10.1126/science.1200970. PMID 21310967. http://martinhilbert.net/WorldInfoCapacity.html. Resources on how Topological Data Analysis is used to analyze big dataProgramming with Big Data in R.Real Time Data Access and Total Data Integration

関連項目

モノのインターネット、データ駆動巨大知、集合知、相関関係と因果関係データマイニング、オープンデータシミュレーション、オペレーションズ・リサーチタプル、非構造化データMapReduceデータサイエンティストSIS(戦略情報システム)インダストリー4.0(第4次産業革命)情報セキュリティ、名寄せ、GDPR監視社会、バウンドレス・インフォーマント

外部リンク

『ビッグデータ』 - コトバンク

もっと見る 閉じる

ビッグデータhttp://ja.wikipedia.org/)より引用