いろいろな仕事を渡り歩き、今はインフラ系エンジニアをやっている。いろんな業種からの視点も交えてコラムを綴らせていただきます。

ビックデータでは未来は開けない

»

■何ででかいのか

 ビックデータとは、情報技術分野の用語としては、通常のデータベース管理ツールなどで取り扱う事が困難なほど巨大な大きさのデータの集まりだそうだ。ベンダの戦略や、ビジネスチャンスとか、そんな話でこのキーワードを見ることがある。

 ひねくれたとり方をすると、メンテナンスを怠ったが故に、通常のデータベースや管理ツールで扱いきれなくなったデータとも取れる。最近では、どこの企業でも容量の差こそあれ、整理しきれなくなって肥大化したファイルサーバが蠢いている。定義上からすると、あれもビックデータいいのだろうか?

 また、何も考えずに社内でのファイルのやり取りをメールで行ってると、メールボックスもビックデータに近い形になる。混沌を極めたデスクトップと合わせて、ローカル・ビックデータと私は勝手に呼んでいる。ビジネスチャンスが潜んでそうな雰囲気は醸し出しているが、ビックデータの実情は、はゴミ屋敷に近いのかもしれない。

■アクティブなデータ

 ビックデータと言われるものの大半はアーカイブだろう。常にアクセスされているデータはごく一部で、ほとんどが取り置きや消せなくなったファイルではないだろうか。実際はいろいろなケースがあるからひと括りには語れませんが。

 ビックデータへの有効なアプローチを語るとすれば、手元にあるデータをいかにアクティブにするか。……なんだろうか。ぶっちゃけ、よくわからない。過去データばかり漁ったところで、画期的なビジネスチャンスが生まれるとも思えないからだ。

 過去のデータは、使える形に加工してさっさと削除したいというのが個人的な考えです。バッサリ捨てて、思考の方向性を変える。という方法でも、同じようにビジネスチャンスなんて生み出せると思う。過去のデータを見るか、バッサリ捨てるか。どっちがいい発想が浮かぶかは、ケース・バイ・ケースだ。

■捨てられない。それは、理解が足りないから

 いろいろな会社に仕事で行く事があるが、未だにWindows 98のパッケージが保存されていたり、一度も読まれていないであろう、ソフトウェアのマニュアルが本棚に積まれていたりする。しかし、それが何だか分からないと、捨てるに捨てられないのだ。

 そんな得体のしれない物を管理することが重要とは思えない。買った当時は高くても、今さらWindows 98なんて使わない。使わなくなったソフトのマニュアルはさっさと捨てよう。たまに、間違えて必要なものを捨ててしまうリスクもあるだろう。そんなリスクより、自分の所有するものが何なのかを考えない方が、さらに大きいリスクになる。

 不要か必要かをしっかり見極めるスキルは、ビジネスで必須のはずだ。また、大量のデータを保存する必要があるのなら、整理する手法は必須だ。ここが欠けるから、データが肥大化するのではないだろうか。

■最善策は人がやる

 コンピュータは、人が考えずにぶちまけたデータを整理できるような賢さは無い。条件を決めて振り分けるだけだ。その条件も、人が考えなくてはならない。ぶちまけたデータを、都合よくシステムに押し付けて解決しようとするのは、アプローチが間違っている。

 もし、システムでぶちまけたデータをうまく整理できても、それは何の利益も産まない。使う人が、さらにデータをぶちまけるからだ。ぶちまけたデータの残骸をしっかりと見つめて、自分で整理しよう。自分の行動と結果がよく見えるはずだ。

 人の手で地道に整理するというのは、時間と根気のいる作業だ。しかし、これをやらないと人は考えない。考えない人間がいくらがんばろうと、生産性なんて上がらない。自分たちでぶちまけたデータを、ベンダーに丸投げしても何の解決にもならない。

 時間はかかるし面倒くさいが、地道に自分たちで整理してはどうなんだろうと思う。一見、無益な行動に思えるが、自分の過去を振り返ったり、普段の業務フローを見直す良い機会になると思う。むしろ、そういうところからイノベーションは生まれるのではないだろうか。

Comment(6)

コメント

BEL

「一度も読まれて以内であろう」は
「一度も読まれていないであろう」の間違いですね。

内容に関して、深く共感します。

本来、データとして使うなら、使われることを想定した保存のしかたがあるはずです。
使われることを想定しないで溜め込まれた情報を、
ビッグデータなどというバズワードを作って呼び、
ビジネスにつなげよう、という風潮には違和感を感じます。

ビックマン

話の展開がしやすいように,ビックデータを定義づけている。
斜に構えた人がよくやる手法。

mycoolaw

ビッグデータは、目的が無く集められたデータではないですよ。
また、最善策は人がやるとありますが、そうではない場合もあります。
例として英日の統計的機械翻訳を挙げますと、英語、日本語の対訳となる文書データを大量に用意し、出現する単語の組み合わせの頻度等の情報を用いて文章を翻訳するというものがあります。
言語はあやふやなものなので、人が設定したルールよりも、実際の文書データから設定するほうが精度が上がるのです。
他にも、言語の流行が変わる(新たなスラング等の出現など)場合に、それをルールに追加する作業を専門家に依頼せずとも、データを入れるだけで対応できたり、複数の言語間の対応も楽だという利点があります。

someone

>最近では、どこの企業でも容量の差こそあれ、整理しきれなくなって肥大
>化したファイルサーバが蠢いている。定義上からすると、あれもビックデー
>タいいのだろうか?
これはビックデータが対象としているビッグデータでは無いと思います.
引用されているWikipediaのビッグデータのページを見ると,ビッグデー
タは

”情報通信、とくにインターネットの発達にともなって爆発的に増大した
構造化されていない莫大な量のデータ”

とありますので,メンテナンスを怠って肥大化したデータは今のところは
対象外なのだろうと解釈しています.

また,
>過去データばかり漁ったところで、画期的なビジネスチャンスが生まれ
>るとも思えないからだ。
これはそうとも言えないでしょう.反例としてはウォルマートの例やアマ
ゾンの商品推薦の例が挙げられます.
※ちなみにウォルマートの例とは,顧客の買い物データを分析したら紙
おむつとビールが同時に買われる確率が高かったので,紙おむつとビール
を並べて置いたら店の売り上げが劇的に向上した,というものです.

あと,Anubisさん自身も直後に述べられていますが,
>過去のデータは、使える形に加工してさっさと削除したいというのが個人
>的な考えです。
これはビックデータ(の分析)でも必要で,おそらく加工されたデータか,
もしくはそのままの形でも分析可能なデータが大量に存在するからビッグ
データなのだと思います.

オレンジ

bigdataなので「ビックデータ」ではなく「ビッグデータ」ですね、というのはご愛嬌として。

ビッグデータって、過去もひっくるめて大量のデータを集めて見方を変えて分析したら新しいビジネスチャンスを発見できるかも、というものだと理解しているので、コラムの定義は誤解があるような印象を受けました。

とはいえ、ビッグデータで未来を開けるかと言われると、個人的には少々懐疑的ではあります。

Anubis

何件かコメントついてるので、まとめてリプライします。

コメントを読むことで、自分のずれている部分は把握できたと思います。

個人的にはビックデータなんぞどうでもいい。ただの話のつかみです。落としどころを決めていない議論ほど不毛なものはない。なので、定義云々で議論する気は毛頭ない。

技術用語自体どうとでもとれるようなものが多い。自分の解釈が間違えていても、真意は伝わるような工夫をすることの方に注力してます。

大事なのは、定義を間違えて解釈していても相手に真意が伝わることだ。コメントを拝見させて頂きましたが、用語の解釈が違うのではないかという指摘はありますが、きちんと真意の部分は伝わっているようです。

そういう意味で、このコラムの目的は達成できたと感じました。

コメントを投稿する