[4]ビックデータしていますか

[4]ビックデータしていますか

R言語のコマンド実行

「ビックデータを活用しよう」という言葉がちまたにあふれています。しかし、実際に、それをどうやってビジネスにいかしていけばよいのでしょうか。そのためにはまず、他社にサービスを提供する前に、自社でビックデータを活用することが先決と思われます。

 

データサイエンスの基本は、データから法則を見出すということです。ニュートンの運動法則のような一般的な結論を見出すというレベルでなくても、自分の周りで見出していかないといけない因果関係というものがあります。たとえば、

 

1. 自社で、売上げを伸ばすためには、どの広告媒体をつかえばよいか。
2. 為替の変動を利用して利益を得たいが、円とドルを変えるタイミングをどうすればよいか。

 

とった法則を見出すことを想定してみてください。

相撲データを提供しているサイトの表をコピー

 

データサイエンスは、「統計学を勉強しないとダメだ」という人がいます。もちろん、そのような数学の知識があればそれに越したことはありません。しかし、データ解析の手法では、入力すべきデータとその出力結果の意味に関して、わかりやすい説明がついているのが普通で、しかも大半は難しい数学を使わなくてもわかるものです。むしろ、どのようなデータが関係してくるかを判断したり、因果関係を見極める判断能力が問われます。

 

ほとんど手作業をしないで、Excelデータに格納するもスキルがいる

 

データサイエンスは、「データという事実に基づいて判断し、行動する」という、成功しているビジネスマンから見ると、当たり前の行動にすぎません。よく、学校やセミナーで学んだガセ情報をうのみにして、それを棒暗記して生きていこうという人がいます。環境が違えば、そこで成立する法則も違ってくるので、実データは法則性を見出していくための情報になります。それを積極的に活用してこうという営みです。
 

上司に解析結果を見せれば、きっと納得してもらえるはずです。データからそのような法則性があることが実証されたわけですから。

 

大相撲の力士の体重の箱ひげ図。幕下でも体重は幕内と大きな差がないなど、自分がデータから発見したという経験が、データサイエンティストとしての自信につながってく

 

実際の解析の手順ですが、データはExcel形式で十分です。Excelには統計解析のための関数が備わってるので、最初はそれでスタートしてもよいですが、もし本格的にデータサイエンティストをめざす、または簡単なプログラミングの経験をお持ちでしたら、R言語という統計パッケージを利用されることをおすすめします。Rはオープンソース(無料)で、WindowsやMACのノートPCに簡単にインストールできます。

 

http://cse.niaes.affrc.go.jp/miwa/ja/R/setupReasy/

 
 

しかも、操作が非常に簡単です。オープンソースですので、全世界の人がパッケージ(無料)を開発していて、疑問点があってもインターネット検索で簡単に解決することが多いのです。

 

最初は、1+1(リターン)を実行してみてください。そして、各種のコマンドをで実行してみてください。電卓式に、式を入力すれば、その解が出力されます。国内R利用者で、最も多く利用されているのが、

 

http://cse.naro.affrc.go.jp/takezawa/r-tips/r.html

 

というサイトです。完ぺきではないですが、コマンドを忘れたときなど便利で、重宝します。Rは、わからないことがあれば、インターネット検索で調べていきます。

九州場所の成績のヒストグラム。6個のグラフを2行x3列で並べることは難しくない。インターネット検索で調べまくるのが基本

 

プログラミング言語ではなく、電卓という側面もあり、最初のうちは、文法をあまり意識しなくてよいと思います。むしろ、本来の目的である、データから法則性を見出していくという処理ができるのかどうか、それを見極めてから、本格的に取り組んでよいかと思います。

 

文法で時間をかけないと理解できないのは、せいぜいオブジェクト指向の概念ぐらいです。関数を作成するとしても、平均を求めたり、散布図を求めたりするひな形があって、それらを組み合わせて複雑な処理が数行でかけます。

 

また、グラフィックなどもExcelと比べて格段に美しく表示され、それを見た人は、駆け出しでも、プロのデータサイエンティストが出力したものだと思うでしょう。

 

特に、文法を全部やるよりは、事例から入ることをお勧めします。たとえば、

 

http://sumodb.sumogames.de/Banzuke.aspx?b=201411&heya=-1&shusshin=-1&w=on&l=e

 

の大相撲のデータを解析するとします。
実データの解析の場合、データをExcelに入れるまでが大変です。
サイト(http/https)やpdfの場合、いったんリッチでないテキスト(.txt)におとし、Excelで読み込んだときにフォーマットを指定します。そして、それをさらにRに読み込んで実行します。ここでは、幕内、十両、幕内、三段目、序二段、序の口のそれぞれでの体重の分布と、九州場所での成績のヒストグラムを表示しています。

 

Joe'sビジネスセンターは、厳格な審査をするバーチャルオフィスとして知られている

 
Joe’sでも、Joe’sビジネス・センターの入会時の審査にすることを検討しています。バーチャルオフィスが犯罪の目的で利用されることがあるからです。
 

2006年秋のサービス開始から2014年までの8年間で会員規約に抵触するケースが3件ありました。ただ、通算会員数は3000件を超えているので、全体からみると0.1%程度になります。その確率を0%に限りなく低くするために、ビックデータを活用することを検討しています。詳細については、次号では発表できるものと考えています。

 
 

また、2015年は、Joe’sではビックデータの解析に力を入れていきます。代表の鈴木禎子が、2015年1月24日(金)19:00~ に、Joe’sビジネス・センター(銀座)でビックデータの解析に関するセミナーを行います(3,000円の有償ですが、将来的に価格を変更する場合があります)。理論を経験に移してこそ自信が生まれます。よろしければ、ご参加ください。

 

2015年こそ、ビッグデータの活用へ一歩踏み出してください。