膨大かつ多様なデータの中に潜んでいる規則性や法則性を見つけ出せる!?

膨大な資料の山・・・この中に宝物が隠れてる!?どうやって掘り当てようか。すべて読む?それとも?

データ工学研究室では・・・大規模なデータから有用な知識を発見する。近年、注目を集めているビッグデータの活用。そうした大量のデータを扱う技術の一つとして、データの中に潜んでいる価値ある情報や知識を掘り出す「データマイニング」があります。当研究室では、データマイニングの基礎研究に加えて、企業との連携による応用研究にも積極的に取り組んでいます。(担当教員:猪口明博准教授)

■例えば、こんな研究も行います・・・。

暮らしを快適にするデータ解析。対象となるデータは飛躍的に増えている。

「迷惑メールフィルター」を使ったことはありますか? これは、過去に投稿された迷惑メールを解析し、その特徴を計算機が学習することで判定しています。また、YouTubeの「あなたへのおすすめ」は、過去の閲覧履歴などを解析して表示されています。このように、データ解析により私たちの暮らしは便利になっています。

では、世界にはどれくらいのデータがあるのでしょうか? 世界のデータの総量は、2010年で約1ZB(ゼタバイト)、2020年には35ZBになるといわれています*。35ZBというと、200兆年分(!)もの新聞記事の情報量に相当します。実際にデータ解析の対象となるのは、ほんの一部ではありますが、それでも10年前に比べて非常に大規模になっています。
*国際データ社の統計より

おばあちゃんの知恵袋のように人間は経験から学ぶことができる。

一方、人間は、経験を積むことで新たな規則を学習できます。例えば、京都には「雲が愛宕(あたご)さんへ参ると雨、お稲荷さんに参ると晴れ」という言い伝えがありますが、これは昔の人が日々の天気と空の観測を繰り返すことで得られた経験則です。また、人間は経験を積めば積むほど、困難な問題を解決できるようになります。

経験から学習するという知的活動を計算機が模倣できれば鬼に金棒。

人間が日々経験を蓄えるように、計算機はデータを蓄えることができます。さらに、人間が経験から学習できる知的活動を計算機が模倣できるようになれば、データ解析の精度が上がり、非常に有用であると考えられます。現在はまだ完全に模倣できるわけではありませんが、年々その技術は進歩しており、私たちはその一端を担う研究を行っていることに誇りに感じています。

おむつとビールを並べると売れる?そんな法則を発見できるかもしれない。

データマイニングにより、多種多様なデータの中から意味のある有益なパターンや関係を見つけ出すことができます。例えば過去の購買履歴から「おむつを買ったお客さんはビールもよく買う」といった情報を発見したら、おむつとビールを並べておけば売り上げ増加が見込めるといった経営判断ができます。データ解析の過程では試行錯誤を何度も繰り返すのですが、自分なりに考えて行動した結果が研究成果に現れたときには、達成感がありますね。

研究のkeywords

データマイニング

社会で蓄積されている多様で大規模なデータを解析し、その中に潜んでいる価値ある情報や人間にとって有用な知識を掘り出すことを目的としたデータ処理技術。

機械学習

計算機にデータに埋もれた規則性を学習させる技術で、学習した規則に基づいて予測なども行う。データマイニングと似ているが、データマイニングが未知の知識の発見を重視するのに対し、機械学習は予測を重視する。

データベース

複数の応用目的で共有される、意図して組織的かつ永続的に格納されたデータの集まりである。またそのデータの集まりに対して、容易に管理、利用、検索できるようにしたコンピュータシステムをデータベースシステムという。

もっと詳しく知りたい方は、各研究室のページへ……