DX(デジタルトランスフォーメーション)化を志向する企業も増え、データ活用が経営に与えるインパクトもとても大きくなってきています。ところが、いざデータを本格的に活用しようにも、データが活用できない実情があったりします。それは、社内に蓄積したデータや社外から購入したデータが、そのままだととても活用できる状態になっていないからです。今回は、そもそもデータクレンジングをなぜ行う必要があるのかについて説明していければと思います。
データクレンジングとは・・・
データクレンジングとは、英語では、Data Cleaning といい、データを清掃(きれいにする)ことを指します。データをきれいにすることとはどういうことかというと、データを決まった型(フォーマット)に当てはめることで、データを整形することをいいます。日本語では、名寄せ、データ前処理として言われることも多いです。データが決まった型(フォーマット)になっていない状態とは、以下のようなケースが当てはまります。
- データの重複が存在している
- データの入力がされていない
- 株式会社や(株)など法人名の統一が図られていない
- フラグが「1」や「●」など統一されていない
- 容量など規格が統一されていない
- 価格などのデータが更新されておらず、古い状態のままになっている
製品名 | 製造メーカー | 製品番号 | 入数 | 標準価格 | 仕切価格 | 容量 | 保存温度 | 毒物 |
クロロホルム | 株式会社ABC商事 | A-100-B-108 | 500ml | 1000円 | 800円 | 26ML | 室温 | ● |
手袋 赤 | ABC商事 | A-100-B-108 | 1ダース(12双) | ¥1,200 | ¥200 | 50G | -70℃以下 | |
消しゴム | D産業株式会社 | E-100-B-110 | 1個 | 200円 | 10℃以下 |
これらのデータをそのまま分析基盤に乗せて分析しても、同じ意味なのに違う意味と解釈して異なる分析結果を招いてしまったり、データが古いため、データの品質を担保できないケースもあります。データをきれいな状態に保つことがいかに大切かご理解いただけたかと思います。
データクレンジングを行うことが、DX化を進める上でも非常に重要な手段となっているのが現状です。ですので、この機会にぜひデータクレンジングについて考えるきっかけとなっていただければ幸いです。