データクレンジングとは

DX(デジタルトランスフォーメーション)化を志向する企業も増え、データ活用が経営に与えるインパクトもとても大きくなってきています。ところが、いざデータを本格的に活用しようにも、データが活用できない実情があったりします。それは、社内に蓄積したデータや社外から購入したデータが、そのままだととても活用できる状態になっていないからです。今回は、そもそもデータクレンジングをなぜ行う必要があるのかについて説明していければと思います。

データクレンジングとは・・・

データクレンジングとは、英語では、Data Cleaning といい、データを清掃(きれいにする)ことを指します。データをきれいにすることとはどういうことかというと、データを決まった型(フォーマット)に当てはめることで、データを整形することをいいます。日本語では、名寄せ、データ前処理として言われることも多いです。データが決まった型(フォーマット)になっていない状態とは、以下のようなケースが当てはまります。

  • データの重複が存在している
  • データの入力がされていない
  • 株式会社や(株)など法人名の統一が図られていない
  • フラグが「1」や「●」など統一されていない
  • 容量など規格が統一されていない
  • 価格などのデータが更新されておらず、古い状態のままになっている
製品名製造メーカー製品番号入数標準価格仕切価格容量保存温度毒物
クロロホルム株式会社ABC商事A-100-B-108500ml1000円800円26ML室温
手袋 赤 ABC商事A-100-B-1081ダース(12双)¥1,200¥20050G-70℃以下 
消しゴムD産業株式会社E-100-B-1101個200円    10℃以下 

これらのデータをそのまま分析基盤に乗せて分析しても、同じ意味なのに違う意味と解釈して異なる分析結果を招いてしまったり、データが古いため、データの品質を担保できないケースもあります。データをきれいな状態に保つことがいかに大切かご理解いただけたかと思います。

データクレンジングを行うことが、DX化を進める上でも非常に重要な手段となっているのが現状です。ですので、この機会にぜひデータクレンジングについて考えるきっかけとなっていただければ幸いです。