データウェアハウシングのための品質
データ基盤ひとりAdventCalendarの7日目の記事になります。
データ基盤に関連した内容について学んだことを@takegue がまとめていきます。

内容については随時加筆/修正等を行なっていく予定です。
修正等の指摘ありましたらご連絡いただけると幸いです。

データが効果的に活用されるためにはデータの品質が十分なものでなければならない。
品質が十分なデータでは誤った結論を導くこととなる。
要求するデータの品質を定め水準を保つように活動を行うべきである。
一方で、データウェアハウシングにおいて、データの品質を定義するためには様々な観点が存在する。
ここでは様々な観点を取り上げる。

利用者が感じるデータに関する品質の観点


  • 正確性
  • データが示す内容が実際の事業の状態を正確に反映したものであるかを量るもの
  • 一貫性
  • 単一のデータではなく、複数のデータソースから鑑みた場合に、その対象に関する複数のデータにおいて矛盾が存在しないこと
  • アクセス可能性
  • データの利用可能状態が多いこと。
  • 最新性
  • データが示す内容がどれぐらい直近の状況を反映することができているか
  • 最新性が良いほどよりリアクティブな分析が可能になる
  • 一意性
  • データが示す内容が一意に定まること。またある事柄を示す際に利用すデータが少ない状態。直交性。
  • 複数のデータが部分的にある側面に説明する状態は、解釈が多次元的になり一意性が低い。
  • 完全性
  • あることがらを示すデータが必要十分に存在すること
  • 信頼性
  • あることがらに対するデータの品質が十分なものであるか
  • 複数の観点が複合的に混在する

データの利用上の品質の観点

  • 再現性
  • データからあることがらを示す時、その過程が裁断者により再現可能かどうか

データマネジメントにおける品質

  • 監査追跡可能性
  • データのアクセス管理に対して、どの程5W1Hで度追跡可能であるかを表すもの