データの完全性の4つのポイント -網羅性・正確性・整合性・安全性-
データの完全性とは?
データの完全性(インテグリティ)とは、データが全てそろっていて欠損や不整合が無いことを保証することを意味します[1]データ完全性 – Wikipedia 。
昨今のテレビや新聞など、一定の権威あるメディアでさえ、特定の思想へ偏ったデータや誤った報道が絶えません。情報の受け手は正しい情報を取捨選択する能力が必要です。
また、不正確な情報の発信は信頼を大きく損ないます。個人で情報を発信できる現代だからこそ、発する情報の正確性には十分注意すべきです。
こうした情報の受信、発信における判断基準となり、指針となるのが「データの完全性」です。
このデータの完全性を確認する際には、網羅性・正確性・整合性・安全性の4つのポイントを確認していきます。
今回はこのデータの完全性を確認する際の4つのポイントを解説していきます。
データ完全性の4要素
世の中に「絶対に間違いの無い情報」は存在しません。
しかし、データを扱ってきた先人の経験から、「議論に足る有意な情報」かどうかを判断するためには、以下の4つのポイントを注視すれば良い、ということが知られています。
それが、網羅性・正確性・整合性・安全性です[2]データインテグリティについて で紹介されているComplete、Accurate、Consistent、Secure。
網羅性
網羅性とは、全てのデータを漏れなく提示していることです。
情報を受け取るときは「この場合には正しいが、この場合はどうなのだろう?」と疑問に感じるような点が併記されているかどうかに注目しましょう。
網羅性が欠如しているとデータに偏りが生じます。それが故意であろうとなかろうと、疑い深い読者からは恣意的に都合の悪いデータを隠しているように見られます。
網羅性を担保するためには「地域」、「時刻」、「民族」などについて幅広く情報を集めることが必要です。ただし、余分な情報は最も言いたいことを薄めてしまうため、過不足の無い情報量が大切になります。
正確性
正確性とは、データの内容に正当性があり、正確であることを意味しています。
複数人がそれぞれ独自にデータを取得し、同じ結果が得られた場合に情報の正確性は大きく高まります。情報が正確かどうかを判断するためには、1つの情報源だけでなく、複数の情報源を同時に調べることが重要です。
また、情報の正確性は時間によって変化します。2020年に流行した新型コロナウィルスの報道を見て分かる通り、「マスクの効果」や「致死率」について当初不正確だった情報が時間経過と共に正確性を増していきました。
後から間違った情報だと分かった場合にも、情報が発信された時点では「推測可能な最大限正しい情報」だった、ということは多々あります。そうした情報が「デマだった」と言われないために、情報を提示する際には「根拠となるデータ」、「推論プロセス」、「データが得られた時刻」についてもあわせて開示するとよいでしょう。
整合性
整合性とはデータが論理的に矛盾が無く、一貫していることを指します。
コロナウィルスの危険性を訴える記事に「コロナに感染したが症状は風邪と大差なく、後遺症もなかった」というインタビューを載せると、論がブレてしまい、読者は「危険なの?危険じゃないの?」と混乱します。読者の混乱を避けるために、データ全体として一貫性を持つべきです。
しかし、世の中全てのデータが矛盾なく、一貫しているわけではありません。整合性を担保しようとデータを取捨選択すると、網羅性が欠如する可能性もあります。
整合性と網羅性を無理なく両立しているデータは完全性の高いデータと言えるでしょう。
安全性
安全性とは、安全にデータが保護されている状態を指しています。
応用情報技術者試験での出題
IPAが運営している応用情報技術者試験では、データの網羅性について、以下のような出題がなされたことがあります。
在庫管理システムを対象とするシステム監査において、当該システムに記録された在庫データの網羅性のチェックポイントとして、適切なものはどれか。
応用情報技術者試験 平成29年度秋午前問60
ア)設定された選定基準に従って、自動的に購入業者を選定していること
イ)適正在庫高であることを、責任者が承認していること
ウ)適正在庫量を維持するための発注点に達したときに、自動的に発注していること
エ)入庫及び出庫記録に対して、自動的に連番を付与していること
データの網羅性とは、情報が漏れなくそろっていることを指しているので、答えは選択肢・エです。
参考
注
↑1 | データ完全性 – Wikipedia |
---|---|
↑2 | データインテグリティについて で紹介されているComplete、Accurate、Consistent、Secure |