Breaking

Rabu, 04 Juli 2018

Pembersihan Data atau Data Cleansing jilid 2



Kualitas data
Data berkualitas tinggi harus lulus satu set kriteria kualitas, antara lain :

1.   Validitas:
Tingkat di mana ukurannya sesuai dengan aturan atau batasan bisnis yang ditetapkan (lihat juga Validitas (statistik)). Ketika teknologi database modern digunakan untuk merancang sistem pengambilan data, validitas cukup mudah untuk memastikan: data yang tidak valid muncul terutama dalam konteks warisan (di mana kendala tidak diimplementasikan dalam perangkat lunak) atau di mana teknologi pengambilan data yang tidak pantas digunakan (misalnya, spreadsheet, di mana sangat sulit untuk membatasi apa yang pengguna pilih untuk masuk ke dalam sel, jika validasi sel tidak digunakan).

Kendala data masuk ke dalam kategori berikut:
a)  Batasan Tipe Data
mis., Nilai dalam kolom tertentu harus berupa tipe data tertentu, misalnya, Boolean, numerik (bilangan bulat atau nyata), tanggal, dll.

b)  Kendala Rentang
biasanya, angka atau tanggal harus berada dalam kisaran tertentu. Artinya, mereka memiliki nilai minimum dan / atau maksimum yang diizinkan.

c)  Batasan Wajib
Kolom tertentu tidak boleh kosong.

d)  Batasan Unik
Bidang, atau kombinasi bidang, harus unik di seluruh kumpulan data. Misalnya, tidak ada dua orang yang dapat memiliki nomor jaminan sosial yang sama.

e)  Batasan Set-Keanggotaan
Nilai untuk kolom berasal dari satu set nilai atau kode yang berbeda. Misalnya, jenis kelamin seseorang mungkin Wanita, Pria atau Tidak Dikenal (tidak direkam).

f)   Batasan asing-kunci
Ini adalah kasus yang lebih umum dari keanggotaan yang ditetapkan. Kumpulan nilai dalam kolom didefinisikan dalam kolom tabel lain yang berisi nilai unik. Sebagai contoh, dalam database wajib pajak Indonesia, kolom "provinsi" diperlukan untuk menjadi bagian dari negara yang ditetapkan oleh Indonesia: kumpulan provinsi yang diizinkan dicatat dalam tabel Provinsi yang terpisah. Istilah kunci asing dipinjam dari terminologi basis data relasional.

g)  Pola ekspresi reguler
Terkadang, bidang teks harus divalidasi dengan cara ini. Misalnya, nomor telepon mungkin perlu ired untuk memiliki pola (999) 999-9999.

2.   Validasi lintas-bidang
Kondisi tertentu yang memanfaatkan beberapa bidang harus dipegang. Misalnya, dalam kedokteran laboratorium, jumlah komponen sel darah putih diferensial harus sama dengan 100 (karena semuanya persentase). Dalam database rumah sakit, tanggal pasien pulang dari rumah sakit tidak boleh lebih awal dari tanggal penerimaan.

3.   Keaslian
Tingkat kesesuaian ukuran untuk standar atau nilai yang sebenarnya - lihat juga Akurasi dan presisi. Keakuratan sangat sulit dicapai melalui pembersihan data dalam kasus umum, karena memerlukan akses ke sumber data eksternal yang mengandung nilai yang sebenarnya: data "standar emas" seperti itu sering tidak tersedia.

Akurasi telah dicapai dalam beberapa konteks pembersihan, khususnya data kontak pelanggan, dengan menggunakan basis data eksternal yang cocok dengan kode pos ke lokasi geografis (kota dan negara bagian), dan juga membantu memverifikasi bahwa alamat jalan dalam kode pos ini benar-benar ada.

4.   Lengkap
Derajat yang semua langkah yang diperlukan diketahui. Ketidaklengkapan hampir tidak mungkin untuk diperbaiki dengan metodologi pembersihan data: seseorang tidak dapat menyimpulkan fakta-fakta yang tidak ditangkap ketika data yang dipertanyakan pada awalnya direkam. (Dalam beberapa konteks, misalnya, data wawancara, dimungkinkan untuk memperbaiki ketidaklengkapan dengan kembali ke sumber asli data, yaitu, mewawancara ulang subjek, tetapi bahkan ini tidak menjamin keberhasilan karena masalah penarikan - misalnya, dalam wawancara untuk mengumpulkan data tentang konsumsi makanan, tidak ada yang mungkin ingat persis apa yang dimakan enam bulan yang lalu.

Dalam kasus sistem yang mengharuskan kolom tertentu tidak boleh kosong, orang dapat mengatasi masalah dengan menunjuk nilai yang menunjukkan "tidak diketahui" atau "hilang", tetapi penyediaan nilai-nilai default tidak menyiratkan bahwa data telah dibuat lengkap.

5.   Konsistensi
Tingkat di mana satu set langkah-langkah yang setara di seluruh sistem (lihat juga Konsistensi). Inkonsistensi terjadi ketika dua item data dalam kumpulan data saling berkontradiksi: misalnya, pelanggan dicatat dalam dua sistem yang berbeda sebagai memiliki dua alamat yang berbeda saat ini, dan hanya satu dari mereka yang bisa benar. Memperbaiki inkonsistensi tidak selalu mungkin: ia memerlukan berbagai f strategi - misalnya, memutuskan data mana yang direkam baru-baru ini, sumber data mana yang paling dapat diandalkan (pengetahuan terakhir mungkin khusus untuk organisasi tertentu), atau hanya mencoba menemukan kebenaran dengan menguji kedua item data (misalnya, memanggil pelanggan) .

6.   Uniformity
Tingkat yang menetapkan ukuran data ditetapkan menggunakan satuan ukuran yang sama di semua sistem (lihat juga Satuan ukuran). Dalam kumpulan data yang dikumpulkan dari lokal yang berbeda, berat dapat dicatat dalam pound atau kilo, dan harus dikonversi ke ukuran tunggal menggunakan transformasi aritmatika. Integritas istilah mencakup akurasi, konsistensi dan beberapa aspek validasi (lihat juga integritas data) tetapi jarang digunakan dengan sendirinya dalam konteks pembersihan data karena tidak cukup spesifik. (Misalnya, "integritas referensial" adalah istilah yang digunakan untuk merujuk pada penegakan batasan foreign-key di atas.)

References

 Wu, S. (2013), "A review on coarse warranty data and analysis", Reliability Engineering and System, 114: 1–11, doi:10.1016/j.ress.2012.12.021
 Nigrini, M. Forensic Analytics: Methods and Techniques for Forensic Accounting Investigations, Wiley. 2011
 The importance of data cleansing user-generated-content
 Kimball, R., Ross, M., Thornthwaite, W., Mundy, J., Becker, B. The Data Warehouse Lifecycle Toolkit, Wiley Publishing, Inc., 2008. ISBN 978-0-470-14977-5
 Olson, J. E. Data Quality: The Accuracy Dimension", Morgan Kaufmann, 2002. ISBN 1-55860-891-5

Tidak ada komentar:

Posting Komentar

close