Breaking

Selasa, 03 Juli 2018

Pembersihan Data atau Data Cleansing jilid 1


Pembersihan data atau Data Cleansing adalah proses mendeteksi dan mengoreksi (atau menghapus) catatan yang korup atau tidak akurat dari satu set catatan, tabel, atau basis data dan mengacu pada pengidentifikasian bagian-bagian data yang tidak lengkap, salah, tidak akurat atau tidak relevan dan kemudian menggantikan, memodifikasi, atau menghapus data yang kotor atau kasar. Pembersihan data dapat dilakukan secara interaktif dengan alat pengatur data, atau sebagai pemrosesan batch melalui scripting.

Setelah pembersihan, satu set data harus konsisten dengan set data lain yang serupa dalam sistem. Ketidakkonsistenan yang terdeteksi atau dihapus mungkin awalnya disebabkan oleh kesalahan entri pengguna, oleh korupsi dalam transmisi atau penyimpanan, atau oleh definisi kamus data yang berbeda dari entitas yang sama di toko yang berbeda. Pembersihan data berbeda dari validasi data dalam validasi itu hampir selalu berarti data ditolak dari sistem saat masuk dan dilakukan pada saat masuk, daripada pada batch data.

Proses pembersihan data yang sebenarnya mungkin melibatkan penghapusan kesalahan tipografi atau memvalidasi dan mengoreksi nilai terhadap daftar entitas yang dikenal. Validasi mungkin ketat (seperti menolak alamat apa pun yang tidak memiliki kode pos yang valid) atau fuzzy (seperti mengoreksi catatan yang sebagian sesuai dengan catatan yang sudah ada dan dikenal).

Beberapa solusi pembersihan data akan membersihkan data dengan pemeriksaan silang dengan kumpulan data yang divalidasi. Praktik pembersihan data umum adalah peningkatan data, di mana data dibuat lebih lengkap dengan menambahkan informasi terkait. Misalnya, menambahkan alamat dengan nomor telepon yang terkait dengan alamat itu.

Pembersihan data juga dapat melibatkan kegiatan seperti, harmonisasi data, dan standardisasi data. Misalnya, harmonisasi kode pendek (jl, kec, kab, dll.) Dengan kata-kata yang sebenarnya (jalan, kecamatan, kabupaten, dan sebagainya). Standarisasi data adalah sarana untuk mengubah kumpulan data referensi menjadi standar baru, misalnya, penggunaan kode standar.

Secara administratif, data yang salah atau tidak konsisten dapat mengarah pada kesimpulan yang salah dan investasi yang salah arah pada skala publik dan pribadi. Misalnya, pemerintah mungkin ingin menganalisis angka sensus penduduk untuk memutuskan daerah mana yang membutuhkan pengeluaran dan investasi lebih lanjut untuk infrastruktur dan layanan. Dalam hal ini, penting untuk memiliki akses ke data yang dapat diandalkan untuk menghindari keputusan fiskal yang salah.

Di dunia bisnis, data yang salah bisa mahal. Banyak perusahaan menggunakan basis data informasi pelanggan yang mencatat data seperti informasi kontak, alamat, dan preferensi. Misalnya, jika alamat tidak konsisten, perusahaan akan menanggung biaya pengiriman ulang atau bahkan kehilangan pelanggan.

Profesi akuntansi forensik dan investigasi penipuan menggunakan pembersihan data dalam mempersiapkan datanya dan biasanya dilakukan sebelum data dikirim ke gudang data untuk penyelidikan lebih lanjut. Ada paket yang tersedia sehingga Anda dapat membersihkan / mencuci data alamat saat Anda memasukkannya ke dalam sistem Anda. Ini biasanya dilakukan melalui antarmuka pemrograman aplikasi (API).

References Wu, S. (2013), "A review on coarse warranty data and analysis", Reliability Engineering and System, 114: 1–11, doi:10.1016/j.ress.2012.12.021 Nigrini, M. Forensic Analytics: Methods and Techniques for Forensic Accounting Investigations, Wiley. 2011 The importance of data cleansing user-generated-content Kimball, R., Ross, M., Thornthwaite, W., Mundy, J., Becker, B. The Data Warehouse Lifecycle Toolkit, Wiley Publishing, Inc., 2008. ISBN 978-0-470-14977-5 Olson, J. E. Data Quality: The Accuracy Dimension", Morgan Kaufmann, 2002. ISBN 1-55860-891-5



Tidak ada komentar:

Posting Komentar

close