Tutorial DQS untuk Data Cleansing dan Matching Policy
Halo semuanya, disini saya fredho pratama putra mahasiswa sistem informasi Institut Bisnis dan Informatika STIKOM Surabaya yang mengambil mata kuliah kualitas data akan membagikan tutorial melakukan Data Cleansing dan Matching Policy di aplikasi Data Quality Service atau DQS yang merupakan aplikasi yang sudah termasuk dalam aplikasi SQL server.
Pertama-tama apa itu aplikasi DQS? DQS adalah sebuah aplikasi untuk melakukan pengecekan kualitas suatu data agar nantinya data tersebut menjadi data yang berkualitas.
--Login Aplikasi DQS--
1. Langsung saja ke tutorial DQSnya, pertama-tama buatlah sebuah koneksi lokal menggunakan SQL Server agar bisa terkoneksi dengan DQS dan berhasil masuk ke aplikasinya, tampilan awal aplikasi DQS:
2. pilih server local, karena kita hanya menggunakan data yang ada dikomputer kita, selanjutnya tekan connect dan akan muncul tampilan seperti ini:
3. Knowledge base adalah tempat untuk mengatur domain sesuai dengan nama kolom di data excel kita, apabila belum mempunyai knowledge base maka di recent akan kosong, sesudah membuat sebuah knowledge base maka akan muncul di recent. Open knowledge base fungsi membuka knowledge base yang sudah pernah dibuat sebelumnya apabila tidak muncul di recent. Jika diperhatikan pada recent knowledge base maka ada tombol panah kecil di sebelah nama knowledge base kita, panah tersebuat berfungsi untuk mempermudah kita apabila ingin mengubah domain yang sudah kita buat atau membuat knowledge discovery baru.
--Membuat Knowledge Base--
1. Mari kita buat sebuah knowledge base baru, tekan new knowledge base dan akan muncul tampilan sebagai berikut:
2. Pertama isilah nama knowledge base yang akan dibuat dan bila perlu isi juga deskripsinya, berikutnya kita bisa memilih membuat knowledge base dari yang sudah atau benar-benar baru, apabila kita membuat baru maka pilih none agar knowledge base yang dibuat benar-benar baru, dalam tutorial ini mencontohkan untuk mengimport dqs file yang sudah ada, maka pilih import dqs file, kemudian browse atau cari file dqs yang hendak di import, kemudian akan muncul tampilan sebagai berikut:
3. Maka akan muncul domain-domain yang sudah dibuat, untuk membuat domain dari awal akan dibahas di tutorial selanjutnya. selanjutnya pilih aktivitas apa yang hendak dilakukan pada kolom bawah kanan, karena domain sudah jadi maka klik next dan akan muncul popup berupa pesan bahwa import berhasil. Berikutnya akan muncul tampilan domain management untuk mengecek kembali domain-domain yang sudah dibuat supaya memastikan semua domain telah berkualitas dan sudah sesuai dengan kebijakan perusahaan. setelah semua domain sudah sesuai klik finish dan akan popup menanyakan apabila kita ingin mempublish hasil domain kita, klik publish dan akan muncul popup bahwa domain tersebut sudah terpublish dan akan muncul di recent knowledge base.
--Knowledge Discovery--
1. Selanjutnya klik panah disebelah nama domain Adventure Work dan pilih Knowledge Discovery dan akan muncul tampilan sebagai berikut:
2 Selanjutnya pilih data source dari excel bukan sql karena data saya berupa file excel, lalu browse atau cari file excelnya, ada beberapa macam format file yang dapat dipakai untuk aplikasi dqs, seperti .xlxs untuk excel tahun 2010 ke atas, .xlx untuk excel tahun 2010 kebawah dan .csv ini format file yang saya pakai karena apabila memakai dua format file lainnya akan error, tampilannya seperti berikut:
3. Kemudian isikan source column sesuai dengan semua data kolom tabel di excel dan cocokkan dengan domain yang telah dibuat sebelum sehingga terisi seperti berikut:
4. Klik next, dan akan muncul tampilan sebagai berikut:
5. Klik start dan tunggu beberapa saat, kemudian hasil akan keluar sesuai dengan 6 dimensi kualitas data yakni: Completeness, Uniqueness, Timeliness, Validity, Accuracy, dan Consistency yang akan dibahas lebih dalam di tutorial berikutnya. Hasilnya sebagai berikut:
6. Kolom new menjelaskan apakah ada data baru atau tidak pada field dan domain yang dipilih sebelumnya, karena ini adalah pertama kali melakukan knowledge discovery maka hampir semua data adalah baru, ada beberapa error pada domain pada marital status dan gender maka kedua domain tersebut bisa tidak dipilih di langkah sebelumnya, lalu ada kolom unique yang menjelaskan sebarapa unik data tersebut, selanjutnya ada kolom valid in domain ada kolom pengecekan apakah domain yang dipilih dan terisi data sudah cocok dengan rules atau tidak, selanjutnya ada kolom completeness yang menjelaskan bahwa data tersebut sudah komplit atau tidak, apabila sudah selesai mereview hasil tersebut klik next dan akan muncul tampilan untuk mereview hasil lebih dalam lagi. Jika sudah selesai mereview hasil data klik finish, publish dan ok,
--Matching Policy--
1. Setelah knowledge discovery di publish, maka akan kembali ke halaman utama DQS. Langkah selanjutnya klik tombol panah disebelah knowledge base adventure work dan pilih matching policy dan akan muncul yang sama dengan knowledge discovery, isikan domain dan source code yang sesuai dan digunakan untuk melakukan matching policy jadi tidak semua kolom harus diisi, tampilannya seperti berikut:
2. Klik next dan akan muncul sebuah tampilan kosong, klik ikon tambah dibawah tulisan create macthing policies, maka akan muncul sebuah tampilan baru seperti berikut:
3. Beri nama rule dan bila perlu isikan juga deskripsi rulenya, min matching score adalah total hasil yang didapat dari hasil yang diproses oleh aplikasi apabila sebuah data mendapat skor 80 maka data tersebut terindikasi data yang duplikasi. Berikutnya adalah rule editor disini adalah tempat untuk menentukan rule yg hendak dibuat dengan tingkat kesamaan dan bobok skornya. Apabila sebuah domain diisi dengan tingkat kesamaan exact, maka data pada domain tersebut akan dianggap tidak sama seperti tanggal lahir, tanggal 1 Januari dan 2 Januari oleh sistem akan dianggap berbeda, apabila tanggal lahirnya sama, maka domain lainnya akan dicek itulah fungsi bobot skor, untuk menentukan berapa persen tingkat kesamaan data 1 dengan data lainnya. Klik start dan tunggu beberapa saat hingga hasilnya keluar, contoh:
4. Pada contoh diatas terdapat 2 data yang terindikasi duplikasi, untuk melihat data yang tidak terduplikasi, klik dropbox di sebelah filter dan pilih unmatched maka seluruh data yang tidak terindikasi duplikasi akan muncul disana. Klik next untuk langkah selanjutnya. Akan ada tampilan matching result. Langkah sebelumnya adalah langkah pengecekan data didomain anda dengan matching policy yang sudah dibuat. Klik start dan tunggu beberapa saat hingga hasilnya keluar. Setelah hasilnya keluar silahkan di review, apabila sudah klik finish dan publish.
--Data Cleansing--
2. Maka akan muncul tampilan sebagai berikut, langkah selanjutnya hampir sama dengan langkah-langkah sebelum, kemudian klik next,
3. Di tampilan berikutnya klik next dan tunggu beberapa saat hingga hasilnya keluar, setelah hasilnya keluar maka anda dapat mereview data yang sudah sesuai, data yang dibenarkan oleh sistem dan data yang salah atau tidak berkualitas, jika sudah klik next, contoh
4. Setelah di next akan muncul tampilan review data cleansing, apabila ada data yang invalid bisa dibenarkan sebagai berikut:
5. Apabila semua data sudah cocok dan sesuai silahkan next, maka akan muncul tampilan untuk mengekspor hasil data cleansing yang sudah dilakukan, ekspor bisa melalui 3 format file, sql server, xlx/s dan csv, saya akan mengekspor ke csv dan memilih data dan cleansing info, setelah mengekspor file clean silahkan pilih data only untuk membandingkan datanya.
--Matching--
1. Sebenarnya langkah melakukan matching dan matching policy hampir sama, untuk melakukan matching klik new data quality project sama seperti data cleansing, beri nama, pilih knowledge basenya, klik next, langkah selanjutnya sama seperti matching policy, contoh:
2. Klik next, klik start dan tunggu hasilnya, review hasil matching, jika sudah klik next, contoh:
3. Selanjutnya adalah tampilan ekspor hasil matching, silahkan pilih tipe format file yang hendak diekspor, saya memilih .CSV dan saya mencentang matching result dan browse tempat file excel hendak disimpan, jika sudah klik finish. Contoh:
Sekian tutorial data cleansing dan matching policy pada aplikasi DQS SQL Server. Tutorial ini dapat saya bagikan kepada anda karena saya telah dibimbing di mata kuliatas data oleh Pak Valen dan akhirnya saya dapat membagikan tutorial ini, terima kasih. Saya harap dapat membantu dalam pengerjaan tugas dan terima kasih.
2. Klik next, klik start dan tunggu hasilnya, review hasil matching, jika sudah klik next, contoh:
3. Selanjutnya adalah tampilan ekspor hasil matching, silahkan pilih tipe format file yang hendak diekspor, saya memilih .CSV dan saya mencentang matching result dan browse tempat file excel hendak disimpan, jika sudah klik finish. Contoh:
Sekian tutorial data cleansing dan matching policy pada aplikasi DQS SQL Server. Tutorial ini dapat saya bagikan kepada anda karena saya telah dibimbing di mata kuliatas data oleh Pak Valen dan akhirnya saya dapat membagikan tutorial ini, terima kasih. Saya harap dapat membantu dalam pengerjaan tugas dan terima kasih.
Comments
Post a Comment