Dengan semua hype di sekitar besar data analytics, tidak cukup perhatian yang diberikan kepada kualitas data atau validasi model dibangun pada data. Meskipun sifat deterministik mereka, algoritma hanya sebagai baik sebagai data pemodel mereka bekerja dengan.
Hanya didefinisikan, algoritma mengikuti serangkaian petunjuk untuk memecahkan masalah berdasarkan input variabel dalam model dasar. Dari trading frekuensi tinggi, nilai kredit dan asuransi untuk pencarian web, merekrut dan kencan online, Cacat algoritma dan model dapat menyebabkan perpindahan besar di pasar dan kehidupan. Fokus berlebihan pada volume, kecepatan dan berbagai data dan teknologi muncul untuk menyimpan, memproses dan menganalisis yang diberikan tidak efektif jika algoritma menghasilkan hasil-hasil keputusan yang buruk atau pelanggaran hp samsung keluaran terbaru.
Satu contoh adalah kilat kecelakaan yang terjadi pada tanggal 6 Mei 2010. Dalam beberapa menit, The Dow Jones Industrial average jatuh 1.000 poin hanya untuk memulihkan kurang dari 20 menit kemudian. Sementara penyebab tidak pernah sepenuhnya dijelaskan, banyak pelaku pasar setuju bahwa algoritma kuantitatif yang harus disalahkan. Dengan algoritma bertanggung jawab atas sampai 75% dari volume perdagangan, potensi masa depan peristiwa bencana lebih dari mungkin. Meskipun efisiensi, tidak adanya intervensi manusia mengakibatkan jumlah kejadian yang memicu lebih perdagangan ke tangki pasar lebih lanjut. Kita belajar apa-apa dari portofolio asuransi pada 1980-an yang pada akhirnya menyebabkan kecelakaan tahun 1987?
Pada tingkat yang lebih individual, algoritma berdasarkan data pribadi, seperti kode pos, sejarah pembayaran dan catatan kesehatan memiliki potensi untuk menjadi diskriminatif dalam menentukan asuransi dan nilai kredit. Termasuk data sosial ke dalam campuran dan asumsi-asumsi yang dihasilkan dalam model dapat condong hasil lebih jauh.
Contoh lain adalah wahyu tentang NSA pengumpulan dan analisis informasi pribadi. Pemerintah telah diberlakukan Undang-undang untuk memungkinkan data pertambangan untuk langsung atau non-jelas korelasi dalam nama keamanan nasional. Algoritma serupa yang digunakan untuk profil oleh polisi departemen. Kesalahan pemodelan yang mungkin memiliki pengaruh yang sangat buruk pada setiap hari warga. Dan potensi pelanggaran privasi pribadi meninggalkan lubang menganga di pemerintahan.
Pemodelan di bidang dengan lingkungan yang dikendalikan dan masukan data yang dapat diandalkan, penemuan obat atau memprediksi pola lalu lintas menyediakan ilmuwan kemewahan waktu untuk memvalidasi model mereka. Namun, dalam pencarian web cakrawala waktu mungkin dua detik dan di lantai perdagangan, milidetik.
Fokus pada model validasi
Sebagai data besar menjadi lebih luas, itu menjadi lebih penting untuk memvalidasi model dan integritas data hp samsung terbaru. Korelasi antara dua variabel tidak berarti bahwa satu menyebabkan yang lain. Koefisien penentuan dapat dengan mudah dimanipulasi untuk menyesuaikan hipotesis di belakang model. Dengan demikian, ini juga mendistorsi analisis residu. Model untuk data spasial dan fosil hanya akan muncul untuk menyulitkan validasi lebih jauh.
Alat manajemen data telah meningkat secara signifikan meningkatkan keandalan masukan data. Sampai mesin merancang model, fokus pada kebenaran data akan memperbaiki model validasi dan mengurangi, tidak menghilangkan, bias yang melekat. Itu juga akan menghasilkan data yang lebih berharga.
Cara untuk meningkatkan kualitas data
Data yang buruk ini tidak hanya masalah itu. Data yang hilang, misfielded atribut dan record-record duplikat di antara penyebab model data Cacat. Ini pada gilirannya, merusak kemampuan organisasi untuk melaksanakan strategi, memaksimalkan pendapatan dan biaya peluang dan mematuhi tata kelola, peraturan dan mandat kepatuhan (GRC). Organisasi perlu untuk memberlakukan peraturan, kebijakan dan proses untuk mengidentifikasi akar penyebab dan menjamin integritas data yang lebih baik.