Lompat ke konten
Home » Statistik » Tidy Data

Tidy Data

  • oleh

Tidy Data adalah cara standar untuk memetakan makna kumpulan data ke strukturnya. Kumpulan data berantakan atau rapi tergantung pada bagaimana baris, kolom, dan tabel dicocokkan dengan pengamatan, variabel, dan tipe.

Prinsip Tidy Data:

  • Setiap kolom adalah variabel.
  • Setiap baris adalah pengamatan.
  • Setiap sel adalah nilai tunggal.

Ini adalah bentuk normal ke-3 Codd, tetapi dengan batasan yang dibingkai dalam bahasa statistik, dan fokus diletakkan pada satu kumpulan data daripada banyak kumpulan data terhubung yang umum dalam basis data relasional. Data berantakan adalah susunan data lainnya.

Tidy Data memudahkan analis atau komputer untuk mengekstrak variabel yang dibutuhkan karena menyediakan cara standar untuk menyusun kumpulan data. Bandingkan versi yang berbeda dari data kelas: dalam versi berantakan Anda perlu menggunakan strategi yang berbeda untuk mengekstrak variabel yang berbeda.

Ini memperlambat analisis dan mengundang kesalahan. Jika Anda mempertimbangkan berapa banyak operasi analisis data yang melibatkan semua nilai dalam suatu variabel (setiap fungsi agregasi), Anda dapat melihat betapa pentingnya mengekstrak nilai-nilai ini dengan cara yang sederhana dan standar. Tidy Data sangat cocok untuk bahasa pemrograman vektor seperti R, karena tata letak memastikan bahwa nilai variabel yang berbeda dari pengamatan yang sama selalu dipasangkan.

Sementara urutan variabel dan pengamatan tidak mempengaruhi analisis, urutan yang baik memudahkan untuk memindai nilai mentah. Salah satu cara mengatur variabel adalah dengan perannya dalam analisis: apakah nilai ditentukan oleh desain pengumpulan data, atau apakah mereka diukur selama eksperimen?

Variabel tetap menggambarkan desain eksperimen dan diketahui sebelumnya. Ilmuwan komputer sering menyebut dimensi variabel tetap, dan ahli statistik biasanya menandainya dengan subskrip pada variabel acak. Variabel yang diukur adalah apa yang sebenarnya kita ukur dalam penelitian.

Variabel tetap harus didahulukan, diikuti oleh variabel terukur, masing-masing diurutkan sehingga variabel terkait saling berdekatan. Baris kemudian dapat diurutkan oleh variabel pertama, memutuskan hubungan dengan variabel kedua dan selanjutnya (tetap). Ini adalah konvensi yang diadopsi oleh semua tampilan tabel dalam makalah ini.

Merapikan kumpulan data yang berantakan

Kumpulan data nyata dapat, dan sering kali, melanggar tiga aturan data rapi dalam hampir semua hal yang dapat dibayangkan. Meskipun terkadang Anda mendapatkan kumpulan data yang dapat segera mulai dianalisis, ini adalah pengecualian, bukan aturannya. Bagian ini menjelaskan lima masalah paling umum dengan kumpulan data yang berantakan, beserta solusinya:

  • Header kolom adalah nilai, bukan nama variabel.
  • Beberapa variabel disimpan dalam satu kolom.
  • Variabel disimpan dalam baris dan kolom.
  • Beberapa jenis unit pengamatan disimpan dalam tabel yang sama.
  • Satu unit pengamatan disimpan dalam beberapa tabel.

Header kolom adalah nilai, bukan nama variabel

Jenis umum dari kumpulan data berantakan adalah data tabular yang dirancang untuk presentasi, di mana variabel membentuk baris dan kolom, dan header kolom adalah nilai, bukan nama variabel. Meskipun saya akan menyebut pengaturan ini berantakan, dalam beberapa kasus ini bisa sangat berguna. Ini menyediakan penyimpanan yang efisien untuk desain yang benar-benar bersilangan, dan dapat menghasilkan komputasi yang sangat efisien jika operasi yang diinginkan dapat dinyatakan sebagai operasi matriks.

Kode berikut menunjukkan subset dari kumpulan data tipikal dari formulir ini. Kumpulan data ini mengeksplorasi hubungan antara pendapatan dan agama di AS. Itu berasal dari laporan yang dihasilkan oleh Pew Research Center, sebuah lembaga pemikir Amerika yang mengumpulkan data tentang sikap terhadap topik mulai dari agama hingga internet, dan menghasilkan banyak laporan yang berisi kumpulan data dalam format ini.

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan.