Dalam era digital, data dikumpul pada skala yang belum pernah berlaku sebelum ini. Data besar (Big Data) kini menjadi aset strategik dalam pelbagai bidang seperti perniagaan, kesihatan, sains, dan pendidikan. Manusia dan data pada hari ini tidak dapat dipisahkan. Setiap aktiviti harian seperti carian di internet atau penggunaan kad kredit menyumbang kepada pengumpulan maklumat dan data harian. Namun, cabaran sebenar bukan sekadar jumlah data yang banyak, tetapi bagaimana untuk memahami dan menggunakannya dengan berkesan. Ilmu statistik memainkan peranan penting dengan menyediakan pendekatan saintifik untuk menganalisis, mentafsir, dan memahami maklumat yang diperoleh daripada data besar.
![]() |
Sebelum menyelusuri peranan dan aplikasi sebenar data besar ini, mari kita kenali terlebih dahulu apa itu definisi data besar. Data besar merujuk kepada set data yang sangat besar, pelbagai dan berubah dengan pantas, yang tidak dapat diproses dengan kaedah statistik tradisional. Ciri-ciri utama data besar dikenali sebagai "3V" iaitu:
Statistik memainkan peranan yang sangat penting dalam data besar ini bagi memastikan data diproses dan dianalisa untuk menghasilkan keputusan yang infomatif. Pada peringkat awal, data yang dihasilkan dalam jumlah yang banyak tidak melalui proses tapisan data. Selepas proses kutipan data selesai, proses seterusnya adalah menapis data yang tidak relevan atau tidak lengkap. Proses tapisan data atau dikenali sebagai pembersihan data ini penting bagi mendapatkan set data yang berkualiti. Setelah data yang lengkap diperolehi, permodelan model statistik dikenalpasti untuk menganalisa keputusan ramalan yang akan datang. Keputusan ramalan ini akan digunakan oleh para pengusaha perniagaan, para penyelidik dan mereka yang berkepentingan bagi membuat keputusan penting. Selain itu, maklumat yang diperoleh dari analisa boleh disampaikan kepada komuniti dengan menggunakan pelbagai jenis grafik seperti graf, carta pai, carta palang, jadual dan sebagainya. Bentuk-bentuk ini lebih mudah untuk difahami bagi mereka yang tiada asas dalam statistik.
![]() |
Statistik menjadi asas kepada algoritma seperti regresi. Analisis regresi ialah satu kaedah statistik yang digunakan untuk meneroka dan mengukur hubungan antara dua atau lebih pembolehubah. Sebagai contoh bagi menerangkan konteks ini, kita ingin mengetahui sejauh mana masa yang diperuntukkan untuk permainan atau latihan yang berbentuk fizikal (pembolehubah tidak bersandar) mempengaruhi indeks jisim badan atau BMI (pembolehubah bersandar). Secara umumnya, aktiviti fizikal yang lebih tinggi dikaitkan dengan kawalan berat badan yang lebih baik. Namun, ini perlu dibuktikan dengan nilai analisa regresi tersebut.
Data besar memainkan peranan yang sangat penting dan aplikasinya dunia sebenar dalam pelbagai bidang khususnya bidang perniagaan. Syarikat seperti Amazon dan Lazada menggunakan analisis statistik untuk mencadangkan produk berdasarkan sejarah pembelian pengguna. Analisis sentimen pelanggan melalui ulasan dapat meningkatkan perkhidmatan pelanggan. Selain itu, dalam bidang kesihatan pula, statistik membantu meramal penyebaran penyakit, mengesan pola kesihatan, dan mempercepatkan penemuan ubat. Hospital menggunakan data besar untuk memperibadikan rawatan pesakit berdasarkan rekod kesihatan.
Sebagai contoh, semasa kemuncak pandemik COVID-19, ahli epidemiologi menggunakan model statistik dan matematik seperti model SIR (Susceptible-Infectious-Recovered) atau SEIR (Susceptible-Exposed-Infectious-Recovered) untuk meramalkan kadar jangkitan harian dan mingguan, menilai kebarangkalian gelombang baharu dan menganggarkan jumlah katil hospital atau ICU yang diperlukan.

Cabaran dalam bidang statistik dan data besar semakin ketara sejajar dengan perkembangan teknologi dan peningkatan jumlah data yang dihasilkan setiap hari. Salah satu cabaran utama ialah isu privasi dan etika, di mana data yang dikumpul sering mengandungi maklumat sensitif yang perlu dilindungi dengan betul bagi mengelakkan penyalahgunaan dan pencabulan hak individu. Pelbagai jenis kes yang melibatkan penipuan wang ringgit turut membimbangkan orang ramai. Data yang dikumpul tidak dilindungi menyebabkan data tersebut bocor dan akan diambil kesempatan oleh pihak yang tidak bertanggungjawab.
Selain itu, kualiti data juga menjadi salah satu isu cabaran kerana tidak semua data besar yang dikumpulkan adalah tepat, lengkap atau bersih dan ini sekaligus boleh menjejaskan keputusan analisis yang dijalankan. Pada masa yang sama, terdapat keperluan yang tinggi terhadap kepakaran teknikal, terutamanya penganalisis data yang mahir dalam bidang statistik dan pengaturcaraan, bagi memastikan data dapat ditafsir dan digunakan secara efektif untuk memberi nilai tambah kepada organisasi atau penyelidikan.
Statistik dan data besar saling berkait dalam membentuk masa depan digital. Pemahaman terhadap prinsip statistik membolehkan kita menggunakan data dengan lebih bijak, menyelesaikan masalah dunia sebenar, dan membuat keputusan berdasarkan bukti. Konklusinya, pendidikan statistik dan celik data harus diperkukuhkan dalam kalangan masyarakat amnya dan para pelajar khususnya pada masa ini seiring dengan perkembangan teknologi yang pesat.
Rujukan:
Disediakan oleh,
Wan Nur Atikah Wan Mohd Adnan
Unit Matematik
Tarikh Input: 25/06/2025 | Kemaskini: 26/06/2025 | hasniah

Universiti Putra Malaysia
43400 UPM Serdang
Selangor