Làm sạch dữ liệu là một hoạt động không thể thiếu trong quá trình nghiên cứu nhằm loại bỏ những “lỗi” ở bộ số liệu trước khi đưa vào phân tích. Đơn cử trường hợp tại câu hỏi về giới tính thông tin được điền là nam nhưng câu hỏi liên quan phía sau được trả lời là có tham gia hội phụ nữ. Thông thường, phụ nữ mới có thể trở thành thành viên hội phụ nữ; như vậy ở đây, khả năng sẽ là tối thiểu một trong hai câu ở trên bị sai thông tin. Hoặc ví dụ khác, câu hỏi về giới tính chỉ mặc định 2 phương án: 1. Nữ; 2. Nam, nhưng trong bảng nhập liệu được nhập là 3. Tất cả những vấn đề đó cần phải xem lại để chỉnh sửa hoặc loại bỏ nhằm gia tăng tính logic, khoa học và thuyết phục của bộ số liệu. Có những lỗi tưởng chứng như đơn giản nhưng nếu chúng ta bỏ qua và vô tình đưa vào bộ số liệu nếu bị phát hiện thì trông thật ngớ ngẩn.
Bước 1, phát hiện, cơ bản nhất có 3
cách:
- Cách thứ nhất, chạy bảng tần suất để
kiểm tra những bất thường trong bộ số liệu. Ví dụ:
- Cách thứ hai, chạy bảng crosstabs, ví dụ:
- Cách thứ ba, kiểm tra giữa 2 lần nhập (cách
này chỉ sử dụng cho bảng hỏi nhập 2 lần). Thông thường việc nhập bảng hỏi 2 lần
để so sánh là yêu cầu bắt buộc đối với những bộ số liệu đòi hỏi độ chính xác
cao. Epidata là chương trình nhập liệu thích hợp cho cách thứ ba này. Trong
Epidata, sau khi dùng lệnh Validate Duplicate Files để đưa 2 file dữ liệu vào,
chương trình sẽ đưa ra kết quả 2 cột thông báo đối với những bảng hỏi không
khớp nhau -> cần kiểm tra.
Bước 2, kiểm tra:
Đối với
ví dụ 1,
Sau khi
phát hiện lỗi, chúng ta kiểm tra lỗi nằm ở bảng hỏi nào, các cách để tìm kiếm:
Vào
Edit, chọn find, hoặc bấm tổ hợp phím Ctrl F. Đánh giá trị bất thường, chẳng
hạn 3 và 13 ở ví dụ 1, sau đó gióng sang mã phiếu câu hỏi.
Hoặc có
thể sử dụng lệnh Sort Cases. Với lệnh này, chương trình sẽ sắp xếp theo thứ tự
từ cao lên thấp, những giá trị khác với biến mặc định sẽ là bất thường.
Đối với
ví dụ 2,
Vào
Data, chọn Select Case, chon If. Giao diện hiện ra, đưa hàm lệnh tuổi=15&số
con =3. Continue => OK. Chương trình sẽ gạch chéo hết những ô không phải
đúng với điều kiện trên.
Đồng
thời sẽ xuất hiện 1 câu khác ở phía cuối (kéo thanh ngang chạy về cuối) có tên
là filter_$. Những câu không thoả mãn với điều kiện (tuổi=15 và con=3) và bị
gạch chéo sẽ nhận giá trị 0. Còn những câu thoả mãn với điều kiện nhận giá trị
1. Như vậy những câu nhận giá trị 1 là câu có lỗi. Tiếp tục tìm kiếm câu có lỗi
theo cách như ở ví dụ 1 nêu trên.
Bước 3, sửa lỗi
Những
bảng hỏi có vấn đề sau khi tìm kiếm cần được xác định lỗi ở đâu để tiến hành
sửa chữa. Quy trình sửa chữa thật đơn giản khi số liệu sai, thiếu logic chỉ là
do lỗi nhập liệu, việc sửa chữa chỉ là sai ở đâu sửa ở đấy. Điều khó khăn sẽ
xảy ra khi việc nhập liệu là hoàn toàn chính xác nhưng vẫn tồn tại thông tin
sai, thiếu logic. Trong trường hợp này, đòi hỏi người thực hiện việc làm sạch phải
giàu kinh nghiệm về nghiên cứu và có tư duy tổng hợp logic tốt. Với những thông
tin thiếu/để trống sai, có mâu thuẫn, quyết định sửa chữa hay không đều
phải tuân thủ nguyên tắc là chỉ thay đổi thông tin khi chắc chắn thông tin đó
là chính xác và kiểm chứng được, đối với trường hợp không chắc chắn thì để
trống. Với những thông tin sai/thiếu logic, người làm sạch cần dựa vào hàng
loạt thông tin khác trong bảng hỏi, thông tin được sửa chữa cần đảm bảo phù hợp
logic.
Tóm lại,
làm sạch dữ liệu là hoạt động bắt buộc đối với nghiên cứu phân tích dựa trên số
liệu thực chứng. Quy trình làm sạch đòi hỏi người thực hiện phải có kinh nghiệm
nghiên cứu dự án, phân tích dữ liệu và đặc biệt là cần có tính kiên trì chịu
khó khi gặp bộ số liệu có số lượng biến hoặc số lượng trường hợp nghiên cứu
nhiều. Số liệu nghiên cứu càng giảm được thông tin thiếu, thông tin không logic
thì càng đảm bảo tính khoa học, nhất quán.
Có thể
bạn quan tâm > Dịch vụ Nhập số liệu
Có thể
bạn quan tâm > Dịch vụ Xử lý số liệu
Có thể
bạn quan tâm > Dịch vụ Khảo sát thông tin tại thực địa
No comments:
Post a Comment