Việc kiểm tra data completeness, data consistency, data accuracy và data integrity là những bước cốt lõi trong data validation và data profiling.
Trong một hệ thống xử lý dữ liệu hiện đại, việc đảm bảo dữ liệu đáng tin cậy, đúng đắn và đầy đủ rất quan trọng. Hai khái niệm then chốt trong việc này là data validation (xác minh dữ liệu) và data profiling (phân tích dữ liệu).
Dưới đây là một số khía cạnh của data validation mà bạn cần nắm rõ:
Liệu chúng ta có đủ dữ liệu không? Liệu có bị thiếu và nếu có, ta sẽ xử lý như thế nào? Cách đơn giản nhất là kiểm tra null count (đếm giá trị null) để xem bao nhiêu trường bị thiếu và tỉ lệ phần trăm là bao nhiêu.
VD: Khi tính trung bình mức lương từ một bộ dữ liệu, nếu một số dòng bị thiếu và bị thay thế bằng số 0, kết quả trung bình sẽ bị sai lệch nghiêm trọng.
Câu hỏi bạn cần tự đặt ra: Dữ liệu mình có đầy đủ không? Và nếu không, sẽ làm gì với những dòng thiếu?
Dữ liệu từ nhiều nguồn khác nhau hoặc nhiều bảng khác nhau có cùng cách biểu diễn không? Điển hình là kiểm tra kiểu dữ liệu và khoảng giá trị của các trường.
VD: Bạn có hai bảng rating phim, một bảng theo thang điểm 1-5, bảng kia theo thang 1-10. Kết hợp chúng mà không chuẩn hóa sẽ khiến việc phân tích sai lệch.
Liệu dữ liệu có đúng không? Có phản ánh đúng hiện thực không? Một số phương pháp có thể giúp:
Dữ liệu có còn giữ được tính đúng đắn qua thời gian không? Một trong những điển hình là việc kiểm tra foreign key (khóa ngoại) và mối quan hệ giữa các bảng.
VD: Bảng order tham chiếu đến bảng customer bằng customer_id. Nếu dữ liệu thay đổi mà không đồng bộ, ta sẽ bị mất móc liên hệ.
Việc kiểm tra data completeness, data consistency, data accuracy và data integrity là những bước cốt lõi trong data validation và data profiling. Việc này đảm bảo dữ liệu đầu vào đáng tin cậy và phù hợp để khai thác hiệu quả trong hệ thống big data hoặc dựa trên cloud.