Chuẩn bị dữ liệu và xử lí dữ liệu
Chương này đề cập đến các nội dung chính sau: - Chuẩn bị dữ liệu để xử lý - Các phương pháp và nguyên tắc mã hoá dữ liệu - Một số vấn đề liên quan đến xử lý và diễn giải dữ liệu - Bảng phân phối tần suất và ...
Chương này đề cập đến các nội dung chính sau:
- Chuẩn bị dữ liệu để xử lý
- Các phương pháp và nguyên tắc mã hoá dữ liệu
- Một số vấn đề liên quan đến xử lý và diễn giải dữ liệu
- Bảng phân phối tần suất và bảng so sánh
- Ước lượng tham số
- Ứng dụng tin học vào phân tích dữ liệu nghiên cứu Marketing
- Phân tích thống kê mô tả
Để dữ liệu chuyển thành thông tin theo mục tiêu nghiên cứu, cần phải xử lý và phân tích dữ liệu. Tuy nhiên, vì dữ thu thập từ hiện trường về còn ở dạng “thô” nên cần thiết phải thực hiện khâu chuẩn bị dữ liệu. Chuẩn bị dữ liệu là làm cho dữ liệu có giá trị, hiệu chỉnh dữ liệu, cấu trúc và mã hoá dữ liệu. Làm cho dữ liệu có giá trị là kiểm tra các dữ liệu để đảm bảo chúng có giá trị đối với việc xử lý và phân tích. Hiệu chỉnh dữ liệu là sửa chữa các sai sót về ghi chép hoặc ngôn từ phát hiện được qua kiểm tra. Mã hóa dữ liệu là nhận diện và phân loại mỗi câu trả lời trên một ký hiệu (bằng số hoặc bằng chữ). Có 3 cách cơ bản để xử lý các dữ liệu xấu đó là quay trở lại người phỏng vấn hoặc người trả lời để làm sáng tỏ vấn đề; suy luận từ các câu trả lời khác hoặc loại toàn bộ câu trả lời.
Để dữ liệu thu thập thường được xử lý bằng máy điện toán nên chúng ta phải mã hoá dữ liệu. Mã hóa dữ liệu là quá trình liên quan tới việc nhận diện và phân loại mỗi câu trả lời trên một ký hiệu định (ký hiệu có thể bằng số hoặc bằng chữ). Công việc mã hóa có thể được thực hiện từ khi thiết kế bản câu hỏi (mã hoá trước) hoặc sau khi dữ liệu được thu thập về (mã hoá sau). Mã hoá sau thường dùng đối với các câu hỏi mở vì câu trả lời thường theo tình huống tự do nên nhiều khi không dự đoán trước được. Khi thiết lập kiểu mã hóa cần phải chú ý các nguyên tắc: đảm bảo số kiểu mã hóa thích hợp, ranh giới giữa các “loại mã hóa” rõ ràng, thông tin trả lời được xếp trong cùng một loại mã hóa phải tương tự nhau về đặc trưng nghiên cứu, đóng kín các khoảng lớp...
Dữ liệu sau khi đã được chuẩn bị tốt sẽ tiến hành phân tích và diễn giải để tìm hiểu và rút ra ý nghĩa của các dữ liệu, cung cấp thông tin làm căn cứ đề xuất các giải pháp rõ ràng và khoa học hơn. Phân tích và diễn giải dữ liệu là hai công việc gắn kết với nhau. Phân tích dữ liệu đúng là
điều kiện để đạt được sự diễn giải đúng. Tuy nhiên nếu phân tích đúng nhưng kết quả được giải thích sai lệch thì cũng không có được thông tin đúng.
Phân tích dữ liệu ở mức độ cơ bản đầu tiên liên quan đến các kỹ thuật lập bảng đơn giản hay lập bảng so sánh toàn diện, đo lường khuynh hướng hội tụ và phân tán, ước lượng các thông số thích hợp. Bảng đơn giản tính số lần xuất hiện đặc tính giống nhau của cùng một biến. Sự phân bố này có thể được đánh giá là có tuân theo qui luật phân phối chuẩn hay không bằng các hệ số Skewness và Kurtosis là các hệ số đo lường mức độ đối xứng và độ nhọn của phân phối. Bảng chéo khác bảng đơn giản là người ta đưa thêm nhân tố ảnh hưởng để phân tích cụ thể hơn đặc tính của dữ liệu. Vì chúng ta thường không khảo sát toàn bộ tổng thể mà sử dụng mẫu nên trong nhiều tình huống phải ước lượng giá trị tham số tổng thể từ giá trị mẫu để có thông tin cho ra quyết định như ước lượng giá trị trung bình, tỷ lệ, phương sai, sự khác biệt hai giá trị trung bình của hai tổng thể, sự khác biệt tỷ lệ giữa hai tổng thể. Hiện nay, việc phân tích dữ liệu ngày càng trở nên nhanh chóng và đơn giản hơn bởi chúng ta có thể ứng dụng những phần mềm rất hiệu quả trong công việc này.
Quy trình phân tích và xử lí bắt đầu sau khi dữ liệu đã được thu thập. Nhưng trước khi xử lí phải diễn giải các dữ liệu ra một dạng thích hợp vì những dữ liệu mới được thu thập vẫn còn ở dạng 'thô' chưa thể xử lí ngay được mà chúng cần được sắp xếp, được mã hóa theo những cách thức nhất định để dễ dàng cho việc sử dụng máy vi tính trợ giúp xử lí dữ liệu sau này.
Làm cho dữ liệu có giá trị
Sau khi thu thập dữ liệu phải kiểm tra các dữ liệu để bảo đảm chúng có ý nghĩa, tức là có giá trị đối với việc xử lý và phân tích. Việc làm cho dữ liệu có giá trị tiến hành theo hai bước:
- Bước thứ nhất: Tiến hành xem xét một cách kỹ lưỡng các phương pháp và các biện pháp đã được sử dụng để thu thập dữ liệu (tức kiểm tra các công cụ dùng để thu thập dữ liệu)
- Bước thứ hai: Tiến hành nghiên cứu kỹ các bảng câu hỏi đã được phỏng vấn và những chỉ dẫn về thủ tục phỏng vấn để phát hiện ra những nguyên nhân dẫn đến các sai sót.
Hiệu chỉnh dữ liệu
Do những nguyên nhân khách quan và chủ quan, quá trình thu thập dữ liệu dù được chuẩn bị chu đáo vẫn còn có thể tồn tại những sai sót, vì vậy phải hiệu chỉnh để dữ liệu có ý nghĩa đối với quá trình nghiên cứu. Hiệu chỉnh dữ liệu là sửa chữa các sai sót về ghi chép hoặc ngôn từ phát hiện được qua kiểm tra. Trong khi hiệu chỉnh cần sửa chữa những sai sót phổ biến sau:
- Những cuộc phỏng vấn giả tạo do người đi phỏng vấn “phịa” ra
- Như câu trả lời không đầy đủ (là những câu trả lời không rõ ý hoặc trả lời nửa chừng)
- Những câu trả lời thiếu nhất quán.
- Những câu trả lời không thích hợp.
- Những câu trả lời không đọc được.
Có 3 cách tiếp cận được sử dụng để xử lí các dữ liệu 'xấu' từ các tình huống đó.
Quay trở lại người đi phỏng vấn hay người trả lời câu hỏi để làm sáng tỏ vấn đề
Việc liên hệ với các cá nhân để tìm câu trả lời đúng làm nảy sinh hai vấn đề:
- Làm tăng chi phí và sẽ quá đắt nếu cuộc khảo sát có quy mô vì chi phí phỏng vấn này đã được tính trong dự án nghiên cứu. Theo kinh nghiệm, ngwời nghiên cứu có thể không cần tìm cách thu thập thêm dữ liệu nếu tỉ lệ các câu hỏi nghi vấn tương đối nhỏ và / hoặc quy mô của mẫu tương đối lớn (tỉ lệ các câu hỏi nghi vấn nhỏ hơn 20% và mẫu lớn hơn 500).
- Nếu quyết định đi ngược trở lại để thu thập dữ liệu, những dữ liệu mới có thể sẽ khác với dữ liệu đã được thu thập trong cuộc phỏng vấn đầu tiên do các cá nhân có thể không nhớ thông tin cần thiết, cũng như có thể do sử dụng phương pháp khác và điều này ảnh hưởng rất lớn đến kết quả của câu trả lời (liên quan đến độ tin cậy của cuộc điều tra).
Suy luận từ những câu trả lời khác
Theo cách này, người hiệu chỉnh phỏng đoán từ các dữ liệu khác để làm rõ câu trả lời nào đúng. Nhưng đây là cách làm đầy rủi ro. Khó có thể minh định được các quy luật để suy luận các câu trả lời. Do đó để an toàn khi hiệu chỉnh dữ liệu, người nghiên cứu cần hết sức thận trọng với phương pháp này, và không nên suy luận một câu trả lời trừ phi biết tương đối chắc chắn về ý định của người trả lời.
Loại toàn bộ câu trả lời
Đây là việc dễ thực hiện nhất. Theo cách này, người hiệu chỉnh chỉ việc loại đi những câu trả lời có nghi vấn. Trong trường hợp quy mô của mẫu tương đối lớn, người hiệu chỉnh có thể loại bỏ toàn bộ các câu trả lời nếu thông tin thiếu nhất quán và người hiệu chỉnh không thể giải quyết vấn đề thiếu nhất quán đó trong các dữ liệu được thu thập từ các đối tượng phỏng vấn. Tuy nhiên, khuyết điểm trong cách tiếp cận này là sự thiên vị trong kết quả nếu những người trả lời thiếu nhất quán đó bị loại ra khỏi cuộc nghiên cứu, khi đó kết quả đạt được sẽ bị lệch nếu ý kiến những người trả lời bị loại này khác với những người còn được giữ lại trong mẫu điều tra.
Một cách giải quyết khác là tập hợp một báo cáo riêng các loại dữ liệu bị thiếu hoặc không nhất quán, không rầng nếu người nghiên cứu thật sự tin rằng các dữ liệu đó có thể có ích cho việc ra quyết định của các nhà lãnh đạo.
- Chuẩn bị dữ liệu
- Làm cho dữ liệu có giá trị
- Hiệu chỉnh dữ liệu
- Cấu trúc và mã hóa dữ liệu
- Cấu trúc dữ liệu
- Mã hóa dữ liệu
- Các nguyên tắc thiết lập kiểu mã hóa
- Lập danh bạ mã hóa
- Một số vấn đề liên quan đến phân tích và diễn giải dữ liệu
- Vấn đề hiệu quả của công tác xử lý dữ liệu
- Bản chất của sự diễn giải
- Những lưu ý về phân tích dữ liệu
- Lập bảng phân phối tần suất và lập bảng so sánh
- Lập bảng phân phối tần suất
- Lập bảng so sánh toàn diện
- Đo lường khuynh hướng hội tụ của dữ liệu
- Mode
- Giá trị trung bình
- Ước lượng khuynh hướng hội tụ
- Đo lường độ phân tác của dữ liệu
- Khoảng biến thiên
- Phương sai và độ lệch chuẩn
- Hệ số biến thiên
- Ước lượng tham số
- Ước lượng tham số trung bình μ trong luật phân phối chuẩn N (μ, σ2)
- Ước lượng khoảng tin cậy tham số tỷ lệ p trong luật phân phối A(p)
- Ước lượng khoảng tin cậy phương sai
- Ước lượng khoảng tin cậy cho sự khác biệt giữa trung bình hai tổng thể
- Ước lượng khoảng tin cậy cho khác biệt giữa tỷ lệ hai tổng thể
- ứng dụng tin học và phân tích dữ liệu trong nghiên cứu marketting
- Câu hỏi ôn tập chương
- Tài liệu tham khảo chương
Tham khảo chi tiết ở đây và Slide bài giảng.