MARKETING RESERCH
MBA. Vu Van Hai
Chương 10
XỬ LÝ VÀ PHÂN TÍCH
DỮ LIỆU
Nội dung
10.1. Khái niệm về PP xử lý dữ liệu
10.2. Chuẩn bị dữ liệu
10.3. Mã hóa dữ liệu
10.4. Làm sạch dữ liệu
10.5. Xử lý và phân tích dữ liệu
Chuẩn hóa
Phát hiện
lỗi
Hiệu chỉnh và Mã
hóa
Chuẩn bị
Nhập liệu
Tóm tắt dữ liệu
Phân tích dữ liệu
Phân tích
thống kê
Phân tích
đơn biến,
nhị biến
Diễn dịch
Phân tích
đa biến
10.1
KHÁI NIỆM VỀ PHƯƠNG
PHÁP XỬ LÝ DỮ LIỆU
Khái niệm
§ Xử lý dữ liệu là cơng việc diễn ra sau q trình thu thập dữ liệu
§ Nhiệm vụ của việc xử lý dữ liệu là chuyển các dữ liệu dưới
dạng thô thành dữ liệu tinh
Xử lý dữ liệu
Process
Các phương pháp xử lý dữ liệu
§ Phương pháp thủ cơng
§ Phương pháp kiểm đếm (Tallying)
§ Phương pháp lựa ra và đếm (Sorting and Counting)
Các phương pháp xử lý dữ liệu
§ Phương pháp xử lý bằng máy tính
§ Sử dụng các chun viên xử lý dữ liệu
§ Sử dụng các phần mềm xử lý dữ liệu trọn gói
§ Phát triển các phần mềm riêng
Quy trình xử lý dữ liệu
1. Giá trị hóa dữ liệu
2. Mã hóa các câu trả lời
Chuẩn bị
dữ liệu
3. Nhập dữ liệu vào máy tính
4. Làm sạch dữ liệu
5. Lưu trữ dữ liệu để phân tích
6. Phân tích dữ liệu
Lưu trữ
và phân
tích
10.2
CHUẨN BỊ DỮ LIỆU
Cơng việc chuẩn bị dữ liệu
§ Kiểm tra tính hợp lệ
§ Hiệu chỉnh
Kiểm tra tính hợp lệ
§ Kiểm tra bảng câu hỏi đã được trả lời:
tính đầy đủ của bảng câu hỏi, việc ghi chép câu trả lời…
§ Kiểm tra tính logic của các câu trả lời
§ Xem xét những chỉ dẫn về thủ tục phỏng vấn
§ Kiểm tra tính trung thực của các câu trả lời
Hiệu chỉnh dữ liệu
Chính
xác
Đối tượng nghiên cứu có thật
sự trả lời bảng câu hỏi khơng?
Hợp lệ
Đối tượng nghiên cứu có hiểu
hướng dẫn của bảng câu hỏi
Hồn
thành
Đối tượng nghiên cứu có trả lời
tất cả những câu hỏi trong bảng
câu hỏi không?
Hiệu chỉnh dữ liệu
§ Anh/chị có kế hoạch chi tiêu như thế nào về các loại thức uống
cho một tuần? (tổng số bằng 100%)
Bia
Rượu
Nước ngọt
Trà đóng chai
Sữa
Tổng
30
20
20
25
40
135
Quan điểm của bạn về rượu J&B là gì?
Rất khơng có hương vị
1
2
3
4
5
6
Rất có hương vị
7
Rất dở
1
6
Rất tốt
7
6
Rất tích cực
7
6
Rất xứng đáng với sự
tin cậy
7
2
Rất tiêu cực
1
2
3
3
4
4
5
5
Rượu J&B là:
Không xứng đáng với sự tin cậy chút
nào
1
2
3
4
5
Không xứng đáng với sự tin cậy chút nào
1
2
3
4
5
6
Rất tin cậy
7
10.3
MÃ HOÁ DỮ LIỆU
Mã hóa
§ Mã hóa dữ liệu (coding) là q trình chuyển đổi các trả lời
thành dạng mã số để nhập và xử lý dễ dàng
§ Được thực hiện trước hoặc sau khi phỏng vấn
§ Các ký hiệu mã hóa cho các biến và các trả lời được trình bày
trong một sổ mã (code book)
§ Dữ liệu mã hóa xong được nhập vào máy dưới dạng một ma
trận gọi là ma trận dữ liệu
Mã hóa dữ liệu trên bảng câu hỏi
Mã hóa câu hỏi đóng
Mã hóa câu hỏi mở
§ Gán các con số cho
các câu trả lời được
liệt kê sẵn trên bảng
câu hỏi
§ Nhóm các câu trả lời có
cùng ý nghĩa
§ Gán các con số cho các
nhóm trả lời
Mã hóa dữ liệu trên bảng câu hỏi
Câu hỏi một lựa chọn (SA)
Câu hỏi nhiều lựa chọn(MA)
•
- Phương pháp multiple dichotomy
Thực hành ví dụ:
ü Bạn đánh giá mức thu nhập hiện nay của
bạn như thế nào?
q thấp
thấp
trung bình
cao
rất cao
khơng trả lời
- Phương pháp multiple category
§
Ví dụ:
Ø Bạn hãy đánh dấu vào nhóm phần mềm mà bạn
có thể sử dụng được:
Quản lý cơ sở dữ liệu
Phần mềm soạn thảo văn bản
Phần mềm bản tính
Phần mềm tài chính kế tốn
Phần mềm truyền thông
Phần mềm khác (xin nêu rõ):
Danh bạ mã hóa hay sổ mã hóa
§ Biến các trả lời thành các mã số, ký hiệu mà máy tính hiểu
được
§ Giúp cho việc nhập liệu dễ dàng hơn
§ Giúp nhà nghiên cứu trong việc phân tích và diễn giải dữ liệu
Nội dung trong danh bạ mã hóa
§ Số thứ tự của câu hỏi.
§ Vấn đề của câu hỏi (thường là tóm tắt nội dung câu hỏi).
§ Tên của biến số phát sinh từ câu hỏi
§ Nhãn của biến số (variable label)
§ Các giá trị mã hóa: là các giá trị mà biến số có thể nhận được
để biểu diễn thơng tin được trả lời
§ Nhãn giá trị mã hố (Value Label) thường dùng để mô tả ý
nghĩa của các giá trị mã hóa.
STT câu
hỏi
Vấn đề câu hỏi
Tên
biến số
Mô tả
biến số
Các giá trị
mã hóa
Vùng địa lý
1
2
3
4
Hà Nội
Đà Nẵng
TP.HCM
Cần Thơ
1
2
Có
Khơng
1
Vùng phỏng vấn
REGI
2
Có sử dụng sữa
rửa mặt không
USE
3
Sử dụng nhãn
hiệu nào?
4
Sử dụng sữa rửa
mặt vào khi nào?
Mơ tả các giá
trị mã hóa
BRAND
Nhãn hiệu
đang dùng
1
2
3
4
5
6
Pond’s
Hazeline
Biore
Lana
Nivea
Loại khác
TIME
Thời điểm
sử dụng
1
2
3
4
5
Sáng sớm
Buổi sáng
Buổi trưa
Buổi chiều
Trước khi ngủ
Câu hỏi
(biến)
Ý nghĩa câu hỏi
Giá trị mã
hóa
Mơ tả giá trị mã hóa
Q1
Giới tính đáp viên
1
2
Nam
Nữ
Q2
Nghề nghiệp đáp viên
1
2
3
4
5
6
7
Bác sĩ
Giáo viên
Nhân viên văn phịng
Cơng nhân
Hưu trí
Học sinh-sinh viên
Khác-----
-----------
-----------------
-----------
------------------------------
Q22a
Đánh giá về bao bì sản
phẩm
Đánh giá về chất
lượng sản phẩm
Q20b
1
2
3
Kém
Trung bình
Tốt
Ma trận dữ liệu
§
§
§
§
§
Cột: là nơi quản lý các biến (các câu hỏi có trong bảng câu hỏi)
Loại câu hỏi một trả lời: chỉ cần một cột chứa các giá trị trả lời
Loại biến nhiều trả lời: nhiều cột chứa nhiều giá trị trả lời có thể có
Dịng: là nơi quản lý tất cả các quan sát (bằng kích cỡ mẫu)
Ơ giao nhau giữa cột và dịng: là nơi chứa đựng giá trị trả lời của một câu
hỏi trong một quan sát cụ thể.