CHƯƠNG 2
THU THẬP DỮ LIỆU
ThS. Nguyễn Tiến Dũng
Bộ môn Quản trị Kinh doanh, Viện Kinh tế và Quản lý
Email:
MỤC TIÊU CỦA CHƯƠNG
● Sau khi kết thúc chương này, người học có
thể:
● Phân biệt được DL thứ cấp và DL sơ cấp
● Kể tên và nêu được đặc điểm, phạm vi ứng dụng
của các kỹ thuật lấy mẫu ngẫu nhiên và không
ngẫu nhiên
● Phân biệt được DL định tính và DL định lượng và ý
nghĩa của hai loại DL này trong phân tích TK.
© Nguyễn Tiến Dũng
Thống kê ứng dụng
2
CÁC NỘI DUNG CHÍNH
● 2.1 Xác định DL cần thu thập
● 2.2 DL thứ cấp
● 2.3 DL sơ cấp
● 2.4 Các kỹ thuật (phương pháp) lấy mẫu
© Nguyễn Tiến Dũng
Thống kê ứng dụng
3
2.1 XÁC ĐỊNH DỮ LIỆU CẦN THU THẬP
● Tiến trình NC
● Vấn đề quản trị >> Mục tiêu NC >> Kế hoạch NC >> Thu
thập DL >> Phân tích DL …
● TD: NC mối liên hệ mức độ yêu thích chuyên ngành
của SV và kết quả học tập
● DL về Biến đầu vào X = Mức độ yêu thích chuyên ngành
● DL về Biến đầu ra Y = Kết quả học tập = f(X)
● DL khác:
● Về SV: khoa, trường, học năm thứ mấy
● Về môi trường học tập: đặc điểm nhà trường, xã hội …
● 2 loại DL theo tính sẵn có tại thời điểm NC:
● DL thứ cấp
● DL sơ cấp
© Nguyễn Tiến Dũng
Thống kê ứng dụng
4
2.2 DỮ LIỆU THỨ CẤP
● DL có sẵn
● Tiếp cận nguồn DL -> Lấy DL về -> Xử lý
thêm
● Nguồn bên trong DN
● Nguồn bên ngoài DN
● Các tổ chức chuyên TK của nhà nước: TCTK
(gso.gov.vn), Cục TK …
● Các tổ chức không chuyên TK
● Các tổ chức dịch vụ cung cấp thông tin: TNS, A.C.
Nielsen …
© Nguyễn Tiến Dũng
Thống kê ứng dụng
5
Dữ liệu bên trong DN
● TD: SV làm TTTN phải lấy các số liệu về DN mà SV đó
thực tập
● Phần 1: GT chung về DN
●
●
●
●
●
●
Sở hữu nào
Quy mô DN
Mặt hàng KD
Cơ cấu tổ chức
Quy trình công nghệ, sản xuất, cung cấp dịch vụ
…
● Phần 2: PT hoạt động KD của DN
● 2.1. Tiêu thụ và marketing
● 2.2. Lao động và tiền lương
● 2.3. Vật tư và tài sản cố định
● 2.4. Chi phí và giá thành
● 2.5. Tình hình tài chính
© Nguyễn Tiến Dũng
Thống kê ứng dụng
6
2.3 DỮ LIỆU SƠ CẤP
● DL không có sẵn
● Tự làm hay thuê ngoài
● Các phương pháp thu thập DL sơ cấp
● NC định tính
● Phỏng vấn sâu
● Thảo luận nhóm
● NC định lượng
● Quan sát
● Nhật ký
● Điều tra chọn mẫu: PV trực tiếp, qua điện thoại, qua thư
© Nguyễn Tiến Dũng
Thống kê ứng dụng
7
2.4 CÁC PHƯƠNG PHÁP LẤY MẪU
Yêu cầu đối với lấy
mẫu
• Sai số
• Chi phí
• Thời gian
© Nguyễn Tiến Dũng
Các phương pháp
lấy mẫu ngẫu
nhiên
• Lấy mẫu ngẫu
nhiên đơn giản
• Lấy mẫu hệ
thống
• Lấy mẫu phân
tầng
• Lấy mẫu theo
cụm
Thống kê ứng dụng
Các phương pháp
lấy mẫu không
ngẫu nhiên
• Lấy mẫu thuận
tiện
• Lấy mẫu theo
định mức
• Lấy mẫu bằng
phán đoán
• Lấy mẫu theo
giới thiệu
8
2.4.1 Các phương pháp lấy mẫu ngẫu nhiên
● Lấy mẫu ngẫu nhiên là gì (random sampling)?
● 2.4.1.1 Lấy mẫu ngẫu nhiên đơn giản (simple
random sampling)
● Tổng thể gồm N = 20 phần tử chọn ra n = 5
phần tử
● Giả thiết (giả định): có ds N phần tử, được đánh số
từ 1 tới N
● Các kỹ thuật (p.pháp) cụ thể:
● Tra bảng số ngẫu nhiên
● Rút thăm ngẫu nhiên
● Khởi tạo số ngẫu nhiên trên máy tính:
● Excel: Hàm RANDBETWEEN(a;b)
© Nguyễn Tiến Dũng
Thống kê ứng dụng
9
Bảng số ngẫu nhiên (Table of Random Numbers)
© Nguyễn Tiến Dũng
Thống kê ứng dụng
10
2.4.1.2 Lấy mẫu hệ thống (systematic sampling)
● N = 49; n = 10
● Cách 1: Lấy mẫu không quay vòng
● Tính bước nhảy k = [N/n] = 4
● Chọn ngẫu nhiên p.tử đầu tiên trong [1;k] 3
● Tính ra các p.tử tiếp theo: 7, 11, 15, 19, 23, 27, ...
● Cách 2: Lấy mẫu quay vòng
● Tính bước nhảy k = N/n = 4,9 làm tròn là 5.
● Chọn ngẫu nhiên p.tử đầu tiên trong [1;5] 4
● Các phần tử tiếp theo: 9, 14, 19, 24, 29, 34, 39, 44, 49 (đủ)
● Chọn ngẫu nhiên p.tử đầu tiên: [1;5] 5
● Các phần tử tiếp theo: 10, 15, 20, 25, 30, 35, 40, 45, (50)
● 50 – 49 = 1 lấy mẫu quay vòng
© Nguyễn Tiến Dũng
Thống kê ứng dụng
11
2.4.1.3 Lấy mẫu phân tầng (phân lớp)
(stratified sampling)
● Tổng thể gồm nhiều nhóm (gọi là tầng), có đặc điểm
khác nhau.
● Yêu cầu: lấy ra một số lượng hay tỷ lệ nhất định theo
từng nhóm (tầng).
● Lấy mẫu phân tầng tỷ lệ
● Lấy mẫu phân tầng không tỷ lệ
● TD: Có DS gồm N = 20 khách nam + 20 khách nữ.
Cần chọn ra n = 4 người, trong đó có 2 khách nam và
2 khách nữ để phỏng vấn (rút mẫu phân tầng cùng tỷ
lệ).
● Quy trình rút mẫu như thế nào?
● Tỷ lệ rút mẫu trong các tầng có thể không đều
● Kích thước các nhóm
● Mục đích
© Nguyễn Tiến Dũng
Thống kê ứng dụng
12
2.4.1.4 Lấy mẫu theo cụm (cluster sampling)
● Tổng thể gồm nhiều nhóm (gọi là cụm), có đặc điểm
khác nhau, mỗi cụm lại có thể bao gồm các cụm con.
● Lấy mẫu theo cụm 1 giai đoạn
● Chọn ngẫu nhiên một số cụm
● Trong các cụm đã chọn, chọn ngẫu nhiên một số p.tử
● Lấy mẫu theo cụm 2 giai đoạn
● Chọn ngẫu nhiên một số cụm
● Trong các cụm đã chọn, lấy ngẫu nhiên một số cụm con
● Trong các cụm con đã chọn, lấy ngẫu nhiên một số p.tử
● TD: N = 20 nhà x 10 tầng x 10 hộ = 2000 hộ; n = 100
● Cách 1: 1 nhà x 10 tầng x 10 hộ
● Cách 2: 20 nhà x 5 tầng x 1 hộ
● Cách 3: 10 nhà x 5 tầng x 2 hộ
© Nguyễn Tiến Dũng
Thống kê ứng dụng
13
2.4.2 Các phương pháp lấy mẫu không ngẫu
nhiên (phi xác suất)
● Lấy mẫu thuận tiện (convenience sampling)
● Quy trình cụ thể, thuận tiện cho người TK/NC
● Lấy mẫu định mức / lấy mẫu theo chỉ tiêu
(quota sampling)
● Lấy mẫu thuận tiện + kiểm soát số lượng theo tiêu
chí định trước
● Lấy mẫu theo phán đoán (judgemental
sampling)
● Lấy mẫu theo giới thiệu (snowball sampling)
© Nguyễn Tiến Dũng
Thống kê ứng dụng
14
2.5 DỮ LIỆU ĐỊNH TÍNH VÀ ĐỊNH LƯỢNG
● Dữ liệu định tính (qualitative data)
● DL định danh
● DL thứ bậc
● Dữ liệu định lượng (quantitative data)
● DL khoảng
● DL tỷ lệ
● Việc tính giá trị TB, phương sai và độ lệch chuẩn
của DL định tính là vô nghĩa
● Thang đo Dữ liệu Phương pháp PT DL
● TD: Mã hoá 1 = Nam; 2 = Nữ. Đã PV 100 người,
chạy ra kết quả biến giới tính = 1,5
© Nguyễn Tiến Dũng
Thống kê ứng dụng
15