Qui trình nghiên cứu và xử lí dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (234.42 KB, 46 trang )

Phân tích dữ liệu bằng SPSS

GIỚI THIỆU VỀ QUI TRÌNH NGHIÊN CỨU VÀ QUI TRÌNH XỬ LÝ DỮ LIỆU
1. Qui trình của một cuộc nghiên cứu
-

Bước 1: Xác đònh vấn đề cần nghiên cứu
Bước 2: Xác đònh loại thông tin cần thu thập
Bước 3: Nhận diện các nguồn gốc thông tin và chọn mẫu nghiên cứu
Bước 4: Thiết kế nghiên cứu và xác đònh phương pháp thu thập thông tin.
Bước 5: Thiết kế bảng câu hỏi
Bước 6: Thu thập dữ liệu
Bước 7: Xử lý, phân tích và diễn giải các dữ liệu đã được xữ lý
Bước 8: Trình bày và báo cáo kết quả

2. Xữ lý thông tin trong nghiên cứu thực đòa và qui trình xữ lý
Việc xữ lý số liệu bắt đầu từ khi ta nhận được bảng câu hỏi đã được phỏng vấn. Qui trình xữ lý số liệu bao gồm các bước sau:
Dữ liệu thô  Kiểm tra – Hiệu đính – Mã hóa  Nhập dữ liệu vào máy tính  Làm sạch dữ liệu – Tạo bảng – Phân tích
thống kê
_____oOo_____

Biên soạn: Đào Hoài Nam

1

Phân tích dữ liệu bằng SPSS

GIỚI THIỆU VÈ SPSS
-

Là phần mềm chuyên dụng xữ lý thông tin sơ cấp (thông tin được thu thập trực tiếp từ đối tượng nghiên cứu (người trả lời
bảng câu hỏi) thông qua một bảng câu hỏi được thiết kế sẳn.

-

Thông tin được xữ lý là thông tin đònh lượng (có ý nghóa về mặt thống kê)

-

Phần mềm SPSS có tất cả 4 dạng màn hình:
• Màn hình quản lý dữ liệu (data view): Là nơi lưu trữ dữ liệu nghiên cứu với:
o Cột: Đại diện cho một biến quan sát. Mỗi cột sẽ chứa đựng tất cả các câu trả lời trong một câu hỏi trong bảng
câu hỏi
o Hàng: Đại diện cho một trường hợp quan sát (người trả lời), Ta phỏng vấn bao nhiêu người (tùy thuộc vào kích
thước mẫu) thì ta sẽ có bấy nhiêu hàng. Mỗi hàng chứa đựng tất cả những câu trả lời (thông tin) của một dối
tượng nghiên cứu
o Ô giao nhau giữa cột và hàng (cell): Chứa đựng một kết quả trả lời tương ứng với vấn đề cần khảo sát (biến) của
một đối tượng nghiên cứu cụ thể (người trả lời cụ thể)
• Màn hình quản lý biến (variables view): Là nơi quản lý các biến với các thông số của nó. Trong màn hình này mỗi
hàng chức đựng một biến, và mỗi cột chứa đựng các thông số của biến đó:
o Tên biến (name): Là tên đại diện cho biến, tên biến này sẽ được hiễn thò trên đầu mỗi cột trong màn hình dự liệu

Biên soạn: Đào Hoài Nam

2

Phân tích dữ liệu bằng SPSS

o Loại biến (type): Thể hiện dạng dự liệu thể hiện trong biến. Dạng số, và dạng chuỗi

o Số lượng chữ số của giá trò hiễn thò (Width): Giá trò dạng số được phép hiễn thò bao nhiêu con số.
o Số lượng chử số sau dấu phẩy (Decimals)
o Nhãn của biến (label): Tên biến chỉ được thể hiện tóm tắc bằng ký hiệu, nhãn của biến cho phép nêu rõ hơn về
ý nghóa của biến.
o Giá trò trong biến (Values): Cho phép khai báo các giá trò trong biến với ý nghóa cụ thể (nhãn giá trò)
o Giá trò khuyết (Missing): Do thiết kế bảng câu hỏi có một số giá trò chỉ man tính chất quản lý, không có ý nghóa
phân tích, để loại bỏ các biến này ta cần khai báo nó như là giá trò khuyết (user missing). SPSS mặc đònh giá trò
khuyến (system missing) là một dấu chấm và tự động loại bỏ các giá trò này ra khỏi các phân tích thống kê.
o Kích thướt cột (columns): Cho phép khai báo độ rộng của cột
o Ví trí (align): Vò trí hiễn thò các giá trò trong cột (phải, trái, giữa)
o Dạng thang đo lường (measures): Hiễn thò dạng thang đo lường của giá trò trong biến
• Màn hình hiễn thò kết quả (output): Các phép phân tích thống kê sẽ cho ra các kết quả như bảng biểu, đồi thò và các
kết quả kiểm nghiệm, các kết quả này sẽ được truy xuất ra một màn hình, và được lưu giữ dưới một tập tin khác (có
đuôi là .SPO). Màn hình này cho phép ta xem và lưu giữ các kết quả phân tích.

Biên soạn: Đào Hoài Nam

3

Phân tích dữ liệu bằng SPSS

• Màn hình cú pháp (syntax): màn hình này cho phép ta xem và lưu trữ những cú pháp của một lệnh phân tích. Các cú
pháp được lưu trữ sẽ được sử dụng lại mà không thao tác các lệnh phân tích lại.

Biên soạn: Đào Hoài Nam

4

Phân tích dữ liệu bằng SPSS

CHUẨN BỊ DỮ LIỆU
1. Kiểm tra và hiệu đính dữ liệu
Bảo đảm tính toàn vẹn và tính chính xác của từng bảng câu hỏi & từng câu trả lời
- Tính logic của các câu trả lời
- Tính đầy đủ của một câu trả lời và của một bảng câu hỏi
- Tính hợp lý và xác thực của các câu trả lời
2. Mã hoá dữ liệu
- Chuyển dòch câu trả lời thực của người trả lời vào từng nhóm, từng mẫu đại diện với các giá trò đại diện
- Mục đích của mã hóa là tạo nhãn cho các câu trả lời, thừơng là bằng các con số. Mã hóa còn giúp giãm thiểu số lượng
các câu trả lời bằng cách nhóm các câu trả lời thành những nhóm có những đặc điểm giống nhau
- Mã hóa trước: Mã hóa trước các câu trả lời có sẳn ngay trên bảng câu hỏi trước khi tiến hành phỏng vấn
-

Mã hoá sau: Mã hóa các câu hỏi chưa có câu trả lời sằn trên bảng câu hỏi mới phát sinh trong quá trình phỏng vấn

Biên soạn: Đào Hoài Nam

5

Phân tích dữ liệu bằng SPSS

- Bảng mã hóa dữ liệu
Câu hỏi (biến)
Q.1

Ý nghóa câu hỏi
Giới tính người trả lời

Q.2

Nghề nghiệp người trả lời

…
Q22_1
Q22_2
Q22_3

Giá trò (câu trả lời)

…
Đánh giá về bao bì sản phẩm
Đánh giá về chất lượng sản phẩm
Đánh giá về dòch vụ hậu mãi

1: Nam
2: Nữ
1: Bác sỉ
2: Công nhân
3: Buôn bán cá thể
….
8: Sinh viên – học sinh
…
1: Tốt
2: Bình thường
3: Kém

_____oOo_____

Biên soạn: Đào Hoài Nam

6

Phân tích dữ liệu bằng SPSS

ĐỊNH BIẾN VÀ NHẬP DỮ LIỆU
1. Khái niệm về biến và các giá trò trong biến
1.1.

Đònh biến (variables)

 Theo yêu cầu bản câu hỏi:
- Biến một trả lời
- Biến nhiều trả lời
 Theo kiểu dữ liệu:
-

Biến đònh lượng
Biến đònh tính

-

Ví dụ
Loại phòng

Loại A
Loại B

Loại C

Biên soạn: Đào Hoài Nam

Giá
(Đồng/phòng/ngày)
500,000
300,000
150,000

Số lượng phòng

10
20
50

Mô tả
Tivi
Có
Không
Không

Tủ lạnh
Có
Có
Có

Máy điều hòa
Có
Có

Không

7

Phân tích dữ liệu bằng SPSS

1.2.

Các giá trò chứa trong biến (value)

-

Thang đo đònh danh (nominal):
 Tạo ra sự khác biệt giữa các giá trò (1 khác 2, 2 khác 3)

-

Thang đo thứ tự (ordinal):
 Tạo ra sự khác biệt và
 Một thứ tự nhất đònh giữa các giá trò (1<2<3)

-

Thang đó khoảng cách (internal):
 Tạo ra sự khác biệt,
 Một thứ tự nhất đònh và
 Một khảng cách giữa các giá trò (2-1=1; 5-2=3)

-

Thang đo tỷ lệ (ratio):
 Tạo ra sự khác biệt
 Một thứ tự nhất đònh
 Một khảng cách giữa các giá trò và
 Một tỷ lệ giữa các giá trò (4/2=2; 9/3=3)

Biên soạn: Đào Hoài Nam

8

Phân tích dữ liệu bằng SPSS

2. Phương pháp đònh biến trên SPSS (Define Variable)
Gán nhãn cho các biến và gán ý nghóa cho các giá trò trong biến
Qui trình đònh biến này bao gồm:
-

Gán tên cho biến (Variable name)
Đònh ra dạng thang đo mà biến thể hiện (measurement)
Gán nhãn cho biến (Variable Label)
Đònh tên cho các giá trò trong biến (Value lables).
Đònh ra kiểu biến (Type)
Đònh nghóa các giá trò khuyết (Missing Values)
Đònh kích cở cho cột (Column format)

-

Một số qui ước sau đây phải tuân theo khi khai báo tên biến:


Bắt đầu bằng một chử cái và không bắt đầu bằng dấu chấm(.).

Tên biến không được qua 8 ký tự

Không được chứa khoản trắng và các ký tự đặc biệt như (!), (?), (*).

Các từ khóa sau đây không được dùng làm tên biến: ALL, NE, EQ, TO, LE, LT, BY OR, GT, AND, NOT, GE,
WITH
-

SPSS mặc đònh là không có khai báo giá trò khuyết. Có ba cách để khai báo các giá trò khuyết
(1) Khai báo bằng 3 giá trò rời rạc (Discrete missing values)

Biên soạn: Đào Hoài Nam

9

Phân tích dữ liệu bằng SPSS

(2) Khai báo một chuổi liên tục các giá trò (Range of missing values)
(3) Khai báo một chuổi các giá trò khuyết và một giá trò khuyết riêng biệt (Rang plus one discrete missing value)
-

Đối với dữ liệu dạng chuổi, toàn bộ các giá trò vô dụng hoặc trống đều được xem là có nghóa. Để đònh nghóa các giá
trò vô nghóa và các giá trò trống là giá trò khuyết ta phải nhập vào một khoảng trống vào trông ô đònh ra các giá trò
khuyết riêng biệt

3. Nhập dữ liệu

3.1. Ma trận thông tin – Cấu trúc dữ liệu
 Cột: Các cột trong màn hình dữ liệu SPSS sẽ quản lý các biến hay tất cả các câu hỏi có trong bảng câu hỏi
- Loại biến một trả lời
- Loại biến nhiều trả lời
 Dòng: Mỗi dòng trong màn hình dữ liệu SPSS sẽ quản lý tất cả các quan sát hay tất cả số bảng câu hỏi
 Ô giao nhau giữa cột và dòng: Nơi chứa đựng giá trò của một biến trong một quan sát cụ thể. Đây chính là cái mà nhà
nghiên cứu thu thập được và sẽ phân tích.

Biên soạn: Đào Hoài Nam

10

Phân tích dữ liệu bằng SPSS

3.2.

Nhập dữ liệu

-

Khai báo tên biến chứa đựng thông tin cần nhập vào thanh bên trên mỗi cột (tên mặc đònh của các cột này trong SPSS
là var0001, …, var000x).

-

Chọn ô cần nhập dữ liệu, là phần giao nhau giữa cột và hàng. Ô cần nhập sẽ có khung viền chung quanh báo cho người
nhập biết đó là ô đang hoạt động, tên biến và số hiệu hàng được hiện ở góc trái của cửa sổ.

-

Gõ giá trò cần nhập vào khung đã chọn, giá trò này được hiện trong thanh sữa đổi (cell editor) nằm ở trên cửa sổ. Chú ý
khi nhập dữ liệu phải bảo đảm đúng với kiểu biến đã được đònh nghóa. Thông thường các kiểu biến được khai báo là
dạng chuổi (ngắn tối đa 8 ký tự) hoặc dạng số, nhằm bảo đảm tính tương thích cho việc phân tích sau này.

Biên soạn: Đào Hoài Nam

11

Phân tích dữ liệu bằng SPSS

CÁC PHÉP BIẾN ĐỔI DỮ LIỆU VÀ THAO TÁC TRÊN TẬP DỮ LIỆU
1. Mã hóa lại (Recode)
Recode là công cụ dùng để đònh lại các giá trò của biến. SPSS cung cấp cho ta hai loại Recode là Recode trên cùng một biến
(Recode into same variables) và recode vào biến khác (Recode into different variable).
1.1. Mã hóa lại trên cùng một biến (Recode into same variables)
Recode trên cùng một biến là đònh lại những giá trò của những biến hiện tại hoặc rút ngắn bớt dãy các giá trò tồn tại thành
những giá trò mới trên cùng những biến đó.
1.2. Mã hóa lại vào một biến khác (Recode into different variables)
Đònh lại giá trò hiện tại của một biến thành một giá trò mới trong một biến khác
2. Công cụ tự động mã hóa lại (Automatic Recode)
Là phương pháp mã hóa lại một cách tự động các giá trò dạng chuổi hoặc dạng số thành một biến mới chứa đựng các con số
nguyên liên tục, mỗi con số nguyên trong biến mới sẽ đại diện cho các giá trò dạng chuổi hoặc dạng số giống nhau. Các giá trò
dạng chuổi được recode theo thứ tự alphabe

Biên soạn: Đào Hoài Nam

12

Phân tích dữ liệu bằng SPSS

3. Công cụ tính toán giữa các biến (Compute)
Công cụ compute được dùng để tính các giá trò mới từ các biến sẵn có trong cấu trúc dữ liệu. Kết quả tính toán thường được
chứa đựng trong một biến mới, hoặc là một biến khác sẳn có hoặc biến chứa đựng giá trò đang tính toán.
4. Công cụ đếm (Count)
-

Công cụ này được dùng để tạo ra một biến mới chứa tổng số số lần xuất hiện của một giá trò hay nhiều giá trò được chỉ
đònh ra trong danh sách các biến được chọn trong ô variables trong mỗi trường hợp.

-

Một biến mới sẽ được tạo ra khi ta thực hiện thủ tục Count gọi là biến đích (Taget variable) sẽ chứa đựng giá trò cộng dồn
mỗi khi gặp được giá trò cần đếm trong một hoặc nhiều biến đã được khai báo trước trong hộp thoại Numeric variables.

-

Giá trò cần đếm sẽ được đònh rõ trong phần ô Define values (hình 14). Giá trò khai báo để đếm có thể là những giá trò cụ
thể nàu đó (Value), hoặc những giá trò rỗng (System missing) hoặc là một dãy các giá trò (range).

5. Categorize Variables
Công cụ này dùng để nhóm các dữ liệu liên tục dạng số thành những nhóm riêng biệt. Tiến trình này tạo ra một biến mới
chứa đựng các dữ liệu đã được phân nhóm, với mỗi nhóm chứa đựng một số lượng quan sát (cases) xấp xỉ bằng nhau. Ví dụ
như đối với câu hỏi tuổi của người trả lời, các câu trả lời có thể là các con số từ 18 tuổi đến 50 tuổi. Ta có thể dùng công cụ
Categorize Variables để phân các giá trò tuổi này thành các nhóm (do ta tự đònh) và các nhóm này có số lượng quan sát xấp xỉ
nhau.

Biên soạn: Đào Hoài Nam

13

Phân tích dữ liệu bằng SPSS

6. Tách tập dữ liệu (Split File)
-

Cho phép tách dữ liệu trong tập dữ liệu đang quan sát thành những nhóm nhỏ riêng biệt và sau khi thực hiện lệnh tách file
này các phân tích xữ lý thống kê đề được thực hiện riêng biệt theo từng nhóm nhỏ dữ liệu này.

-

Việc phân tách này dựa trên việc phân dữ liệu thành những nhóm tương đương với các giá trò trong biến được lựa chọn để
tiến hành phân nhóm. Được sử dụng cho việc phân tích dựa trên những giá trò của một hay nhiều biến đã được phân
nhóm. Nếu ta lựa chọn việc phân tách dựa trên nhiều biến (multiple grouping variables), Dữ liệu sẽ được nhóm theo thứ tự
biến được khai báo trong hộp thoại Groups Based On list.

-

Chọn Compare groups, Các dữ liệu phân tích sẽ được tách theo các giá trò của biến được lựa chọn để tách dữ liệu (hiễn thò
trong hộp Groups Based On list), và việc tách này mang tính chất so sánh do đó khi tiến hành phân tích dữ liệu các phân
tích dựa trên sự phân tách này những vẫn được thể hiện trên cùng một bảng.

-

Chọn Organize output by groups. Các dữ liệu phân tích sẽ được tách theo các giá trò của biến được lựa chọn để tách dữ liệu
(hiễn thò trong hộp Groups Based On list), và việc tách này mang tính chất tổ chức lại dữ liệu thành những nhóm nhỏ do đó
khi tiến hành phân tích dữ liệu các phân tích dựa trên sự phân tách và được thể hiện một các riêng biệt giữa các nhóm

phân tách

-

Chú ý sau ki tiến hành phân tích trên sự phân tách, để trở lại trạng thái bình thường của dữ liệu đòi hỏi phải bỏ đi lệnh
tách dữ liệu vừa đưa ra bằng cách chọn phần Analyze all cases, do not create groups trong hộp thoại Slipt Files

Biên soạn: Đào Hoài Nam

14

Phân tích dữ liệu bằng SPSS

7. Lựa chọn các quan sát (Select Cases)
-

Select Cases đưa ra một vài phương pháp để lựa chọn ra những nhóm nhỏ các trường hợp quan sát dựa trên tiêu chuẩn
trong biến và những điều kiện bên ngoài. Ta còn có thể lựa chọn một mẫu ngẫu nhiên các trường hợp quan sát từ tổng thể
dữ liệu của chúng ta bằng công cụ này.

-

Để tiến hành chọn lựa các trường hợp ta có thể dùng các cách sau:
 Công cụ If conditions are satisfied cho phép ta lựa chọn các trường hợp dựa trên các biểu thức điều kiện. Một biểu thức
điều kiện cho ta các giá trò đúng, sai của các trường hợp quan sát. Nếu kết quả của biểu thức điều kiện là đúng, trường
hợp đó được lựa chọn. Nếu kết quả này là sai hoặc thiếu thì các trường hợp đó không được chọn.
 Công cụ random sample of cases cho phép chúng ta lựa chọn ngẫu nhiên một mẫu dựa trên một tỷ lệ phần trăm hoặc
một số chính xác các trường hợp sẽ được lựa chọn.
 Công cụ Base range cho phép lựa chọn các trưòng hợp theo số thứ tự hàng hiễn thò bên trái màn hình dữ liệu của SPSS

 Trong phần Unselected Cases cho biết trạng thái của các trường hợp không được lựa chọn.
o Filtered chỉ ra các trường hợp không được chọn vẫn được giữ lại trong tập tin nhưng sẽ bò loại trừ ra mọi phân tích
thống kê. Select Cases tạo ra một biến lọc (FILTER_$), với các trường hợp được chọn có giá trò 1 và các trường
hợp không được chọn có giá trò 0.
o Deleted cho phép loại bỏ toàn bộ các trường hợp không được chọn ra khỏi dữ liệu.

Biên soạn: Đào Hoài Nam

15

Phân tích dữ liệu bằng SPSS

-

Để nhận biết được các trường hợp nào được chọn hoặc không được chọn ta có thể nhìn vào các giá trò trong biến
FILTER_$, các trường hợp được chọn có giá trò 1 và những trường hợp không được chọn có giá trò 0. Hoặc ta có thể nhìn
vào màn hình Data để phân biệt các trường hợp. Với các trường hợp không được lựa chọn sẽ có một gạch chéo trong
thanh số thứ tự hàng bên trái màn hình. Có thể dùng công cụ Sort Cases để xắp xếp theo thứ tự các trường hợp được chọn
hay không được chọn (Sort cases theo biến FILTER_$).

8. Hợp nhất các tập dữ liệu (Merge files)
SPSS cho phép ta hợp các dữ liệu quan sát từ trong một tập dữ liệu bên ngoài vào tập dữ liệu đang sử dụng. Hoặc hợp các
biến mới trong tập dữ liệu bên ngoài vào tập dữ liệu đang hoạt động. Cả hai đều tạo ra một tập dữ liệu mới có thể chứa tất cả
các quan sát được hợp lại hoặc tất cả các biến đưọc hợp tùy theo ta chọn Add Cases hay Adds Variables
8.1.

Thêm vào các quan sát (Add Cases)

-

Công cụ Add Cases cho phép ta hợp dữ liệu trong tập dữ liệu đang hoạt động với dữ liệu trong một tập dữ liệu bên
ngoài, với điều kiện tập dữ liệu đó phải chứa các biến giống như biến trong tập dữ liệu đang hoạt động. Sau khi thao
tác, một tập dữ liệu mới (chưa được khai báo tên, và ta phải tiến hành lưu và khai báo tên mới) sẽ được tạo ra chứa các
dữ liệu trong cả hai tập dữ liệu vừa được hợp lại với nhau. Trong trường hợp hai tập dữ liệu hợp với nhau nhưng có các
biến khác nhau (khác nhau về tên biến hoặc loại biến) thì sau khi hợp tập dữ liệu mới sẽ tự động loại bỏ các biến khác
nhau này, ta có thể sẽ bò mất dữ liệu chứa trong các biến bò loại bỏ này.

-

Hộp thoại Unpaired Variables, liệt kê các biến không giống nhau giữa hai tập dữ liệu được tiến hành hợp nhất lại, các
biến này sẽ bò loại trừ và không có trong tập dữ liệu mới được tạo ra từ việc hợp nhất hai tập dữ liệu ban đầu. Các biến
này được ký hiệu khác nhau với ký hiệu (*) đại diện cho các biến trong tập dữ liệu đang hoạt động và (+) đại diện cho

Biên soạn: Đào Hoài Nam

16

Phân tích dữ liệu bằng SPSS

các biến trong tập dữ liệu được truy xuất từ bên ngoài, Những biến được liệt kê trong hộp thoại Unpaired Variables là
những biến có những đặc điểm như sau:
 Những biến có cùng ý nghóa và kiểu dữ liệu như nhau nhưng lại được khai báo tên biến khác nhau
 Hai biến giống tên nhau nhưng lại có kiểu dữ liệu khác nhau (type)
 Các biến cùng là dạng chuổi nhưng lại không bằng nhau vầ số ký tự trong chuổi.
-

Ta có thể cho phép dữ liệu trong đó được hợp lại với nhau bằng cánh đánh dấu hai biến đó (trong hộp thoại Unpaired
Variables và nhấn thanh Pair, lúc đó dữ liệu trong hai biến này sẽ được hợp nhất và được chứa đựng trong biến lấy tên

biến giống như tên biến trong tập tin đang hoạt động. Hoặc ta co thể dùng công cụ Rename để khai báo lại tên biến
hoặc kiểu biến cho giống nhau.

-

Hộp thoại Variables in New Working Data File liệt kê các biến sẽ có trong tập tin mới được tạo ra từ việc hợp nhất hai
tập dữ liệu ban đầu. Toàn bộ các biến trong hai tập tin ban đầu thỏa mãn các điều kiện giống nhau về tên và loại dữ
liệu (số hoặc chuổi) sẽ được liệt kê vào hộp thoại này

-

Có thể loại bỏ những biến mà chúng ta không muốn có trong tập dữ liệu được tạo ra từ việc hợp nhất. Bằng cách đánh
dấu nó và chuyển sang hộp thoại Unpaired Variables

8.2. Thêm vào các biến (Add Variables)
-

Công cụ Add Variables cho phép hợp nhất dữ liệu trong tập tin đang hoạt động với một tập tin bên ngoài với điều kiện
tập tin bên ngoài này phải chứa đựng cùng các quan sát với tập tin đang sử dụng, nhưng khác nhau về biến (khai báo
tên biến khác với tập tin đang được sử dụng), quá trình này sẽ tạo ra một tập dữ liệu mới chứa cùng các quan sát
nhưng tập hợp tất cả các biến khác nhau trong hai tập dữ liệu ban đầu.

Biên soạn: Đào Hoài Nam

17

Phân tích dữ liệu bằng SPSS

-

Các quan sát (Cases) trong cả hai tập tin cần hợp nhất phải được xắp xếp theo cùng một thứ tự

-

Thông thường ta dùng một hay nhiều biến khóa để bảo đảm các trường hợp khớp với nhau (thường sử dụng biến ID
chứa số bảng câuhỏi). Điều phải bảo đảm trước khi tiến hành hợp nhất biến giữa hai tập dữ liệu này là ta phải xắp xếp
dữ liệu trong hai biến khóa của hai tập dữ liệu theo thứ tự từ nhỏ đến lớn.

-

Các biến có tên giống nhau trong tập tin đang hoạt động vào tập tin bên ngoài sẽ bò loại trừ khỏi tập tin mới được tạo.

-

Hộp thoại Excluded Variables liệt kê các biến sẽ bò loại trừ ra khỏi biến mới hợp thành. Những biến này là những biến
có tên biến giống nhau. Biến trong tập tin đang hoạt động được ký hiệu là (*), và những biến trong tập tin bên ngoài là
(+). Nếu muốn các biến giống tên nhau này có trong tập dữ liệu mới ta phải tiến hành rename nó lại và chuyển nó
sang hộp thoại chứa các biến sẽ có trong tập tin mới (New Working Data File)

-

Hộp thoại Key Variables. Biến khóa dựa vào đó các quan sát giống nhau được xác đònh. Chú ý biến khóa này phải có
cùng tên ở các hai tập tin cần hợp nhất. Các trường hợp không thỏa mãn với biến khóa thì vẫn bao hàm trong tập dữ
liệu mới nhưng sẽ không được hợp với các trường hợp trong tập tin khác. Những trường hợp này chỉ chứa đựng giá trò
riêng biệt của tập dữ liệu mà nó bao hàm từ trước (trước khi tiến hành hợp nhất) và các trường hợp này sẽ có giá trò
khuyết trong các biến chứa đựng trong tập tin thứ hai mà ta sẽ hợp nhất.

Biên soạn: Đào Hoài Nam

18

Phân tích dữ liệu bằng SPSS

TÓM TẮC VÀ PHÂN TÍCH DỮ LIỆU

1. Một số lý thuyết thống kê cơ bản
1.1. Các tham số thống kê đo lường độ tập trung hay hội tụ của dữ liệu (central tendency measurement)
-

Giá trò trung bình (Mean): Là giá trò trung bình số học của một biến, được tính bằng tổng các giá trò quan sát chia cho số
quan sát. Đây là dạng công cụ thường được dùng cho dạng đo khoảng cách và tỷ lệ. Giá trò trung bình có đặc điểm là chòu
sự tác động của các giá trò ở mỗi quan sát, do đó đây là thang đo nhạy cảm nhất đối với sự thay đổi của các giá trò quan
sát.

-

Trung vò (Median): Là số nằm giữa (nếu lượng quan sát là số lẽ) hoặc là giá trò trung bình của hai quan sát nằm giữa (nếu số
lượng quan sát là số chẳn) của một dãy quan sát được xắp xếp theo thứ tự từ nhỏ đến lớn. Đây là dạng công cụ thống kê
thường được dùng để đo lường mức độ tập trung của dạng dữ liệu thang đo thứ tự, nó có đặc điểm là không bò ảnh hưởng
của các giá trò đầu mút của dãy phân phối, do đó rất thích hợp để phân tích đối với dữ liệu có sự chênh lệch lớn về giá trò
ở hay đầu mút của dãy phân phối.

-

Mode: Là giá trò có tần suất xuất hiện lớn nhất của một tập hợp các số đo, dạng này thường được dùng đối với dạng dữ liệu
thang biểu danh. Giống như trung vò, mode không bò ảnh hưởng bởi giá trò đầu mút của dãy phân phối.

1.2.

-

Các tham số thống kê đo lường mức độ phân tán của dữ liệu (Dispersion),

Ta khảo sát hai nhóm các con số sau::

Nhóm 1: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11.

Nhóm 2: 4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8

Ta thấy số kích thướt mẫu của hai nhóm này bằng nhau, các giá trò đo lường mức độ tập trung của dữ liệu như mean,
media, mode đều bằng nhau và bằng 6. Tuy nhiên hai dữ liệu này hoàn toàn khác nhau. Nhóm 1 các dữ liệu biến đổi

Biên soạn: Đào Hoài Nam

19

Phân tích dữ liệu bằng SPSS

nhiều hơn nhóm 2, điều này có nghóa các giá trò trong nhóm 1 phân tán hơn, các giá trò quan sát nằm xa giá trò trung bình
của mẫu hơn là nhóm 2. Đo lường độ phân tán cho biết được những khác biệt giữa hai nhóm dữ liệu. Có một số công cụ
đo lường độ phân tán của dữ liệu như:
-

-

-

-

Phương sai (Variance): Dùng để đo lường mức độ phân tán của một tập các giá trò quan sát xung quanh giá trò trung bình
của tập quan sát đó. Phương sai bằng trung bình các bình phương sai lệch giữa các giá trò quan sát đối với giá trò trung bình
của các quan sát đó.
Độ lệch chuẩn (Standard deviation): Một công cụ khác dùng để đo lường độ phân tán của dữ liệu xung quanh giá trò trung
bình của nó. Độ lệch chuẩn chính bằng căn bật hai của phương sai. Vì phương sai là trung bình của các bình phương sai
lệch của các giá trò quan sát từ giá trò trung bình, việc khảo sát phương sai thường cho các giá trò rất lớn, do đó sử dụng
phương sai sẽ gặp khó khăn trong việc diễn giải kết quả. Sử dụng độ lệch chuẩn sẽ giúp dễ dàng cho việc diễn giải do các
kết quả sai biệt đưa ra sát với dữ liệu gốc hơn.
Khoảng biến thiên (Range): Là khoảng cách giữa giá trò quan sát nhỏ nhất đến giá trò quan sát lớn nhất.
Sai số trung bình mẫu (Standard Error of Mean) Được dùng để đo lường sự khác biệt về giá trò trung bình của mẫu nghiên
cứu này so với mẫu nghiên cứu khác trong điều kiện có cùng phân phối. Nó có thể được dùng để so sánh giá trò trung bình
quan sát với một giá trò ban đầu nào đó (giả thuyết). Và ta có thể kết luận hai giá trò này là khác nhau nếu tỷ số về sự khác
biệt đối với standard error of mean nằm ngoài khoảng (-2,+2)
o Tính toán sai số trung bình mẫu là một công cụ nhằm xác đònh được các đo lường của ta đáng tin cậy như thế nào
Độ lệch chuẩn của mẫu
Sai số chuẩn trung bình mẫu = -----------------------------Căn bật 2 của số mẫu
Sai số chuẩn của tỷ lệ % = Căn bật 2 của tỷ số (p(1-p)/n)

Biên soạn: Đào Hoài Nam

20

Phân tích dữ liệu bằng SPSS

o Thông qua sai số trung bình mẫu được tính toán ta có thể tính được khoảng tin cậy của các tham số đo lường
1.3.
-

-

-

Là một ước lượng xác đònh khoảng giá trò đặc trưng của tổng thể có thể rơi vào. Dựa vào dữ liệu mẫu, với một độ tin cậy
cho trước ta có thể xác đònh được giá trò đại diện cho đám đông có thể nằm trong một khoảng ước lượng nào đó.
Ví dụ gọi x là mức thu nhập trung bình của đám đông cần ước lượng. Với độ tin cậy mong muốn là 95% (nghóa là các ước
lượng sẽ luôn có một lượng sai số chấp nhận là 5%). Dựa vào mẫu quan sát ta có thể xác đònh được hai giá trò về thu nhập
là a và b sao cho xác suất để thu nhập trung bình đám đông x rơi vào khoảng a và b (a, b) là 95%. Lúc này ta có thể diễn
giải rằng với độ chính xác là 95% (hay chấp nhận 5% sai số) ta biết được thu nhập trung bình của đám đông nghiên cứu
nằm trong khoảng (a, b)
Khoảng tin cậy (interval confidence) = Giá trò trung bình (hoặc %) +/- Z (t) S x

1.4.
-

-

-

Khoảng tin cậy (Confident interval)

Kiểm nghiệm giả thuyết (Hypothesis testing)

Bên cạnh việc ước lượng các đặc trưng của tổng thể, các dữ liệu mẫu thu thập được còn được dùng để đánh giá xem một
giả thuyết nào đó về tổng thể là đúng hay sai. Ta gọi đó là kiểm nghiệm giả thuyết. Nói cách khác kiểm nghiệm giả thuyết
là dựa vào các thông tin mẫu để đưa ra kết luận bác bỏ hay chấp nhận về giả thuyết của tổng thể
Để kiểm nghiệm giả thuyết ta phải xây dựng giả thuyết. Giả thuyết đã hình thành được gọi là giả thuyết H 0 được xem như
đúng cho đến khi ta có đủ căn cứ để kết luận khác hơn. Nếu giả thuyết H 0 không đúng thì phải có một giả thuyết nào đó
khác H0 gọi là H1 là đúng

Các dạng giả thuyết thiết lập
 Giả thuyết về mối quan hệ hay tương quan giữa hai biến

Biên soạn: Đào Hoài Nam

21

Phân tích dữ liệu bằng SPSS

• H0: Hai biến khảo sát độc lập với nhau (không có quan hệ hoặc tương quan giữa 2 biến
 Giả thuyết về các giá trò trung bình
• H0: Giá trò trung bình của 2 hoặc nhiếu hơn 2 mẫu ngang bằng nhau
 Giả thuyết về các phương sai
• H0: Phương sai giữa 2 hoặc nhiều hơn 2 mẫu là ngang bằng nhau
2. Phân phối ngẫu nhiên
-

Để kiểm nghiệm và đo lường các dãy số quan sát (rời rạc) cần phải chuyển các dãy số này qua dạng phân phối ngẫu
nhiên liên tục, ta có phân phối t-student, phần chi bình phương, phân phối F. sử dụng các dãy số phân phối ngẫu nhiên
này để kiểm nghiệm thống kê

Biên soạn: Đào Hoài Nam

22

Phân tích dữ liệu bằng SPSS

Diện tích=độ tin cậy

=(1-α)=.95=95%

VÙNG BÁC
BỎ H0

VÙNG BÁC
BỎ H0

Diện tích=α/2=.025

Diện
tích=α/2=.025

VÙNG CHẤP NHẬN GIẢ THUYẾT H0

- t0.025,n-1
= 2.045 (n=30)

Giá trò t tính
được

Biên soạn: Đào Hoài Nam

0

t0.025,n-1
Giá trò t
tính được

= 2.045 (n=30)

Giá trò t tính
được

23

Phân tích dữ liệu bằng SPSS

3. Khái quát về phân tích dữ liệu
3.1.

Kiểm tra dữ liệu (data screening)

 Xác đònh các giá trò vượt trội và giá trò lỗi (outliers & rogue values)
-

Sử dụng công cụ Frequencies nhằm tìm ra các giá trò vô nghóa hoặc các giá trò khuyết (missing value) nhưng lại xuất
hiện như giá trò có ý nghóa. Thường sử dụng cho dạng dữ liệu đònh danh và thứ tự

-

Sử dụng biểu đồ Histogram (trong công cụ Frequencies và Explore) hoặc Boxplot (trong Explore) nhằm tìm ra các gía
trò vượt trội (Outliers)

-

Sử dụng các giá trò lớn nhất và nhỏ nhất (trong công cụ Descriptives) để tìm ra các giá trò mã hóa nằm ngoài danh
sách mã hóa của biến và các giá trò khuyết được khai báo (ví dụ 999)

-

Sử dụng công cụ Case summaries để liệt kê dữ liệu theo một biến nào đó (ví dụ ta có thể liệt kê dữ liệu tuổi theo tình
trang giá đình  xác đònh ra những trường hợp có giá trò lỗi (ví dụ 12 tuổi mà đã có gia đình). Chú ý SPSS mặc đònh
chỉ liệt kê 100 trường hợp quan sát đầu tiên (theo thứ tự giá trò từ nhỏ đến lớn) do đó để quan sát ít hoặc nhiều hơn
ta phả tự khái báo vào

-

Đôi khi việc xác đònh các giá trò vượt trội có thể được xác đònh một cách tốt hơn khi ta khảo sát hai hay nhiều biến
cùng một lúc. Đối với các biến dạng biểu danh (nominal) hoặc thứ tự (ordinal) sử dụng công cụ Crosstabulations ta
có thế xác đònh được những sự kết hợp phi lý giữa hai hoặc nhiều biến.

 Kiểm tra những gỉa đònh về phân phối của tập dữ liệu
-

Dữ liệu thu thập thường không là phân phối chuẩn hoặc có thể không cân đối do đó thường không đủ điều kiện cho
một số phân tích thống kê. Một số phương pháp sau đây sẽ giúp ta khảo sát phân phối của dữ liệu

Biên soạn: Đào Hoài Nam

24

Phân tích dữ liệu bằng SPSS

 Sử dụng biểu đồ Histograms hoặc P-P plots khảo sát đường cong phân phối
 So sánh các giá trò mean, 5% trimmed mean, và median. Nếu ba giá trò này quá khác biệt ta có thể kết luận
phân phối bò lệch (không đối xứng)
 SPSS còn cung cấp các phương pháp kiểm nghiệm tính chuẩn của phân phối dữ liệu như Kolmogorov –

Smirnov hoặc Shapiro-Wilk (nằm trong công cụ Explore)
 Ngoài ra trong các kiểm nghiệm t so sánhcác giá trò trung bình và ANOVA, tính đồng nhất phương sai của các
biến kiểm nghiệm cũng ảnh hưởng rất nhiều đến việc so sánh do đó SPSS còn cung cấp công cụ kiểm nghiệm
Levene’s cho phép kiểm nghiệm sự ngang bằng phương sai giữa các biến
3.2.
-

Thống kê mô tả

Trước khi bắt tay vào việc mô tả dữ liệu (đo lường độ tập trung hay phân tán, tỷ lệ %, mối quan hệ giữa các biến …), cần
thiết phải nắm được loại biến đang khảo sát (loại thang đo của biến) hay nói cách khác ta phải nắm được ý nghóa của các
giá trò trong biến
o Đối với biến đònh danh hoặc thứ tự (nominal và ordinal) các phép tính toán số học như giá trò trung bình không có ý
nghóa thống kê, đặc biệt đối với biến đònh danh mọi sự so sánh hơn kém giữa các giá trò trong biến đều vô nghóa.
o Ngược lại các biến đònh lượng như thang đo khoảng cách và thang đo tỷ lệ (Interval và Ratio) thì mọi sự so sánh hay
tính toán số học đều có ý nghóa phân tích thống kê (cụ thể là giá trò trung bình)

 Thống kê mô tả cho biến đònh tính (thang đo đònh danh và thang đo thứ tự
-

Đổ bảng đơn (phân tích một biến): Bảng phân bổ tần suất (Frequencies)

Biên soạn: Đào Hoài Nam

25

Qui trình nghiên cứu và xử lí dữ liệu

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về