Phân tích dữ liệu bằng SPSS

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (623.54 KB, 74 trang )

Phân tích dữ liệu bằng SPSS

CHƯƠNG 1: KHÁI QUÁT VỀ QUI TRÌNH NGHIÊN CỨU – XỮ LÝ THÔNG
TIN VÀ MỘT SỐ LÝ THUYẾT THỐNG KÊ CƠ BẢN SỬ DỤNG TRONG
PHÂN TÍCH THÔNG TIN
1. Qui trình của một cuộc nghiên cứu
Thông thường một qui trình nghiên cứu bao gồm 8 bước:
-

Bước 1: Xác đònh vấn đề cần nghiên cứu

-

Bước 2: Xác đònh loại thông tin cần thu thập và nguồn cung cấp thông tin

-

Bước 3: Chọn mẫu nghiên cứu

-

Bước 4: Thiết kế nghiên cứu và xác đònh phương pháp thu thập thông tin.

-

Bước 5: Thiết kế bảng câu hỏi

-

Bước 6: Thu thập dữ liệu

-

Bước 7: Xử lý, phân tích và diễn giải các dữ liệu đã được xữ lý

-

Bước 8: Trình bày và báo cáo kết quả

2. Xữ lý thông tin trong nghiên cứu thực đòa
Có hai dạng thông tin nghiên cứu cần thu thập, loại thứ nhất là thông tin thứ
cấp và và loại thứ hai là thông tin sơ cấp.
-

Thông tin thứ cấp là những thông tin đã hiện hữu trên các nguồn tài liệu
đã được đăng tải, thông tin này đã được tổ chức thành bảng biểu, đồ thò.
Loại thông tin này người nghiên cứu chỉ việc sử dụng và diễn giải theo nhu
cầu nghiên cứu của mình mà không cần phải trãi qua một quá trình xữ lý
phức tạp đòi hỏi sự hỗ trợ của các phần mềm phân tích và xữ lý thông tin
chuyên dụng.

-

Thông tin sơ cấp là thông tin chưa hiện hữu, muốn có thông tin này đòi
hỏi các nhà nghiên cứu phải thực hiện một qui trình nghiên cứu với nhiều
bước đã trình bày ở trên. Trong nghiên cứu thu thập thông tin sơ cấp tồn
tại hai dạng nghiên cứu chính yếu nghiên cứu đònh tính và nghiên cứu
đònh lượng. Thông tin trong nghiên cứu đònh tính không có ý nghóa về mặt
thống kê, quá trình phân tích và xữ lý chỉ dừng ở chổ tập hợp, phân nhóm
những ý kiến quan điểm khác biệt và không đòi hỏi nhiều sự hỗ trợ của
các công cụ và kiến thức thống kê. Ngược lại với thông tin nghiên cứu

đònh lượng lại đòi hỏi nhiều kỷ năng và kiến thức phân tích thống kê để tổ
chức và phân tích. Phần mềm SPSS là một công cụ hữu hiệu cho việc xữ
lý và phân tích những thông tin nghiên cứu đònh lượng này.

Biên soạn: Đào Hoài Nam

1

Phân tích dữ liệu bằng SPSS

Trong nghiên cứu đònh lượng, dữ liệu ban đầu được thu thập từ hiện trường là
dữ liệu thô, chúng ta chưa thể tiến hành phân tích và diễn giải những dữ liệu
dạng thô này ngay được mà đòi hỏi phải tiến hành các bước xữ lý và phân
tích cần thiết từ mã hóa, kiểm tra, hiệu đính, nhập liệu đến tạo bảng biểu
cho dữ liệu và thực hiện các phân tích thống kê tương thích.
Nhiệm vụ tổng quát của việc xữ lý – phân tích dữ liệu là chuyển những mẫu
dữ liệu quan sát thô mà ta đã tiến hành mã hóa và kiểm tra thành những con
số thống kê có ý nghóa cho việc diễn giải kết quả nghiên cứu. Toàn bộ công
việc xữ lý – phân tích phức tạp này đòi hỏi cần phải có máy tính và các
phần mềm chuyên dụng hỗ trợ.
3. Qui trình xữ lý số liệu
Trong một qui trình nghiên cứu đònh lượng. Việc xữ lý dữ liệu bắt đầu từ khi
ta nhận được bảng câu hỏi đã được phỏng vấn. Qui trình xữ lý số liệu bao
gồm các bước sau:
-

Bước 1: Kiểm tra, hiệu chỉnh các trả lời trên bảng câu hỏi

-

Bước 2: Mã hóa các câu trả lời trên bảng câu hỏi

-

Bước 3: Nhập dữ liệu đã được mã hóa vào máy tính

-

Bước 4: Xác đònh các lỗi trong cơ sở dữ liệu và làm sạch dữ liệu

-

Bước 5: Tạo bảng cho dữ liệu và tiến hành các phân tích thống kê

Hai giai đoạn đầu tiên là những bước chuẩn bò cho việc phân tích bằng máy
tính sau này. Giai đoạn 3 là nhập các dữ liệu đã được mã hóa vào máy tính.
Quá trình nhập liệu này có thể dẫn đến những sai xót do đó một bước kế tiếp
phải được thực hiện trước khi tiến hành phân tích dữ liệu là phải làm sạch
dữ liệu đã được nhập vào trong máy.
4. Một số lý thuyết thống kê cơ bản
4.1. Các tham số thống kê đo lường độ tập trung hay hội tụ của dữ liệu
(central tendency measurement)
-

Giá trò trung bình (Mean): Là giá trò trung bình số học của một biến, được
tính bằng tổng các giá trò quan sát chia cho số quan sát. Đây là dạng công
cụ thường được dùng cho dạng đo khoảng cách và tỷ lệ. Giá trò trung bình
có đặc điểm là chòu sự tác động của các giá trò ở mỗi quan sát, do đó đây
là thang đo nhạy cảm nhất đối với sự thay đổi của các giá trò quan sát. Giá

trò trung bình được tính bằng công thức sau:

Biên soạn: Đào Hoài Nam

2

Phân tích dữ liệu bằng SPSS

n

X =

∑x
i =1

i

n

-

Trung vò (Median): Là số nằm giữa (nếu lượng quan sát là số lẽ) hoặc là
giá trò trung bình của hai quan sát nằm giữa (nếu số lượng quan sát là số
chẳn) của một dãy quan sát được xắp xếp theo thứ tự từ nhỏ đến lớn. Đây
là dạng công cụ thống kê thường được dùng để đo lường mức độ tập trung
của dạng dữ liệu thang đo thứ tự, nó có đặc điểm là không bò ảnh hưởng
của các giá trò đầu mút của dãy phân phối, do đó rất thích hợp để phân
tích đối với dữ liệu có sự chênh lệch lớn về giá trò ở hay đầu mút của dãy
phân phối.

-

Mode: Là giá trò có tần suất xuất hiện lớn nhất của một tập hợp các số đo,
dạng này thường được dùng đối với dạng dữ liệu thang biểu danh. Giống
như trung vò, mode không bò ảnh hưởng bởi giá trò đầu mút của dãy phân
phối.

4.2. Các tham số thống kê đo lường mức độ phân tán của dữ liệu
(Dispersion),
Khảo sát hai nhóm các con số sau::
Nhóm 1: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11
Nhóm 2: 4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8
Ta thấy số kích thướt mẫu của hai nhóm này bằng nhau, các giá trò đo lường
mức độ tập trung của dữ liệu như mean, media, mode đều bằng nhau và bằng
6. Tuy nhiên hai dữ liệu này hoàn toàn khác nhau. Nhóm 1 các dữ liệu biến
đổi nhiều hơn nhóm 2, điều này có nghóa các giá trò trong nhóm 1 phân tán
hơn, các giá trò quan sát nằm xa giá trò trung bình của mẫu hơn là nhóm 2.
Đo lường độ phân tán cho biết được những khác biệt giữa hai nhóm dữ liệu.
Có một số công cụ đo lường độ phân tán của dữ liệu như:
-

Phương sai (Variance): Dùng để đo lường mức độ phân tán của một tập
các giá trò quan sát xung quanh giá trò trung bình của tập quan sát đó.
Phương sai bằng trung bình các bình phương sai lệch giữa các giá trò quan
sát đối với giá trò trung bình của các quan sát đó. Người ta dùng phương
sai để đo lường tính đại diện của giá trò trung bình tương ứng, các tham số
trung bình có phương sai tương ứng càng lớn thì giá trò thông tin hay tính
đại diện của giá trò trung bình đó càng nhỏ. Phương sai của mẫu được tính
bằng công thức sau:

Biên soạn: Đào Hoài Nam

3

Phân tích dữ liệu bằng SPSS

n

S2 =

∑ (x
i =1

i

− x)2

n −1

-

Độ lệch chuẩn (Standard deviation): Một công cụ khác dùng để đo lường
độ phân tán của dữ liệu xung quanh giá trò trung bình của nó. Độ lệch
chuẩn chính bằng căn bật hai của phương sai. Vì phương sai là trung bình
của các bình phương sai lệch của các giá trò quan sát từ giá trò trung bình,
việc khảo sát phương sai thường cho các giá trò rất lớn, do đó sử dụng
phương sai sẽ gặp khó khăn trong việc diễn giải kết quả. Sử dụng độ lệch
chuẩn sẽ giúp dễ dàng cho việc diễn giải do các kết quả sai biệt đưa ra sát

với dữ liệu gốc hơn.

-

Khoảng biến thiên (Range): Là khoảng cách giữa giá trò quan sát nhỏ nhất
đến giá trò quan sát lớn nhất.

-

Sai số trung bình mẫu (Standard Error of Mean) Được dùng để đo lường sự
khác biệt về giá trò trung bình của mẫu nghiên cứu này so với mẫu nghiên
cứu khác trong điều kiện có cùng phân phối. Nó có thể được dùng để so
sánh giá trò trung bình quan sát với một giá trò ban đầu nào đó (giả thuyết).
Và ta có thể kết luận hai giá trò này là khác nhau nếu tỷ số về sự khác biệt
đối với standard error of mean nằm ngoài khoảng (-2,+2). Công thức tính
sai số trung bình mẫu:

Sx =
4.3.

S
n

Khoảng ước lượng (Confident interval)

Là một ước lượng xác đònh khoảng giá trò đặc trưng của tổng thể có thể rơi
vào. Dựa vào dữ liệu mẫu, với một độ tin cậy cho trước ta có thể xác đònh
được giá trò đại diện cho đám đông có thể nằm trong một khoảng ước lượng
nào đó.
Ví dụ gọi x là mức thu nhập trung bình của đám đông cần ước lượng. Với độ

tin cậy của khoảng sát nghiên cứu là 95% (nghóa là các ước lượng sẽ luôn có
một lượng sai số chấp nhận là 5%). Dựa vào mẫu quan sát ta có thể xác đònh
được hai giá trò về thu nhập là a và b sao cho xác suất để thu nhập trung bình
đám đông x rơi vào khoảng a và b (a, b) là 95%. Lúc này ta có thể diễn giải

Biên soạn: Đào Hoài Nam

4

Phân tích dữ liệu bằng SPSS

rằng với độ chính xác là 95% (hay chấp nhận 5% sai số) ta biết được thu
nhập trung bình của đám đông nghiên cứu nằm trong khoảng (a, b).
Công thức tính khoảng ước lượng:

E = X ± tα , n −1
Hoặc:

SX
n

E= p ± tα,n-1 Sp

Với p là tỷ lệ % tần suất xuất hiện của một giá trò quan sát
4.4.

Kiểm nghiệm giả thuyết (Hypothesis testing)

Bên cạnh việc ước lượng các đặc trưng của tổng thể, các dữ liệu mẫu thu

thập được còn được dùng để đánh giá xem một giả thuyết nào đó về tổng thể
là đúng hay sai. Ta gọi đó là kiểm nghiệm giả thuyết. Nói cách khác kiểm
nghiệm giả thuyết là dựa vào các thông tin mẫu để đưa ra kết luận bác bỏ
hay chấp nhận về giả thuyết của tổng thể
Ví dụ: Sau một thời gian thực hiện các chương trình, biện pháp marketing
(quảng cáo, khuyến mãi,…) công ty muốn đánh giá xem thò phần, doanh số
có gì thay đổi so với trước không, hay có đạt được mục tiêu đề ra không.
Hoặc công ty muốn tìm hiểu xem sở thích của người tiêu dùng về kiểu dáng,
màu sắc, mùi vò khác nhau về sản phẩm cuả công ty. Họ thích đặc biệt một
kiểu dáng nào đó, một màu sắc nào đó, hay các kiểu dáng, màu sắc khác
nhau đều được ưa thích như nhau.
Phương pháp kiểm nghiệm giả thuyết sẽ giúp giải quyết nhưng yêu cầu này
Để kiểm nghiệm giả thuyết ta phải xây dựng giả thuyết. Giả thuyết đã hình
thành được gọi là giả thuyết H0 được xem như đúng cho đến khi ta có đủ căn
cứ để kết luận khác hơn. Nếu giả thuyết H0 không đúng thì phải có một giả
thuyết nào đó khác H0 gọi là H1 là đúng. Một số giả thuyết thường gặp trong
phân tích:
_____oOo_____

Biên soạn: Đào Hoài Nam

5

Phân tích dữ liệu bằng SPSS

CHƯƠNG 2: GIỚI THIỆU VỀ PHẦN MỂM SPSS
Là phần mềm chuyên dụng xữ lý thông tin sơ cấp (thông tin được thu thập
trực tiếp từ đối tượng nghiên cứu (người trả lời bảng câu hỏi) thông qua một
bảng câu hỏi được thiết kế sẳn.

Thông tin được xữ lý là thông tin đònh lượng (có ý nghóa về mặt thống kê)
Phần mềm SPSS có tất cả 4 dạng màn hình:
1. Màn hình quản lý dữ liệu (data view):
Là nơi lưu trữ dữ liệu nghiên cứu với một cấu trúc cơ sở dữ liệu bao gồm cột,
hàng và các ô giao nhau giữa cột và hàng
-

Cột (Column): Đại diện cho biến quan sát. Mỗi cột sẽ chứa đựng tất cả
các câu trả lời trong một câu hỏi được thiết kế trong bảng câu hỏi

-

Hàng (Row): Đại diện cho một trường hợp quan sát (người trả lời), Ta
phỏng vấn bao nhiêu người (tùy thuộc vào kích thước mẫu) thì ta sẽ có bấy
nhiêu hàng. Mỗi hàng chứa đựng tất cả những câu trả lời (thông tin) của
một đối tượng nghiên cứu

-

Ô giao nhau giữa cột và hàng (cell): Chứa đựng một kết quả trả lời tương
ứng với câu hỏi cần khảo sát (biến) và một đối tượng trả lời cụ thể (trường
hợp quan sát)

2. Màn hình quản lý biến (variables view):
Là nơi quản lý các biến cùng với các thông số liên quan đến biến. Trong màn
hình này mỗi hàng trên màn hình quản lý một biến, và mỗi cột thể hiện các
thông số liên quan đến biến đó
-

Tên biến (name): Là tên đại diện cho biến, tên biến này sẽ được hiễn thò

trên đầu mỗi cột trong màn hình dữ liệu

-

Loại biến (type): Thể hiện dạng dữ liệu thể hiện trong biến. Dạng số, và
dạng chuỗi

-

Số lượng con số hiễn thò cho giá trò (Width): Giá trò dạng số được phép
hiễn thò bao nhiêu con số.

-

Số lượng con số sau dấu phẩy được hiễn thò (Decimals)

-

Nhãn của biến (label): Tên biến chỉ được thể hiện tóm tắc bằng ký hiệu,
nhãn của biến cho phép nêu rõ hơn về ý nghóa của biến.

-

Giá trò trong biến (Values): Cho phép khai báo các giá trò trong biến với ý
nghóa cụ thể (nhãn giá trò)

Biên soạn: Đào Hoài Nam

6

Phân tích dữ liệu bằng SPSS

-

Giá trò khuyết (Missing): Do thiết kế bảng câu hỏi có một số giá trò chỉ
mang tính chất quản lý, không có ý nghóa phân tích, để loại bỏ các biến
này ta cần khai báo nó như là giá trò khuyết (user missing). SPSS mặc đònh
giá trò khuyến (system missing) là một dấu chấm và tự động loại bỏ các giá
trò này ra khỏi các phân tích thống kê.

-

Kích thướt cột (columns): Cho phép khai báo độ rộng của cột

-

Ví trí (align): Vò trí hiễn thò các giá trò trong cột (phải, trái, giữa)

-

Dạng thang đo (measures): Hiễn thò dạng thang đo của giá trò trong biến

3. Màn hình hiễn thò kết quả (output):
Các phép phân tích thống kê sẽ cho ra các kết quả như bảng biểu, đồi thò và
các kết quả kiểm nghiệm, các kết quả này sẽ được truy xuất ra một màn
hình, và được lưu giữ dưới một tập tin khác (có đuôi là .SPO). Màn hình này
cho phép ta xem và lưu giữ các kết quả phân tích.
4. Màn hình cú pháp (syntax):
Màn hình này cho phép ta xem và lưu trữ những cú pháp của một lệnh phân

tích. Các cú pháp được lưu trữ sẽ được sử dụng lại mà không cần thao tác các
lệnh phân tích lại.
5. Khái quát về phân tích dữ liệu
5.1.

Kiểm tra dữ liệu (Data Screening)

Một thực tế luôn luôn gặp phải đối với những người làm công tác phân tích
và xử lý số liệu là hầu như không lúc nào mà không gặp những vấn đề đối
với dữ liệu trong tay họ, một số xuất hiện do lỗi nhập máy, lỗi mã hóa, hoặc
do các lỗi về chọn mẫu và chất lượng phỏng vấn, tất cả những lỗi này thường
dẫn đến những khác thường hoặc tính đại diện kém của dữ liệu thu thập.
Trong những cuộc nghiên cứu qui mô lớn, công việc kiểm tra dữ liệu đôi khi
còn tốn nhiều công sức và thời gian hơn cả việc phân tích và tóm tắc dữ liệu.
Do đó gần như là nhiệm vụ đầu tiên của người phân tích dữ liệu là phải tiến
hành kiểm tra dữ liệu nhằm xác đònh ra các lỗi trong dữ liệu đồng thời kiểm
tra xem tính tương thích của dữ liệu như thế nào so với những giả thuyết được
yêu cầu cho các phân tích thống kê sau này.
 Xác đònh những giá trò vượt trội (Outliers) và các giá trò lỗi (Roque values)
Có nhiều cách để xác đònh ra các giá trò vợt trội và giá trò lỗi. Tuy nhiên
điều quan trọng là xác đònh xem các giá trò vượt trội đó có phải là giá trò
lỗi hay không hay do sự bất thường trong mẫu nghiên cứu:

Biên soạn: Đào Hoài Nam

7

Phân tích dữ liệu bằng SPSS

-

Sử dụng công cụ bảng phân bổ tần xuất ngoài việc để đếm số lần xuất
hiện của từng giá trò riêng biệt, nó còn giúp ta tìm ra các giá trò lỗi
hoặc các giá trò mã hóa sai sót hoặc không mong đợi (ví dụ như biến
giới tính chỉ có hai giá trò mã hóa 1 và 2 tương ứng với giới tính nam và
nữ do đó khi khảo sát ta sẽ phát hiện ra các giá trò khác với giá trò mã
hóa 1 và 2). Ngoài ra công cụ này còn cho phép ta nhận ra được các
giá trò khuyết (Missing values) nhưng lại xuất hiện như là một giá trò
hợp lệ (Valid value)

-

Đôi khi việc xác đònh các giá trò vượt trội có thể được xác đònh một
cách tốt hơn khi ta khảo sát hai hay nhiều biến cùng một lúc. Đối với
các biến dạng biểu danh (nominal) hoặc thứ tự (ordinal) sử dụng công
cụ bảng chéo ta có thế xác đònh được những sự kết hợp phi lý giữa hai
hoặc nhiều biến, ví dụ như một người chưa bao giờ tiêu dùng sản phẩm
A nhưng lại tham gia đưa ra những ý kiến mức độ thỏa mãn trong tiêu
dùng sản phẩm A.

5.2.

Thống kê mô tả (Descriptive Statistics)

Đây có thể được xem là phần cốt lõi và thường gặp nhất trong việc phân tích
và xử lý số liệu. Tuy nhiên trước khi bắt tay vào việc mô tả dữ liệu (đo lường
độ tập trung hay phân tán, tỷ lệ %, mối quan hệ giữa các biến …), cần thiết
phải nắm được loại biến đang khảo sát (loại thang đo của biến) hay nói cách
khác ta phải nắm được ý nghóa của các giá trò trong biến

Đối với biến đònh danh hoặc thứ tự (nominal và ordinal) các phép tính toán
số học như giá trò trung bình không có ý nghóa thống kê, đặc biệt đối với biến
đònh danh mọi sự so sánh hơn kém giữa các giá trò trong biến đều vô nghóa.
Ngược lại các biến đònh lượng như thang đo khoảng cách và thang đo tỷ lệ
(Interval và Ratio) thì mọi sự so sánh hay tính toán số học đề có ý nghóa phân
tích thống kê
5.3.

Kiểm nghiệm các so sánh trung bình mẫu (Tests for Comparing Means)

Trong phân tích thống kê người ta thường sử dụng các phép kiểm nghiệm
kiểm nghiệm các giả thuyết về giá trò trung bình của các biến đònh lượng, và
thống kê cung cấp cho ta các công cụ như kiểm nghiệm t (T-Test) hay kiểm
nghiệm Z (Z-test)
 Kiểm nghiệm t cho một mẫu, cặp mẫu và hai mẫu ngẫu nhiên độc lập
Ta có ba dạng kiểm nghiệm t cho việc so sánh các giá trò trung bình của
mẫu. Việc sử dụng dạng nào tùy thuộc vào vấn đề ta đang tiến hành so
sánh cái gì

Biên soạn: Đào Hoài Nam

8

Phân tích dữ liệu bằng SPSS

-

Sử dụng kiểm nghiệm t cho hai mẫu ngẫu nhiên độc lập (Independent
Samples T Test) là phương pháp nhằm mục đích kiểm nghiệm so sánh

giá trò trung bình của một biến riêng biệt theo một nhóm có khác biệt
hay không đối với giá trò trung bình của biến riêng biệt đó theo một
nhóm khác. Với giả thuyết ban đầu H 0 cho rằng giá trò trung bình của
hai nhóm này là bằng nhau. Ví dụ ta kiểm nghiệm thu nhập trung bình
(biến thu nhập) theo hai nhóm giới tinh là nam và giới tính là nữ (biến
giới tính sử dụng để chia các giá trò quan sát trong biến thu nhập thành
hai nhóm)

-

Công cụ kiểm nghiệm t cho cặp mẫu (Paired-Samples T Test) được sử
dụng để kiểm nghiệm có hay không giá trò trung bình của các khác
biệt giữa các cặp quan sát là khác giá trò 0. Với giả thuyết ban đầu H 0
cho rằng giá trò trung bình các khác biệt này là bằng 0. Ví dụ như kiểm
nghiệm sự khác biệt về điểm thi môn học của hai nhóm sinh viên có
tham gia và không có tham gia chương trình phụ đạo ngoài giờ.

-

Công cụ kiểm nghiệm t một mẫu (One-Sample T Test) để kiểm nghiệm
có hay không giá trò trung bình của một biến là khác biệt với một giá trò
giả đònh từ trước. Với giả thuyết ban đầu H 0 cho rằng giá trò trung bình
kiểm nghiệm là bằng với giá trò giả thuyết đưa ra

 Phân tích phương sai một chiều (One-Way ANOVA)
Phân tích phương sai là một dạng mở rộng của phương pháp kiểm nghiệm
t hai mẫu ngẫu nhiên độc lập (Independent-Samples T Test), và được sử
dụng để kiểm nghiệm cho nhiều hơn hai nhóm. Phương pháp phân tích
này khảo sát sự biến thiên giữa các trung bình mẫu trong mối liên hệ với
sự phân táng của các quan sát trong từng mỗi nhóm. Với giả thuyết ban

đầu H0 cho rằng các giá trò trung bình này là bằng nhau.
5.4.

Kiểm nghiệm các mối quan hệ (Testing Relationships)

Kiểm nghiệm mối quan hệ giữa hai biến và kiểm nghiệm mối tương quan với
cường độ tương quan và chiều của tương quan giữa các biến trong cơ sờ dữ
liệu
-

Trong kiểm nghiệm mối quan hệ giữa hai biến, ta sử dụng kiểm
nghiệm Chi-bình phương để kiểm nghiệm giả thuyết ban đầu cho rằng
hai biến thể hiện trong bảng chéo (biến cột và biến hàng) là không có
mối quan hệ với nhau (độc lập với nhau).

Biên soạn: Đào Hoài Nam

9

Phân tích dữ liệu bằng SPSS

-

Trong kiểm nghiệm tương quan giữa các biến ta sử dụng kiểm nghiệm
F kiểm nghiệm giả thuyết ban đầu cho rằng giữa các biến đang khảo
sát không có tương quan với nhau (hệ số tương quan R = 0)
____o0o____

Biên soạn: Đào Hoài Nam

10

Phân tích dữ liệu bằng SPSS

CHƯƠNG 3: CHUẨN BỊ DỮ LIỆU
1. Kiểm tra và hiệu đính dữ liệu
Đây là bước kiểm tra chất lượng thông tin trong bảng câu hỏi nhằm bảo đảm
không có bảng câu hỏi nào thiếu hoặc chứa đựng những thông tin sai sót theo
yêu cầu thiết kế ban đầu, bước này cần thiết được thực hiện trước khi tiến
hành mã hóa và nhập dữ liệu vào máy tính. Người kiểm tra phải bảo đảm
tính toàn vẹn và tính chính xác của từng bảng câu hỏi & từng câu trả lời trong
bảng câu hỏi. Thông thường bước này nhàn nghiên cứu sẽ tiến hành kiểm tra
những đặc tính sau của bảng câu hỏi:
-

Tính logic của các câu trả lời: Đôi khi trong bảng câu hỏi, do yêu cầu
nghiên cứu sẽ có những đường dẫn, những điều kiện đễ người trả lời hoặc
có thể trả lời tất cả các câu hỏi hoặc có thể bỏ qua một vài câu hỏi nào
đó. Kiểm tra tính logic của bảng câu hỏi cho phép nhà nghiên cứu loại bỏ
những câu trả lời thừa, cũng như kòp thời bổ xung những phần thiếu trong
bảng câu hỏi. Tính logic của câu trả lời còn phụ thuộc vào sự kết dính và
liên hệ lẫn nhau giữa các câu hỏi trong một bảng câu hỏi (đôi khi một câu
trả lời là có ý nghóa nếu đứng riêng một mình nó những lại vô nghóa nếu
kết hợp so sánh với các câu trả lời trước hoặc sau nó).

-

Tính đầy đủ của một câu trả lời và của một bảng câu hỏi: Một bảng câu

hỏi chỉ có giá trò nếu như tất cả những câu hỏi theo yêu cầu đều được trả
lời đầy đủ. Mỗi câu hỏi trong bảng câu hỏi đều có một ý nghóa, một giá trò
nghiên cứu nhất đònh, do đó thiếu một câu trả lời nào đó cho một câu hỏi
cụ thể nào đó sẽ làm mất đi giá trò của bảng câu hỏi đó.

-

Tính hợp lý và xác thực của các câu trả lời: Một câu trả lời đầy đủ chưa
hẳn là câu trả lời có giá trò, do đó tính chân thực và hợp lý của câu trả lời
cũng quyết đònh đến giá trò của câu trả lời và của bảng câu hỏi, đặc biệt
là các câu hỏi chấm điểm, câu hỏi mở và các câu hỏi mang tính logic.

Quá trình kiểm tra, rà soát lại bản câu hỏi là nhằm mục đích kiểm tra, phát
hiện, sửa chửa và thông báo kòp thời cho người thu thập dữ liệu tránh những
sai sót tiếp theo.
Để xử lý các lỗi trong kiểm tra và hiệu đính, ta có thể lựa chọn cách xữ lý
như sau tùy thuộc vào mức độ sai sót cụ thể:
- Trả về cho bộ phận thu thập dữ liệu để làm sáng tỏ vấn đề
- Suy luận từ các câu trả lời khác
- Loại bỏ toàn bộ bản câu hỏi

Biên soạn: Đào Hoài Nam

11

Phân tích dữ liệu bằng SPSS

2. Mã hoá dữ liệu
Là quá trình chuyển dòch câu trả lời thực của người trả lời vào từng nhóm,

từng mẫu đại diện với các giá trò đại diện tương ứng nhằm làm cho quá trình
tóm tắc, phân tích và nhập liệu được dễ dàng và hiệu quả hơn. Có hai dạng
mã hóa:
-

Tiền mã hóa: Là việc mã hóa cho các câu hỏi đóng. Do đặc điểm của các
loại câu hỏi này là nhà nghiên cứu đã có sẵn các câu trả lời từ trước,
người trả lời chỉ việc lựa chọn câu trả lời nào phù hợp nhất với ý kiến của
mình, do đó việc mã hóa cho các câu hỏi này thường được tiến hành từ
trước, ở giai đoạn thiết kế bảng câu hỏi.

-

Mã hoá: Trong bảng câu hỏi ngoài những câu hỏi đóng nêu ở trên, còn
những câu hỏi mở, là những câu hỏi mà người trả lời tự do đưa ra câu trả
lời theo suy nghó và diễn giãi của chính họ. Các bảng câu hỏi nhận về
thường có những câu trả lời rất khác nhau và rất đa dạng. Do đó công việc
mã hóa những câu trả lời này thì cần thiết cho quá trình kiểm tra, nhập
liệu, tóm tắc và phân tích sau này.

Mục đích của mã hóa là tạo nhãn cho các câu trả lời, thừơng là bằng các con
số. Mã hóa còn giúp giảm thiểu số lượng các câu trả lời bằng cách nhóm các
câu trả lời vào những nhóm có cùng ý nghóa. Tiền trình mã hóa có thể được
tiến hành như sau:
-

Đầu tiên, xác đònh loại câu trả lời cho những câu hỏi tương ứng. Những
câu trả lời này có thể thu thập từ một mẫu các bảng câu hỏi đã hoàn tất,
thường là 25% trên tổng số bảng câu hỏi

-

Bước tiếp theo là xây dựng một danh sách liệt kê các câu trả lời, các câu
trả lời được liệt kê và tiến hành nhóm các câu trả lời theo những nhóm
đặc trưng (có cùng ý nghóa)

-

Cuối cùng, những nhóm câu trả lời này được gán cho một nhãn hiệu, một
giá trò, thường là một con số cụ thể
_____oOo_____

Biên soạn: Đào Hoài Nam

12

Phân tích dữ liệu bằng SPSS

CHƯƠNG 4: ĐỊNH BIẾN VÀ NHẬP DỮ LIỆU
1. Khái niệm về biến và các giá trò trong biến
Biến là tập hợp những trả lời cho một câu hỏi. Có hai loại biến như sau:
 Phân loại biến theo số lượng câu trả lời:
-

Biến một trả lời: Biến dành cho câu hỏi có một trả lời

-

Biến nhiều trả lời: Các biến dành cho nhiều câu trả lời có thể có

trong một câu hỏi nhiều trả lời

Ví dụ như trong bảng câu hỏi có hai câu hỏi sau:
Câu hỏi 1: Hãy cho biết bạn ở nhóm tuổi nào trong số những nhóm tuổi
sau:

-

Nhóm tuổi

-

code

Dưới 18

1

19 đến 30

2

31 đến 40

3

41 đến 50

4

Trên 50

5

Câu hỏi 2: Nói đến điện thoại di động, bạn biết được những nhãn
hiệu nào trong danh sách liệt kê dưới đây
Nhãn hiệu

code

Ericson
Motorola

1
2

Nokia

3

Siemens

4

Panasonic

5

….V.V
Có thể thấy đối với câu hỏi 1, người trả lời chỉ có thể đưa ra một câu trả

lời duy nhất về tuổi của mình, do đó biến chứa đựng câu trả lời của câu
hỏi 1 là biến một trả lời. Trong khi xem xét câu hỏi 2, người trả lời có thể
nêu ra nhiều nhãn hiệu mà họ có biết qua, do đó phải có nhiều biến chứa
đựng các trả lời có thể có, ta gọi biến đó là biến nhiều trả lời.

Biên soạn: Đào Hoài Nam

13

Phân tích dữ liệu bằng SPSS

 Phân loại biến theo kiểu dữ liệu:
Có hai loại biến chính là biến đònh tính và biến đònh lượng, đối với biến
đònh tính ta không thể sử dụng các phép toán (cộng, trừ, nhân, chia) để
tính toán các giá trò trên biến đó, ngược lại biến đònh lượng cho phép ta
thao tác các phép toán trên các giá trò mà nó đại diện. Việc xác đònh
dạng biến theo cách này cho phép ta lựa chọn được tham số thống kê
tương thích để phân tích.
Để xác đònh được biến là đònh lượng hay đònh tính đói hỏi phải xác đònh
các giá trò trong biến thuộc dạng thang đo nào trong bốn dạng thang đó
sau:
-

Thang đo đònh danh (Nominal Scale): Trong dạng thang đo này các con
số được sử dụng đơn thuần như một giá trò xác đònh sự khác biệt cho
các câu trả lời, các giá trò quan sát có ý nghóa khác biệt nhau. Đối với
loại thang biểu danh các giá trò số được sử dụng như là ký số nhận
dạng và không có giá trò về một thứ tự cao thấp và và độ lớn giữa các
con số

-

Thang đo thứ tự (Ordinal Scale): Trong dạng thang đo này dữ liệu được
xắp xếp các giá trò quan sát theo một thứ tự cao thấp nhất đònh, nhưng
không diễn tả được độ lớn giữa vò trí cao thấp giữa các con số. Tóm lại
thang đó thứ tự bao gồm cả thông tin về biểu danh đồng thời cung cấp
luôn mối quan hệ theo thứ tự giữa các giá trò nhưng không đo được
khoảng cách giữa các giá trò đó.

-

Thang đó khoảng cách (Internal Scale): Giống như đặc tính của thang
đo thứ tự, tuy nhiên đối với thang đó khoảng cách cho phép ta đo được
khoảng cách giữa các giá trò. Tuy nhiên do thang đo khoảng cách
không xác đònh được điểm 0 chung (giống như thang đo nhiệt độ) do
đó ta chỉ có thể nói giá trò này lớn hơn giá trò kia bao nhiêu đơn vò
nhưng không thể kết luận giá trò này lớn hơn giá trò kia bao nhiêu lần.

-

Thang đo tỷ lệ (ratio): Đây là thang đo có đủ các đặc tính thứ tự và
khoảng cách. Ngoài ra việc xác đònh ra tỷ số chênh lệch giữa các giá
trò là có thể thức hiện do ở thang đo này điểm 0 được xác đònh một
cách có ý nghóa.

Từ bốn dạng thang đo trên ta phân ra hai loại biến. Biến đònh tính là biến
chứa các giá trò quan sát ở dạng thang đo biểu danh và thứ tự. Còn biến
đònh lượng là biến chứa các giá trò có dạng thang đo khoảng cách và tỷ lệ.

Biên soạn: Đào Hoài Nam

14

Phân tích dữ liệu bằng SPSS

2. Phương pháp đònh biến trên SPSS (Define Variable)
Đònh biến trong màn hình quản lý biến (variables view). Công việc đònh biến
này có thể được thực hiện trước khi tiến hành nhập dữ liệu vào trong máy
Mục đích của việc đình biến là gán nhãn và các thông số cho các biến và
gán ý nghóa cho các giá trò trong biến. Sau khi được mã hóa các dữ liệu sẽ
được đại diện bằng những con số và các con số này có ý nghóa khác nhau tùy
theo câu trả lời thu thập được. Để các con số này có thể nhập vào máy tính
và có thể quản lý cũng như có ý nghóa trong SPSS, ta phải tiến hành đònh
biến cho dữ liệu. Qui trình đònh biến này bao gồm các bước sau:
-

Gán tên cho biến (Name): Ta gõ tên biến cần khai báo vào cột đầu
tiên trong màn hình Variables view (Nếu ta không gõ tên biến vào thì
SPSS sẽ mặc đònh tên biến này là Var000001). Tên biến được khai báo
này sẽ hiển thò trên đầu các cột trong màn hình Data view. Tên biến bò
hạn chế về số ký tự hiển thò, do đó cần thiết phải khai báo ngắn gọn
và dễ gợi nhớ, thông thường nên đặt theo thứ tự câu hỏi trong bảng câu
hỏi như q1, q3, q4a, …Có một số qui ước sau đây phải tuân theo khi
khai báo tên biến:
 Bắt đầu bằng một chử cái và không bắt đầu bằng dấu chấm(.).
 Tên biến không được qua 8 ký tự
 Không được chứa khoảng trắng và các ký tự đặc biệt như (!), (?), (*).
 Các từ khóa sau đây không được dùng làm tên biến: ALL, NE, EQ,

TO, LE, LT, BY OR, GT, AND, NOT, GE, WITH

-

Đònh ra kiểu biến (Type): Có các dạng biến sau có thể đònh dạng. Dạng
con số (numeric); Dạng tiền tệ; dạng ngày (Date) hoặc dạng chuổi (String).
Ngoài ra phần này cũng cho phép ta đònh dạng các dạng số được hiễn thò
khác nhau (Xem hình 4-1)

Hình 4-1

Biên soạn: Đào Hoài Nam

15

Phân tích dữ liệu bằng SPSS

Tùy thuộc vào yêu cầu của dữ liệu, mà ta sẽ đònh loại biến cho biến, SPSS
mặc đònh loại biến là kiểu số (numeric); ngoài ra còn có thể khai báo các
kiểu hiễn thò số khác nhau như kiểu số có dấu phẩy (Comma) hay dấu
chấm (Dot) ngăn cách giữa các khoảng cách hàng ngàn của con số; cách
hiễn thò theo các ký hiệu khoa học (Scientific notation); Hiễn thò ngày,
dollar và các kiểu tiền tệ khác; cuối cùng là cách hiễn thò dạng chuổi.
-

Xác đònh số lượng con số hiễn thò cho giá trò (Width) và số lượng con số
sau dấu phẩy hiển thò (Decimals): Khai báo bề rộng của con số (hàng đơn
vò, hàng trăm, hàng triệu, …) trong ô Width, Và khai báo số con số thập
phân sau dầu phẩy trong ô Decimal.

-

Gán nhãn cho biến (Variable Label): Đặt tên nhãn cho biến một cách đầy
đủ hơn, tên biến này sẽ hiễn thò ý nghóa của biến trên các kết quả phân
tích trong màn hình kết quả (output), công cụ này giúp ta hiểu được ý
nghóa của biến đang khảo sát dễ dàng hơn trong quá trình phân tích.

-

Đònh tên cho các giá trò trong biến (Value lables): Trong quá trình mã hóa
dữ liệu ta đã gán các giá trò trong biến thành các con số đại diện, Nhưng
để cho quá trình đọc và phân tích các kết quả nghiên cứu dễ dàng hơn ta
phải gán các con số này các ý nghóa như nó mà nó đang đại diện, công
cụ đònh lại nhãn cho giá trò cho phép ta thực hiện điều này (Xem hình 42):

Hình 4-2
Gán nhãn của giá trò (value lables) có ba thao tác:
o Gán một nhãn mới:
• Nhập giá trò vào hộp thoại Value
• Nhập nhãn của giá trò vào hộp thoại Value Label
• n nút Add để xác đònh nhãn đó
o Sữa đổi một nhãn:

Biên soạn: Đào Hoài Nam

16

Phân tích dữ liệu bằng SPSS

• Di vệt sáng đến nhãn cần sửa đổi
• Nhập tên nhãn mới, ấn nút Change để thay đổi
o Loại bỏ một nhãn:
• Di vệt sáng đến nhãn cần loại bỏ
• n nút Remove để loại bỏ
-

Đònh nghóa các giá trò khuyết (Missing Values): Được dùng để đònh ra các
giá trò cụ thể cho các giá trò mà ta muốn loại bỏ ra khỏi các phân tích và
xử lý thống kê sau này hay còn gọi là các giá trò khuyết. Ví dụ trong câu
hỏi về thu nhập, sẽ có một số trường hợp từ chối trả lời tương ứng với giá
trò mã hóa là 99. Trong quá trình phân tích để loại bỏ tất cả các trường
hợp này ra khỏi các xữ lý thống ke, ta phải tiến hành khai báo giá trò 99 là
giá trò khuyết trong phần giá trò khuyết (Missing values). (Xem hình 4-3)

Hình 4-3
SPSS mặc đònh là không có khai báo giá trò khuyết. Có ba cách để khai báo
các giá trò khuyết
(1) hai báo bằng 3 giá trò rời rạc (Discrete missing values)
(2) Khai báo một chuổi liên tục các giá trò (Range of missing values)
(3) Khai báo một chuổi các giá trò khuyết và một giá trò khuyết riêng
biệt (Rang plus one discrete missing value)
Đối với dữ liệu dạng chuổi. Toàn bộ các giá trò vô dụng hoặc trống đều
được xem là có nghóa. Để đònh nghóa các giá trò vô nghóa và các giá trò
trống là giá trò khuyết ta phải nhập vào một khoảng trống vào trông ô đònh
ra các giá trò khuyết riêng biệt

Biên soạn: Đào Hoài Nam

17

Phân tích dữ liệu bằng SPSS

-

Đònh kích cở cho cột (Column format): Đònh ra chiều rộng của cột đang
khai báo biến

-

Đònh ra vò trí hiễn thò các giá trò (align): Vò trí hiễn thò các giá trò trong cột
(phải, trái, giữa)

-

Đònh ra dạng thang đo mà biến thể hiện (measurement): Tùy thuộc vào
dạng thang đo được sử dụng trong biến mà ta khai báo trong công cụ
measurement, chú ý khai báo scale được dùng chung cho dạng thang đo
khoảng cách và thang đo tỷ lệ. Việc khái báo này chỉ mang tính chất quản
lý không ảnh hưởng đến kết quả phân tích

3. Nhập dữ liệu
Dữ liệu cần nhập sẽ được nhập vào trong màn hình Data views. Màn hình
này thể hiện ra một ma trận thông tin bao gồm: cột và hàng, và ô giao nhau
giữa cột và hàng. (Xem hình 2-1)
Dữ liệu được nhập theo trình tự sau:
-

Khai báo tên biến chứa đựng thông tin cần nhập vào thanh bên trên
mỗi cột (tên mặc đònh của các cột này trong SPSS là var00001, …,
var0000x). Phần này đã được đề cập chi tiết trong phần đònh biến.

-

Chọn ô cần nhập dữ liệu, là phần giao nhau giữa cột và hàng. Ô cần
nhập sẽ có khung viền chung quanh báo cho người nhập biết đó là ô
đang hoạt động, tên biến và số hiệu hàng được hiện ở góc trái của cửa
sổ.

-

Gõ giá trò cần nhập vào khung đã chọn, giá trò này được hiện trong
thanh sữa đổi (cell editor) nằm ở trên cửa sổ. Chú ý khi nhập dữ liệu
phải bảo đảm đúng với kiểu biến đã được đònh nghóa. Thông thường
các kiểu biến được khai báo là dạng chuổi (ngắn tối đa 8 ký tự) hoặc
dạng số, nhằm bảo đảm tính tương thích cho việc phân tích sau này.

Ta cũng có thể nhập liệu từ các phần mềm khác như Excel, Fox, … và sau đó
chuyển vào trong SPSS.
_____oOo_____

Biên soạn: Đào Hoài Nam

18

Phân tích dữ liệu bằng SPSS

CHƯƠNG 5: CÁC PHÉP BIẾN ĐỔI VÀ THAO TÁC TRÊN TẬP DỮ LIỆU
1. Mã hóa lại (Recode)
Recode là công cụ dùng để mã hóa lại các giá trò trong một biến thành các
giá trò mã hóa mới phù hợp với đòi hỏi của quá trình phân tích dữ liệu. Ví
dụ đối với câu hỏi nguồn gốc nhận biết quảng cáo của sản phẩm X, người
trả lời có thể trả lời cụ thể trên báo Sài Gòn, Tuổi Trẻ, Tạp chí Sức Khỏe
và Đời sống, Trên đài HTV7, Trên đài VTV3, … Có thể ban đầu các
nguồn quảng cáo được mã hóa một cách riêng biệt. Tuy nhiên do nhu cầu
xữ lý sau này, người nghiên cứu muốn nhóm các giá trò được mã hóa
riêng biệt này thành ba loại nguồn quảng cáo chính là Báo, Tạp Chí và
Tivi. Công cụ Recode cho phép ta đònh lại các giá trò riêng biệt về nguồn
quảng cáo ban đầu thành ba nguồn quảng cáo chung là Báo, Tivi và tạp
chí.
SPSS cung cấp cho ta hai loại Recode là Recode trên cùng một biến (Recode
into same variables) và recode vào biến khác (Recode into different
variable).
1.1. Mã hóa lại trên cùng một biến (Recode into same variables)
Recode trên cùng một biến là mã hóa lại những giá trò trong một biến hiện
hữu thành những giá trò mới và các giá trò mới này sẽ nằm ngay trong biến
hiện hữu và thay thế các giá trò củ trên biến đó. Khi sử dụng công cụ này ta
sẽ mất đi các giá trò đã khai báo ban đầu trong biến mà ta thực hiện lệnh
Recode. Chú ý các giá trò vừa được tạo ra chưa có nhãn, do đó sau khi thực
hiện lệnh ta phải tiến hành khai báo nhãn cho giá trò (đã đề cập trong phần
khai báo biến). Phương pháp này được thực hiện qua các bước sau:
-

Chọn transform/recode từ thanh menu chính. Ở đây ta lựa chọn
Recode into same variable để tiến hành đònh lại giá trò của biến trên
cùng một biến. Ta có hộp thoại như hình 5-1:

Biên soạn: Đào Hoài Nam

19

Phân tích dữ liệu bằng SPSS

Hình 5-1
-

Chuyển các biến cần mã hóa lại sang hộp thoại variables, nhấn thanh
Old and New Values để chuyển các giá trò củ cần thay đổi thành các
giá trò mới. Ta có hộp thoại Old and New values như hình 5-2:

Hình 5-2
-

Old value dùng để khai báo giá trò củ cần chuyển đổi. Giá trò củ này có
thể là một giá trò đơn lẻ (Value), một giá trò khuyết mặc đònh hay giá trò
khuyết khai báo (System-missing or User-missing), một dãy các giá trò
(Range), hoặc toàn bộ các giá trò nào đó trong biến (All other values).
New value dùng để khai báo giá trò mới sẽ thay thế cho giá trò củ tương
ứng. Nhấn thanh Add để lưu sự chuyển đổi này. Các giá trò chuyển đổi
có thể sửa chửa hoặc loại bỏ bằng cách di chuyển vệt tối đến biểu thức
thể hiện sự chuyển đổi trong hộp thoại Old->New và nhấn thanh
Change cho sự thay đổi hoặc Remove để loại bỏ.

-

Nếu việc đònh lại giá trò của các giá trò của biến có một số điều kiện

kèm theo, ta có thể dùng công cụ if để đònh ra các điều kiện cho lệnh
recode. Hộp thoại If Cases như hình 5-3:

Hình 5-3

Biên soạn: Đào Hoài Nam

20

Phân tích dữ liệu bằng SPSS

-

Trong hộp thoại If Cases, mặc đònh là không có điều kiện nào cả, phép
đònh lại giá trò của biến được thực hiện cho tất cả các quan sát, ở đây
hiển thò là Include all cases. Chọn lệnh include if case satisfies
condition để xác đònh các điều kiện trong việc đònh lại giá trò của biến.
Chuyển tên biến cần đònh lại các giá trò vào hộp thoại bên phải. Lúc
này phép đònh lại giá trò của biến nói trên chỉ được thực hiện đối với
các quan sát nào thỏa mãn được biểu thức điều kiện được thể hiện
trong hộp thoại điều kiện này. Ví dụ chỉ thực hiện lệnh recode đối với
những trường hợp quan sát ở khu vực (biến kvuc) TP.HCM (có giá trò
mã hóa là 2) ta khai báo biểu thức điều kiện như sau kvuc = 2.

1.2. Mã hóa lại vào một biến khác (Recode into different variables)
Trong trường hợp đònh lại các giá trò hiện tại của một biến thành các giá trò
mới trong một biến mới ta sẽ lựa chọn transform/recode/into different
variable và ta có hộp thoại như hình 5-4:

Hình 5-4
Sử dụng phương pháp recode vào một biến mới máy tính sẽ tự động tạo ra
một biến mới trên cơ sở dữ liệu để chứa các giá trò mới vừa được tạo ra, đồng
thời ta cũng vẫn lưu giữ được biến củ với các giá trò mã hóa củ trên cơ sở dữ
liệu. Chú ý các giá trò vừa được tạo ra chưa có nhãn, do đó sau khi thực hiện
lệnh ta phải tiến hành khai báo nhãn cho giá trò (đã đề cập trong phần khai
báo biến). Việc mã hóa lại các giá trò vào trong một biến mới được thực hiện
qua các bước sau:
-

Chuyển tên biến cần đònh lại giá trò vào trong hộp thoại variables. Khai
báo tên biến mới và nhãn biến mới sẽ chứa các giá trò vừa được mã
hóa lại trong hộp thoại Output variable. Nhấn thanh change để xác
nhận sự khái báo này.

Biên soạn: Đào Hoài Nam

21

Phân tích dữ liệu bằng SPSS

-

Các công cụ If và Old and New Values cũng có ý nghóa và thao tác
tương tự như trường hợp đònh lại giá trò cho cùng một biến, đã được đề
cập ở phần trên.

Công cụ này có ưa điểm là ta vừa tạo ra được một biến mới với các giá trò
được mã hóa theo cách mới nhưng đồng thời vẫn giữa được biến gốc với các

giá trò mã hóa ban đầu. Trong khi với phương pháp mã hóa lại dữ liệu trên
cùng một biến, các giá trò mã hóa mới sẽ chồng lên các giá trò củ và ta đã
mất đi các giá trò mã hóa ban đầu trên biến đó.
2. Công cụ tự động mã hóa lại (Automatic Recode)
Là phương pháp mã hóa tự động các giá trò dạng chuổi sang dạng số vào
trong một biến mới. Biến mới này sẽ chứa các con số nguyên liên tục, mỗi
con số nguyên trong biến mới sẽ đại diện cho các giá trò dạng chuổi giống
nhau .
Ví dụ khi ban đầu ta nhập dữ liệu đòa bàn nghiên cứu (quận) như Bình Thạnh,
Quận 1, Quận 2, Tân Bình, … ở dạng chuổi. Ta có thể recode các giá trò này
thành các giá trò số như 1, 2, 3 một các tự động bằng công cụ Automatic
Recode. Và mỗi con số nguyên này sẽ đại diện cho từng đòa bàn nghiên cứu,
như Quận 1 được chuyển thành 1, quận 2 là 2, …, Quận Tân Bình là 19. Đối
với cách Recode này các giá trò nguyên thủy (quận 1, quận 2, …) sẽ được sữ
dụng như là nhãn của giá trò đã được recode trong biến mới được tạo ra từ
lệnh Automatic Recode. Các giá trò dạng chuổi được mã hóa theo thứ tự
alphabe.
3. Lựa chọn các quan sát (Select Cases)
Công cụ Select Cases đưa ra một vài phương pháp cho phép ta lựa chọn ra
những nhóm nhỏ các trường hợp quan sát dựa trên tiêu chuẩn hay điều kiện
cụ thể. Ta cũng có thể dùng phương pháp này để lựa chọn một mẫu ngẫu
nhiên các trường hợp quan sát từ tổng thể dữ liệu. Để thực hiện lệnh lựa
chọn các quan sát này ta chọn Data/select cases từ menu ta sẽ có hộp thoại
như hình 5-5:
Trong hộp thoại Select Cases các biến được liệt kê ở bên trái hộp thoại, Bên
phải hộp thoại liệt kê các dạng lựa chọn. Lựa chọn All Cases là trạng thái lựa
chọn mặc đònh và ở trạng thái này có ý nghóa là toàn bộ các trường hợp quan
sát đang được lựa chọn.
Chú ý sau khi thực hiện việc chọn lựa các trường hợp. Các thao tác thống kê
trong SPSS lúc này chỉ thực hiện trên các trường hợp được lựa chọn. Do đó

sau khi thực hiện việc phân tích trên các trường hợp được lựa chọn, ta cần trả

Biên soạn: Đào Hoài Nam

22

Phân tích dữ liệu bằng SPSS

dữ liệu lại trạng thái ban đầu (kh6ng có lựa chọn các trường hợp) bằng cách
chọn All Cases trong phần Select của hộp thoại Select Cases.
Trong phần Unselected Cases cho biết trạng thái của các trường hợp không
được lựa chọn. Filtered chỉ ra các trường hợp không được chọn vẫn được giữ
lại trong tập tin nhưng sẽ bò loại trừ ra mọi phân tích thống kê. Select Cases
tạo ra một biến lọc (FILTER_$), với các trường hợp được chọn có giá trò 1 và
các trường hợp không được chọn có giá trò 0. Deleted cho phép loại bỏ toàn
bộ các trường hợp không được chọn ra khỏi dữ liệu.
Để nhận biết được các trường hợp nào được chọn hoặc không được chọn ta
có thể nhìn vào các giá trò trong biến FILTER_$, các trường hợp được chọn có
giá trò 1 và những trường hợp không được chọn có giá trò 0. Hoặc ta có thể
nhìn vào màn hình Data để phân biệt các trường hợp. Với các trường hợp
không được lựa chọn sẽ có một gạch chéo trong thanh số thứ tự hàng bên trái
màn hình (Xem hình 20). Có thể dùng công cụ Sort Cases để xắp xếp theo
thứ tự các trường hợp được chọn hay không được chọn (Sort cases theo biến
FILTER_$).

Hình 5-5
Để tiến hành chọn lựa các trường hợp ta có thể dùng các cách sau:
-

Lựa chọn công cụ If conditions are satisfied (xem hình 5-6) cho phép ta
lựa chọn các trường hợp dựa trên các biểu thức điều kiện. Một biểu
thức điều kiện cho ta các giá trò đúng hoặc sai của các trường hợp. Nếu
kết quả của biều thức điều kiện là đúng, trường hợp đó được lựa chọn.
Nếu kết quả này là sai hoặc thiếu thì các trường hợp đó không được
chọn. Ví dụ đối với biến giới tính (GTinh)có hai giá trò là Nam: 1 và

Biên soạn: Đào Hoài Nam

23

Phân tích dữ liệu bằng SPSS

Nữ: 2. Ta tiến hành chọn các trường hợp là Nam bằng cách chọn biến
giới tính trong hộp bên trái và chuyển sang hộp bên phải. Hiễn thò biểu
thức điều kiện như sau Gtinh=1. Lúc đó các trường hợp nào thỏa mãn
điều kiện Gtinh=1 sẽ được lựa chọn. Các biểu thức điều kiện có thể
bao gồm tên biến, các hằng số, các toán tử, các con số, các hàm số, …
-

Công cụ random sample of cases (hình 5-7) cho phép chúng ta lựa
chọn một mẫu ngẫu nhiên dựa trên một tỷ lệ phần trăm hoặc một số
chính xác các trường hợp sẽ lựa chọn.

-

Công cụ Base range (hình 5-8) cho phép lựa chọn các trưòng hợp theo
số thứ tự hàng hiễn thò bên trái màn hình dữ liệu của SPSS

Hình 5-6

Hình 5-7

Hình 5-8

Biên soạn: Đào Hoài Nam

24

Phân tích dữ liệu bằng SPSS

4. Tách tập dữ liệu (Split File)
Công cụ Split File cho phép tách dữ liệu trong tập dữ liệu đang quan sát
thành những nhóm nhỏ riêng biệt và sau khi thực hiện lệnh Split file này các
phân tích xữ lý thống kê sẽ cho ta các kết quả thống kê đã được thực hiện
riêng biệt theo từng nhóm nhỏ dữ liệu này.
Để thực hiện lệnh này ta chọn Data/Split File từ menu ta có hộp thoại như
hình 5-9:

Hình 5-9
Việc phân tách này dựa trên việc phân dữ liệu thành những nhóm tương
đương với các giá trò trong biến được lựa chọn để tiến hành phân nhóm.
Được sử dụng cho việc phân tích dựa trên những giá trò của một hay nhiều
biến đã được phân nhóm. Nếu ta lựa chọn việc phân tách dựa trên nhiều
biến, dữ liệu sẽ được nhóm theo thứ tự biến được khai báo trong hộp thoại
Groups Based On list.
-

Chọn Compare groups: Các dữ liệu phân tích sẽ được tách theo các
giá trò của biến được lựa chọn để tách dữ liệu (hiễn thò trong hộp
Groups Based On list), và việc tách này mang tính chất so sánh do đó
khi tiến hành phân tích dữ liệu các phân tích dựa trên sự phân tách
này những vẫn được thể hiện trên cùng một bảng.

-

Chọn Organize output by groups: Các dữ liệu phân tích sẽ được tách
theo các giá trò của biến được lựa chọn để tách dữ liệu (hiễn thò trong
hộp Groups Based On list), và việc tách này mang tính chất tổ chức lại
dữ liệu thành những nhóm nhỏ do đó khi tiến hành phân tích dữ liệu
các phân tích dựa trên sự phân tách và được thể hiện một các riêng
biệt giữa các nhóm phân tách

Biên soạn: Đào Hoài Nam

25

Phân tích dữ liệu bằng SPSS

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về