Tải bản đầy đủ (.pdf) (56 trang)

Sử dụng SPSS để tìm hiểu hồi quy đơn của một số chỉ tiêu sinh lý

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.71 MB, 56 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC VINH






TRỊNH THỊ PHƯỢNG







SỬ DỤNG SPSS ĐỂ TÌM HIỂU HỒI QUY ĐƠN
CỦA MỘT SỐ CHỈ TIÊU SINH LÝ





LUẬN VĂN THẠC SỸ TOÁN HỌC















Vinh, 2014
1

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC VINH




TRỊNH THỊ PHƯỢNG





SỬ DỤNG SPSS ĐỂ TÌM HIỂU HỒI QUY ĐƠN
CỦA MỘT SỐ CHỈ TIÊU SINH LÝ


Chuyên ngành: Lý thuyết Xác suất và thống kê Toán học
Mã số: 60.46.01.06

LUẬN VĂN THẠC SĨ TOÁN HỌC



Người hướng dẫn khoa học: Tiến sĩ Nguyễn Trung Hòa







Vinh, 2014.
2

MỤC LỤC
MỞ ĐẦU 3
CHƯƠNG 1. KIẾN THỨC CƠ SỞ 5
1.1. Biến ngẫu nhiên 5
1.1.1. Định nghĩa: 5
1.1.2. Phân loại biến ngẫu nhiên 5
1.1.3. Hàm phân phối xác suất 5
1.1.4. Các số đặc trưng của biến ngẫu nhiên 6
1.1.5. Vectơ ngẫu nhiên 8
1.2. Mẫu ngẫu nhiên và mẫu quan sát 8
1.2.1. Định nghĩa: 8
1.2.2. Các phương pháp chọn mẫu quan sát 9
1.3. Thống kê và các đặc trưng thống kê 9
1.3.1. Định nghĩa: 9
1.3.2. Trung bình mẫu 10
1.3.3. Phương sai mẫu 10
1.3.4. Tần suất mẫu 11

1.3.5. Một số đặc trưng khác 11
1.4. Phân tích hồi quy đơn tuyến tính 12
1.4.1. Phân tích hồi quy đơn tuyến tính 12
1.4.2. Phân tích hồi quy đơn phi tuyến 13
CHƯƠNG 2. SỬ DỤNG SPSS ĐỂ TÌM HIỂU VỀ HỒI QUY ĐƠN 14
CỦA MỘT SỐ CHỈ SỐ SINH LÝ 14
2.1. Giới thiệu tổng quan về phần mềm SPSS và quản lý dữ liệu 14
2.1.1. Giới thiệu chung về SPSS 14
2.1.2. Khởi động SPSS 16
2.1.3. Mở một file 17
2.1.4. Các màn hình SPSS: 18
2.1.5. Quản lý dữ liệu 22
2.2. Các tham số của phân phối 30
2.2.1. Các mức độ trung tâm 30
2.2.2. Các phân vị 30
2.2.3. Các tham số đo độ phân tán 31
2.2.4. Các tham số phản ánh phân phối 32
2.2.5. Mối quan hệ của các tham số 32
2.3. Trình bày dữ liệu thống kê 33
2.3.1. Lập bảng thống kê 33
2.3.2. Biểu đồ thống kê 34
2.4. Phân tích hồi quy 38
2.4.1. Tương quan tuyến tính và Hồi quy tuyến tính 38
2.4.2. Hồi quy đơn tuyến tính 40
2.4.3. Phân tích hồi qui tuyến tính với SPSS 40
2.4.4. SPSS với hồi quy bậc hai 48
2.4.5. Ứng dụng SPSS đối với một bài toán thực tế 49
KẾT LUẬN 54
TÀI LIỆU THAM KHẢO 55
3


MỞ ĐẦU
Việc ứng dụng tin học để xử lý số liệu trong các lĩnh vực khoa học - kỹ
thuật, kinh tế - xã hội ngày càng trở thành yêu cầu cấp thiết đối với những người
làm công tác thống kê, công tác nghiên cứu, công tác quản lý.
Có nhiều phần mềm để xử lý số liệu trong đó có phần mềm SPSS, là một
trong những phần mềm xử lý tài liệu thống kê mạnh nhất và được sử dụng phổ
biến nhất hiện nay.
Ưu điểm cơ bản của phần mềm này là sử dụng dễ dàng, cho phép thực
hiện việc tính toán và phân tích các tài liệu thống kê theo những phương pháp từ
đơn giản đến phức tạp.
Để có thể sử dụng hiệu quả SPSS đòi hỏi phải có những hiểu biết nhất
định về các phương pháp nghiên cứu thống kê như : Phân tổ, các tham số của
phân phối, kiểm định các giả thuyết, phân tích hồi quy và tương quan, dự đoán
Là người làm công tác giảng dạy tại trường Cao đẳng Y tế Thanh Hoá,
được nghiên cứu các kiến thức về toán học rất gần với các tham số trong SPSS,
để nâng cao kiến thức bổ trợ cho sinh viên trong việc đánh giá phân tích trong
lĩnh vực của ngành, từ đó đưa ra các mô hình, dự báo, dự đoán. Đồng thời để xử
lý và khảo sát các bài toán thống kê, vận dụng cách nhập, chọn lọc và sửa đổi dữ
liệu, mã hoá sao cho phù hợp với mục đích nghiên cứu và ứng dụng kiến thức đã
học trong môn học “ Xác suất và thống kê ứng dụng “ dựa trên một tệp dữ liệu
thu thập có sẵn.
Đó là lí do tôi chọn đề tài luận văn của mình là “SỬ DỤNG SPSS ĐỂ
TÌM HIỂU HỒI QUY ĐƠN CỦA MỘT SỐ CHỈ TIÊU SINH LÝ”
Mục tiêu nghiên cứu của đề tài nhằm xác định nội dung cơ bản của
phương pháp phân tích hồi quy và nghiên cứu một số ứng dụng của phương
pháp phân tích hồi quy trong khoa học Y khoa.
Luận văn có nhiệm vụ trình bày những khái niệm cơ bản của phương
pháp phân tích hồi quy, các vấn đề liên quan đến phân tích hồi quy như phân
tích tương quan, phương pháp bình phương nhỏ nhất. Một số dạng hồi quy có

4

thể ứng dụng trong nghiên cứu khoa học Y khoa: hồi quy đơn. Đề xuất một số ý
kiến về việc vận dụng phương pháp phân tích hồi quy trong khoa học Y khoa.
Trong luận văn này, chúng tôi khai thác các phương pháp nghiên cứu đã được đề
xuất để trình bày luận văn gồm 2 chương:
Chương 1. Kiến thức cơ sở
Trong chương này, chúng tôi trình bày một số khái niệm cơ bản liên quan
chính đến nội dung của chương sau. Cụ thể, chúng tôi trình bày một số khái
niệm cơ bản của lý thuyết xác suất thống kê như biến ngẫu nhiên, mẫu ngẫu
nhiên và mẫu quan sát, thống kê và các đặc trưng thống kê… Đồng thời để có
kiến thức chuẩn bị cho việc nghiên cứu chúng tôi trình bày phần phân tích hồi
quy đơn tuyến tính.
Chương 2. Sử dụng SPSS để tìm hiểu về hồi quy đơn của một số chỉ số sinh lý
Đây là nội dung chính của luận văn, bao gồm giới thiệu tổng quan về
phần mềm SPSS và quản lý dữ liệu; các tham số của phân phối. trình bày dữ liệu
thống kê trong SPSS và phân tích hồi quy với một số chỉ tiêu của một bộ số liệu
thực tế.
Luận văn được thực hiện và hoàn thành tại trường Đại học Vinh dưới sự
hướng dẫn tận tình của thầy giáo TS. Nguyễn Trung Hòa. Tác giả xin được bày
tỏ lòng biết ơn sâu sắc nhất đến thầy về sự hướng dẫn, động viên và tạo điều
kiện thuận lợi cho tác giả trong suốt quá trình học tập và nghiên cứu.
Nhân dịp này, tác giả cũng xin chân thành cảm ơn các thầy, cô giáo trong
tổ Xác suất và Thống kê toán, các thầy cô giáo trong Hội đồng chấm luận văn,
Khoa toán, phòng sau Đại học- trường đại học Vinh. Đồng thời, cho phép tôi nói
lời cảm ơn tới gia đình và bạn bè đã động viên, góp ý kiến và tạo mọi điều kiện
thực hiện luận văn này.
Mặc dù đã có nhiều cố gắng, song luận văn không tránh khỏi những thiếu
sót. Tác giả rất mong nhận được những lời chỉ bảo, những ý kiến đóng góp của
các thầy giáo, cô giáo và bạn đọc để luận văn được hoàn thiện hơn.

5

CHƯƠNG 1. KIẾN THỨC CƠ SỞ
1.1. Biến ngẫu nhiên
1.1.1. Định nghĩa:
Biến ngẫu nhiên là biến có thể ngẫu nhiên nhận một số giá trị và mỗi giá
trị mà nó nhận được tương ứng với một xác suất nào đó.
Thực chất biến ngẫu nhiên có thể nhận giá trị trong mọi phạm trù (như
màu sắc, hình dạng, phương hướng, thái độ, trình độ học vấn ). Tuy nhiên bằng
các ánh xạ chúng ta có thể chuyển việc nghiên cứu mọi biến ngẫu nhiên về việc
nghiên cứu các biến ngẫu nhiên nhận giá trị là các số.
1.1.2. Phân loại biến ngẫu nhiên
- Nếu tập các giá trị mà biến ngẫu nhiên nhận là một tập gồm một số hữu
hạn điểm hoặc vô hạn nhưng đếm được, khi đó biến ngẫu nhiên gọi là biến ngẫu
nhiên rời rạc.
Ví dụ 1: Số con của một gia đình, số người bị bệnh trong n người đến
khám, số bệnh nhân điều trị khỏi trong tháng hay năm, số hồng cầu, số bạch cầu
của một người là các biến ngẫu nhiên rời rạc.
- Nếu tập các biến ngẫu nhiên nhận lấp đầy một khoảng nào đó trên trục
số, khi đó biến ngẫu nhiên được gọi là biến ngẫu nhiên liên tục.
Ví dụ 2: Một người có chiều cao 170 cm là người có chiều cao đo được từ
trên 169,5 cm đến dưới 170,5 cm nếu chấp nhận sai lệch 0,5 cm. Như vậy chiều
cao là biến ngẫu nhiên liên tục. Tương tự chiều cao, cân nặng, các kích thước đo
được của cơ thể, của các cơ quan nội tạng là các biến ngẫu nhiên liên tục.
1.1.3. Hàm phân phối xác suất
6

a.Định nghĩa: Hàm phân phối xác suất của biến ngẫu nhiên X, ký hiệu là F
X
(x)

là xác suất để biến ngẫu nhiên X nhận giá trị nhỏ hơn x, với x là một số thực bất
kỳ.
F
X
(x) = P(X<x).
b.Tính chất: Hàm phân phối xác suất F
X
(x) của một biến ngẫu nhiên X có các
tính chất sau:
 0 ≤ F
X
(x) ≤ 1 với mọi x; F
X
(-

) = 0, F
X
(+

) = 1.
 F
X
(x) là hàm không giảm, nghĩa là với x
1
< x
2
thì F
X
(x
1

) ≤ F
X
(x
2
)
 Nếu X là biến ngẫu nhiên liên tục thì F
X
(x) liên tục trên toàn miền giá trị
của biến ngẫu nhiên X.
 P(a ≤ X < b) = F
X
(b) - F
X
(a).
c.Ý nghĩa: Hàm phân phối xác suất phản ánh mức độ tập trung xác suất ở về
phía bên trái một số thực x nào đó.
1.1.4. Các số đặc trưng của biến ngẫu nhiên
1.1.4.1. Kỳ vọng ( giá trị trung bình )
a.Định nghĩa:
Nếu X là biến ngẫu nhiên rời rạc nhận một trong các giá trị có thể có x
1
,
x
2
, , x
n
với các xác suất tương ứng p
1,
p
2

, , p
n
thì kỳ vọng toán E(X) của biến
ngẫu nhiên là E(X) =


n
i
ii
px
1
.
Nếu X là biến ngẫu nhiên liên tục với hàm mật độ xác suất f(x) thì kỳ
vọng toán E(X) của biến ngẫu nhiên là E(X) =



dxxxf )(
.
b.Các tính chất.
 Với C là hằng số thì E(C) = C, E(CX) = C.E(X).
 E(X+Y) = E(X) + E(Y), E(X-Y) = E(X) - E(Y)
 Nếu X và Y là các biến ngẫu nhiên độc lập thì
7

E(X.Y) = E(X).E(Y)
 Ef(X) =
i
i
i

pxf

)(
nếu P(X = x
i
) = p
i
.
Ef(X) =
Error!
f(x)p(x)dx nếu X có hàm mật độ p(x).
c.Ý nghĩa: Kỳ vọng của biến ngẫu nhiên là giá trị trung bình mà biến ngẫu
nhiên nhận, hoặc kỳ vọng của biến ngẫu nhiên là trọng tâm của phân phối xác
suất với khối lượng bằng 1. Chính vì vậy mà người ta dùng kỳ vọng để xác định
vị trí của phân phối.

1.1.4.2. Phương sai
a.Định nghĩa: Phương sai của biến ngẫu nhiên X ký hiệu là D(X) là kỳ vọng
toán của bình phương độ lệch giữa biến ngẫu nhiên X và kỳ vọng toán của nó.
D(X) = E[X - E(X)]
2

b.Các tính chất:
 DX 0 với mọi biến ngẫu nhiên X.
 DC = 0 nếu C là hằng số.
 D(CX) = C
2
DX Với C là hằng số.
 D(X + Y)=D(X - Y) = DX + DY nếu X,Y là hai biến ngẫu nhiên độc lập.
c.Ý nghĩa: Phương sai phản ánh mức độ phân tán của các giá trị của biến ngẫu

nhiên xung quanh giá trị trung bình của nó.
Độ lệch chuẩn của biến ngẫu nhiên X ký hiệu là
x

là căn bậc hai của
phương sai:
x

=
)(XD
.
8

1.1.4.3. Trung vị, ký hiệu là m
d
là giá trị nằm ở chính giữa tập hợp các
giá trị có thể có của biến ngẫu nhiên X.
1.1.4.4. Mode, ký hiệu là m
o
là giá trị của biến ngẫu nhiên tương ứng
với xác suất lớn nhất nếu là biến ngẫu nhiên rời rạc, tương ứng với
cực đại của hàm mật độ xác suất nếu là biến ngẫu nhiên liên tục.
1.1.5. Vectơ ngẫu nhiên
Định nghĩa: Giả sử X
1
, X
2
, , X
n
là các biến ngẫu nhiên, khi đó X = ( X

1
, X
2
, , X
n
)
được gọi là một vectơ ngẫu nhiên n chiều.
Ví dụ: Tiến hành đo chiều cao, cân nặng, vòng ngực, vòng eo và vòng mông
của nữ sinh ở một trường M, gọi X
1
là biến ngẫu nhiên biểu thị chiều cao, X
2

biến ngẫu nhiên biểu thị cân nặng, X
3
là biến ngẫu nhiên biểu thị vòng ngực, X
4

là biến ngẫu nhiên biểu thị vòng eo, X
5
là biến ngẫu nhiên biểu thị vòng mông;
ta có vectơ ngẫu nhiên năm chiều (X
1
,

X
2
,

X

3
,

X
4
,

X
5
).
1.2. Mẫu ngẫu nhiên và mẫu quan sát
1.2.1. Định nghĩa:
Mẫu ngẫu nhiên kích thước n đối với một biến ngẫu nhiên X là tập hợp
của n biến ngẫu nhiên X1, X2, , Xn độc lập được thành lập từ biến ngẫu nhiên
X và có cùng quy luật phân phối xác suất với X.
Mẫu ngẫu nhiên thường được ký hiệu là W = (X
1
, X
2
, , X
n
).
Giả sử X
1
nhận giá trị x
1
, X
2
nhận giá trị x
2

, , X
n
nhận giá trị x
n
, khi đó
tập hợp n giá trị x
1,
x
2
, , x
n
tạo thành một giá trị cụ thể của mẫu ngẫu nhiên và
được gọi là mẫu quan sát, ký hiệu w = (x
1,
x
2
, , x
n
).
Tập hợp các số liệu quan sát cụ thể gọi là các số liệu thực nghiệm.
Mẫu ngẫu nhiên hai chiều: Giả sử trên cùng một tổng thể phải nghiên cứu
đồng thời hai dấu hiệu nghiên cứu, trong đó dấu hiệu nghiên cứu thứ nhất có thể
xem là biến ngẫu nhiên X còn dấu hiệu nghiên cứu thứ hai là biến ngẫu nhiên Y.
9

Khi đó việc nghiên cứu hai dấu hiệu của tổng thể tương đương với việc nghiên
cứu biến ngẫu nhiên hai chiều (X, Y).
Mẫu ngẫu nhiên hai chiều kích thước n của dấu hiệu nghiên cứu (X,Y) là
một dãy gồm n biến ngẫu nhiên hai chiều (X
1

, Y
1
), (X
2
, Y
2
), ,(X
n
, Y
n
) độc lập
và có cùng quy luật phân phối xác suất với (X, Y).
Mẫu ngẫu nhiên hai chiều được kí hiệu là:
W = [(X
1
, Y
1
), (X
2
, Y
2
), ,(X
n
, Y
n
)]
Khi đó giả sử thành phần (X
i
, Y
i

) nhận giá trị (x
i
, y
i
), i = 1, ,n ta thu được mẫu
cụ thể w = [(x
1
, y
1
), (x
2
, y
2
), ,(x
n
, y
n
)]. Các giá trị x
i
(i = 1, ,n) gọi là thành
phần X của mẫu, các giá trị y
i
(i = 1, ,n) gọi là thành phần Y của mẫu
1.2.2. Các phương pháp chọn mẫu quan sát
Chọn mẫu đơn: lấy ngẫu nhiên theo danh sách.
Chọn mẫu hệ thống: chọn ngẫu nhiên phần tử đầu tiên, các phần tử tiếp
theo được chọn cách đều hoặc theo một quy luật nào đó.
Chọn mẫu phân tầng: chia thành các nhóm, tầng theo một đặc tính nào đó
rồi chọn mẫu từ các nhóm, các tầng đó.
Chọn mẫu chùm: chọn mẫu chỉ trong một tập con nào đó được xem là đại

diện cho tổng thể.
1.3. Thống kê và các đặc trưng thống kê
1.3.1. Định nghĩa:
Thống kê về một biến ngẫu nhiên X là một hàm G = f(X
1
, X
2
, , X
n
) của
n biến ngẫu nhiên độc lập X
i
(i = 1,…, n), trong đó X
i
là bản sao của biến ngẫu
nhiên gốc X (cùng phân phối xác suất với biến ngẫu nhiên X).
Vì thống kê là một hàm của các biến ngẫu nhiên nên nó cũng là một biến
ngẫu nhiên.
10

Thống kê cũng có quy luật phân phối xác suất nhất định và cũng có các
đặc trưng như kỳ vọng, phương sai…
Với một mẫu quan sát W = (X
1
, X
2
, , X
n
), ta tính được một giá trị bằng
số G

qs
= f(X
1
, X
2
, , X
n
) của thống kê G, giá trị này được gọi là giá trị quan sát
của thống kê G hay còn gọi là một thể hiện của thống kê G.
1.3.2. Trung bình mẫu
Định nghĩa: Giả sử (X
1
, X
2
, , X
n
) là một mẫu ngẫu nhiên kích thước n, khi đó
trung bình mẫu ký hiệu là
X
được xác định bởi
X
=
n
X
n
i
i

1
.

Ví dụ: Một thanh tra thực phẩm kiểm tra một mẫu ngẫu nhiên 7 hộp cá ngừ
mang cùng nhãn hiệu để xác định phần trăm các tạp chất lạ. Các số liệu sau đây
đã được ghi lại: 1,8; 2,1; 1,7; 1,6; 0,9; 2,7 và 1,8.
Khi đó trung bình mẫu là

X
=
Error!
= 1,8%.
Nhận xét: Trung bình mẫu là phương pháp đo được sử dụng phổ biến nhất để
xác định vị trí trung tâm trong thống kê.
1.3.3. Phương sai mẫu
Định nghĩa: Giả sử (X
1
, X
2
, , X
n
) là một mẫu ngẫu nhiên kích thước n với
trung bình mẫu
X
, khi đó phương sai mẫu ký hiệu là S
2
được xác định bởi
S
2
=
1
)(
1

2




n
XX
n
i
i
.
Ví dụ: So sánh giá cà phê ở 4 cửa hiệu tạp phẩm được lựa chọn ngẫu nhiên tại
Hà Nội, cho thấy các mức tăng từ tháng trước là 12, 15, 17 và 20 nghìn đồng cho 1
túi 0,5kg. Tìm phương sai của biến ngẫu nhiên các mức tăng giá.
11

Giải:
+ Tính trung bình mẫu, chúng ta thu được:

X
=
12+15+17+20
4
= 16 nghìn đồng.
+ Vì thế:
S
2
=

Error!


=

Error!

=

Error!

=
Error!
.
Độ lệch tiêu chuẩn mẫu ký hiệu bằng S là căn số bậc hai dương của
phương sai mẫu.
1.3.4. Tần suất mẫu
Tần suất mẫu là biến ngẫu nhiên chỉ tần suất xuất hiện biến cố A: f =
k
n
.
Trong đó k là số lần xuất hiện A, n kích thước mẫu.
Nếu A là một biến cố nào đó với xác suất xuất hiện A là p thì các giá trị đặc
trưng của tần suất mẫu là
E(f) = p, D(f) =
Error!
.
1.3.5. Một số đặc trưng khác
1.3.5.1. Định nghĩa Median mẫu (trung vị mẫu): Nếu ( X
1
, X
2

, , X
n
)
là một mẫu ngẫu nhiên cỡ n được sắp xếp theo thứ tự tăng dần của độ lớn, khi
đó median mẫu được xác định bởi thống kê
~

X =
2
1n
X
, khi n lẻ và
~

X =
2:
2
1
2









nn
XX

, khi n chẵn.
Ví dụ: Số tàu nước ngoài đến cảng biển phía đông vào 7 ngày được lựa chọn
ngẫu nhiên là 8, 3, 9, 5, 6, 8 và 5. Tìm median bằng cách bố trí các quan sát theo trật tự
tăng theo độ lớn, chúng ta có : 3 5 5 6 8 8 9. Và từ đó suy ra
~

X= 6.
12

1.3.5.2. Định nghĩa Mode: Nếu X
1
, X
2
, , X
n
không nhất thiết khác
nhau hoàn toàn, biểu diễn một mẫu ngẫu nhiên có cỡ n. Khi đó mode là giá trị
của mẫu mà xảy ra thường xuyên nhất hoặc có tần số lớn nhất.
Mode có thể không tồn tại và khi nó tồn tại không nhất thiết là duy nhất.
Ví dụ: Số lượng phim mà một tổng thể ngẫu nhiên 12 sinh viên đã tham
gia đóng tháng vừa rồi được ghi nhận như sau: 2, 0, 3, 1, 2, 4, 2, 5, 4, 0, 1 và 4.
Trong trường hợp này, có hai mode 2 và 4, vì cả 2 và 4 đều xảy ra với tần số cao
nhất. Phân phối được xác định là phân phối hai mode.
Nhận xét: Mode là tiêu chí thường được chú ý trong các bài toán kinh tế:
Để bán được lượng hàng hóa lớn thì người bán hàng nên quan tâm tới thị hiếu
của số đông, chẳng hạn năm nay kiểu áo khoác nào được ưa chuộng.
1.4. Phân tích hồi quy đơn tuyến tính
1.4.1. Phân tích hồi quy đơn tuyến tính
Hồi quy thì tương quan hay nói cách khác điều kiện để hồi quy thì trước
hết phải tương quan, còn tương quan thì chưa chắc đã hồi quy.

Tương quan và hồi quy tuyến tính dùng để xem xét mối liên hệ giữa hai
hay nhiều biến định lượng.
Nếu kết luận được là 2 biến có liên hệ tương quan tuyến tính chặt chẽ với
nhau qua hệ số tương quan r thì ta có thể mô hình hóa mối quan hệ nhân quả của
chúng bằng mô hình hồi quy tuyến tính trong đó một biến được gọi là biến phụ
thuộc Y còn biến kia là biến độc lập X.
Một số tên gọi khác của biến phụ thuộc và biến độc lập như sau:
Biến phụ thuộc: biến được giải thích, biến được dự báo, biến được hồi
quy, biến phản ứng, biến nội sinh.
Biến độc lập: biến giải thích, biến dự báo, biến hồi quy, biến tác nhân hay
biến kiểm soát, biến ngoại sinh.
Trong phân tích tương quan các biến có tính chất đối xứng tức là không
có sự phân biệt giữa 2 biến, còn trong phân tích hồi quy ta ngầm giả định là X
gây ra Y, ta ước lượng Y trên cơ sở đã biết X, tức là biến độc lập X ta đã biết giá
trị còn biến phụ thuộc Y là một biến ngẫu nhiên.
13

Giả sử xét mối liên hệ tuyến tính giữa một biến phụ thuộc và một biến độc
lập ta xây dựng mô hình hồi quy tuyến tính là phương trình có dạng:
Y
i
= α + β * X
i
.
Trong đó: X
i
là trị quan sát thứ i của biến độc lập, Y
i
là giá trị dự đoán thứ i của
biến phụ thuộc, α, β là các hệ số hồi quy.

Phương pháp để xác định hệ số hồi quy là phương pháp bình phương nhỏ
nhất OLS (Ordinary least square).
Ví dụ, xây dựng mô hình hồi quy tuyến tính giữa biến Cân nặng và biến
Tuổi (ở phần tương quan ta có hệ số r =0.935 tức là giữa 2 biến đã có mối quan
hệ tương quan tuyến tính rất mạnh).
Xét biến Cân nặng là biến phụ thuộc, biến Tuổi là biến độc lập ta có
phương trình hồi quy như sau:
Cân nặng = α + β * Tuổi.
Ở phương trình này độ dốc β là lượng tăng giảm (kg) của Cân nặng dự
đoán do lượng tăng giảm của Tuổi. Hằng số α (tung độ của vị trí tại đó đường
thẳng cắt trục tung) là giá trị Cân nặng dự đoán khi Tuổi = 0.
1.4.2. Phân tích hồi quy đơn phi tuyến
Mối liên hệ tương quan phi tuyến là mối liên hệ tương quan giữa các tiêu
thức không được biểu hiện bằng một đường thẳng mà bằng các đường cong có
hình dáng khác nhau. Mô hình hồi qui bậc hai được biểu diễn như sau:
2
321t
ttY
ˆ

.
Dấu của các tham số quyết định dạng đường xu hướng như sau:
- Nếu 
2
và 
3
đều dương: Y tăng nhanh dần theo thời gian.
- Nếu 
2
âm và 

3
dương: Y giảm sau đó tăng
- Nếu 
2
dương và 
3
âm: Y tăng nhưng tốc độ tăng giảm dần sau đó đạt
cực trị và bắt đầu giảm.
14

CHƯƠNG 2. SỬ DỤNG SPSS ĐỂ TÌM HIỂU VỀ HỒI QUY ĐƠN
CỦA MỘT SỐ CHỈ SỐ SINH LÝ
2.1. Giới thiệu tổng quan về phần mềm SPSS và quản lý dữ liệu
2.1.1. Giới thiệu chung về SPSS
Phần mềm SPSS (Statistical Product and Services Solutions) là một phần
mềm thống kê, thường được sử dụng trong nghiên cứu xã hội đặc biệt là trong
tâm lý học, y học, tiếp thị và xã hội học. SPSS cung cấp một hệ thống quản lý
dữ liệu và khả năng phân tích thống kê với giao diện thân thiện cho người
dùng trong môi trường đồ hoạ, sử dụng các trình đơn mô tả và các hộp thoại đơn
giản.
Về cách sử dụng SPSS:
SPSS là phần mềm chuyên dụng xử lý thông tin sơ cấp - thông tin được thu thập
trực tiếp từ đối tượng nghiên cứu. Thông tin được xử lý là thông tin định lượng
(có ý nghĩa về mặt thống kê). SPSS là một bộ chương trình rất dễ sử dụng nên
thu hút được nhiều người sử dụng. SPSS cung cấp một giao diện giữa người và
máy cho phép sử dụng các Menu thả xuống để chọn các lệnh thực hiện. Khi thực
hiện một phân tích chỉ đơn giản chọn thủ tục cần thiết và chọn các biến phân
tích rồi bấm OK là có kết quả ngay trên màn hình để xem xét.
Chức năng chính của SPSS
Nhập và làm sạch dữ liệu;

Xử lý biến đổi và quản lý dữ liệu;
Tóm tắt, tổng hợp dữ liệu và trình bày dưới các dạng biểu bảng, đồ thị, bản đồ;
Phân tích dữ liệu, tính toán các tham số thống kê và diễn giải kết quả.
Nội dung chủ yếu của SPSS:
Nội dung của SPSS rất phong phú và đa dạng bao gồm từ việc thiết kế các
bảng biểu và sơ đồ thống kê, tính toán các đặc trưng mẫu trong thống kê mô tả,
đến một hệ thống đầy đủ các phương pháp thống kê phân tích như: So sánh các
15

mẫu bằng nhiều tiêu chuẩn tham số và phi tham số (Nonparametric Test), các
mô hình phân tích phương sai theo dạng tuyến tính tổng quát (General Linear
Models), các mô hình hồi quy đơn biến và nhiều biến, các hồi quy phi tuyến tính
(Nonlinear), các hồi quy Logistic; Phân tích theo nhóm (Cluster Analysis);
Phân tích tách biệt (Discriminatory Analysis); và nhiều chuyên sâu khác
(Advanced Statistics).
 Cấu trúc, tổ chức dữ liệu trong SPSS:
SPSS tổ chức các file dưới dạng định dạng riêng (có thể trao đổi – nhập
và xuất sang các định dạng khác) và gồm các cấu trúc file như sau:
File dữ liệu: *.sav hoặc *.sys;
File Syntax: *.sps;
File kết quả: *.spv;
File Script: *.wwd hoặc *.sbs.
 Các định dạng dữ liệu khác mà SPSS có thể đọc:
Bảng tính – Excel (*.xls, *.xlsx), Lotus (*.w*);
Database – dbase (*.dbf);
ASCII text (*.txt, *.dat);
Complex database – Oracle, Access;
Các tập tin từ các phần mềm thống kê khác (Stata, SAS).
 Một số ứng dụng chính của SPSS:
SPSS có thể là đủ để giúp các nhà khoa học thực hiện việc xử lý số liệu

nghiên cứu nói chung và trong nghiên cứu các mảng chuyên ngành khác nhau của
mình, chẳng hạn: Ứng dụng SPSS trong nghiên cứu tâm lý học: tâm lý tội phạm,
tâm lý học sinh-sinh viên…; Ứng dụng SPSS trong nghiên cứu xã hội học: ý kiến
của người dân trong việc xây dựng lại khu chung cư, thống kê y tế…; Với SPSS,
ta có thể phân tích được thực trạng, tìm ra nhân tố ảnh hưởng, dự đoán được xu
hướng xảy ra tiếp theo, giúp ta đưa ra các quyết định một cách chính xác, giải
quyết các vấn đề một cách nhanh chóng và cải thiện kết quả tốt hơn.
16

Tóm lại: Trong phạm vi đề tài, ứng dụng phần mềm SPSS để tìm hiểu về
hồi quy đơn của một số chỉ tiêu sinh lý, bản thân tôi đã nghiên cứu về phần
mềm, thông qua hệ thống Menu để thực hiện các thủ tục (câu lệnh), tôi thấy rằng
phần mềm SPSS là một công cụ rất hữu ích cho việc thực hiện đề tài.
Chúng tôi chỉ có thể giới thiệu sơ bộ về phần mềm SPSS với những menu,
hộp thoại, thủ tục liên quan đến đề tài và quan trọng nhất diễn đạt được kết
quả của việc ứng dụng phần mềm SPSS, đưa ra những kết luận, các con số có ý
nghĩa về mặt khoa học.
2.1.2. Khởi động SPSS
Trên màn hình desktop của Widows nhắp vào biểu tượng
Hoặc mở phím Start, All programs, SPSS for Windows, SPSS 16.0 for Windows
Sẽ xuất hiện cửa sổ SPSS Data Editor và một hộp thoại như sau:
 Run the tutorial:
Chạy chương trình trợ giúp
 Type in data: Nhập dữ liệu mới
 Run an existing query:
Chạy một truy vấn dữ liệu đã có sẵn
 Create new query using Database
Wizard:
Lập một truy vấn dữ liệu sử dụng
Database Wizard

 Open an existing data source:
Mở file dữ liệu đã có sẵn.
(Chú ý: Hộp thoại này chỉ xuất hiện
một lần khi khởi động SPSS)

17

2.1.3. Mở một file
Nếu đã có sẵn một file dữ liệu, ta có thể mở nó bằng lựa chọn :
 Open an existing data source và nhăp vào More Files;
Nếu đang ở trong cửa sổ SPSS Data Editor:
Từ thanh menu chọn: File / Open / Data…
Trong hộp thoại Open File, chọn file mà ta muốn mở: Nhắp Open
Bên cạnh các file được lưu dưới định dạng của SPSS, ta có thể mở các file
có định dạng của Excel, Lotus, dBASE, tab-deliminated mà không cần phải
chuyển đổi chúng sang một định dạng trung gian hoặc nhập các thông tin định
nghĩa dữ liệu.
Để mở một tệp tin (file) Excel:
Tại cửa sổ SPSS Data Editor, từ thanh menu chọn : File /Open / Data…
Trong hộp thoại Open File, chọn file mà ta muốn mở : Nhắp Open
Trong hộp thoại Open File, chọn nơi lưu giữ file (Look in); chọn loại file
(Files of type) và sau đó chọn tên file (File name)


18

Hộp thoại Opening
Excel Data Source
xuất hiện :




Chọn Worksheet
mà ta định mở (đối
với file có nhiều
hơn một worksheet)
:


2.1.4. Các màn hình SPSS:
Phần mềm SPSS có 4 dạng màn hình:
Màn hình quản lý dữ liệu (data view):

19

Là nơi lưu trữ dữ liệu nghiên cứu với một cấu trúc cơ sỡ dữ liệu bao gồm
cột, hàng và các ô giao nhau giữa cột và hàng, bảng Data view: Thể hiện trị số
dữ liệu thực hoặc các nhãn trị số được xác định.
Thuộc tính của Data View giống như những gì được tìm thấy trong các
phần mềm sử dụng bảng tính, (ví dụ như Excel). Tuy nhiên cũng có một số sự
khác biệt quan trọng: Các hàng là các bản ghi/đối tượng/trường hợp (case).
Từng hàng đại diện cho một đối tượng hoặc một quan sát. Ví dụ từng người trả
lời đối với một bảng hỏi/phiếu điều tra là một đối tượng.
Các cột là các biến. Từng cột đại diện cho một biến hoặc thuộc tính được
đo đạc. Ví dụ từng mục trong một bảng hỏi là một biến.
Các ô chứa các trị số. Từng ô chứa một trị số của một biến cho một đối
tượng. Ô là sự kết hợp của đối tượng và biến. Các ô chỉ chứa các trị số biến.
Không giống như các phần mềm sử dụng bảng tính, các ô trong Data Editor
không thể chứa đựng các công thức.
File dữ liệu có hình chữ nhật. Hai hướng của file dữ liệu được xác định

bởi số lượng các đối tượng và số lượng các biến. Ta có thể nhập dữ liệu trong
bất kể ô nào. Nếu ta nhập dữ liệu vào một ô nằm bên ngoài các đường biên của
file dữ liệu được xác định, hình chữ nhật dữ liệu sẽ được mở rộng để bao gồm
bất kỳ mọi hàng và mọi cột nằm giữa ô đó và các đường biên của file. Không có
các ô “trống rỗng” trong các đường biên của file dữ liệu. Đối với các biến dạng
số, các ô rỗng được chuyển thành trị số khuyết thiếu hệ thống. Đối với các biến
dạng chuỗi, một dấu cách vẫn được coi là một trị số.
Màn hình quản lý biến (variable view):
20


Là nơi quản lý các biến cùng với các thông số liên quan đến biến (có đuôi .SAV).
Bảng Variable View chứa đựng các thông tin về các thuộc tính của từng biến
trong file dữ liệu.
Trong một bảng Data view:
+ Các hàng là các biến.
+ Các cột là các thuộc tính của biến
Có thể bổ sung hoặc xoá các biến và thay đổi thuộc tính của các biến, bao gồm:
- Tên biến (Name)
- Loại dữ liệu (Type)
- Số lượng con số hoặc chữ (With)
- Số lượng chữ số thập phân (Decimals)
- Mô tả biến/nhãn biến (Lable) và nhãn trị số biến (Values)
- Các trị số khuyết thiếu do người sử dụng thiết lập (Missing)
- Độ rộng của cột (Width)
21

- Căn lề (Align)
- Thang đo (Measure)
Màn hình hiển thị kết quả (output):



Các phép phân tích thống kê sẽ cho ra các kết quả như bảng biểu, đồ thị
và các kết quả kiểm định các kết quả này sẽ được truy xuất ra màn hình cho
phép ta xem và lưu giữ các kết quả phân tích dưới một tập tin (có đuôi là .SPO),
các kết quả có thể copy hoặc copy object sang các phần mềm khác như word
hay excel.
Màn hình cú pháp (syntax):

Cho phép ta xem và lưu trữ những cú pháp của một lệnh phân tích.
Tác dụng:
22

Lưu tiến trình làm việc
Tiết kiệm thời gian khi thực hiện các phép phân tích tương tự nhau
Thực hiện được tất cả các ứng dụng trong SPSS
Mở file syntax: File/ Open/ Syntax
Lưu file syntax: File/ Save as
Thực hiện các lệnh trong syntax với Paste
Thanh Menu Bar
Phần mềm SPSS cung cấp hệ thống Menu để thực hiện các thủ tục, hộp thoại
thân thiện, từ đó có thể điều khiển và thực hiện cho mục đích người sử dụng:

File: thực hiện các chức năng với file như mở, đọc, lưu file,…
Edit: thực hiện các chức năng chỉnh sửa file: copy, paste, tìm kiếm và thay thế
View: có thể thay đổi hình thức hiển thị của dữ liệu. Chức năng phố biến nhất là
Value Labels
Data: các chức năng định dạng, nhập dữ liệu: sắp xếp, trộn, đặt điều kiện
Transform: thay đổi dạng dữ liệu có sẵn bằng lệnh mã hóa lại biến, tính toán,…
Analyze: thực hiện tất cả các phép phân tích đối với các biến số

Graphs: vẽ biểu đồ
Help: Trợ giúp
2.1.5. Quản lý dữ liệu
23

SPSS có một bộ soạn thảo dữ liệu tương tự như Excel, bộ soạn thảo cho phép
vào các dữ liệu và mô tả các thuộc tính của chúng. Tuy nhiên, SPSS không có
những công cụ quản lý dữ liệu thật mạnh, chỉ có các lệnh chuyển cấu trúc dữ
liệu theo chiều ngang thành cấu trúc dữ liệu theo chiều dọc và ngược lại. SPSS
chỉ xử lý mỗi file dữ liệu ở một thời điểm và khó có thể phải thực hiện các
nhiệm vụ phân tích với nhiều file dữ liệu cùng một lúc.
2.1.5.1. Điều khiển file và biến đổi file
Các file dữ liệu không phải lúc nào cũng được tổ chức dưới các dạng lý
tưởng. Do vậy phải kết hợp các file dữ liệu sắp xếp dữ liệu theo một trật tự khác
nhau, chọn một nhóm phụ các đối tượng, hoặc thay đổi đơn vị phân tích bằng
cách gộp các đối tượng với nhau. Một phạm vi lớn của khả năng biến đổi dữ liệu
là có sẵn, bao gồm các năng lực để:
Sắp xếp dữ liệu. Ta có thể sắp xếp dữ liệu dựa vào trị số của một hoặc
một số biến.
Chuyển các đối tượng và các biến với nhau. Định dạng file dữ liệu SPSS
đọc các hàng là các đối tượng và các cột là các biến. Đối với các file trong đó
trật tự này đảo ngược, ta có thể chuyển đổi các hàng và các cột và đọc dữ liệu
trong định dạng chính xác.
Trộn các file. Ta có thể trộn nhiều file với nhau. Ta có thể kết hợp các file
với cùng biến nhưng khác đối tượng hoặc cùng đối tượng nhưng khác biến.
Chọn các nhóm phụ các đối tượng. Ta có thể hạn chế các phân tích của
mình trong một nhóm các đối tượng hoặc tiến hành đồng thời các phép phân tích
trong các nhóm đối tượng khác nhau.
Gộp chung/Tổng hợp dữ liệu. Ta có thể thay đổi đơn vị của phép phân
tích bằng cách tổng hợp các đối tượng với nhau dựa trị số của một hoặc một số

biến lập nhóm.
2.1.5.2. Các phép biến đổi dữ liệu
24

Dữ liệu ban đầu (thô) chưa hoàn toàn thích hợp cho loại phân tích mà ta
muốn tiến hành, các phân tích sơ bộ có thể bộc lộ các trình tự mã hoá bất tiện
hoặc các sai số do mã hoá, hoặc biến đổi dữ liệu có thể bị đòi hỏi để bộc lộ mối
quan hệ thực giữa các biến.
Ta có thể thực hiện các phép biến đổi từ những nhiệm vụ đơn giản, chẳng
hạn như thu nhỏ số nhóm/tổ để tiến hành phân tích, hoặc phức tạp hơn như tạo
các biến mới dựa trên các phương trình phức tạp và các câu lệnh/khai báo có
điều kiện, dựa vào các phép toán (+) cộng, (-) trừ, (*) nhân , (/) chia, (**) lũy
thừa và các toán tử (>) lớn hơn, (<) nhỏ hơn, (>=) lớn hơn hoặc bằng, (<=) nhỏ
hơn hoặc bằng, (=) bằng, (~=) không bằng, (&) và, ( ׀) hoặc, (~) không (NOT)
Cửa sổ Data Editor
Cửa sổ Data Editor cung cấp một phương pháp giống như bảng tính,
thuận tiện để lập và hiệu đính các file dữ liệu. Cửa sổ Data Editor tự động mở
khi ta bắt đầu khởi động SPSS.
Nhập dữ liệu
Ta có thể nhập dữ liệu trực tiếp từ bảng Data View trong cửa sổ Data
Editor, nhập dữ liệu theo bất kỳ trật tự nào, nhập dữ liệu theo đối tượng hoặc
theo biến, hoặc theo khu vực được chọn, hoặc theo từng ô, Ô hoạt động (ô con
trỏ) luôn được làm sáng, Tên biến và số của hàng của ô hoạt động được thể hiện
ở góc cao bên trái của cửa sổ Data Editor.
Khi ta chọn một ô và nhập một trị số thì nó sẽ được thể hiện ở khoang
hiệu đính dữ liệu nằm ở trên của Data Editor, Các trị số không được ghi cho đến
khi ta nhấn Enter hoặc chọn ô khác, Để nhập bất kỳ gì khác một dữ liệu dạng
số, trước hết phải định nghĩa loại dữ liệu.
Nếu ta nhập một trị số vào một cột rỗng, Data Editor tự động tạo ra một
biến mới và chỉ định một tên biến.


×