Tải bản đầy đủ (.pdf) (63 trang)

Hồi quy với biến định tính thực hành bằng ngôn ngữ R

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (866.06 KB, 63 trang )

Header Page 1 of 161.

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2

KHOA TOÁN

Hoàng Thị Thanh Huyền

HỒI QUY VỚI BIẾN ĐỊNH TÍNH
THỰC HÀNH BẰNG NGÔN NGỮ R

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC

Hà Nội – Năm 2016

Footer Page 1 of 161.


Header Page 2 of 161.

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2

KHOA TOÁN

Hoàng Thị Thanh Huyền

HỒI QUY VỚI BIẾN ĐỊNH TÍNH
THỰC HÀNH BẰNG NGÔN NGỮ R


Chuyên ngành: Toán ứng dụng

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:
Tiến sĩ: Hà Bình Minh

Hà Nội – Năm 2016

Footer Page 2 of 161.


Header Page 3 of 161.

LỜI CẢM ƠN
Trước khi trình bày nội dung chính của bản báo cáo thực tập chuyên ngành, em
xin bày tỏ lòng biết ơn sâu sắc tới Tiến sĩ Hà Bình Minh đã tận tình hướng dẫn để em
có thể hoàn thành đề tài này.
Em cũng xin bày tỏ lòng biết ơn chân thành tới toàn thể các thầy cô giáo trong
khoa Toán, Trường Đại học Sư phạm Hà Nội 2 đã dạy dỗ em tận tình trong suốt quá
trình học tập tại khoa.
Nhân dịp này em cũng xin được gửi lời cảm ơn chân thành tới gia đình, bạn bè đã
luôn bên em, động viên, giúp đỡ em trong suốt quá trình học tập và thực hiện đề tài
này.
Xuân Hòa, ngày 4 tháng 5 năm 2016
Sinh viên
Hoàng Thị Thanh Huyền

1


Footer Page 3 of 161.


Header Page 4 of 161.

LỜI CAM ĐOAN
Tôi xin cam đoan rằng số liệu và kết quả nghiên cứu trong khóa luận này là trung
thực và không trùng lặp với các đề tài khác. Tôi cũng xin cam đoan rằng mọi sự giúp
đỡ cho việc thực hiện khóa luận này đã được cảm ơn và các thông tin thu trích dẫn
trong khóa luận đã được chỉ rõ nguồn gốc.
Hà Nội, ngày 4 tháng 5 năm 2016
Sinh viên
Hoàng Thị Thanh Huyền

2

Footer Page 4 of 161.


Header Page 5 of 161.

Mục lục

1 GIỚI THIỆU NGÔN NGỮ R

3

1.1

Ưu điểm và hạn chế của R . . . . . . . . . . . . . . . . .


3

1.2

Cài đặt R . . . . . . . . . . . . . . . . . . . . . . . . . .

4

1.3

"Văn phạm" R . . . . . . . . . . . . . . . . . . . . . . .

6

1.3.1

Cách đặt tên trong R . . . . . . . . . . . . . . . .

6

1.3.2

Hỗ trợ trong R . . . . . . . . . . . . . . . . . . .

7

Cách nhập dữ liệu vào R . . . . . . . . . . . . . . . . . .

8


1.4.1

Nhập số liệu trực tiếp: c() . . . . . . . . . . . . .

8

1.4.2

Nhập số liệu trực tiếp: edit (data.frame()) . . . .

9

1.4.3

Nhập số liệu từ một text file: read table . . . . . .

10

1.4.4

Nhập số liệu từ Excel: read.csv

. . . . . . . . . .

11

1.4.5

Nhập số liệu từ một SPSS: read.spss . . . . . . .


11

1.4

2 HỒI QUY VỚI BIẾN ĐỊNH TÍNH
2.1

12

Khái niệm về hồi quy . . . . . . . . . . . . . . . . . . . .

12

2.1.1

Phân tích hồi quy . . . . . . . . . . . . . . . . . .

12

2.1.2

Biến phụ thuộc và biến độc lập . . . . . . . . . .

12

2.1.3

Nhắc lại về mô hình hồi quy hai biến tuyến tính .


13

3

Footer Page 5 of 161.


Header Page 6 of 161.

2.2

Khái niệm về biến giả

. . . . . . . . . . . . . . . . . . .

14

2.2.1

Biến định lượng và biến định tính . . . . . . . . .

15

2.2.2

Hồi quy với một biến định lượng và một biến định
tính có hai phạm trù . . . . . . . . . . . . . . . .

2.2.3


Hồi quy với một biến định lượng và một biến định
tính có nhiều hơn hai phạm trù . . . . . . . . . .

2.2.4

19

22

Hồi quy với một biến định lượng và hai biến định
tính . . . . . . . . . . . . . . . . . . . . . . . . .

23

2.3

Biến giả với hệ số góc khác nhau . . . . . . . . . . . . .

25

2.4

Biến giả với tung độ gốc và hệ số góc khác nhau . . . . .

26

2.5

Biến giả trong phân tích thời vụ . . . . . . . . . . . . . .


28

2.6

Hồi quy tuyến tính từng khúc (piecewise linear regression) 34

2.7

Hồi quy với biến giả, mô hình Semi Logarit . . . . . . . .

38

2.7.1

Mô hình Log - Lin . . . . . . . . . . . . . . . . .

38

2.7.2

Mô hình Lin - Log . . . . . . . . . . . . . . . . .

42

Hồi quy với biến phụ thuộc là biến giả . . . . . . . . . .

45

2.8.1


Một số ví dụ về biến phụ thuộc định tính . . . . .

45

2.8.2

Biến phụ thuộc nhị phân . . . . . . . . . . . . . .

47

2.8.3

Phân tích xác suất biểu hiện các trạng thái của

2.8

biến phụ thuộc định tính

. . . . . . . . . . . . .

48

Mô hình xác suất tuyến tính LPM . . . . . . . .

50

Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

56


2.8.4

4

Footer Page 6 of 161.


Header Page 7 of 161.

LỜI MỞ ĐẦU
1.Lí do chọn đề tài
Trong thực tế để nghiên cứu các hiện tượng kinh tế, xã hội, ta đi xây
dựng các mô hình hồi quy để thể hiện mối quan hệ giữa các biến, phản
ánh bản chất hiện tượng để từ đó có thể đưa ra những nhận xét, kết
luận về hiện tượng. Nhưng các hiện tượng đó không phải lúc nào cũng
được mô tả bằng các biến định lượng mà đôi khi bằng các biến định
tính. Trong trường hợp hồi quy với các biến định tính, ta phải lượng hóa
chúng bằng những con số, thường là số 0 và số 1 và được gọi là biến giả.
Hồi quy nói chung và hồi quy với biến định tính nói riêng ta đều cần
đến sự trợ giúp của các phần mềm chuyên dụng. Chúng ta có thể sử dụng
các phần mềm thông dụng như SAS, SPSS, Stata, S-Plus...để phân tích
số liệu và biểu đồ. Tuy nhiên, để sử dụng được các phần mềm đó, chúng
ta phải chi phí tương đối cao. Để khắc phục hạn chế đó, năm 1996, hai
nhà thống kê học Ross Ihaka và Robert Gentleman thuộc trường đại học
Auckland New Zealand phát họa ngôn ngữ cho phân tích thống kê mà
họ đặt tên là R hoàn toàn miễn phí. Để hiểu hơn về hồi quy với biến
định tính, sử dụng được phần mềm R trong phân tích số liệu, em lựa
chọn đề tài " Hồi quy với biến định tính: Thực hành bằng ngôn ngữ R".
2.Mục đích nghiên cứu
Nghiên cứu hồi quy với biến định tính, sử dụng ngôn ngữ R trong phân

tích số liệu và vẽ biểu đồ.
3. Phương pháp nghiên cứu
1

Footer Page 7 of 161.


Header Page 8 of 161.
Khóa luận tốt nghiệp Đại học

HOÀNG THỊ THANH HUYỀN

Sử dụng ngôn ngữ R hỗ trợ trong tìm mô hình hồi quy với biến định
tính, thực hành các ví dụ bằng R, từ đó tìm ra các tham số rồi đưa ra
những đánh giá, kết luận với hiện tượng đang nghiên cứu.
4. Phạm vi nghiên cứu
Do thời gian không nhiều nên bài luận văn chỉ tìm hiểu được một số vấn
đề của hồi quy với biến định tính: mô hình hồi quy có chứa biến độc lập
định tính và mô hình hồi quy với biến phụ thuộc định tính.
5. Bố cục đề tài
Đề tài bao gồm hai chương:
• Chương 1: Giới thiệu ngôn ngữ R.
Chương 1: Trình bày những kiến thức tổng quan về ngôn ngữ R
như: cách cài đặt, cách đặt tên, cách nhập dữ liệu trong R...
• Chương 2: Hồi quy với biến định tính.
Chương 2: Trình bày những kiến thức chung nhất về hồi quy, khái
niệm biến giả và kĩ thuật sử dụng biến giả trong một số mô hình
hồi quy.
Do thời gian thực hiện đề tài không nhiều, kiến thức còn hạn chế nên
luận văn của em không tránh được những thiếu sót. Em rất mong nhận

được sự góp ý và những ý kiến phản biện của quý thầy cô và bạn đọc
để em hoàn thiện luận văn của mình hơn. Em xin chân thành cảm ơn!

2

Footer Page 8 of 161.


Header Page 9 of 161.

Chương 1
GIỚI THIỆU NGÔN NGỮ R
Nói một cách ngắn gọn, R là một phần mềm sử dụng cho phân tích thống
kê và biểu đồ. Thật ra, về bản chất R là ngôn ngữ máy tính đa năng, có
thể sử dụng cho nhiều mục tiêu khác nhau, từ tính toán đơn giản, toán
học giải trí, toán học ma trận đến các phân tích thống kê phức tạp.

1.1

Ưu điểm và hạn chế của R

Phần mềm R có một số ưu điểm vượt trội so với các phần mềm chuyên
dụng khác như:
* Ưu điểm:
• R là phần mềm miễn phí, có sẵn trên web và dễ dàng cài đặt.
• Việc nhập - xuất dữ liệu rất đơn giản và khá gọn so với các phần
mềm chuyên dụng khác.
• Với phần mềm R, chúng ta có thể tạo ra những biểu đồ chuyên
nghiệp có chất lượng hình ảnh cao.


Footer Page 9 of 161.

3


Header Page 10 of 161.
Khóa luận tốt nghiệp Đại học

HOÀNG THỊ THANH HUYỀN

• Chúng ta có thể dễ dàng giải thích kết quả khi thực hiện phân tích
thống kê vì R chỉ xuất ra thông tin cần thiết.
• Khi sử dụng phần mềm R để phân tích dữ liệu, chúng ta có thể cập
nhật những phương pháp phân tích thống kê hiện đại bằng cách cài
đặt những package chuyên dụng.
• Với R chúng ta có thể sử dụng để tính toán như một máy tính thông
thường (tính toán số học, đạo hàm, giải phương trình...).
Tuy nhiên, phần mềm R còn tồn tại những hạn chế chẳng hạn như:
* Hạn chế
• Thuật ngữ khó hiểu.
• Dùng lệnh.
• Kí hiệu.

1.2

Cài đặt R

Để sử dụng R thì đầu tiên ta phải cài đặt R trong máy tính của mình.
Với máy tính đã được kết nối mạng, chúng ta truy cập địa chỉ:
http://cran R-project.org

Tài liệu cần tải về tùy theo phiên bản, nhưng thường có tên bắt đầu
bằng mẫu tự R và số phiên bản (version). Khi đã tải R xuống máy tính,
bước tiếp theo là cài đặt (set-up) vào máy tính. Để làm việc này chúng
ta nhấn chuột vào tài liệu trên và làm theo hướng dẫn cách cài đặt trên
màn hình. Sau khi hoàn tất việc cài đặt thì trên màn hình destop xuất

Footer Page 10 of 161.

4


Header Page 11 of 161.
Khóa luận tốt nghiệp Đại học

HOÀNG THỊ THANH HUYỀN

hiện một icon

Khi chúng ta nhấp chuột vào icon trên sẽ xuất hiện một window như
sau:

Footer Page 11 of 161.

5


Header Page 12 of 161.
Khóa luận tốt nghiệp Đại học

1.3


HOÀNG THỊ THANH HUYỀN

"Văn phạm" R

“Văn phạm” chung của R là một lệnh (command) hay hàm. Cú pháp
chung của R là như sau:
đối tượng = hàm (thông số 1, thông số 2,...,thông số n)
Ví dụ 1.3.1. > reg <- lm (x ∼ y)
trong đó: reg là một đối tượng, lm là một hàm và x ∼ y là thông số của
hàm.
Để biết một hàm cần có những thông số nào, ta dùng lệnh args(x)
mà trong đó x là một hàm chúng ta cần biết.
Ví dụ 1.3.2. <- arge (lm)
R là một ngôn ngữ "đối tượng". Điều này có nghĩa là các dữ liệu
trong R được chứa trong object, điều này cũng có ảnh hưởng đến cách
viết của R.
Ví dụ 1.3.3. Chúng ta không viết x=5 như thông thường, trong R để
thể hiện điều đó chúng ta viết là x==5.
1.3.1

Cách đặt tên trong R

Khi đặt tên một đối tượng hay một biến số trong R, ta lưu ý:
• Tên một đối tượng phải viết liền nhau, không có khoảng trắng. Ví
dụ:
doituong

Footer Page 12 of 161.


6


Header Page 13 of 161.
Khóa luận tốt nghiệp Đại học

HOÀNG THỊ THANH HUYỀN

• R phân biệt chữ viết hoa và chữ viết thường.
• Không nên đặt tên một biến số bằng kí hiệu "-". Ví dụ:
doi-tuong

• Không nên đặt tên một đối tượng giống tên một biến số trong dữ
liệu.
1.3.2

Hỗ trợ trong R

Ngoài lệnh
args()
R còn cung cấp lệnh
help()
để người sử dụng có thể hiểu được văn phạm của từng hàm. Ví dụ muốn
biết hàm
lm
có những thông số nào ta dùng
> help(lm)

Một cửa sổ sẽ hiện ra bên phải của màn hình chỉ rõ cách sử dụng và ví
dụ, chúng ta có thể copy và dán ví dụ vào R để xem cách vận hành.


Footer Page 13 of 161.

7


Header Page 14 of 161.
Khóa luận tốt nghiệp Đại học

1.4

HOÀNG THỊ THANH HUYỀN

Cách nhập dữ liệu vào R

Dữ liệu mà R hiểu được phải là dữ liệu trong một data.frame. Sau đây
là một số cách để nhập dữ liệu vào R.
1.4.1

Nhập số liệu trực tiếp: c()

Ví dụ 1.4.1. Ta có mẫu số liệu về số lượng hàng bán (biến Y), giá đơn
vị bán (biến X) và khu vực bán hàng (biến D với D = 1: thành phố;
D = 0: nông thôn ).
Y 25 24.7 18 17.5 24 17 24.3 16.5 23 16 24.1 22
X 25 26

22 23

28 24 27


25

29 26 27

30

D 1

0

1

0

1

1

1

0

0

1

0

0


Để nhập bảng số liệu trên vào R ta làm như sau:
> Y = c(25,24.7,18,17.5,24,17,24.3,16.5,23,16,24.1,22)
> X = c(25,26,22,23,28,24,27,25,29,26,27,30)
> D = c(1,1,0,0,1,0,1,0,1,0,0,1)
> h = data.frame (Y, X, D)
Khi đó R đã nhập ba đối tượng riêng lẻ vào một đối tượng có tên là
h
sau đó chúng ta gõ
> h

sẽ được một bảng hoàn chỉnh sau:

Footer Page 14 of 161.

8


Header Page 15 of 161.
Khóa luận tốt nghiệp Đại học

1.4.2

HOÀNG THỊ THANH HUYỀN

Nhập số liệu trực tiếp: edit (data.frame())

Vẫn với số liệu ở ví dụ trên, ta thao tác:
Y = edit (data.frame())


Khi đó ta có cửa sổ:

Footer Page 15 of 161.

9


Header Page 16 of 161.
Khóa luận tốt nghiệp Đại học

HOÀNG THỊ THANH HUYỀN

Sau đó chúng ta sửa và nhập số liệu vào bảng.

1.4.3

Nhập số liệu từ một text file: read table

Giả sử số liệu của chúng ta được lưu vào trong một text file có tên là
h.txt tại directory C: / works / solieu. Chúng ta nhập số liệu vào R bằng
các thao tác sau:
>setwd ("C: / works / solieu)
>h = read.table("h.txt", header=TRUE)
>save(h, file="h.rda")

Footer Page 16 of 161.

10



Header Page 17 of 161.
Khóa luận tốt nghiệp Đại học

1.4.4

HOÀNG THỊ THANH HUYỀN

Nhập số liệu từ Excel: read.csv

Để nhập số liêu từ phần mềm Excel, ta thực hiện theo 2 bước:
• Bước 1: Dùng lệnh "Save as" trong Excel và lưu số liệu dưới dạng
"csv".
• Bước 2: Dùng R (lệnh read.csv ) để nhập dữ liệu dạng csv.
1.4.5

Nhập số liệu từ một SPSS: read.spss

Phần mềm thống kê SPSS lưu dữ liệu dưới dạng "sav". Ví dụ chúng ta
có dữ liệu tên là h1.sav trong diretory C / works / solieu chúng ta thực
hiện các thao tác sau:
> library(foreign)
>setwd ("c / works / solieu)
> h1 = read.spss("h1.sav", to.data.frame=TRUE)
> save(h1, file="h1.rda")

Footer Page 17 of 161.

11



Header Page 18 of 161.

Chương 2
HỒI QUY VỚI BIẾN ĐỊNH TÍNH
2.1
2.1.1

Khái niệm về hồi quy
Phân tích hồi quy

Phân tích hồi quy là tìm mối quan hệ phụ thuộc của biến phụ thuộc vào
một hoặc nhiều biến khác (được gọi là biến độc lập), nhằm mục đích ước
lượng hoặc tiên đoán giá trị kì vọng của biến phụ thuộc khi biết trước
giá trị của biến độc lập.
2.1.2

Biến phụ thuộc và biến độc lập

Biến phụ thuộc được kí hiệu là Y, biến độc lập là X2 , X3 , X4 ...
Trong mối quan hệ giữa hai biến này, biến phụ thuộc chịu tác động của
biến độc lập, biến độc lập là biến gây ra ảnh hưởng cho biến phụ thuộc.
Chẳng hạn ta xét mối quan hệ giữa giá bán tivi với sức mua của người
tiêu dùng. Khi giá thành tivi cao thì số lượng người mua thấp, ngược lại
khi giá thành tivi giảm thì số lượng người mua tăng lên. Từ đây, ta thấy
giá bán tivi có ảnh hưởng đến sức mua của người tiêu dùng hay giá tivi

Footer Page 18 of 161.

12



Header Page 19 of 161.
Khóa luận tốt nghiệp Đại học

HOÀNG THỊ THANH HUYỀN

là biến độc lập còn sức mua là biến phụ thuộc.
Biến độc lập nhận những giá trị xác định, biến phụ thuộc là những biến
ngẫu nhiên. Trường hợp đơn giản, một biến phụ thuộc chịu ảnh hưởng
của một biến độc lập. Trường hợp phức tạp hơn, một biến phụ thuộc
chịu ảnh hưởng của nhiều biến độc lập.
2.1.3

Nhắc lại về mô hình hồi quy hai biến tuyến tính

1. Mô hình hồi quy hai biến tuyến tính dạng
Yi = β1 + β2 Xi + Ui (1)
Trong đó: Y là biến phụ thuộc; X là biến độc lập.
2. Phương pháp tổng bình phương tối thiểu thông thường
(OLS)
• Khi ước lượng các tham số trong mô hình hồi quy bằng phương
pháp OLS lưu ý các điều kiện: phương sai không đổi, không xảy ra
hiện tượng tự tương quan...
• Trọng tâm của phương pháp là: xét biểu đồ phân tán xây dựng từ
mẫu số liệu thực tế, điểm tọa độ của mỗi quan sát thường có một
khoảng cách khi chiếu xuống đường thẳng hồi quy. Bình phương
mỗi khoảng cách này, sau đó lấy tổng bình phương của chúng và
xét điều kiện để tổng bình phương này cực tiểu, ta thiết lập được
các biểu thức ước lượng giá trị các tham số hồi quy.
3. Tham số hồi quy


Footer Page 19 of 161.

13


Header Page 20 of 161.
Khóa luận tốt nghiệp Đại học

HOÀNG THỊ THANH HUYỀN

Trong kinh tế lượng tham số thường được kí hiệu là β1 , β2 , ..., βk có
thể chưa biết và là đối tượng cần tìm. Trong trường hợp tổng quát, tham
số cũng có thể xem như một biến, cũng có thể có tác động đến các yếu
tố kinh tế khác. Giá trị tuyệt đối của tham số có thể cho ta biết mức độ
ảnh hưởng mạnh hay yếu của biến độc lập lên biến phụ thuộc.
Cụ thể trong mô hình (1) các tham số hồi quy là β1 và β2 , trong đó:
• β1 gọi là tung độ gốc hay hệ số chặn của đường thẳng.
Khi X = 0: Nếu β2 > 0 thì Y = β1 = Ymin ; nếu β2 < 0 thì Y = β1 =
Ymax từ đó kết hợp với tình hình cụ thể và lí thuyết kinh tế để nêu
ý nghĩa kinh tế của β1 .
• β2 là hệ số góc hay độ dốc đường thẳng hồi quy.
Dấu của β2 thể hiện mối quan hệ của biến Y và biến X trong mô
hình: Nếu β2 > 0 thì X, Y đồng biến và ngược lại. Kết hợp giữa
dấu của β2 > 0 với giá trị của nó, ta thấy được ảnh hưởng của biến
X lên biến Y, ngoài ra ta cũng có thể nhận ra bản chất kinh tế của
hiện tượng đang khảo sát.

2.2


Khái niệm về biến giả

Trong thực tế ta gặp rất nhiều giá trị quan sát được thể hiện bằng một
con số cụ thể, chẳng hạn như: doanh thu bán hàng hằng năm của một
công ty (tỷ đồng), số lượng hàng bán (sản phẩm), thu nhập cá nhân
(triệu đồng), số năm công tác...nhưng bên cạnh đó chúng ta cũng gặp
không ít những hiện tượng gắn liền với những biến không thể cân đo

Footer Page 20 of 161.

14


Header Page 21 of 161.
Khóa luận tốt nghiệp Đại học

HOÀNG THỊ THANH HUYỀN

đong đếm được bằng các công cụ đo lường mà chỉ bằng trực quan bằng
cảm nhận, ví dụ như: dân tộc, tôn giáo, giới tính, màu sắc...Đó là những
biến định tính. Những biến định tính này sau khi được lượng hóa được
gọi là biến giả. Trong chương này, chúng ta sẽ khảo sát một số trường
hợp hồi quy có sử dụng biến giả: mô hình hồi quy có chứa biến độc lập
định tính và mô hình hồi quy với biến phụ thuộc định tính.
2.2.1

Biến định lượng và biến định tính

(1).Biến định lượng: Khi giá trị quan sát được thể hiện bằng một con
số, có thể có đơn vị cụ thể.

(2).Biến định tính: Thể hiện đặc điểm, tính chất của một hiện tượng.
Ví dụ như giới tính, dân tộc, tôn giáo, màu sắc, khu vực công tác, tình
trạng hôn nhân, lĩnh vực hoạt động của doanh nghiệp... Biến định tính
chỉ có thể phân thành các phạm trù (thuộc tính, đặc điểm) khác nhau.
Một biến định tính có thể rơi vào một phạm trù, hai phạm trù hoặc
nhiều hơn.
*Lượng hóa biến định tính: Nhằm đưa tính chất của biến định tính
vào mô hình hồi quy, ta cần mã hóa chúng như một biến định lượng,
nghĩa là phải gán cho mỗi phạm trù bằng một con số. Vì vậy sau khi
lượng hóa, biến định tính được gọi là biến giả (dummy variable).
Ví dụ 2.2.1. Ta kí hiệu S là giới tính, với S = 1 nếu là nữ và S = 0 nếu
là nam. Tuy nhiên, ta vẫn có thể đặt ngược lại: S = 1 nếu là nam và S
= 0 nếu là nữ. Khi đó, mô hình đối với nam và đối với nữ có thể khác
nhau về hình thức thể hiện (dấu và giá trị của các tham số hồi quy có

Footer Page 21 of 161.

15


Header Page 22 of 161.
Khóa luận tốt nghiệp Đại học

HOÀNG THỊ THANH HUYỀN

thể thay đổi) nhưng bản chất vẫn không đổi.
Biến định tính thường được mã hóa cho các tính chất bằng hai con
số: 0 và 1, cho nên còn được gọi là biến nhị phân.
Ví dụ 2.2.2. Xét mẫu số liệu sau về thu nhập (triệu đồng/tháng) của
công nhân xây dựng: trong đó Y - thu nhập; X - giới tính; d - biến giả

Y 3.2 6.3

3.6 7.5

3.4 8

3.0 2.9 6.5

7.0

3.5 7.3

X nữ nam nữ nam nữ nam nữ nữ nam nam nữ nam
d

0

1

0

1

0

1

0

0


1

1

0

1

Để có mô hình hồi quy thu nhập của công nhân xây dựng theo giới
tính thì ta phải tìm được các hệ số β1 , β2 trong mô hình:
Yi = β1 + β2 Xi + Ui
Sử dụng phần mềm R, thực hiện theo các thao tác sau:
thunhap = edit (data.frame()) / enter sau đó nhập số liệu
thunhap / enter
reg = lm (data = thunhap, Y ~ d) / enter
summary (reg) / enter
trong đó "thunhap" là tên đối tượng. Khi đó ta có bảng sau:

Từ đó, ta tìm được hàm hồi quy tuyến tính mẫu của Y theo X như sau:
Yˆi = 3.2667 + 3.8333di

Footer Page 22 of 161.

16


Header Page 23 of 161.
Khóa luận tốt nghiệp Đại học


HOÀNG THỊ THANH HUYỀN

Vậy với mẫu số liệu trên, thu nhập bình quân của công nhân nữ luôn thấp
hơn thu nhập bình quân của công nhân nam là 3.8333 triệu đồng/tháng.
Cũng vẫn ví dụ trên nhưng ta giả sử d = 0 nếu là nam, d = 1 nếu là
nữ. Khi đó lập lại bảng số liệu (thay đổi cột giá trị của d) và làm tương
tự như trên, ta thu được bảng kết quả tương ứng:

Từ đây ta cũng có hàm hồi quy tuyến tính: Yˆi = 7.1 − 3.8333di . Vậy
thu nhập của nhân viên nữ luôn thấp hơn nhân viên nam là 3.8333 triệu
đồng/tháng.
*Nhận xét: So sánh hai trường hợp mã hóa trái ngược nhau đối với
yếu tố nam và nữ của nhóm công nhân xây dựng trong ví dụ trên, ta
thấy kết quả hồi quy hoàn toàn giống nhau. Thu nhập bình quân hàng
tháng của công nhân nam luôn cao hơn công nhân nữ là 3.8333 triệu
đồng/tháng.
Ví dụ trên cho thấy rằng các con số gán cho mỗi tính chất của một
biến định tính chỉ mang ý nghĩa định danh, không có vai trò tham gia
vào các phép tính.
Biến định tính có nhiều hơn hai phạm trù: có thể dùng một biến giả,
mỗi phạm trù lượng hóa bằng một con số hoặc dùng nhiều biến giả lượng
hóa bằng số 0 và số 1.
Ví dụ 2.2.3. Khảo sát thu nhập bình quân một giáo viên (biến phụ
thuộc Y) theo địa bàn giảng dạy gồm ba khu vực: Nội thành, ngoại

Footer Page 23 of 161.

17



Header Page 24 of 161.
Khóa luận tốt nghiệp Đại học

HOÀNG THỊ THANH HUYỀN

thành, vùng sâu vùng xa. Có thể dùng 2 biến giả với số 0 hoặc số 1 để
gán cho mỗi biến (biến nhị phân).
 Cụ thể:
 D1i = 1 →nội thành
 D = 0 →nơi khác
1i

 D2i = 1 →ngoại thành
 D = 0 →nơi khác
2i

Ta có mô hình như sau: Yi = β1 + β2 D1i + β3 D2i + Ui .
+Nội thành: D1i = 1, D2i = 0 → E(Yi /D1i = 1, D2i = 0) = β1 + β2 + Ui .
+Ngoại thành:
D1i = 0, D2i = 1 → E(Yi /D1i = 0, D2i = 1) = β1 + β3 + Ui .
+Vùng sâu vùng xa:
D1i = 0, D2i = 0 → E(Yi /D1i = 0, D2i = 0) = β1 + Ui .
β1 →:

Biểu thị thu nhập của một giáo viên giảng dạy ở địa bàn vùng

sâu vùng xa.
(β1 + β2 ): Biểu thị thu nhập của một giáo viên giảng dạy ở nội thành.
(β1 + β3 ): Biểu thị thu nhập của một giáo viên giảng dạy ở ngoại thành.
Vậy:

β2 : Cho thấy mức chênh lệch về thu nhập của một giáo viên giảng
dạy ở nội thành so với vùng sâu vùng xa.
β3 : Cho thấy mức chênh lệch về thu nhập của một giáo viên giảng
dạy ở ngoại thành so với vùng sâu vùng xa.
(β1 + β3 ): Biểu thị chênh lệch về thu nhập của một giáo viên giảng
dạy ở nội thành so voi ngoại thành.
Tùy theo dấu của các tham số trên, mức chênh lệch sẽ là âm hoặc dương.

Footer Page 24 of 161.

18


Header Page 25 of 161.
Khóa luận tốt nghiệp Đại học

HOÀNG THỊ THANH HUYỀN

Ví dụ 2.2.4. Mức độ vừa ý của người tiêu dùng sau khi sử dụng một
mặt hàng hoặc một dịch vụ được chia thành: rất không hài lòng, không
hài lòng, bình thường, hài lòng và rất hài lòng.
 Vì có 5 trạng thái ưa thích,ta có thể sử dụng bốn biến giả:
 D1i = 1 →không hài lòng  D2i = 1 →bình thường
 D =0→
khác  D2i = 0 →
khác
1i


 D3i = 1 →hài lòng  D4i = 1 →rất hài lòng

 D = 0 → khác  D = 0 →
khác
3i

4i

VậyD1i = 0, D2i = 0, D3i = 0 → Rất không hài lòng
Lưu ý:
• Hậu quả của một biến giả với nhiều giá trị: mô hình khó phân tích
hơn khi so sánh giá trị trung bình của các biến phụ thuộc ứng với
các phạm trù khác nhau; biến giả với nhiều giá trị trở thành biến
định lượng thông thường nên dễ xảy ra tương quan với các biến độc
lập khác trong mô hình.
• Để phân biệt hai thuộc tính, ta dùng một biến giả; để phân biệt ba
thuộc tính ta dùng hai biến giả. Tổng quát, để phân biệt n thuộc
tính ta dùng (n-1) biến giả.
2.2.2

Hồi quy với một biến định lượng và một biến định tính
có hai phạm trù

Một công ty sản xuất và bán sản phẩm A, muốn biết với cùng mức
giá bán sản phẩm A thì số lượng hàng bán được ở thành phố và nông
thôn khác nhau như thế nào.

Footer Page 25 of 161.

19



×