Tải bản đầy đủ (.pdf) (197 trang)

Ứng dụng phương pháp hồi quy phân vị phân tích chênh lệch tiền lương ở việt nam

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.2 MB, 197 trang )

PHẦN MỞ ĐẦU

GIỚI THIỆU VẤN ĐỀ NGHIÊN CỨU
1.

Lý do chọn đề tài
Tiền lương là một trong những yếu tố tạo động lực quan trọng nhất trong lao

động. Có rất nhiều các yếu tố tác động đến tiền lương của người lao động như thị
trường lao động, môi trường làm việc, tính chất công việc và đặc điểm của người lao
động. Mỗi sự khác nhau ở các yếu tố này có thể sẽ dẫn đến kết quả trả lương khác
nhau. Điều này tạo sự chênh lệch về tiền lương. Bên cạnh đó, chênh lệch tiền lương
còn là hệ quả của việc phân công lao động. Tiền lương sẽ khác nhau khi mà mỗi
người lao động được phân công đảm trách những công đoạn, công việc khác nhau
trong cùng một quy trình sản xuất.
Như vậy, sự tồn tại của chênh lệch tiền lương là tất yếu. Tuy nhiên, các nhà kinh
tế học như Becker (1971), Cain (1986) phân biệt hai cách giải thích cho vấn đề
chênh lệch tiền lương: đó là chênh lệch tiền lương do phân biệt đối xử và chênh lệch
tiền lương do chênh lệch về vốn con người và/hoặc năng suất lao động. Sự chênh
lệch tiền lương do chênh lệch về vốn con người và/hoặc do chênh lệch về năng suất
lao động có thể xem là những chênh lệch “tích cực” tạo ra động lực để phát triển. Sự
chênh lệch tiền lương do trình độ học vấn sẽ khiến người ta cố gắng học hỏi để đạt
trình độ cao. Hay sự chênh lệch về tiền công do chênh lệch về năng suất lao động, về
hiệu quả công việc, về khả năng ngoại ngữ, về việc tích luỹ kinh nghiệm, về khả
năng sáng tạo v.v... sẽ tạo ra động lực để người lao động phấn đấu hoàn thiện chính
mình, từ đó kích thích sự phát triển chung của xã hội. Những chênh lệch tiền lương
“tiêu cực” thể hiện ở các bất bình đẳng nảy sinh trong xã hội mà chúng ta cần phải
điều chỉnh. Ví dụ như sự chênh lệch tiền lương do kỳ thị lao động nữ giới, ưu ái lao
động nam giới, chênh lệch tiền lương dẫn đến chênh lệch giàu nghèo, chênh lệch
mức sống giữa thành thị - nông thôn, v.v... Do vậy, có thể phân chia các nguyên
nhân của chênh lệch tiền lương thành hai nhóm. Nhóm thứ nhất có thể kể đến đó là


1


do sự thay đổi của thị trường lao động, sự khác nhau hoặc sự thay đổi của môi
trường lao động tại nơi làm việc, do sự khác nhau về tính chất của công việc hoặc do
sự khác nhau về đặc điểm của bản thân người lao động. Nhóm thứ hai là do sự kỳ thị
hoặc là do sự phân biệt đối xử trong xã hội và/hoặc của người sử dụng lao động đối
với người lao động. Nhóm nguyên nhân này dẫn đến sự bất bình đẳng trong xã hội.
Do vậy, nhằm (1) xác định mức độ chênh lệch tiền lương tại Việt Nam, (2)
xác định các yếu tố thực sự tác động đến tiền lương và (3) phân rã khoảng chênh
lệch tiền lương để làm rõ phần chênh lệch giải thích theo nhóm nguyên nhân thứ
nhất và phần thể hiện bất bình đẳng theo nhóm nguyên nhân thứ hai nói trên, đề tài
“Ứng dụng phương pháp hồi quy phân vị phân tích chênh lệch tiền lương ở Việt
Nam” được chọn làm đề tài cho luận án tiến sĩ của tác giả tại trường Đại học Kinh tế
TPHCM.
2. Mục tiêu nghiên cứu
Để thực hiện các mục đích trên, đề tài hướng đến việc hoàn thành các mục tiêu sau
đây:
1) Giới thiệu một cách có hệ thống về cơ sở lý thuyết và khả năng ứng dụng
phương pháp hồi quy phân vị, cũng như phương pháp phân rã chênh lệch tiền
lương dựa trên hồi quy phân vị.
2) Thực hiện hồi quy phân vị hàm tiền lương thực tế ở Việt Nam với biến phụ
thuộc là logarit tiền lương thực tế theo giờ của người lao động. Hệ số của hàm
tiền lương thực tế này được ước lượng bằng phương pháp hồi quy phân vị có
hiệu chỉnh tính chệch do chọn mẫu và khắc phục nội sinh.
3) Xác định khoảng chênh lệch tiền lương theo giới tính (nam – nữ, nam - nữ ở
thành thị, nam – nữ ở nông thôn) và phân rã các khoảng chênh lệch tiền lương
này để làm rõ phần chênh lệch được giải thích bởi các biến độc lập và phần
chênh lệch chưa được giải thích gây ra bởi chênh lệch về hệ số hồi quy. Đồng
thời so sánh kết quả phân tích chênh lệch tiền lương theo giới tính năm 2002

và 2012 để làm rõ sự thay đổi theo thời gian.

2


4) Xác định khoảng chênh lệch tiền lương theo khu vực (thành thị - nông thôn,
thành thị - nông thôn ở nam giới, thành thị - nông thôn ở nữ giới). Phân rã các
khoảng chênh lệch tiền lương này để làm rõ phần chênh lệch được giải thích
bởi các biến độc lập và phần chênh lệch chưa được giải thích gây ra bởi chênh
lệch về hệ số hồi quy. Đồng thời so sánh kết quả phân tích chênh lệch tiền
lương theo khu vực năm 2002 và 2012 để làm rõ sự thay đổi theo thời gian.
5) Xác định mức tăng lương theo thời gian từ năm 2002 đến năm 2012. Phân rã
sự tăng lương này thành hai phần: phần tăng lương là do thay đổi về đặc điểm
lao động và phần tăng lương là do thay đổi hệ số hồi quy.
3.

Đối tượng – phạm vi nghiên cứu
Đề tài này được thực hiện đựa trên bộ số liệu khảo sát mức sống hộ gia đình

(VHLSS) năm 2002 và 2012 do Tổng cục Thống kê công bố. Đối tượng nghiên cứu
của đề tài cũng chính là đối tượng được khảo sát về tiền lương và các yếu tố có liên
quan trong các cuộc khảo sát này. Phạm vi nghiên cứu của đề tài là nghiên cứu tiền
lương thực tế theo giờ của các đối tượng trong độ tuổi trên lãnh thổ Việt Nam.
4.

Ý nghĩa khoa học và ý nghĩa thực tiễn
Với mục tiêu nghiên cứu và phương pháp nghiên cứu được lựa chọn, đề tài của

luận án mang lại các ý nghĩa khoa học và thực tiễn sau đây:
(a) Đề tài áp dụng phương pháp hồi quy phân vị, một kỹ thuật hồi quy được

giới thiệu bởi Koenker & Bassett (1978) và đã được dùng rất rộng rãi trên
thế giới nhưng chưa phổ biến ở Việt Nam. Rất ít các đề tài nghiên cứu ở
Việt Nam áp dụng kỹ thuật hồi quy phân vị, đặc biệt là áp dụng trong
nghiên cứu hàm tiền lương và phân rã chênh lệch tiền lương.
(b) Đề tài trình bày một cách ngắn gọn, đầy đủ và có hệ thống về lý thuyết của
phương pháp hồi quy phân vị. Đây là điều mà cho đến nay chưa có tác giả
ở Việt Nam nào thực hiện.
(c) Hàm tiền lương của các nhóm lao động được ước lượng bằng phương
pháp hồi quy phân vị có hiệu chỉnh tính chệch do chọn mẫu và có xử lý
3


hiện tượng nội sinh trong mô hình, đem lại ước lượng vững và đáng tin
cậy.
(d) Đề tài xây dựng và ước lượng hàm tiền lương ở Việt Nam bằng phương
pháp hồi quy phân vị cho từng nhóm lao động cụ thể: lao động nam và lao
động nữ, lao động thành thị và lao động nông thôn, lao động nam ở thành
thị và lao động nữ ở thành thị, lao động nam ở nông thôn và lao động nữ ở
nông thôn.
(e) Đề tài xác định mức chênh lệch tiền lương theo giới tính ở Việt Nam (trên
toàn bộ mẫu số liệu cũng như ở từng khu vực thành thị - nông thôn). Đồng
thời đề tài nghiên cứu sự thay đổi các mức chênh lệch này theo thời gian
bằng cách so sánh kết quả tính toán giữa năm 2002 với 2012.
(f) Đề tài phân rã khoảng chênh lệch tiền lương theo giới tính để xác định
phần chênh lệch tiền lương thể hiện qua phần chênh lệch về đặc điểm lao
động và phần chênh lệch thể hiện qua sự khác nhau về hệ số hồi quy (được
xem như là dấu hiệu của phân biệt đối xử tiền lương giữa nam và nữ)
(g) Đề tài xác định mức chênh lệch tiền lương giữa hai khu vực thành thị và
nông thôn ở Việt Nam và nghiên cứu sự thay đổi của mức chênh lệch này
theo thời gian bằng cách so sánh kết quả tính toán giữa hai hai thời điểm

nghiên cứu là năm 2002 và 2012.
(h) Đề tài phân rã khoảng chênh lệch tiền lương giữa hai khu vực thành thị và
nông thôn nhằm xác định phần chênh lệch thể hiện qua khác nhau về đặc
điểm lao động và phần chênh lệch thể hiện thông qua khác nhau về hệ số
hồi quy (được xem như là dấu hiệu của sự khác nhau trong chính sách đãi
ngộ của khu vực thành thị - nông thôn)

4


CHƯƠNG 1

CƠ SỞ LÝ THUYẾT VỀ HÀM TIỀN LƯƠNG
VÀ VẤN ĐỀ PHÂN TÍCH CHÊNH LỆCH
TIỀN LƯƠNG BẰNG HỒI QUY PHÂN VỊ
Nhằm thực hiện các mục tiêu nghiên cứu đã nêu, đề tài áp dụng phương pháp
hồi quy phân vị có hiệu chỉnh tính chệch do vấn đề chọn mẫu và có xử lý nội sinh để
ước lượng hàm tiền lương dạng Mincer (1974) mở rộng. Biến phụ thuộc được lựa
chọn là logarit tiền lương thực tế dựa trên số liệu của VHLSS 2002 và VHLSS 2012.
Sau đó, phương pháp Machado - Mata (2005) được áp dụng để tiến hành phân rã
chênh lệch tiền lương và xác định các thành phần của khoảng chênh lệch này. Do
vậy, chương 1 sẽ bao gồm các nội dung sau đây:
-

Trình bày hàm tiền lương do Mincer (1974) đề xuất và một số các mở
rộng.

-

Trình bày phương pháp hồi quy phân vị do Koenker & Bassett (1978) đề

xuất và các đặc điểm của hồi quy phân vị.

-

Tính chệch của ước lượng do vấn đề chọn mẫu và hiệu chỉnh ước lượng
chệch do chọn mẫu đối với hồi quy phân vị

1.1.

Phương pháp phân rã chênh lệch do Machado - Mata(2005) đề xuất

HÀM TIỀN LƯƠNG MINCER (1974) VÀ CÁC NGHIÊN CỨU MỞ

RỘNG
Mincer (1974) đã giới thiệu phương trình tiền lương thể hiện mối quan hệ
giữa logarit tiền lương (hoặc tiền công/thu nhập) với các yếu tố như số năm đi học,
kinh nghiệm làm việc và bình phương của biến kinh nghiệm dựa trên lập luận rằng

5


số tiền công được trả cho một người trong hiện tại phụ thuộc vào mức đầu tư vào
vốn con người (human capital) của bản thân họ trước đó.
Ký hiệu mức tiền lương nhận được tại thời điểm t là Et . Mincer giả sử rằng đầu
tư của một cá nhân vào vốn con người của bản thân ở kỳ t là kt , hiệu quả tương ứng
cùng kỳ mang lại cho mỗi đơn vị đầu tư là rt . Khi đó, mức tiền lương nhận được ở
thời điểm t được thể hiện như sau:

Et  Et 1 (1  rt 1kt 1 ) t  0,1, 2...
Lần lượt thay thế Et bằng các kỳ trước đó theo công thức truy hồi, ta được

 t 1

Et   (1  rj k j )  E0 .
 j 0


Lấy logarit nepe hai vế, ta được
t 1

ln Et  ln E0   ln(1  rj k j ).
j 0

Giả sử rằng
-

Số năm đi học (s) là số năm được dành toàn thời gian cho việc học của người
lao động (trong thời gian đi học k0  k1  ...  ks 1  1 (năm)).

-

Hiệu quả mang lại của số năm đi học đối với tiền lương tiềm năng là không
đổi theo thời gian ( r0  r1  ...  rs 1   ).

-

Hiệu quả mang lại của việc đầu tư cho đi học sau khi tốt nghiệp đối với tiền
lương tiềm năng là không đổi theo thời gian ( rs  ...  rt 1   ).

Khi đó phương trình tiền lương được viết lại như sau
t 1


ln Et  ln E0  s ln(1   )   ln(1   k j ).
js

Ta có ln(1  x) và x là hai vô cùng bé tương đương khi (x  0)
Do đó, khi giá trị của  ,  khá nhỏ, ta được
t 1

ln Et  ln E0   s    k j
js

6


Để xây dựng mối quan hệ giữa tiền lương tiềm năng và thâm niên công tác,
Mincer giả sử rằng đầu tư vào học vấn sau tốt nghiệp giảm dần theo thời gian với
dạng hàm số như sau:
z

ks  z   1   trong đó z  t  s  0;  (0,1) và T là số năm làm việc cuối cùng
 T

được xét. Thay tất cả vào hàm tiền lương đã tính toán ở trên, ta được
     2

ln Et  ln E0   s   
 z   z .
2T   2T 



Khi đó, tiền lương thuần thu được do chi phí đầu tư vào học vấn sau khi tốt
nghiệp là:


z
      2


ln Et   1    ln E0       s   
 z 
z .
2T T   2T 
 T


  


Hoặc có thể viết lại theo một cách khác:
 z
ln Et   1       s   z   z 2 .
 T

  ln E0     .

Với

  

   

 .
2T T 

  
    .
 2T 

Cuối cùng, giả sử tiền lương thực tế ghi nhận được bằng với tiền lương tiềm
năng thuần tại bất kỳ thời điểm t, nghĩa là
 z
ln wt  ln Et   1   .
 T

Khi đó, phương trình tiền lương của Mincer sẽ có dạng
ln wt     s   z   z 2 với z  t  s.

7


Đây là phương trình tiền lương Mincer dạng tĩnh, được sử dụng rất nhiều trong
các công trình nghiên cứu về tiền lương và phân tích sự chênh lệch tiền lương. Một
trong những công trình nghiên cứu xuất sắc, kế thừa phương trình tiền lương của
Mincer (1974) được phát triển bởi Card (1994). Công trình này tập trung nghiên cứu
tác động trung bình của số năm đi học đến tiền lương, thông qua kỹ thuật hồi quy
theo phương pháp bình phương nhỏ nhất và phương pháp hồi quy với biến công cụ.
Dạng hàm tiền lương được mở rộng thành dạng
ln wt     s   z   z 2   X  u.

(1.1)


Trong đó, s : số năm đi học
z : Số năm kinh nghiệm tính đến thời điểm t với z  t  s

X : Các biến độc lập khác có tác động đến tiền lương như giới tính,

công việc, ngành nghề….
Sau công trình nghiên cứu của Card (1994), rất nhiều các nghiên cứu khác đã
mở rộng phương trình tiền lương của Mincer. Các công trình này không phải chỉ
nghiên cứu tiền lương trung bình và phân tích chênh lệch tiền lương trung bình, như
nghiên cứu của Oaxaca-Blinder (1973), mà còn mở rộng ra nghiên cứu các tham số
thống kê khác của hàm phân phối có điều kiện của tiền lương. Trong số đó,
Buchinsky (1994) thực hiện hồi quy phân vị trên hàm tiền lương của Mincer. Tiếp
theo đó là hàng loạt các nghiên cứu khác về tiền lương và chênh lệch tiền lương dựa
trên phương trình tiền lương của Mincer đã được công bố. Những nghiên cứu khác
nhau sử dụng những biến độc lập khác nhau trong hàm tiền lương Mincer (1974) mở
rộng.

1.2. PHƯƠNG PHÁP HỒI QUY PHÂN VỊ
Phương pháp hồi quy phân vị được Koenker & Bassett giới thiệu lần đầu tiên
năm 1978. Thay vì ước lượng các tham số của hàm hồi quy trung bình bằng phương
pháp OLS, Koenker & Bassett (1978) đề xuất việc ước lượng tham số hồi quy trên
từng phân vị của biến phụ thuộc để sao cho tổng chênh lệch tuyệt đối của hàm hồi
quy tại phân vị τ của biến phụ thuộc là nhỏ nhất. Nói một cách khác, thay vì xác định

8


tác động biên của biến độc lập đến giá trị trung bình của biến phụ thuộc, hồi quy
phân vị sẽ giúp xác định tác động biên của biến độc lập đến biến phụ thuộc trên từng
phân vị của biến phụ thuộc đó. Trong Mục 1.1.2, đề tài giới thiệu đầy đủ các định

nghĩa, tính chất của hồi quy phân vị. Đồng thời đề tài so sánh phương pháp hồi quy
phân vị với phương pháp OLS của hồi quy cổ điển để cho thấy ưu điểm của hồi quy
phân vị và sự phù hợp của hồi quy phân vị trong những nghiên cứu về chênh lệch
tiền lương, cũng như trong các nghiên cứu về bất bình đẳng trong xã hội.
a. Giới thiệu phương pháp hồi quy phân vị
Định nghĩa về phân vị: Cho Y là một đ.l.n.n với hàm phân phối FY . Với

  (0,1) thì giá trị phân vị τ của Y là giá trị Q sao cho
Pr(Y  Q )    Pr(Y  Q ).
Hoặc có thể viết lại Q  inf  y : FY ( y)   .

(1.2)
(1.3)

Nếu Y là một đ.l.n.n liên tục, thì:

Pr(Y  y)  Pr(Y  y)  FY ( y) .

FY (Q )   .

Vì vậy:

(1.4)

Nếu F liên tục và tăng chặt thì Q  FY1 ( ).
Điều này có nghĩa là 100 % số quan sát của Y có giá trị không vượt quá giá trị phân
vị Q và 100(1   )% số quan sát của Y có giá trị không thấp hơn Q .
Giá trị phân vị, cũng như giá trị kỳ vọng của một đ.l.n.n, luôn là lời giải của
một bài toán cực trị liên quan đến đ.l.n.n đó. Cụ thể, giá trị kỳ vọng E(Y) của đ.l.n.n
Y là lời giải cho bài toán tìm   R sao cho





( y   )2 dFY ( y ) đạt cực tiểu.

(1.5)

R

Trong khi giá trị trung bình của Y lời giải bài toán tìm cực tiểu (1.5) thì giá trị phân
vị Q của Y là lời giải của bài toán tìm cực tiểu hàm mục tiêu sau
L( )  

 | y   | dF ( y)  (1   )  | y   | dF ( y).
Y

y 

Y

y

9

(1.6)


Hay


Q  arg min 
 R

 ( y   )dF ( y)  (  1)  | y   | dF ( y).
Y

(1.7)

Y

y 

y

Dạng rời rạc của (1.7) là

1
Q  arg min    (Yi   )   (  1)(Yi   )  .
n i|Zi 
 R
i|Zi 


(1.8)

Nếu ta ký hiệu
khi u  0,
  .u
(  1)u khi u<0,


 (u )  u.(  I{u 0} )  

với I(u<0) là hàm chỉ (index function)
0 khi u  0,
I{u 0}  
 1 khi u  0.

(1.9)

Ta có thể viết ngắn gọn công thức (1.8) thành
Q  arg min
 R

1 n
  (Yi   ).
n i 1

(1.10)

Định nghĩa về xác suất có điều kiện và phân vị có điều kiện
Hàm phân phối xác suất đồng thời của hai biến ngẫu nhiên X và Y, ký hiệu là
F ( x, y ) , được định nghĩa như sau:

F ( x, y )  Pr( X  x, Y  y ).
x

y




Trong trường hợp liên tục, F ( x, y ) 

f ( s, t )dt ds ,

 
 

với f ( x, y ) là hàm mật độ đồng thời thỏa mãn 0  f ( x, y ) và



f ( x, y )dy dx  1

 

Trong trường hợp rời rạc, F ( x, y ) 

x

y

  f ( s, t ) ,

s  t 

với f ( x, y ) là hàm mật độ đồng thời thỏa mãn 0  f ( x, y ) và

 f ( x, y)  1
x


y

Nếu X và Y có hàm mật độ đồng thời là f ( x, y ) . Khi đó hàm mật độ xác suất biên
(marginal density function) của Y được xác định bởi

10




fY ( y ) 



f ( x, y )dx nếu Y là liên tục,



f Y ( y )   f ( x, y )

hoặc

nếu Y là rời rạc.

x

Tương tự, hàm mật độ xác suất biên (marginal density function) của X là


f X ( x) 




f ( x, y )dy nếu X là liên tục,



f X ( x)   f ( x, y ) nếu X là rời rạc.

hoặc

y

Hàm mật độ xác suất có điều kiện của Y tại X=x được định nghĩa là
fY | X ( y | x ) 

f ( x, y )
.
f X ( x)

f X ( x)  0

nếu

Hàm mật độ xác suất có điều kiện của X tại Y=y là
fY | X ( x | y ) 

f ( x, y )
fY ( y )


fY ( y )  0

nếu

Hàm phân phối xác suất có điều kiện của Y tại X  x là:
FY | X ( y | x)   f ( y | x)dy nếu Y liên tục,
y



FY | X ( y | x)   f ( y | x) nếu Y rời rạc.
y

Kỳ vọng có điều kiện của Y tại X = x là


E (Y | X  x) 

 y. f

Y|X

( y | x)dy nếu Y liên tục,



E (Y | X  x)   y. fY | X ( y | x)

nếu Y rời rạc.


y

Phân vị có điều kiện tại phân vị  của Y tại X = x được xác định như sau
Q (Y | X  x)  inf  y : FY | X ( y | x)   ).

(1.11)

Nếu FY | X ( y | x) là liên tục thì FY | X  Q (Y | X  x) | X  x    .
Nếu FY | X ( y | x) là liên tục và tăng chặt thì Q (Y | X )  FY| X1 ( | X ).

11

(1.12)


Khi  gần 0, Q (Y | X  x) thể hiện phần đuôi trái của hàm phân phối có điều kiện
FY | X ( y | x) .

Khi  gần 1, Q (Y | X ) thể hiện phần đuôi phải của hàm phân phối có điều kiện
FY | X ( y | x ) .

Trong kinh tế lượng, việc mở rộng bài toán (1.3) với trường hợp Y có dạng
hàm số Y  h( X ,  )  u để tìm ra hàm kỳ vọng có điều kiện E (Y | X )  h( X ,  ) được
gọi là phương pháp hồi qui y theo x.
Tương tự, Koenker & Bassett (1978) cũng đề xuất dạng mở rộng của bài toán
(1.10) để tìm ra hàm phân vị có điều kiện Q (Y | X ) . Phương pháp này gọi là phương
pháp hồi quy phân vị. Để mở rộng bài toán (1.10), giả sử ta có mẫu số liệu với các
quan sát Yi , X i , i  1, n với X i là vectơ k 1 . Biến phụ thuộc Y có dạng

Yi  h( X i ,  )  u i trong đó u i là sai số của quan sát thứ i khi xét tại phân vị τ thỏa

Q (u i | X i )  0 .
Khi đó, ta cần tìm hàm phân vị có điều kiện Q (Yi | X i )  h( X i ,  ) để hàm số
n

   (Y  h( X ,  ) 
i 1

i

i

đạt giá trị nhỏ nhất. Tuy nhiên, việc tìm hàm phân vị Q (Yi | X i )

cũng chính là tìm hệ số hồi quy  . Bài toán trở thành tìm  để cực tiểu biểu thức
n

   (Y  h( X ,  ) . Khi xét bài toán này trên một mẫu số liệu cụ thể sẽ thu được
i 1

i

i

ước lượng của  , ký hiệu ˆ ,
n

Nghĩa là

1
ˆ  arg min   (Yi  h( X i ,  )).

n i 1
 R k

Nếu h( X i ,  ) là hàm tuyến tính, tức là h( X i ,  )  X i ,
n

thì

1
ˆ  arg min   (Yi  X i ).
n i 1
 R
k

Đặt

V (  ) 

1 n
  (Yi  X i ).
n i 1

12

(1.13)


Khi đó, phương trình (1.13) trở thành ˆ  arg min V (  ).
 R k


và Q (Yi | X i )  h( X i , ˆ ) trở thành hàm hồi quy phân vị ở phân vị  .
Tương tự, hàm hồi quy phân vị tuyến tính ở phân vị  có dạng Q (Yi | X i )  X i .
Và hàm hồi quy phân vị tuyến tính mẫu ở phân vị  sẽ là
Q (Yi | X i )  X iˆ hay Yi  X iˆ  u i với Q (u i | X i )  0.

(1.14)

Giá trị ˆ trong (1.14) tìm được bằng cách chọn tham số hồi quy phân vị sao cho
1 n
hàm mục tiêu V (  )    (Yi  X i ) đạt giá trị nhỏ nhất. Khi đó, ước lượng đạt
n i 1

được khi xét trên một mẫu số liệu, cụ thể là
ˆ  arg min V (  ),

(1.15)

 Rk

với

V (  ) 

1 n
  (Yi  X i ).
n i 1

(1.16)

Hàm mục tiêu V ( ) có thể có nhiều cách biểu diễn khác nhau.

V (  ) 





1 n
   IYi  Xi 0 Yi  X i .
n i 1

(1.17)

Hàm mục tiêu (1.17) có thể biểu diễn lại một cách tương đương
V (  , ) 


1
   . Yi  X i    (  1). Yi  X i   .
n {i|Yi  X i }
{i|Yi  X i }


(1.18)

Cách viết này cho thấy việc ước lượng tham số trong hàm hồi quy ứng với phân vị 
là dựa trên toàn bộ mẫu số liệu. Mỗi quan sát được gán trọng số tương ứng. Cụ thể,
những quan sát nằm phía trên đường hồi quy phân vị  được gán trọng số  và
những quan sát nằm phía dưới được gán trọng số 1   .
Công thức V ( ) ở (1.18) còn có thể viết dưới dạng khác như sau
V (  ) 


1 n 
1 1



   sgn Yi  X i   . Yi  X i  .

n i 1 
2 2



(1.19)

trong đó sgn(.) là hàm dấu, với sgn( z )  1  2 I{ z 0} với I (.) là hàm chỉ đã định nghĩa ở
(1.9).

13


1
2

Nếu   , hồi quy phân vị sẽ cho kết quả hàm hồi quy trung vị có điều kiện
Q0,5 (Yi | X i )  X i 0,5 . Đây cũng chính là lời giải của bài toán hồi quy theo phương

pháp LAD (Least Absolute Deviation – Độ lệch tuyệt đối nhỏ nhất) rất phổ biến
trong kinh tế lượng cổ điển
ˆ


LAD

 n
 arg min   Yi  X i
0,5 R k  i 1


.


(1.20)

Trong hồi quy phân vị, ứng với mỗi phân vị   (0,1) , ta có thể ước lượng được
một hàm hồi quy. Hình 1.1 là một hình vẽ minh họa cho trường hợp hồi quy được

20

thực hiện trên các phân vị 0,1 – 0,25 – 0,5 – 0,75 và 0,9.

q90

18

q75

16

OLS
q50

q25

12

14

q10

6

8

10
x
y
q25
q75
OLS

12

14

q10
q50
q90

Nguồn: tác giả tính toán từ số liệu mô phỏng trên Stata

Hình 1. 1: Đồ thị biểu diễn các kết quả hồi quy phân vị của Y theo X


Hồi quy bằng phương pháp OLS chỉ thu được một đường hồi quy duy nhất thể
hiện giá trị trung bình có điều kiện của biến phụ thuộc Y theo các giá trị của biến độc
lập X. Trong khi đó, hồi quy phân vị cho thấy được nhiều hàm hồi quy ứng với từng
phân vị của biến phụ thuộc.
14


b. Tính chất của phương pháp hồi quy phân vị
Theo Koenker (2005) và Hao & Naiman (2007), hồi quy phân vị có những tính
chất quan trọng thể hiện ưu điểm của phương pháp hồi quy này so với phương bình
phương nhỏ nhất.
b.1. Tính đẳng biến (Equivariance)
Giá trị phân vị có tính đẳng biến khi biến đổi qua hàm số đơn điệu: với h(.) là
một hàm số bất kỳ không giảm và Y là một đ.l.n.n liên tục, thì ta có
P(Y  a)  P(h(Y )  h(a)) . Vì vậy Q  h(Y )  h Q (Y ) . Từ đó, Koenker (2005) chứng

các tính chất đẳng biến quan trọng của hồi quy phân vị 1.
-

Hồi quy phân vị có tính đẳng biến khi thay đổi quy mô (scale equivariance)
Cho Yi*  .Yi và * là tham số của hàm hồi quy phân vị Yi* theo X i .
Khi đó,

-

+

nếu   0 thì *   .


+

nếu   0 thì 1*   .

+

*
Trường hợp đặc biệt, khi   0,5 thì ˆ0,5
 ˆ0,5 .

(1.22)
(1.23)

Hàm hồi quy phân vị còn có tính chất đẳng biến khi thay đổi vị trí. Nghĩa là,
nếu yi*  yi  X i và * là tham số của hồi quy phân vị của yi* theo X i thì
ˆ*  ˆ   .

-

(1.24)

Một tính chất khác của hồi quy phân vị là đẳng biến khi thay đổi dạng biến
số. Cụ thể, nếu X *  X . A với A là ma trận không suy biến, thì ˆ*  A1ˆ  .
Tính đẳng biến của hồi quy phân vị đặc biệt hữu ích trong các tính toán biến

đổi để ước lượng tham số khi dùng phương pháp quy hoạch tuyến tính.
b.2.

1


Tính ổn định (robustness)

Xem trang 38 của Koenker (2005)

15


Với hồi quy cổ điển, các ước lượng của phương pháp bình phương nhỏ nhất
thay đổi ngay khi Yi thay đổi. Mỗi sự thay đổi trong Yi sẽ dẫn đến sự thay đổi của
các ước lượng hồi quy OLS. Điều này làm cho ảnh hưởng của các quan sát bất
thường (extreme value) đến ước lượng của OLS là rất lớn. Trong khi đó, đối với hồi
quy phân vị, khi Yi thay đổi nhưng chưa làm biến đổi dấu của Yi  X iˆ  thì các tham
số ước lượng của hồi quy phân vị không thay đổi. Nói khác đi, người ta có thể thay
đổi giá trị của một quan sát ở một phía bất kỳ của đường hồi quy phân vị mà không
làm ảnh hưởng đến kết quả hồi quy, nếu sự thay đổi đó không làm thay đổi phía của
quan sát so với đường hồi quy phân vị. Do đó, cho dù nếu có thay thế một quan sát
ban đầu bằng một quan sát bất thường thì giá trị của tham số ước lượng trên hồi quy
vẫn không thay đổi nếu quan sát bất thường này nằm cùng phía với quan sát ban đầu
so với hàm hồi quy. Vì vậy ước lượng bằng phương pháp hồi quy phân vị được xem
là có tính ổn định hơn so với ước lượng OLS2.
b.3. Hàm hồi quy phân vị k biến luôn đi qua ít nhất k quan sát của mẫu nghiên
cứu
Xét hàm mục tiêu được viết dưới dạng công thức (1.17):
V (  ) 





1 n

   IYi  Xi 0 Yi  X i 
n i 1

(1.25)

Hàm mục tiêu này liên tục và khả vi tại Yi  X i . Tại những điểm Yi  X i ,
đạo hàm có hướng3 của V ( ) theo hướng vecto đơn vị w là
d
V (   X iwt  |t 0
dt
1 d n

   Yi  X i  X iwt    IYi  X i  X iwt 0 
n  dt i 1
 t 0

V (  , w) 



2
3

Xem trang 47 tài liệu Hao & Naiman (2007)
Xem trang 32 của Koenker (2005)

16





1 n


khi (Yi  X i )  0
  X iw 

n i 1

 1 n
    (1   )  X iw 
khi (Yi  X i )  0
n
i

1

 1 n
  (  I (  X iw0) )  X iw  khi (Yi  X i )  0
 n i 1
n

  * (Yi  X i ,  X iw) X iw

(1.26)

i 1

  Iu 0 khi u  0
Với  * (u, v)  

  Iv 0 khi u  0

Một điểm * sẽ được gọi là cực tiểu của V ( ) nếu tất cả các đạo hàm theo
hướng của V ( ) tại * đều không âm, nghĩa là V ( * , w)  0 với mọi w  R p có
w  1 . Ký hiệu ˆ là điểm cực tiểu của hàm V (  ) . Khi đó, phần dư của hàm hồi

quy phân vị tương ứng là: e i  Yi  X iˆ .
Xét trường hợp n = k và b  R n sao cho Yi  X ib  i  1, k  thì b sẽ làm cho

V ( ) đạt cực tiểu, vì các đạo hàm có hướng tại b là
1 k
 (  I Xiw0 ) X iw  0w
k i 1

Phương án này xảy ra ở k quan sát đầu tiên và phương án này cũng được coi là
nghiệm cơ bản của (1.19). Ký hiệu  là tập con gồm có k phần tử của 1, 2,..., n và
 là tập hợp tất cả các tập  . Đồng thời, gọi X ( ) là ma trận cấp k  k với các dòng

tương ứng là X i , i   (Nghĩa là từ n dòng của ma trận X chọn ra k dòng với các
dòng có chỉ số thuộc tập  ) và y ( ) là vectơ cột cấp k 1 với các phần tử tương ứng
là Yi , i  . Khi đó hệ nghiệm cơ bản là b( )  X ( )1. y( ) với    . Mỗi phương án
thỏa mãn miền ràng buộc đều chứa k trong số n quan sát của mẫu nghiên cứu,

17


phương án b được nêu ra trước đó cũng là một trong số các phương án b( ) với

16


trường hợp   1,..., k ứng với k quan sát đầu tiên.

14

q75

10

12

q25

8

9

10
x
y
q25

11

12

q75

Hình 1. 2: Đường hồi quy phân vị 2 biến đi qua ít nhất 2 quan sát của mẫu
Nguồn: tác giả tính toán từ số liệu mô phỏng


Như vậy, phương án tối ưu của bài toán quy hoạch tuyến tính trong hồi quy
phân vị là một trong số các phương án b( ) nên chắc chắc cũng sẽ đi qua ít nhất k
quan sát của mẫu. Hay nói cách khác, có ít nhất k quan sát có phần dư bằng 0 trong
hàm hồi quy phân vị của mẫu.
Hình 1. 2 là một ví dụ minh họa bằng hình ảnh của tính chất trên đối với một

hàm hồi quy phân vị hai biến. Nhìn trên đồ thị, mỗi dấu chấm là biểu diễn của một
quan sát trong mẫu, ta nhận thấy mỗi hàm hồi quy phân vị trên hình đi qua ít nhất hai
quan sát của mẫu số liệu có được.
b.4. Số quan sát có phần dư âm của hàm hồi quy phân vị ứng với phân vị τ có thể
đạt tỷ lệ cao nhất là τ

18


Xét phần dư e i  Yi  X iˆ của hàm hồi quy phân vị có chứa hệ số tự do. Ký
hiệu P là số quan sát có phần dư dương; N là số quan sát có phần dư âm và Z là số
quan sát có phần dư bằng 0. Khi đó
N  n   N  Z

(1.27)

P  n(1   )  P  Z

(1.28)

Từ tính chất này có thể suy ra rằng với mỗi hàm hồi quy ứng với phân vị  thì
sẽ có không quá  .100% số quan sát của mẫu nằm phía dưới đường hồi quy phân vị
(có phần dư u i âm) và không quá (1   ).100% số quan sát nằm phía trên (có phần dư


u i không âm) hàm hồi quy phân vị đang xét.4
b.5. Tính tăng dần của các hàm hồi quy phân vị 5tại giá trị trung bình của X
1 n
 X i là giá trị trung bình của X. Gọi hàm hồi quy phân vị ở phân
n i 1
vị  là Q (Y | X )  X ˆ . Giả sử xét tại hai phân vị 1 , 2 sao cho 1   2 thì ta luôn có

Ký hiệu X 

( X ˆ 2  X ˆ1 )  0

(1.29)

Công thức (1.29) hàm ý rằng, khi cùng xét tại X , giá trị ước lượng Qˆ (Yi | X i )
ứng với phân vị cao hơn sẽ luôn lớn hơn giá trị ước lượng Qˆ (Yi | X i ) tại phân vị thấp
hơn. Tuy nhiên, tính chất này chưa chắc đúng khi xét tại những giá trị X bất kỳ khác.
Tính chất này được minh họa trên Hình 1. 3.

4
5

Xem trang 56 của tài liệu Koenker (2005)
Xem trang 56 của tài liệu Koenker (2005)

19


20

X trung binh = 9,9524

q90

18

q75

16y

q50
q25

12

14

q10

6

8

10
y
q25
q75
X trung binh

12

14


q10
q50
q90

Hình 1. 3: Giá trị hồi quy tăng dần khi phân vị tăng dần tại X trung bình
Nguồn: tác giả tính toán từ số liệu mô phỏng

b.6. Ước lượng của hồi quy phân vị là ước lượng M-estimator
Ước lượng M-estimator được đề cập lần đầu tiên trong kết quả nghiên cứu của
Gouriéroux và Monfort (2008). Giả sử xét một mô hình tham số hoặc bán tham số
với tham số    và các quan sát ( X i , yi )i 1,...,n , một ước lượng được gọi là Mestimator của một hàm g ( ) nếu ước lượng đó là lời giải của bài toán cực trị
n

min

gg (  )

 ( y , X , g ) . Một M-estimator của một hàm được chứng minh là luôn hội tụ
i

i 1

i

về giá trị đúng của hàm số đó nếu thỏa mãn các điều kiện chính quy (regularity
conditions)
+

Các cặp quan sát ( X i , yi ) là i.i.d (identical independent distribution- độc

lập và có cùng phân phối).

+

g () là một tập mở

20


 là một hàm liên tục theo g , kỳ vọng có điều kiện của  theo các giá trị

+

thực của ( X , y ) luôn tồn tại với mọi g
1 n
 ( yi , X i , g ) là hội tụ hầu chắc theo trên g () về EX Eo ( yi , X i , g )
n i 1

+

Lời giải duy nhất của bài toán cực trị là g0  g (0 ) trong đó 0 là tham số

+

của hàm phân phối “đúng”
Trong bài toán hồi quy phân vị, ước lượng ˆ là lời giải bài toán cực tiểu
(1.17), vì thế ˆ có thể coi là một M-estimator và khi mô hình hồi quy phân vị thỏa
mãn các điều kiện chính quy thì nó cũng hội tụ về giá trị đúng của tham số hồi quy
cần tìm.
b.7. Ước lượng của hồi quy phân vị có thể xem là xấp xỉ của ước lượng GMM

(General Method of Moment)
Theo Buchinsky (1998b), ước lượng thu được từ (1.13) của hồi quy phân vị
có thể xem là xấp xỉ của một ước lượng GMM. Điều này có thế được từ điều kiện
cần (F.O.C – first order condition)



để hàm số



1 n
 X i   IYi  Xi 0  0.
n i 1

V ( )

đạt cực trị:

(1.30)

Biểu thức (1.30) có dạng của một hàm moment phù hợp với một ước lượng GMM.
Điều này cho thấy các ước lượng tính được bằng phương pháp hồi quy phân vị cũng
có thể xem là ước lượng GMM. Vì vậy, các ước lượng ˆ tính được bằng phương
pháp hồi quy phân vị cũng có những tính chất mà một ước lượng GMM có, đó là
tính vững, tính tiệm cận chuẩn. Riêng tính hiệu quả của ˆ có thể cải thiện bằng
cách chọn ma trận trọng số xác định dương phù hợp.




Xét hàm moment m( , Yi , X i )  X i   IYi  X i 0
Hàm kỳ vọng của (1.31) có dạng
21



(1.31)






E  m(  , yi , X i )   E  X i   IYi  X i 0 







 E  X i   E  IYi  X i 0 | X i  


 
 E  X i   FY | X ( X i )  

Khi phân vị hồi quy được thực hiện tại phân vị  , tham số  nhận giá trị cụ thể là

 , thì FY | X ( X i ) phải bằng  sao cho E  m( , yi , X i )  0

Khi đó, các ước lượng tham số của hàm hồi quy phân vị tại phân vị  có thể được
xác định bằng phương pháp GMM với hàm kỳ vọng E[m( , yi , X i )]  0

(1.32)

Theo Buchinsky (1998), với hàm moment như trên, ta có
d
n ( ˆ   ) 
 N (0,  )

Ma trận phương sai hiệp phương sai    (1   )D1D1

(1.33)

Trong đó
D 




E  X i   FY | X ( X i )  




  E  X i X i fY  X i | X i  

(1.34)

  E  X i X i f i  0 | X i  

  E  m(  , Yi , X i )m(  , Yi , X i ) 


 E   X i   IYi  X i 0   X i   IYi  X i 0  


















2
 E  X i X i   IYi  X i 0 



Ta có IY  X  0 có phân phối Bernoulli với trung bình là  và phương sai  (1   ) .
i


Do vậy

i 

   (1   ) E  X i X i

(1.35)

Như vậy, (1.33) có thể được viết đầy đủ,
d
n ( ˆ   ) 
 N (0,  )



   (1   )  E  X i X i f (0 | X i ) 



1



E[ X i X i]  E  X i X i f  (0 | X i ) 

22



1


(1.36)


Nếu không có hiện tượng phương sai thay đổi, hàm mật độ của sai số  i độc lập với
X , và do đó f i (0 | X i )  f (0) thì công thức (1.46) được viết lại thành

 

 (1   )
2

f (0)

 E[ X i X i]

1

(1.37)

Trong thực tế tính toán với số liệu mẫu, E[ X i X i] được ước lượng bằng

1 n
 X i X i
n i 1

Hendricks & Koenker (1991) ước lượng f (0 | X i ) và D bằng các công thức:
fˆi 

2h


(1.38)

X i  ˆ(  h )  ˆ(  h ) 

D

1 n ˆ
 fi .X i X i
n i 1

(1.39)

Kết quả này cho thấy, khi mật độ của các quan sát càng dày đặc thì phương
sai của phân vị càng nhỏ, giá trị phân vị càng ít biến động. Khi mật độ quan sát càng
thưa thớt thì phương sai của phân vị càng lớn, giá trị phân vị càng biến động nhiều.
b.8. Tính vững (consistency)
Dựa vào (1.32) cho thấy ước lượng của hồi quy phân vị xấp xỉ một ước lượng
GMM nên mang tính vững - vốn đã được chứng minh luôn xảy ra với các ước lượng
của GMM (theo Green (2011)).
c.

Kiểm định giả thuyết thống kê với hồi quy phân vị
Trong tài liệu về hồi quy phân vị của Koenker (2005), những suy diễn thống

kê liên quan đến kiểm định hệ số hồi quy của hồi quy phân vị cũng được chứng minh
và áp dụng giống như phương pháp OLS. Những kiểm định được Koenker (2005) đề
xuất gồm kiểm định Wald6 và kiểm định Likelihood ratio7
c.1. Kiểm định Wald
Kiểm định H 0 : R  r với R là ma trận cấp q  K và r cấp q  1

d
n  ˆ    
 N  0, (1   ) D1D1 

6
7

Trang 75 sách “Quantile Regression” của Koenker (2005)
Trang 92 sách “Quantile Regression” của Koenker (2005)

23


Dưới giả thiết H 0
d
nR(ˆ   )  n ( R(ˆ )  r ) 
 N (0, (1   )(  ))

Trong đó (  )  RD1D1R
Wn ( ) 


n  R ( ˆ )  r  ˆ 1 (  )  R( ˆ )  r 

d

  2 (q)

 (1   )
ˆ   RD1ˆ D1R , với D1ˆ D1 là một ước lượng vững của D1D1


c.2. Kiểm định Likelihood ratio
Koenker & Machado (1999) cũng đã chứng minh được rằng giả thuyết

H 0 : R  r cũng có thể được kiểm định bằng phương pháp Likelihood ratio như
trong hồi quy với giá trị trung bình thông thường.
Cho ˆ và  là ước lượng của  lần lượt trong hai trường hợp có ràng buộc và
không có ràng buộc. Vˆ  V ( ˆ ) và V  V (  ) là các hàm mục tiêu tương ứng.
Cho hàm mật độ Laplace bất đối xứng f ( )   (1   )e  ( ) . Hàm hợp lý loglikelihood trong trường hợp này là
n


Ln (  )  n log  (1   )    ( yi  X i ) 
i 1



Khi đó 2 lần của tỷ lệ log – likelihood ratio là
2  Ln ( ˆ , )  Ln (  , )   2 V  Vˆ 

Theo Koenker & Machado (1999)
LR 

2 V  Vˆ 

 (1   )  f (0) 

1

d


  2 (q )

d. Ưu điểm và nhược điểm của hồi quy phân vị
Sau khi Koenker và Bassett (1978) giới thiệu mô hình hồi quy phân vị đầu tiên,
rất nhiều các nghiên cứu được thực hiện sau đó nhằm khắc phục các nhược điểm,

24


đồng thời mở rộng hồi quy phân vị. Ngày càng có nhiều các bài nghiên cứu ứng
dụng hồi quy được thực hiện và công bố, cho thấy hồi quy phân vị đang ngày càng
được hoàn thiện và ngày càng trở thành công cụ đắc lực trong nghiên cứu kinh tế.
Theo Koenker (2005) và Hao & Naiman (2007), hồi quy phân vị có những ưu điểm
như sau.
Ưu điểm
-

Thứ nhất, phương pháp hồi quy phân vị cho phép thể hiện một cách chi tiết về
mối quan hệ giữa biến phụ thuộc và các biến độc lập trên từng phân vị của biến
phụ thuộc, không phải chỉ xét mối quan hệ này trên giá trị trung bình như hồi
quy OLS. Ưu điểm này thể hiện rõ trong Hình 1. 1. Trong đó, Hình 1. 1 thể hiện
nhiều hàm hồi quy cho nhiều phân vị, cho thấy tác động khác nhau của biến độc
lập X ứng với nhiều phân vị của biến phụ thuộc Y.

-

Thứ hai, mặc dù các tính toán thực hiện trong hồi quy phân vị là phức tạp và
khối lượng tính toán nhiều hơn trong OLS, nhưng với sự phát triển của toán
học, thống kê học cộng với sự hỗ trợ của công nghệ thông tin thì những tính

toán như quy hoạch tuyến tính, bootstrap, được thực hiện rất dễ dàng và nhanh
chóng.

-

Thứ ba, trong hồi quy OLS, các quan sát bất thường (outliers) thường được loại
bỏ để ước lượng OLS không bị chệch. Trong khi đó, hồi quy phân vị có tính ổn
định (robustness), không bị ảnh hưởng bởi sự hiện diện của các quan sát bất
thường đó.

-

Thứ tư, các kiểm định về tham số của hồi quy phân vị không dựa vào tính
chuẩn của sai số. Hơn nữa, các kiểm định này không dựa trên bất kỳ một giả
định nào về dạng phân phối của sai số hồi quy.

-

Thứ năm, hồi quy phân vị đặc biệt phù hợp khi phân tích trên mô hình hồi quy
có sự hiện diện của phương sai thay đổi hoặc trong mẫu số liệu mà hàm phân
phối của biến phụ thuộc bất đối xứng quanh giá trị trung bình. Khi đó, hàm hồi
quy phân vị trên các phân vị khác nhau sẽ có sự khác biệt rõ rệt, cho thấy tác
25


×