Tải bản đầy đủ (.docx) (94 trang)

Luận văn thạc sĩ phân tích số liệu của một số công trình xây dựng bằng thống kê toán học (1)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.92 MB, 94 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

ĐẶNG THỊ PHƯƠNG MAI

PHÂN TÍCH SỐ LIỆU
CỦA MỘT SỐ CƠNG TRÌNH XÂY DỰNG
BẰNG THỐNG KÊ TỐN HỌC

LUẬN VĂN THẠC SĨ
Chuyên ngành: Lý thuyết xác suất và thống kê toán học

Hà Nội - 2012


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

ĐẶNG THỊ PHƯƠNG MAI

PHÂN TÍCH SỐ LIỆU
CỦA MỘT SỐ CƠNG TRÌNH XÂY DỰNG
BẰNG THỐNG KÊ TỐN HỌC

LUẬN VĂN THẠC SĨ
Chuyên ngành: Lý thuyết xác suất và thống kê toán học
Mã số:60 46 15

Người hướng dẫn khoa học: PGS. TS. Hồ Đăng Phúc

Hà Nội - 2012




MỤC LỤC
Trang
Lời cảm ơn……………………………………………………………………………
Lời mở đầu................................................................................................................ 1
Chương 1. Mơ hình tuyến tính tổng qt............................................................. 2
1.1. Giới thiệu mơ hình tuyến tính tổng quát........................................................... 2
1.1.1. Mục đích của hồi quy bội................................................................................ 2
1.1.2. Những tính tốn để giải phương trình hồi quy bội........................................... 3
1.1.3. Mở rộng của mơ hình hồi quy bội thành mơ hình tuyến tính tổng qt..........6
1.2. Một số ví dụ về mơ hình tuyến tính tổng qt.................................................. 9
1.2.1. Lập phương trình dạng ma trận...................................................................... 11
1.2.2. Ước lượng tham số........................................................................................ 12
1.2.3. Quan điểm hình học….................................................................................. 16
1.3. Mơ hình tuyến tính tổng quát đa biến............................................................. 18
1.3.1. Ước lượng bình phương bé nhất cho mơ hình tuyến tính tổng qt…..........18
1.3.2. Tính chất của ma trận sai số..........................................................................20
1.3.3. Tính chất của ma trận hệ số hồi quy............................................................. 21
1.3.4. Tổng các bình phương và tích chéo ứng với giả thuyết và ứng với sai số.....21
1.3.5. Thống kê kiểm định giả thuyết tuyến tính tổng qt đa biến….....................22
1.4. Phân phối phần dư trong mơ hình tuyến tính tổng quát............................... 24
1.4.1. Phần dư đơn biến…....................................................................................... 29
1.4.2. Phân phối đồng thời của phần dư đơn biến…................................................ 33


1.4.3. Phân phối đồng thời của phần dư đa biến….................................................. 35
1.4.4. Phân phối đồng thời cho trường hợp đặc biệt của phần dư đa biến…...........40
Chương 2. Phân tích số liệu kiểm tốn của một số cơng trình xây dựng..........43
2.1. Mơ tả số liệu.................................................................................................... 43

2.1.1. Địa điểm thi công…...................................................................................... 44
2.1.2. Loại cơng trình phân theo đặc tính kỹ thuật…............................................... 47
2.1.3. Loại cơng trình phân theo chức năng sử dụng…........................................... 48
2.1.4. Cỡ cơng trình................................................................................................. 51
2.2. Phân tích mức ảnh hưởng của các nhân tố đến tỷ lệ sai phạm.....................54
2.2.1. Phân tích phương sai cho 4 nhân tố............................................................... 54
2.2.2. Mơ hình hồi quy tuyến tính tổng quát........................................................... 55
Kết luận và kiến nghị............................................................................................. 61
Tài liệu tham khảo................................................................................................. 62


LỜI CẢM ƠN
Lời cảm ơn chân thành và sâu sắc nhất của tôi xin dành tặng cho PGS. TS. Hồ
Đăng Phúc. Chính nhờ sự hướng dẫn tận tình của thầy mà tơi mới thực hiện và hồn
thành được luận văn này. Bên cạnh đó, tơi xin gửi lời cảm ơn chân thành tới Ban
Giám đốc cùng các nhân viên phòng Kiểm tốn đầu tư xây dựng của cơng ty Hợp
danh kiểm tốn Việt Nam (CPA Việt Nam) vì đã cung cấp cho tơi những số liệu
chính xác, có giá trị thống kê của các cơng trình xây dựng mà cơng ty đã thực hiện
kiểm toán. Nhờ những số liệu này mà tơi đã thực hiện được phần phân tích ở
chương 2 của luận văn. Tôi cũng xin chân thành cảm ơn Ban Chủ nhiệm khoa, các
giảng viên trong Khoa Toán – Cơ – Tin học và các học viên của lớp Cao học Toán
2007 – 2009 trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội đã động
viên, khuyến khích, chia sẻ kinh nghiệm, kiến thức và hướng dẫn tơi trong suốt q
trình học tập vừa qua.
Trong q trình làm luận văn chắc chắn khơng thể tránh khỏi những thiếu sót, tơi
rất mong nhận được sự chỉ bảo tận tình của các thầy cơ và bạn bè đồng nghiệp.


1


LỜI MỞ ĐẦU
Mơ hình tuyến tính tổng qt đã được nhiều nhà khoa học nghiên cứu và ứng
dụng trong nhiều lĩnh vực khoa học và đời sống khác nhau. Trong luận văn này, tơi
trình bày các cơ sở lý thuyết của mơ hình tuyến tính tổng qt và ứng dụng của nó
trong việc phân tích các kết quả kiểm tốn của một số cơng trình xây dựng. Luận
văn được chia thành 2 chương.
Chương đầu tiên là những giới thiệu về mơ hình tuyến tính tổng qt. Trong
chương này, tơi đưa ra sự mở rộng của mơ hình hồi quy bội thành mơ hình tuyến
tính tổng qt. Sau đó là một vài ví dụ về mơ hình tuyến tính tổng qt như mơ hình
hồi quy tuyến tính, mơ hình so sánh hai mẫu bằng phép kiểm định t, mơ hình
ANOVA một nhân tố… Tiếp theo là phương trình của mơ hình tuyến tính đa biến và
các tính chất của ước lượng tổng bình phương bé nhất, tính chất của ma trận sai số,
tính chất của ma trận hệ số hồi quy,… Phần cuối của chương 1 là nội dung trình bày
về phân phối phần dư trong mơ hình tuyến tính tổng quát. Trong đó, chúng ta xem
xét các định nghĩa, định lí của phần dư đơn biến, phân phối đồng thời của phần dư
đơn biến, phân phối đồng thời của phần dư đa biến và phân phối đồng thời cho
trường hợp đặc biệt của phần dư đơn biến.
Chương thứ hai giới thiệu kết quả ứng dụng mơ hình tuyến tính tổng quát vào
việc nghiên cứu số liệu kiểm toán của 129 cơng trình xây dựng đã được cơng ty
CPA Việt Nam thực hiện cơng tác kiểm tốn trong thời gian gần đây. Chương này
tìm hiểu, xem xét các yếu tố của cơng trình như địa điểm, đặc điểm, chức năng sử
dụng và cỡ cơng trình ảnh hưởng như thế nào đối với khả năng xảy ra sai sót trong
cơng tác quyết tốn tài chính đối với mỗi cơng trình. Thơng qua việc áp dụng mơ
hình tuyến tính tổng qt, chương này chỉ ra trong các yếu tố trên thì yếu tố nào tác
động một cách có ý nghĩa lên tỷ lệ sai phạm của các các cơng trình khi quyết tốn
(so với kiểm tốn). Từ đó có thể rút ra được một số kết luận có ý nghĩa thực tế.


CHƯƠNG 1: MƠ HÌNH TUYẾN TÍNH TỔNG QT


1.1. GIỚI THIỆU MƠ HÌNH TUYẾN TÍNH TỔNG QT
Mơ hình tuyến tính tổng quát có thể xem là mở rộng của hồi quy tuyến tính bội.
Hiểu rõ về mơ hình hồi quy bội là bước chuẩn bị để tìm hiểu về mơ hình tuyến tính
tổng qt. Vì vậy chúng ta sẽ xem xét mục đích của hồi quy bội, các thuật tốn tính
tốn được sử dụng để giải quyết vấn đề hồi quy và làm thế nào để mở rộng mơ hình
hồi quy bội thành mơ hình tuyến tính tổng qt.
1.1.1. Mục đích của hồi quy bội
Mục đích chung của hồi quy bội là định lượng mối quan hệ giữa một vài biến
độc lập (còn gọi là biến dự báo) và một biến phụ thuộc (biến đáp ứng). Ví dụ, một
đại lý bất động sản có thể dựa trên kích thước của mỗi căn nhà, số lượng phịng ngủ,
thu nhập trung bình trong khu phố tương ứng theo số liệu điều tra dân số để đánh
giá chủ quan về giá bán của căn nhà. Sau khi thông tin này được tổng hợp lại nó sẽ
cho ta biết xem liệu yếu tố nào liên quan và ảnh hưởng như thế nào đến mức giá mà
một ngơi nhà được bán. Ví dụ, người ta có thể thấy rằng số lượng phịng ngủ có vai
trị dự báo tốt hơn về giá mà một ngôi nhà bán tại một khu phố cụ thể so với yếu tố
”nhà đẹp” (đánh giá chủ quan).
Các nhà quản lý nhân sự thường sử dụng phương pháp hồi quy bội để xác định
mức lương thích hợp cho nhân viên được tuyển dụng. Họ có thể xác định một số
yếu tố như "khả năng đáp ứng" (KNDU) hoặc “số người cần giám sát" (No_GS) là
một trong những đóng góp vào giá trị của cơng việc. Các nhà phân tích thường tiến
hành một cuộc khảo sát lương so sánh giữa các công ty trên thị trường, ghi mức
lương và những đặc điểm tương ứng (ví dụ, mức độ cơng việc) cho các vị trí khác
nhau. Thơng tin này có thể được sử dụng trong một phân tích hồi quy bội để xây
dựng một phương trình hồi quy có dạng:
Mức lương = 0,5 * KNDU + 0.8 * No_GS


Khi phương trình hồi quy đã được xác định, các nhà phân tích bây giờ có thể dễ
dàng xây dựng một biểu đồ của mức lương dự kiến (dự đoán) và tiền lương thực tế
của những người đang đương chức trong cơng ty của họ. Vì vậy, các nhà phân tích

có thể xác định các vị trí đã trả lương thấp (dưới đường hồi quy) hoặc trả quá nhiều
(ở trên đường hồi quy), hoặc trả lương công bằng.
Trong xã hội và khoa học tự nhiên, phương pháp hồi quy bội được sử dụng rất
rộng rãi trong nghiên cứu. Nói chung, hồi quy bội cho phép các nhà nghiên cứu đặt
ra câu hỏi (và hy vọng câu trả lời) về những vấn đề tổng quát "dự báo tốt nhất về …
là gì". Ví dụ, các nhà nghiên cứu giáo dục có thể muốn tìm hiểu các yếu tố dự đốn
tốt nhất về kết quả học tập ở trường trung học là gì. Xã hội học có thể muốn tìm ra
nhiều chỉ số xã hội dự đốn tốt nhất về việc nhóm người nhập cư mới có thích ứng
và được hồ nhập vào xã hội hay khơng, ...
1.1.2. Những tính tốn để giải phương trình hồi quy bội
Khơng gian con một chiều trong không gian hai chiều là một đường thẳng được
định nghĩa bởi phương trình

Y  0  1 X . Theo phương trình này, biến Y có thể

được biểu diễn như một hàm của hằng số (0) và tích của hệ số (1) với biến X.
Hằng số 0 cũng được gọi là hệ số chặn, còn 1 được gọi là hệ số dốc hay hệ số hồi
quy. Ví dụ, điểm trung bình các mơn học của học sinh được dự đốn bằng cơng thức
1 + 0,02 * IQ. Vì vậy, khi biết rằng một học sinh có chỉ số IQ là 130, chúng ta sẽ dự
đốn rằng điểm trung bình các mơn học của học sinh đó sẽ là 3,6.
Trong trường hợp hồi quy bội, khi có nhiều biến dự báo, khơng gian con hồi quy
thường khơng được hình dung trong một khơng gian hai chiều, nhưng tính tốn là
một sự mở rộng trực tiếp của các tính tốn trong trường hợp dự báo đơn biến. Ví dụ,
nếu ngồi các yếu tố IQ chúng ta có thêm vài yếu tố để dự đốn (ví dụ: Động lực, ý
thức kỷ luật), chúng ta có thể xây dựng một phương trình tuyến tính có chứa tất cả
các biến đó. Nói chung, các phương pháp hồi quy bội sẽ ước lượng một phương
trình tuyến tính có dạng:


Y  0  1 X1  2 X 2  ...  k Xk

với k là số các yếu tố dự báo. Lưu ý rằng trong phương trình này, các hệ số hồi quy
(1, ..., k) đại diện cho những đóng góp độc lập của mỗi biến dự báo vào giá trị của
biến phụ thuộc. Nói cách khác thì đó chính là sự tương quan của biến Xi với biến Y,
sau khi kiểm soát tác động của tất cả các biến độc lập khác. Loại tương quan này
cũng được gọi là tương quan riêng phần. Ví dụ sau sẽ làm rõ vấn đề này.
Bình thường người ta có thể thấy sự tương quan có ý nghĩa giữa chiều dài tóc và
chiều cao con người (người thấp có mái tóc dài hơn). Tuy nhiên, nếu chúng ta thêm
biến Giới tính vào phương trình hồi quy bội, sự tương quan này sẽ biến mất. Điều
này là do tính trung bình thì phụ nữ có mái tóc dài hơn nhưng cũng thấp hơn so với
nam giới. Như vậy, sau khi chúng ta loại bỏ sự khác biệt giới tính bằng cách đưa
biến giới tính vào phương trình, mối quan hệ giữa chiều dài tóc và chiều cao biến
mất bởi vì chiều dài tóc khơng có tác động đặc biệt nào cho các dự báo chiều cao.
Nói một cách khác, sau khi kiểm sốt biến giới tính, sự tương quan giữa chiều dài
tóc và chiều cao là khơng có ý nghĩa.
Khơng gian con hồi quy (một đường thẳng trong hồi quy đơn, một phẳng hoặc
khơng gian con có số chiều cao hơn trong hồi quy bội) là dự đoán tốt nhất của biến
phụ thuộc Y, được đưa ra bởi các biến độc lập X. Tuy nhiên, thực tế là rất hiếm khi
chúng ta hồn tồn dự đốn được chính xác giá trị của Y và thường có sự sai lệch
giữa những điểm quan sát được so với khơng gian con hồi quy thích hợp. Độ lệch
của một điểm cụ thể từ điểm tương ứng gần nhất trên khơng gian con hồi quy dự
đốn (dự đốn giá trị của nó) được gọi là phần dư. Vì mục tiêu của các phương pháp
hồi quy tuyến tính là đưa ra một khơng gian con là một hàm tuyến tính của các biến
X nhằm quan sát biến Y càng gần càng tốt, các giá trị dư cho những điểm quan sát
có thể được sử dụng để đưa ra một tiêu chuẩn "phù hợp nhất". Cụ thể, trong bài tốn
hồi quy, khơng gian con được tính sao cho tổng các bình phương độ lệch của các
điểm quan sát được so với khơng gian con đó là nhỏ nhất. Như vậy, phương pháp
chung gọi là ước lượng bình phương bé nhất.


Các tính tốn thực tế liên quan đến việc giải quyết các bài tốn hồi quy có thể

được biểu diễn gọn gàng và tiện lợi bằng cách sử dụng ma trận. Giả sử rằng n giá trị
quan sát của Y và n giá trị quan sát cho k biến X khác nhau. Sau đó Yi, Xik và i có
thể đại diện tương ứng cho các quan sát thứ i của biến Y, các quan sát thứ i của các
biến X, và giá trị phần dư chưa biết. Tập hợp những số hạng này đưa vào ma trận, ta

Y1 ˘
1
 ˙
 M˙
Y  M˙,
 ˙
 M˙
Y
 n
˙
˚

˙

X11 L

M

M M
X
M
M


L X1k ˘


 1 ˘
 ˙
M

M

M

M M

M
M

M
M

M M ˙
 ˙
M M ˙ ,   M ˙.

M
 Xn1 L L L Xnk
1 ˙˚

˙
˙

 ˙
M˙

  ˙
 n ˚

Mơ hình hồi quy bội theo ký hiệu ma trận có thể được biểu diễn như sau
YX
trong đó  là một vector cột của các hệ số cần ước lượng, bao gồm hệ số chặn và k
hệ số hồi quy chưa biết. Vì mục tiêu của hồi quy bội là tổng bình phương độ lệch
nhỏ nhất nên hệ số hồi quy cần tìm thoả mãn phương trình chuẩn tắc
X ' X   X 'Y .
Khi các biến X là độc lập tuyến tính thì phương trình trên có một nghiệm duy nhất.
Khi nhân cả hai vế của phương trình với nghịch đảo của X'X ta được

 X ' X 1
hay

X ' X    X ' X 1 X 'Y

   X ' X 1 X 'Y .

Kết quả này đưa ra lời giải cho phương trình hồi quy trong đó chỉ có 2 ma trận X
và Y với 3 phép toán cơ bản của ma trận là: (1) chuyển vị ma trận bao gồm việc đổi
chỗ các phần tử của hàng và của cột trong một ma trận, (2) phép nhân ma trận,


trong đó bao gồm việc tìm tổng các tích của các phần tử cho mỗi tổ hợp hàng và cột
của hai hoặc nhiều ma trận, và (3) nghịch đảo ma trận, trong đó bao gồm việc tìm
ma trận có tính chất giống với số nghịch đảo, nghĩa là ma trận thỏa mãn
A1AA  A
cho một ma trận A.
Tuy nhiên mô hình hồi quy bội cịn có những hạn chế cần chú ý là (1) nó được

sử dụng để phân tích duy nhất một biến phụ thuộc, (2) nó khơng thể cung cấp một
lời giải cho các hệ số hồi quy khi các biến X là khơng độc lập tuyến tính và do đó
nghịch đảo của X'X khơng tồn tại. Khi khắc phục những hạn chế này thì mơ hình
hồi quy bội được chuyển thành mơ hình tuyến tính tổng qt.
1.1.3. Mở rộng của mơ hình hồi quy bội thành mơ hình tuyến tính tổng qt
Một trong những điểm mà mơ hình tuyến tính tổng qt khác với mơ hình hồi
quy bội là số lượng của các biến phụ thuộc có thể được phân tích. Véc tơ Y của n
quan sát của một biến Y duy nhất có thể được thay thế bằng một ma trận Y gồm
n
quan sát của m biến Y khác nhau. Tương tự, vector  của hệ số hồi quy cho một
biến Y duy nhất có thể được thay thế bởi ma trận B của hệ số hồi quy, với một véc tơ
của hệ số B cho mỗi biến trong số m biến phụ thuộc. Những thay thế đó cho phép
mơ hình được gọi là mơ hình hồi quy đa biến, nhưng cần nhấn mạnh rằng các cơng
thức ma trận của mơ hình hồi quy bội và đa biến là giống hệt nhau, ngoại trừ số
lượng các cột trong ma trận Y và B. Phương pháp giải các hệ số B cũng giống nhau,
đó là, tập m các hệ số hồi quy khác nhau được xác định riêng rẽ cho m biến phụ
thuộc khác nhau trong mô hình hồi quy đa biến.
Mơ hình tuyến tính tổng qt tiến một bước vượt lên trên mơ hình hồi quy đa
biến bằng cách chấp nhận các phép biến đổi tuyến tính hoặc tổ hợp tuyến tính của
nhiều biến phụ thuộc. Sự mở rộng này mang lại cho mơ hình tuyến tính tổng qt
nhiều lợi thế quan trọng hơn mơ hình hồi quy bội và mơ hình hồi quy đa biến. Một
lợi thế đầu tiên là các kiểm định đa biến có thể được áp dụng trên một tập nhiều


biến phụ thuộc có liên quan. Các phép kiểm định riêng rẽ về ý nghĩa của các biến
phụ thuộc liên quan là khơng độc lập với nhau và có thể khơng thích hợp. Các phép
kiểm định đa biến của các tổ hợp tuyến tính độc lập của các biến phụ thuộc có thể
giúp thấy rõ những tổ hợp nào của các biến độc lập liên quan đến các biến dự báo,
tổ hợp nào không liên quan. Một lợi thế khác là khả năng phân tích ảnh hưởng của
các nhân tố được đo lặp lại. Các thiết kế phép đo lặp lại hoặc các thiết kế nội đối

tượng thường được phân tích bằng cách sử dụng kỹ thuật phân tích phương sai
ANOVA. Các tổ hợp tuyến tính của các biến đáp ứng phản ánh hiệu quả của phép
đo lặp (biến độc lập được đo dưới những điều kiện khác nhau) có thể được thiết kế
và kiểm định ý nghĩa bằng cách tiếp cận đơn biến hoặc đa biến để phân tích các
phép đo lặp trong mơ hình tuyến tính tổng qt.
Một điều quan trọng thứ hai mà mơ hình tuyến tính tổng qt khác với mơ hình
hồi quy bội là nó có thể cung cấp một lời giải cho các phương trình chuẩn tắc khi
các biến X khơng độc lập tuyến tính và nghịch đảo của X'X khơng tồn tại. Sự dư
thừa của các biến X có thể là khơng thực chất (ví dụ, có thể xảy ra hai biến dự báo
hoàn toàn tương quan trong một tập dữ liệu nhỏ), là ngẫu nhiên (ví dụ, hai bản sao
của cùng một biến có thể vơ tình được sử dụng trong một phân tích) hoặc có chủ
định (ví dụ, biến chỉ thị với các giá trị đối nhau có thể được sử dụng trong phân tích,
như khi cả hai biến dự báo Nam và Nữ được sử dụng trong việc thể hiện giới tính).
Tìm nghịch đảo chính quy của một ma trận có hạng khơng đầy đủ cũng giống như
việc tìm nghịch đảo của số 0 trong số học thông thường. Không có nghịch đảo bởi
vì khơng được phép chia cho số 0. Vấn đề này được giải quyết trong mơ hình tuyến
tính tổng quát bằng cách sử dụng một nghịch đảo suy rộng của ma trận X'X trong
việc giải các phương trình chuẩn tắc. Một nghịch đảo suy rộng cho một ma trận A là
ma trận A bất kỳ thỏa mãn
AA A  A .
Ma trận nghịch đảo suy rộng là không duy nhất và chỉ duy nhất khi ma trận A có
hạng đầy đủ. Khi đó, nó chính là ma trận nghịch đảo chính quy. Ma trận nghịch đảo


suy rộng của một ma trận có hạng khơng đầy đủ có thể được tính bằng cách đơn
giản bằng cách thay các phần tử 0 vào các hàng và cột dư của ma trận. Giả sử rằng
có một ma trận X'X với r-cột độc lập tuyến tính (với r là hạng của X’X) thì ta phân
chia như sau
X ' X   A11 A12 ˘


˙
A A
 21 22 ˚
với A11 là ma trận vng cấp r. Sau đó, nghịch đảo chính quy của A11 tồn tại và một
nghịch đảo tổng quát của X'X là



X'X



A

1

  11
 021

0 ˘
12

022 ˙˚

với mỗi ma trận 0 (khơng) gồm các số 0 và có số chiều giống như ma trận A tương
ứng.
Tuy nhiên trong thực tế, một nghịch đảo tổng quát đặc biệt của X'X để tìm một
lời giải cho các phương trình chuẩn tắc thường được tính bằng cách sử dụng tốn tử
qt. Nghịch đảo suy rộng này, được gọi là nghịch đảo g2, có hai tính chất quan
trọng. Một là việc gán các phần tử 0 trong các hàng và các cột dư là không cần thiết.

Hai là sự phân vùng hoặc sắp xếp lại các cột của X'X là không cần thiết, vì vậy ma
trận có thể tự nghịch đảo “tại chỗ”.
Có vơ số nghịch đảo tổng qt của một ma trận X'X khơng có hạng đầy đủ, do đó
có vơ số nghiệm của các phương trình chuẩn tắc. Điều này có thể gây ra sự khó hiểu
về bản chất của mối quan hệ của các biến dự báo và biến phụ thuộc, bởi vì các hệ số
hồi quy có thể thay đổi tùy thuộc vào nghịch đảo suy rộng cụ thể được chọn để giải
các phương trình chuẩn tắc. Tuy nhiên, điều đó khơng đáng ngại vì tính chất bất
biến quan trọng của nhiều kết quả có thể thu được bằng cách sử dụng mơ hình tuyến
tính tổng qt.
Sau đây là một ví dụ đơn giản để minh họa các tính chất bất biến quan trọng
nhất của việc sử dụng nghịch đảo suy rộng trong mơ hình tuyến tính tổng quát. Nếu


cả hai biến dự báo Nam và Nữ với giá trị đối nhau được sử dụng trong một phân
tích giới tính, tùy vào từng trường hợp mà biến dự báo được coi là phần dư thừa (ví
dụ, biến Nam có thể được coi là phần dư thừa với biến Nữ, hoặc ngược lại). Bất kỳ
biến dự báo nào được coi là phần dư thừa, bất kỳ nghịch đảo suy rộng tương ứng
nào được sử dụng trong việc giải các phương trình chuẩn tắc, và bất kỳ kết quả
phương trình hồi quy nào được sử dụng để tính tốn các giá trị dự đoán về các biến
phụ thuộc, các giá trị dự đoán và các phần dư tương ứng cho nam và nữ sẽ không
thay đổi. Trong việc sử dụng mô hình tuyến tính tổng qt, người ta phải nhớ rằng
việc tìm kiếm một nghiệm cụ thể của các phương trình chuẩn tắc chỉ là một bước
trung gian để xác định giá trị đáp ứng của các biến phụ thuộc.
Không giống như mơ hình hồi quy bội thường được áp dụng cho trường hợp các
biến X liên tục, mơ hình tuyến tính tổng quát hay sử dụng để phân tích cho một mơ
hình phân tích phương sai ANOVA hoặc MANOVA với các biến dự báo rời rạc hoặc
với cả hai loại biến dự báo rời rạc và liên tục, cũng như mơ hình hồi quy bội hay đa
biến với các biến dự báo liên tục. Ví dụ, giới tính rõ ràng là một biến độc lập rời rạc.
Có hai phương pháp cơ bản mà giới tính có thể được mã hố thành một hay nhiều
biến dự báo và được phân tích bằng cách sử dụng mơ hình tuyến tính tổng qt.


1.2. MỘT SỐ VÍ DỤ VỀ MƠ HÌNH TUYẾN TÍNH TỔNG QUÁT
Giả thiết rằng chúng ta sẽ tiến hành một thí nghiệm trong đó chúng ta sẽ quan
sát một biến đáp ứng hay biến phụ thuộc Yj , trong đó j = 1,…,J là các chỉ số của
quan sát. Yj là một biến ngẫu nhiên. Chúng ta cũng giả thiết rằng với mỗi một quan
sát chúng ta có một tập gồm K (K < J) biến giải thích hay biến độc lập xjk (được đo
đạc mà khơng có sai số), với k = 1,…,K là chỉ số của các biến độc lập (hay biến giải
thích). Các biến độc lập có thể là các hiệp biến liên tục hoặc rời rạc, các hàm của
các hiệp biến, hoặc chúng có thể là các biến hình thức chỉ thị các mức độ của một
nhân tố thực nghiệm.


Một mơ hình tuyến tính tổng qt biểu diễn các biến đáp ứng Yj theo các số hạng
của một tổ hợp tuyến tính của các biến độc lập cộng với phần sai số,

Yj  x j11  ...  x jk k  ...  x jK  K   j .
(1.1)
Ở đây βk là các tham số (chưa biết) tương ứng với mỗi một tập hợp K các biến
giải thích xjk . Các sai số εj là các biến ngẫu nhiên độc lập có phân bố chuẩn giống
nhau với trung bình 0 và phương sai σ2, được viết là

iid

j: 

2

. Các mơ hình

0, tính tổng qt hóa,

tuyến tính với các phân bố sai số khác là các mô hình tuyến
thường được ký hiệu là GLM.
Nhiều phương pháp thống kê tham số cổ điển là các trường hợp riêng của mơ
hình tuyến tính tổng qt. Chúng ta sẽ minh họa điểm này bằng việc xem xét các
phương trình của hai mơ hình nổi tiếng sau.
a. Mơ hình hồi quy tuyến tính.
Một ví dụ đơn giản là hồi quy tuyến tính trong đó chỉ một biến độc lập liên tục
duy nhất xj được quan sát (khơng có sai số) trong mỗi quan sát j = 1,…,J. Mơ hình
thường được viết như sau

Yj    x j    j .
Trong đó các tham số chưa biết là µ, một hằng số trong mơ hình, hệ số hồi quy β
iid

và sai số



 j:  0, 2 . Biểu thức này có thể được viết lại theo dạng mơ hình tuyến

tính tổng qt bằng việc sử dụng một biến hình thức lấy giá trị xj1 = 1 cho mọi j,

Yj  x j1  x j 2 2   j
mà đó là một dạng của phương trình (1.1) khi thay thế β1 bằng µ.
b. Mơ hình so sánh hai mẫu bằng phép kiểm định t.
Mơ hình so sánh hai mẫu là một trường hợp đặc biệt của một mô hình tuyến tính
tổng qt, trong đó giả thiết rằng Yj1 và Yj2 là hai nhóm độc lập của các biến ngẫu


nhiên, phép so sánh Y : iid  , 2 , với q = 1, 2, và đánh giá giả thuyết H: µ = µ .




qj

1

q

2

Chỉ số j đánh số các điểm dữ liệu trong cả hai nhóm. Phương pháp biểu diễn mơ
hình thống kê theo quy chuẩn như sau

Yqj  q   qj .
Chỉ số q ở µq chỉ ra rằng có hai mức đối với hiệu ứng nhóm, µ1 và µ2. Ở đây
iid



qj :  0, 2 . Biểu thức này có thể được viết lại sử dụng các biến hình thức xqj1 và

xqj2 như sau

Yq

 xqj11  xqj 2 2   qj .

(1.2)


j

Phương trình (1.2) có dạng của phương trình (1.1) sau khi đánh số lại cho qj. Ở
đây các biến hình thức cho biết nó là thành viên của nhóm nào, trong đó xqj1 chỉ ra
khi nào quan sát Yqj ở nhóm thứ nhất, trong trường hợp đó nó có giá trị 1 khi q = 1,
và 0 khi q = 2. Tương tự như vậy

xqj 2



0


nếu q = 1


1

nếu q = 2.

1.2.1. Lập phương trình dạng ma trận
Mơ hình tuyến tính tổng qt có thể được biểu diễn một cách ngắn gọn bằng
cách sử dụng ký kiệu ma trận. Viết lại phương trình (1.1) ở dạng đầy đủ cho mỗi
quan sát j cho ta một tập hợp các phương trình sau

Y1  x111  ...  x1k k  ...  x1K  K  1
M
Yj  x j11  ...  x jk  k  ...  x jK  K   j
M

YJ  xJ 11  ...  xJk k  ...  xJK  K   J
Hệ trên có dạng ma trận tương đương như sau


Y1 ˆ  x11 L x1k L
x1K
 ˜  MO MO M
M ˜ 
Y ˜   x L x L x



ˆ  1  1 ˆ
ˆ
˜
˜  ˜
˜ M ˜ M ˜
˜ ˜  ˜
 j ,

jk
jK ˜
 j ˜  j1k
 ˜
M ˜˜ 
 M O M O M ˜M ˜

Y
x L x L x ˜  ˜
 J   J1

Jk
JK   K


có thể được viết dưới dạng ma
trận

 ˜
M ˜
 ˜

 J

Y X ,

trong đó Y là vector cột của các quan sát, ε là vector cột của các số hạng sai số, β là
vector cột của các tham số

    ,,  ,, 
1

T

. Ma trận X có cấp J x K, với

k
K

phần tử thứ jk là xjk, được gọi là ma trận thiết kế. Ma trận này có một dịng cho mỗi
quan sát, và một cột (biến giải thích) cho mỗi tham số của mơ hình. Điểm quan

trọng về ma trận thiết kế đó là nó là một mơ tả gần hồn chỉnh mơ hình với phần dư
của mơ hình là các số hạng sai số.
1.2.2. Ước lượng tham số
Khi một thực nghiệm đã được hồn tất, chúng ta có các quan sát của các biến
ngẫu nhiên Yj , được ký hiệu là yj. Thơng thường các phương trình của hệ biểu diễn
mơ hình tuyến tính tổng qt (với ε = 0) khơng thể giải được vì số lượng K các tham
số thường được chọn nhỏ hơn số lượng J của các quan sát. Do đó một số phương
pháp ước lượng tham số địi hỏi dữ liệu “thích hợp nhất” cần phải được sử dụng.
Điều này đạt được bằng cách sử dụng phương pháp bình phương bé nhất thơng
thường.
Ký hiệu một tập các giá trị ước lượng tham số bởi ˜   ˜ ,K, ± ˘ T . Các
tham

 1
số đó dẫn đến các giá trị tương ứng Y˜  Y˜ ,K,Y˜ ˘ T  X ˜ , cho các sai số phần


1


S
e  e1 ,K, eJ T   ˜   ˜
Y Y
Y X
. Tổng bình phương phần




J

j
1

e2  eT e
j

là tổng của các bình phương hiệu số giữa các giá trị tính tốn và giá trị thực, và do


đó đo đạc mức độ phù hợp của mơ hình với các ước lượng đó của các tham số. Các
ước lượng bình phương bé nhất là các ước lượng tham số làm nhỏ nhất tổng bình
phương các phần dư, với dạng đầy đủ là

S  J

j 1

Y

2
j

 x ˜ K  x jK ˜
j1 1
K

Giá trị này nhỏ nhất khi
J
S


2 x jk
 ˜
k



j 1

˜

˜

 Yj  x j1 1 K  x jK  K   0 .
X
T
Y

Phương trình này là dịng thứ k của
bình phương bé nhất, ký hiệu bởi
µ

.

  X T X  ˜ . Do đó các ước lượng

thỏa mãn phương trình:

X TY

  X T X  µ


Đối với mơ hình tuyến tính tổng quát, các ước lượng bình phương bé nhất là các
ước lượng vững, và là các ước lượng không chệch tuyến tính tốt nhất. Đó là vì, liên
quan đến tất cả các ước lượng tham số tuyến tính xây dựng nên từ kết hợp tuyến
tính của dữ liệu được quan sát có kỳ vọng là giá trị đúng của các tham biến, ước
lượng bình phương bé nhất có phương sai bé nhất.
Nếu (XTX) khả nghịch, mà thực tế nó sẽ là như vậy nếu và chỉ nếu ma trận tính
tốn X có hạng đầy đủ, thì các ước lượng bình phương bé nhất sẽ là

µ   X T X 1
X TY .

(1.3)

a. Các mơ hình khơng có lời giải duy nhất
Nếu X có các cột phụ thuộc tuyến tính, nó sẽ là ma trận có hạng khơng đầy đủ,
khi đó (XTX) suy biến và không khả nghịch. Trong trường hợp này mơ hình được
gọi là tham số hóa dư thừa: có vơ hạn các tập hợp tham số mơ tả cùng một mơ hình.


Tương ứng, sẽ có vơ hạn các ước lượng bình phương bé nhất
µ

thỏa mãn các

phương trình.
b. Mơ hình ANOVA một nhân tố
Một ví dụ đơn giản về một mơ hình như vậy là mơ hình phân tích phương sai
một nhân tố cổ điển (ANOVA). Một cách tổng quát, một mô hình ANOVA xác định
biến thiên của một biến đáp ứng được quan sát chịu các ảnh hưởng của các mức tác

nhân. Phần biến thiên khơng giải thích cịn lại được sử dụng để đánh giá mức ý
nghĩa của các tác động. Mơ hình ANOVA một nhân tố được viết như sau:

Yqj      
q
qj
Trong đó Yqj là quan sát thứ j trong nhóm q = 1,…,Q. Các tham số của mơ hình
này rõ ràng khơng xác định duy nhất với bất kỳ µ và αq nào, các tham số µ’ = µ + d
và αq’ = αq – d cho một mơ hình tương đương với bất kỳ hằng số d nào. Đó chính là
mơ hình là không xác định cho đến mức của một hằng số cộng giữa biểu thức hằng
số µ và các tác động nhóm αq. Có thể lập luận tương tự như trên cho bất kỳ tập các
ước lượng bình phương bé nhất

µ ,
ˆ

nào. Ở đây có một bậc vơ định trong mơ
q

hình, điều đó làm cho ma trận tính tốn có hạng Q nhỏ hơn số các tham số (số các
cột của ma trận X). Nếu vector dữ liệu Y có các quan sát được sắp xếp theo nhóm,
khi đó trong trường hợp 3 nhóm (Q = 3), ma trận tính tốn và các vector tham số là:
 1 1 0 0 ˘˙
M M M M
˙

1100

˙
1

0
1
0

˙
X  M M
 1 0
10

M M

 10

 ˘
 ˙
 1˙

˙;=
MM
1 0 ˙˙
 2˙˙
˙
3 ˚
0 1
˙
M M˙
˙
0 1˚



Rõ ràng rằng ma trận này có hạng khơng đầy đủ: cột đầu tiên là tổng của các cột
khác. Do đó trong mơ hình này, người ta khơng thể kiểm tra trong mơ hình này tác
động của một hay nhiều nhóm. Tuy nhiên lưu ý rằng việc cộng vào hằng số µ
khơng tác động đến các hiệu số tương đối giữa các cặp của các tác động nhóm. Do
đó các hiệu số trong các tác động nhóm được ước lược duy nhất mà không cần xét
đến tập cụ thể của các ước lượng tham số được sử dụng. Nói cách khác, thậm chí
nếu mơ hình là tham số hóa dư thừa, vẫn có các tổ hợp tuyến tính có ích của các
tham số (chính là các hiệu số giữa các cặp của các tác động nhóm).
c. Ràng buộc nghịch đảo suy rộng
Trong mơ hình với tham số khơng xác định duy nhất, một tập các ước lượng
bình phương bé nhất có thể được xác định bằng việc đưa vào các ràng buộc đối với
các ước lượng hoặc bằng việc sử dụng cho (XTX). Trong trường hợp nào thì cũng
cần chú ý rằng các ước lượng thực sự thu nhận được phụ thuộc vào ràng buộc cụ thể
hoặc phụ thuộc vào phương pháp lấy nghịch đảo suy rộng được lựa chọn.
Có một số ràng buộc cụ thể dựa trên việc loại bỏ các cột từ ma trận tính tốn.
Trong ví dụ ANOVA một nhân tố, người ta có thể loại bỏ biểu thức hằng số để xây
dựng một ma trận tính tốn có các cột là độc lập tuyến tính. Với các tính tốn phức
tạp hơn, dạng của ma trận tính tốn có thể thay đổi rất nhiều làm cho mơ hình ban
đầu trở nên khó nhận biết.
Một cách khác là phương pháp lấy nghịch đảo suy rộng ma trận có thể được sử
dụng. Đặt

X

T

X  ký hiệu cho một ma trận nghịch đảo suy rộng của (XTX). Khi

đó
chúng ta có thể sử dụng

X 1

X

T

X  thay vì

X

T

tập các ước lượng bình phương bé nhất được cho bởi

trong phương trình (1.3). Một

µ   X T X 
X TY

 X Y .

Điều đó cho các ước lượng tham số bình phương bé nhất với tổng các bình phương
là bé nhất (cực tiểu L2 theo chuẩn || µ ||2 ). Ví dụ, với mơ hình ANOVA một nhân tố,


phương pháp này cho các ước lượng tham số

µ 




Q
q1

 Y  1  Q 
q




µ q  Y q  µ . Chúng ta sử dụng Y

q

để ký kiệu giá trị trung bình của Y trong

quan sát chỉ số j, chính là trung bình của dữ liệu trong nhóm q.
Sử dụng nghịch đảo suy rộng trong ước lượng tham số ở các mơ hình với tham
số không xác định duy nhất là một giải pháp thường được sử dụng. Như đã được
giới thiệu ở trên, phương pháp này vẫn không cho phép kiểm tra các tổ hợp tuyến
tính của các tác động mà có một số lượng vô hạn các ước lượng tham số. Chú ý
rằng ràng buộc giả nghịch đảo cho ta giữ nguyên tất cả các cột của ma trận X.
1.2.3. Quan điểm hình học
Đối với một số người, quan điểm hình học cung cấp một cảm nhận trực quan
cho phương pháp phân tích.
Vector của các giá trị quan sát Y định nghĩa một điểm đơn trong không gian

J , không gian Euclide J chiều. X là một tổ hợp tuyến tính của các cột của ma
˜
trận tính tốn X. Các cột của ma trận X là các vector J do đó


trước định nghĩa một điểm trong không gian
con của

J

X với một
˜ ˜

cho

J . Điểm này nằm trong không gian

được xây dựng nên bởi các cột của ma trận tính tốn, khơng gian X.

Chiều của không gian con là rank(X). Nhắc lại rằng không gian được xây dựng nên
từ các cột của X là một tập các điểm Xc với mọi c thuộc khơng gian
tổng các bình phương cho các ước lượng tham số

˜
Do vậy các ước lượng bình phương bé nhất

J . Phần dư

là khoảng cách từ

X
˜

đến Y.


tương ứng với điểm trong khơng

µ
gian xây dựng bởi các cột của X mà gần nhất với dữ liệu Y. Đường vng góc từ Y


vào khơng gian X giao với khơng gian đó tại điểm

Yµ  X µ . Bây giờ sẽ rõ ràng là

tại sao khơng có các ước lượng bình phương bé nhất duy nhất nếu khơng gian X có
hạng khơng đầy đủ; khi đó bất kỳ điểm nào trong khơng gian X có thể nhận được
bằng các tổ hợp tuyến tính vơ hạn các cột của X, chính là nghiệm tồn tại trên một
siêu mặt và không phải là một điểm.


Nếu X có hạng đầy đủ, khi đó định nghĩa ma trận của phép chiếu là
P  X  X T X 1 X T . Khi Yµ  P Y ,
X
đó
và X

PX về mặt hình học là một phép chiếu

vào không gian X. Tương tự như vậy ma trận của các phần dư là

R  IJ  PX  ,

trong đó IJ là ma trận đơn vị có hạng J. Như vậy RY = e, và R là một phép chiếu ma

trận vào không gian trực giao với không gian X.
Sau đây là một ví dụ có liên quan mật thiết, xem xét một hồi quy tuyến tính chỉ
với ba quan sát. Dữ liệu được quan sát là y   y , y , y T
điểm
1

2

định nghĩa một

3

trong khơng gian Euclide ba chiều 3 . Mơ hình dẫn đến ma trận tính tốn
1 x1 ˙˘

X  1 x .


 x3 ˙˚
1
Cho trước các giá trị xj khác nhau, các cột của X hình thành nên một khơng gian con
hai chiều trong

3 , một mặt phẳng (Hình 1.1).

Hình 1.1


×