Tải bản đầy đủ (.pdf) (11 trang)

Phân tích thống kê chất lượng gỗ và các vấn đề liên quan

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (244.55 KB, 11 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
- - - - - - - - - o0o - - - - - - - - -

VŨ NGỌC TRÌU

PHÂN TÍCH THỐNG KÊ CHẤT LƯỢNG GỖ VÀ
CÁC VẤN ĐỀ LIÊN QUAN

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội - 2014


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
- - - - - - - - - o0o - - - - - - - - -

VŨ NGỌC TRÌU

PHÂN TÍCH THỐNG KÊ CHẤT LƯỢNG GỖ VÀ
CÁC VẤN ĐỀ LIÊN QUAN

Chuyên ngành:
Mã số:

Lý thuyết xác suất và thống kê toán
60 46 01 06

LUẬN VĂN THẠC SĨ KHOA HỌC


NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS. HỒ ĐĂNG PHÚC

Hà Nội - 2014


Mục lục
1 Mô hình Logit thứ bậc và mô hình Probit thứ bậc
1.1 Mô hình biến ẩn đối với biến thứ tự . . . . . . . . . . . . . . . . . .
1.1.1 Giả thiết về phân phối của sai số . . . . . . . . . . . . . . .
1.1.2 Xác suất của giá trị quan sát . . . . . . . . . . . . . . . . .
1.2 Xác định mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Ước lượng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4 Giải thích . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4.1 Hiệu quả riêng phần của các biến độc lập đối với y ∗ . . . .
1.4.2 Xác suất dự báo . . . . . . . . . . . . . . . . . . . . . . . .
1.4.3 Biến đổi riêng phần của biến độc lập đối với xác suất dự báo
1.4.4 Biến đổi gián đoạn . . . . . . . . . . . . . . . . . . . . . . .
1.4.5 Mô hình số chênh trong mô hình logit thứ bậc . . . . . . . .
1.5 Giả thuyết hồi quy song song . . . . . . . . . . . . . . . . . . . . .
1.6 Các mô hình liên kết đối với dữ liệu tính trạng . . . . . . . . . . . .
1.6.1 Mô hình hồi quy ghép nhóm . . . . . . . . . . . . . . . . .
1.6.2 Các mô hình khác về dữ liệu tính trạng . . . . . . . . . . . .
2 Mô
liên
2.1
2.2

2.3
2.4

2.5

2.6

2.7

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

hình logit đa thức đối với biến đầu ra định danh và các mô
quan
Giới thiệu về mô hình logit đa thức . . . . . . . . . . . . . . . . . . .
Mô hình logit đa thức . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Mô hình MNLM được xét như mô hình xác suất . . . . . . . .
2.2.2 Mô hình MNLM như một mô hình tỉ số . . . . . . . . . . . .
2.2.3 Mô hình logit đa thức như mô hình lựa chọn rời rạc . . . . . .
Ước lượng hợp lí cực đại . . . . . . . . . . . . . . . . . . . . . . . . .

Tính toán và kiểm tra các hệ số tương phản khác . . . . . . . . . . .
Hai kiểm định hữu dụng . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.1 Kiểm tra biến không có ảnh hưởng . . . . . . . . . . . . . . .
2.5.2 Kiểm định về hai đầu ra có thể được kết hợp với nhau . . . .
Giải thích mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6.1 Xác suất dự báo . . . . . . . . . . . . . . . . . . . . . . . . .
2.6.2 Biến đổi riêng . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6.3 Biến đổi rời rạc . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6.4 Lí giải tỉ số chênh . . . . . . . . . . . . . . . . . . . . . . . . .
2.6.5 Vẽ các hệ số . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mô hình logit có điều kiện . . . . . . . . . . . . . . . . . . . . . . . .
i

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.


1
2
4
5
6
7
9
9
11
14
15
18
20
24
24
25

hình
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

26
27
29
30
31
32
33
34
36
36
37
38
39
39
40
42
44

47


3 Sử dụng mô hình logit thứ bậc để phân tích chất lượng sinh
cây rừng
3.1 Giới thiệu về địa bàn nghiên cứu và mục đích nghiên cứu . . .
3.2 Mô tả dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Phân tích chất lượng sinh trưởng của cây . . . . . . . . . . .
3.3.1 Phân tích bộ số liệu “Rừng nguyên sinh” . . . . . . . .
3.3.2 Phân tích phẩm chất gỗ đối với dữ liệu từ rừng trồng
3.4 Bàn luận về các kết quả của mô hình hồi quy . . . . . . . . .

trưởng của
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.

.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.

.

51
51
52
56
56
63
66

Kết luận

68

Tài liệu tham khảo

69

ii


Lời mở đầu
Trong nghành Lâm Nghiệp, một trong những công việc rất quan trọng là
đánh giá chất lượng sinh trưởng của rừng. Từ kết quả thu được, người ta sẽ
đưa ra các phương pháp bảo tồn, phát triển hoặc khai thác rừng một cách
hiệu quả nhất. Thông thường, các chuyên gia đến tận nơi đo đạc, khảo sát và
dựa vào cả kinh nghiệm của mình để đưa ra kết luận rằng cây được xem xét
là sinh trưởng tốt, sinh trưởng trung bình hay sinh trưởng kém. Một phương
pháp như vậy là khá tốn kém và khó thực hiện khi những người có trình độ
cao, kinh nghiệm dày dặt không nhiều. Vấn đề đặt ra là có phương pháp nào

ít tốn kém hơn nhưng cũng có độ chính xác cao hay không. Trong luận văn
này đưa ra một cách tiếp cập theo phương pháp thống kê là xây dựng mô
hình hồi quy với biến phụ thuộc là chất lượng sinh trưởng, biến giải thích là
các tiêu chí đo đạc được của cây. Với mục tiêu như vậy, luận văn này có tên
“ Phân tích chất lượng gỗ và các vấn đề liên quan”.
Luận văn được chia thành ba chương. Chương 1 giới thiệu về mô hình hồi
quy thứ bậc với biến phụ thuộc là biến tính trạng có thứ tự. Trong chương
này, ta nghiên cứu các mô hình là mô hình Probit, mô hình Logit và mô hình
số chênh. Những phương pháp diễn giải các kết quả rất hữu ích của mô hình
như: hiệu quả riêng, biến đổi gián đoạn. . . cũng được giới thiệu trong chương
này.
Chương thứ 2 trình bày về mô hình Logit đa thức. Mô hình này áp dụng
với biến phụ thuộc là biến định danh. Các diễn giải về kết quả mô hình này
được xem như là sự mở rộng đối với các diễn giải của mô hình Logit thứ
bậc, tuy nhiên khi biến phụ thuộc có nhiều tính trạng hoặc có nhiều biến
giải thích thì mô hình khá phức tạp do có nhiều hệ số. Khó khăn này được
giải quyết bằng phương pháp vẽ đồ thị thể hiện mối liên hệ giữa các hệ số.
Chương thứ 3 là phần chạy các mô hình từ dữ liệu thực tế và diễn giải
các kết quả từ mô hình đã xây dựng. Trong chương này, một số các kết quả
đạt được có những ý nghĩa thực tế như: chất lượng sinh trưởng của cây rừng
phụ thuộc mạnh vào những yếu tố đường kính tán, chiều cao, đường kính
1m3. Các loài cây khác nhau cũng có sự đánh giá khác nhau về sinh trưởng,
iii


mức độ quý hiếm của cây không có ý nghĩa trong việc đánh giá đó. Đối với
chất lượng gỗ của rừng trồng thì yếu tố quyết định để phân loại chất lượng
gỗ là đường kính 1m3. Các yếu tố khác có ảnh hưởng không đáng kể.
Bản luận văn này được hoàn thành với sự hướng dẫn nghiêm khắc và chỉ
bảo tận tình của PGS.TS Hồ Đăng Phúc. Thầy đã dành rất nhiều thời gian

quý báu của mình để hướng dẫn, giải đáp thắc mắc cho tôi trong suốt quá
trình bắt đầu tới khi hoàn thành luận văn. Nhân dịp này, tôi xin bày tỏ lòng
biết ơn sâu sắc nhất tới thầy Hồ Đăng Phúc.
Qua đây, tôi xin cảm ơn tới các thầy cô khoa Toán –Cơ – Tin, trường Đại
học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, đặc biệt là các thầy đã
tham gia giảng dạy khóa Cao học Toán 2011-2013.
Tôi cũng xin cảm ơn gia đình, các bạn và mọi người đã giúp đỡ, cổ vũ để
tôi có thể khác phục những khó khăn gặp phải trong suốt quá trình học
Hà Nội, ngày 11 tháng 12 năm 2014
Học viên
Vũ Ngọc Trìu

iv


Chương 1
Mô hình Logit thứ bậc và mô hình
Probit thứ bậc
Đối với mô hình hồi quy tuyến tính, ta làm việc với biến phụ thuộc được
giả thiết là biến định lượng liên tục. Đây là mô hình rất phổ biến và được
sử dụng rộng rãi. Tuy nhiên trong các vấn đề kinh tế- xã hội, chúng ta bắt
gặp nhiều biến phụ thuộc không liên tục và thậm chí không quan sát được.
Các biến dạng này được gọi chung là các biến phụ thuộc giới hạn (limited
dependent variable, LDV). Trong luận văn này sẽ trình bày các mô hình phi
tuyến đối với các biến phụ thuộc là biến thứ tự và biến định danh. Ta định
nghĩa các biến dạng này như sau:
Biến thứ tự (ordinal variable) là biến có các tính trạng được sắp thứ tự.
Ví dụ trong cuộc điều tra các câu hỏi được đưa ra và phương án trả lời có
thể là các lựa chọn: tuyệt đối đồng ý, đồng ý, không đồng ý và hoàn toàn
không đồng ý.

Biến định danh (nominal variable) là biến có nhiều tính trạng và các tính
trạng không có thứ hạng. Ví dụ tình trạng hôn nhân có thể là các tính trạng
sau: độc thân, đã kết hôn, li dị, góa bụa.
Đối với biến có thứ tự, các tính trạng có thể được sắp thứ tự từ thấp tới cao,
nhưng khoảng cách giữa các tính trạng gần kề chưa được xác định. Những
tính trạng này được đánh số lần lượt và mô hình hồi quy tuyến tính (LRM)
có thể được áp dụng. Tuy nhiên, ta ngầm giả thiết rằng khoảng cách giữa các
tính trạng là bằng nhau. Một vấn đề là khi dùng mô hình hồi quy tuyến tính
đối với biến LDV, ước lượng có thể chệch và vì thế dẫn tới những kết quả sai
lầm, thậm chí không chấp nhận được. Cho nên các mô hình phi tuyến được
đề xuất mặc dù những lí giải về nó phức tạp hơn nhiều.
Trong chương đầu tiên, ta xét các mô hình logit thứ bậc và probit thứ bậc
(ordered logit and ordered probit models). Hai mô hình này có quan hệ chặt
1


chẽ với nhau và được gọi chung là mô hình hồi quy thứ bậc (ordered regression
models, ORM). Một số mô hình liên quan với hai mô hình trên cũng được
giới thiệu.

1.1

Mô hình biến ẩn đối với biến thứ tự

Mô hình hồi quy thứ bậc ORM có thể nhận được từ một mô hình hồi quy
thông thường với biến phụ thuộc là một biến liên tục. Trong mô hình ORM,
biến phụ thuộc định lượng là một biến ẩn y ∗ có thể nhận giá trị từ−∞ tới
+∞, song bị ẩn dưới biến phụ thuộc quan sát được y thông qua một ánh xạ
được xác định như sau:
yi = m


khi

τm−1 ≤ y ∗ < τm ,

m = 1, ..., J

Các điểm τ được gọi là điểm cắt. Tính trạng đầu tiên và cuối cùng tương
ứng với m = 1 và m = J được định nghĩa bởi khoảng mở tương ứng với
τ0 = −∞ và τJ = +∞. Để hiểu rõ hơn về ý tưởng trên, ta xét ví dụ sau đây
về cuộc điều tra phỏng vấn do General Social Survey. Trong một cuộc điều
tra phỏng vấn, mọi người được yêu cầu trả lời câu hỏi sau đây: “Một người
mẹ làm việc thì tình cảm và sự quan tâm tới con cái của họ có như những
người mẹ không đi làm hay không ?”. Các lựa chọn trả lời là:
Rất khác biệt (strongly disagree)
SD
Khác biệt (Disagree)
D
Giống nhau (Agree)
A
Hoàn toàn như nhau (Strong agree)
SA
Biến tính trạng này liên kết với biến ẩn liên tục y ∗ , trong đó biến y ∗ chỉ ra
các mức khác biệt đối với câu hỏi về “Người mẹ làm việc thì tình cảm và sự
quan tâm mà họ dành cho con cái có như người mẹ không đi làm không?”.
Biến quan sát được y được xác định thông qua y ∗ bởi ánh xạ sau:

khi τ0 = −∞ ≤ y ∗ < τ1
 1 =⇒ SD,
2 =⇒ D,

khi τ1 ≤ y ∗ < τ2
yi =
khi τ2 ≤ y ∗ < τ3
 3 =⇒ A,
4 =⇒ SA,
khi τ3 ≤ y ∗ < τ4 = +∞
Ánh xạ này được minh họa bằng hình vẽ sau
Đường thẳng nét liền thể hiện biến ẩn y ∗ , các điểm cắt được xác định và
được đánh dấu bằng τ1 , τ2 và τ3 . Giá trị của biến quan sát y trên mỗi khoảng
của y ∗ được đánh dấu với đường chấm. Cấu trúc của mô hình là:
yi∗ = xi β + εi
2


Trong đó, xi là véc tơ hàng với các số 1 ở cột đầu tiên và quan sát thứ i đối
với biến độc lập xk được xuất hiện ở cột thứ k + 1, β là véc tơ hệ số với hệ
số chặn β0 .

Hình 1.1: Hồi quy với biến ẩn y ∗

Hình 1.2: Hồi quy với biến y

Mô hình chỉ chứa một biến độc lập có cấu trúc như sau:
yi∗ = α + βxi + εi
Trong Hình 1.1, biến ẩn y ∗ là trục tung, các giá trị 15, 0 ,-5 phân chia tỷ lệ
của y ∗ . Các điểm cắt τ1 , τ2 và τ3 được chỉ ra bởi đường ngang chấm chấm.
Đường này chia y ∗ thành 4 miền giá trị của biến quan sát y, τ0 = −∞ ở
vị trí dưới cùng và τ4 ở trên cùng. Đường hồi quy E(y ∗ |x) = α + βx với
α = 1, β = 0.1 được vẽ là đường liền. Vì y ∗ không quan sát được nên α, β
không ước lượng được bằng hồi quy y ∗ theo x.

Trong Hình 1.2 vẽ biến quan sát y theo x, biến y được xác định từ biến ẩn
y ∗ bằng cách gán tất cả các trường hợp mà y ∗ lớn hơn τ3 tương ứng với số 4,
trường hợp y ∗ nằm giữa τ2 và τ3 là số 3. Tương tự cho các trường hợp tiếp
theo của y ∗ . Uớc lượng bình phương tối thiểu (OLS) của hàm hồi quy y theo
x, được chỉ ra bởi đường đứt với ước lượng độ dốc là 0,026.
Đường hồi quy y theo x không xấp xỉ đường hồi quy y ∗ theo x, vì đường này
có độ dốc lớn hơn 4 lần.
Đường hồi quy trong Hình 1.1 và Hình 1.2 trông có vẻ giống nhau bởi vì tỷ
lệ của các trục là khác nhau. Nếu trục y trong Hình 1.2 được vẽ với cùng tỷ
lệ như Hình 1.1 thì đường hồi quy y theo x trông như đường ngang. Một vấn
đề khác khi hồi quy y theo x là sai số không có phân phối chuẩn và phương
sai không thuần nhất. Tổng quát, mô hình hồi quy tuyến tính (LRM) chỉ có
3


cùng kết quả như mô hình hồi quy thứ bậc (ORM) nếu những điểm cắt có
khoảng cách như nhau. Khi khoảng cách giữa các điểm này khác nhau thì
kết quả của mô hình hồi quy tuyến tính (LRM) có thể đưa tới những kết quả
sai lầm.
Hình 1.1 còn chỉ ra một tính chất quan trọng của mô hình ORM. Trong hình
này, bạn có thể thêm hoặc bỏ đi những điểm cắt mà không làm thay đổi
cấu trúc mô hình. Tưởng tượng rằng, ta vẽ một đường ngang giữa τ1 và τ2 .
Điều này tương ứng thêm một tính trạng khác như “ không ý kiến” giữa “
khác biệt ” và “ giống nhau”. Đường hồi quy của y ∗ theo x sẽ không bị ảnh
hưởng. Trong Hình 1.2, nếu ta thêm một tính trạng mới sẽ tương ứng thêm
một đường ngang mới của biến quan sát y, điều này ảnh hưởng tới kết quả
của hồi quy y theo x.

1.1.1


Giả thiết về phân phối của sai số

Để dùng được phương pháp ước lượng hợp lí cực đại, ta phải giả thiết về
phân phối của sai số. Ta xét hai phân phối là phân phối chuẩn và phân phối
logistic tương ứng với mô hình probit thứ bậc và logit thứ bậc. Đối với mô
hình probit thứ bậc, sai số ε được giả thiết có phân phối chuẩn với trung
bình 0 và phương sai 1 (phân phối chuẩn tắc). Hàm mật độ của phân phối
đó là
1
ε2
φ(ε) = √ exp(− )
2

Với hàm phân phối tích lũy
ε

1
t2
√ exp(− )dt
Φ(ε) =
2

−∞

(1.1)

Với mô hình logit thứ bậc, sai số ε được giả sử có phân phối logit với
trung bình 0 và phương sai π 2 /3. Hàm mật độ của nó là
λ(ε) =


exp(ε)
[1 + exp(ε)]2

Với hàm phân phối tích lũy
Λ(ε) =

exp(ε)
1 + exp(ε)

(1.2)

Để đơn giản kí hiệu trong chương này, ta dùng hàm F thay thế cho các hàm
phân phối Φ hoặc Λ và hàm f thay cho các hàm mật độ φ hoặc λ.
4


Tài liệu tham khảo
[1] Đào Hữu Hồ,Xác suất –Thống kê, NXB Đại học Quốc Gia Hà Nội.
[2] Đào Hữu Hồ, Nguyễn văn Hữu, Nguyễn Hữu Như, Thống kê toán học,
NXB Đại học Quốc gia Hà Nội.
[3] Nguyễn Văn Hữu, Nguyễn Hữu Dư,Phân tích thống kê và dự báo, NXB
Đại học Quốc gia Hà Nội.
[4] Nguyễn Duy Tiến, Đặng Hùng Thắng,Các mô hình xác suất và ứng
dụng, NXB Đại học Quốc gia Hà Nội.
[5] Đặng Hùng Thắng,Thống kê ứng dụng, NXB Khoa học và kỹ thuật.
[6] Nguyễn Duy Tiến, Vũ Viết Yên,Lý thuyết Xác suất, NXB Giáo Dục.
[7] ] J. Scott Long,Regression models for Categorical and Limited dependent
variables, NXB Cambridge University Press.
[8] Alan Agresti,An introduction Categorical data analysis, NXB Newyork,
John Wiley.

[9] Alan Agresti,Categorical data analysis, NXB Newyork, John Wiley.
[10] Adrich, Nelson,Linear probability, logit, and probit models.
[11] Amemiya, Regression analysis when the dependent variables are truncated normal, NXB Springer, New York.
[12] Amemiya, Advanced Econometrics, NXB Cambridge, MA: Harvard University.
[13] Bollen, Structucal equations with latent variables.
[14] Breen, Regression models: Censored, sample selected, or truncated data.
[15] Cramer, Econometric application of maximum likelihood methods.
69



×