Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (61.84 MB, 113 trang )
<span class='text_page_counter'>(1)</span><div class='page_container' data-page=1>
<b>TRƯỜNG ĐẠI HỌC LÂM NGHIỆP - 2018 </b>
<b>TS. CAO THỊ THU HIỀN </b>
1
<b>TS. CAO THỊ THU HIỀN </b>
<b> </b>
i
<b>MỤC LỤC </b>
LỜI NĨI ĐẦU... 1
Chƣơng 1. MƠ TẢ CỬA SỔ STATISTICA ... 3
1.1. Bắt đầu (Start) ... 3
1.2. Cửa sổ chính (Main window) ... 3
1.3. Bảng tính (Spreadsheets) ... 5
1.4. Sách bài tập (Workbooks) ... 6
1.5. Báo cáo (Reports) ... 7
Chƣơng 2. QUẢN LÝ DỮ LIỆU (DATA MANAGEMENT) ... 8
2.1. Tạo một tập tin dữ liệu mới (Creating a new data file) ... 8
2.2. Thêm và tính tốn các biến ... 10
2.3. Lƣu và mở các tập tin ... 15
Chƣơng 3. THỐNG KÊ MÔ TẢ (BASIC STATISTICS) ... 16
3.1. Thanh cơng cụ "Basic Statistics/Tables"... 16
3.2. Phân tích thống kê (Statistical analysis) ... 16
3.3. Tạo một báo cáo và in ấn ... 23
Chƣơng 4. MÃ HÓA CÁC BIẾN (RECORDING VARIABLES) ... 24
4.1. Mã hóa các biến ... 24
4.2. Lựa chọn trƣờng hợp ... 27
4.3. Box plots ... 30
Chƣơng 5. BIỂU ĐỒ... 33
5.1. Mô phỏng một thí nghiệm ngẫu nhiên ... 33
5.2. Tƣơng quan (Correlation) ... 33
5.3. Biểu đồ đám mây điểm (Scatterplots) ... 37
5.4. Bảng chéo (Crosstabulation) ... 40
Chƣơng 6. SO SÁNH HAI MẪU ... 44
6.1. Dữ liệu - Nhập dữ liệu ... 44
6.2. Mô phỏng phân bố - phân bố chuẩn (Normal distribution) ... 45
6.3. Khoảng tin cậy của giá trị trung bình ... 49
ii
Chƣơng 7. CÁC GIÁ TRỊ TRA BẢNG ... 58
Chƣơng 8. HỒI QUY TUYẾN TÍNH (LINEAR REGRESSION) ... 60
8.1. Giới thiệu ... 60
8.2. Quy trình trong STATISTICA ... 61
8.3. Kết quả ... 61
8.4. Kết quả chi tiết... 63
Chƣơng 9. HỒI QUY (REGRESSION) ... 67
9.1. Hồi quy phi tuyến cố định (Fixed Nonlinear Regression) ... 67
9.2. Mô phỏng đƣờng cong (Fitting Growth Curves) ... 68
Chƣơng 10. HỒI QUY PHI TUYẾN (NONLINEAR REGRESSION) ... 71
10.1. Giới thiệu ... 71
10.2. Sử dụng hộp thoại "Ƣớc lƣợng phi tuyến" ... 71
Chƣơng 11. PHÂN TÍCH PHƢƠNG SAI MỘT NHÂN TỐ (ONE-WAY ANOVA) 76
11.1. Giới thiệu ... 76
11.2. Các bộ phận của tổng các bình phƣơng (SS) ... 77
11.3. Tiêu chuẩn Post hoc (Post hoc tests) ... 79
11.4. Kiểm tra các điều kiện cho ANOVA ... 80
Chƣơng 12. PHÂN TÍCH PHƢƠNG SAI HAI NHÂN TỐ (TWO-WAY ANOVA) 86
Chƣơng 13. PHÂN TÍCH HIỆP PHƢƠNG SAI (ANCOVA) ... 91
13.1. Giới thiệu ... 91
13.2. Thực hiện ANCOVA trong STATISTICA ... 93
13.3. Tính tốn các đƣờng hồi quy song song... 94
13.4. Biểu đồ của đƣờng hồi quy ... 95
Chƣơng 14. HỒI QUY LOGISTIC (LOGISTIC REGRESSION) ... 97
14.1. Hồi quy logistic với hai biến (khoảng cách và tuổi) là các biến độc lập ... 97
14.2. Hồi quy logistic với một biến (khoảng cách) ... 101
14.3. Biểu đồ đám mây điểm và hàm hồi quy logistic ... 103
Chƣơng 15. TIÊU CHUẨN XẾP HẠNG (RANK TESTS) ... 106
1
<b>LỜI NÓI ĐẦU </b>
Thống kê ứng dụng là một trong những lĩnh vực quan trọng trong khoa học
lâm nghiệp. Áp dụng các kỹ thuật thống kê toán học để giải thích các dữ liệu thu
thập đƣợc và các thí nghiệm sẽ quan sát khách quan và hiệu quả hơn.Ngoài việc
giải thích đƣợc các quy luật cơ bản rõ ràng của tự nhiên, thống kê sinh học còn bao
gồm các phƣơng pháp giải thích khác về số liệu thống kê toán học, đây là điều quan
trọng trong lâm nghiệp. Ngày nay, lĩnh vực lập mơ hình, lập kế hoạch thí nghiệm
và phân tích dữ liệu đã đƣợc hỗ trợ bởi dữ liệu điện tử và khoa học máy tính nên
đây đƣợc coi nhƣ là một ngành học độc lập về khoa học lâm nghiệp.
Trong số liệu thống kê ứng dụng, chúng ta phải đối phó với các bộ dữ liệu
đƣợc thu thập qua các cuộc điều tra, trong hầu hết các trƣờng hợp đƣợc thực hiện
bằng cách lấy mẫu và bằng các thí nghiệm đƣợc kiểm soát. Các cuộc điều tra là
một công cụ để mơ tả tình trạng thực tế của một tổng thể vô hạn hoặc hữu hạn và
các tham số quan trọng của tổng thể nhƣ số trung bình, tổng số hoặc tỷ lệ… thƣờng
đƣợc ƣớc lƣợng thông qua các tham số mẫu với các giả thuyết kèm theo. Các thí
nghiệm kết hợp với các mơ hình tốn học để biểu diễn các mối quan hệ giữa các
biến đã rất thành cơng trong vật lý học. Ví dụ, chúng ta đều biết "luật rơi tự do": tốc
<i>v = g.t, độc lập với kích thƣớc, hình dáng và trọng lƣợng riêng của chúng. Điều này </i>
2
nghiệm. Điều này giải thích cho sự cần thiết về việc áp dụng các phƣơng pháp
thống kê ứng dụng, trong đó có tính đến các biến động ngẫu nhiên xung quanh các
giá trị đƣợc gọi là kỳ vọng.
3
<b>Chƣơng 1 </b>
<b>MÔ TẢ CỬA SỔ STATISTICA </b>
<b>1.1. Bắt đầu (Start) </b>
STATISTICA đƣợc gọi bằng cách nhấn vào biểu tƣợng trong chƣơng trình
STATISTICA menu. Menu này chứa hai biểu tƣợng: STATISTICA và hƣớng dẫn
điện tử.
<b>1.2. Cửa sổ chính (Main window) </b>
4
<b>Pull - down Menus sẽ xuất hiện ở phía trên của màn hình, giống nhƣ trong </b>
các ứng dụng Windows khác cho phép lựa chọn các chƣơng trình hoạt động khác
nhau trong môđun đƣợc chọn.
Nhấp vào tên của menu bạn muốn mở hoặc nhấn Alt + F cho menu File, Alt + E
để chỉnh sửa.
<b>Hai Toolbars xuất hiện sau khi bắt đầu STATISTICA. Các thanh công cụ </b>
khác nhau tƣơng ứng với các cửa sổ hoạt động khác nhau. Các thanh công cụ cho
phép một sự lựa chọn nhanh chóng của hầu hết các cơng cụ có sẵn. Một mơ tả ngắn
về mỗi nút đƣợc hiển thị nếu bạn đặt con trỏ chuột vào nút này mà không cần nhấp
vào nó.
<b>Status Bar nằm ở dƣới cùng của cửa sổ ứng dụng STATISTICA, đƣợc sử </b>
dụng để hiển thị tin nhắn ngắn giúp đỡ và giải thích, và cũng cung cấp truy cập
nhanh đến một số thiết bị hệ thống thƣờng đƣợc sử dụng nhất.
<b>Message Area hiển thị thông tin trạng thái về các hoạt động hiện đang thực </b>
hiện (ví dụ "Sẵn sàng"). Nút Cancel ở cuối thanh đƣợc sử dụng để làm gián đoạn
hoạt động hiện tại.
5
<b>Show Field của thanh trạng thái hiển thị giá trị đang đƣợc nhấn mạnh với </b>
một độ chính xác cao hơn sẽ phù hợp trong cột tƣơng ứng của bảng tính. Chiều
<b>rộng của Show Field có thể đƣợc điều chỉnh (bật lên) bằng cách nhấp vào nó. Lƣu </b>
ý rằng trƣờng này chỉ có sẵn khi một bảng tính đang đƣợc chỉnh sửa.
<b>Case Selection Conditions Area hiển thị trạng thái hiện tại của các điều </b>
kiện lựa chọn Case, nghĩa là ngƣời sử dụng tùy chọn điều kiện quy định có thể
<b>Case Weights Area hiển thị trạng thái hiện tại của trƣờng hợp lựa chọn có </b>
trọng số, có nghĩa là lựa chọn để xem những giá trị của một biến đƣợc chọn đƣợc
coi nhƣ là trƣờng hợp nhân khi phân tích dữ liệu.
Các lựa chọn này có thể nhanh chóng đƣợc thay đổi bằng cách nhấn đôi vào
khu vực tƣơng ứng của thanh trạng thái.
Phía trên thanh trạng thái bạn tìm thấy các nút cho mỗi phân tích các thanh
đồ họa hiện đang mở.
Nhấp chuột vào nút tƣơng ứng để mở lại.
<b>1.3. Bảng tính (Spreadsheets) </b>
6
<b>1.4. Sách bài tập (Workbooks) </b>
Sách bài tập là cách mặc định về quản lý đầu ra. Chúng lƣu trữ mỗi tài liệu đầu
ra (ví dụ, một bảng tính STATISTICA hay đồ thị, giống nhƣ Microsoft Word, Excel).
Bạn có thể lƣu trữ tất cả các đầu ra trong cùng một sách bài tập hoặc sử dụng
một số sách bài tập cùng một lúc. Sử dụng chức năng kéo (drag) và thả (drop) để
chèn bảng hoặc đồ thị từ sách bài tập này sang sách bài tập khác. Bạn cũng có thể
sắp xếp lại hệ thống phân cấp trong một sách bài tập hoặc xóa các mục. Chỉ cần
đánh dấu tên của mục đó và nhấn phím Delete.
7
<b>1.5. Báo cáo (Reports) </b>
Báo cáo trong STATISTICA là một cách quản lý truyền thống kết quả của
đầu ra (so với sách bài tập), ví dụ nhƣ mỗi đối tƣợng (là một bảng tính hoặc đồ thị)
đƣợc hiển thị tuần tự trong một tài liệu.
Bạn có thể thêm và chỉnh sửa văn bản giữa các bảng và đồ thị trong báo cáo.
Sau đó bạn có thể in tồn bộ báo cáo thay vì chỉ in ấn một mục với thời gian nhƣ
trong sách bài tập (workbooks).
Sử dụng các chức năng sao chép (copy) và dán (paste) (hoặc kéo và thả) để
chèn các mục mà bạn muốn có trong báo cáo của bạn.
8
<b>Chƣơng 2 </b>
<b>QUẢN LÝ DỮ LIỆU (DATA MANAGEMENT) </b>
<b>2.1. Tạo một tập tin dữ liệu mới (Creating a new data file) </b>
Một tập tin dữ liệu là một bảng đƣợc tổ chức theo các trƣờng hợp (hàng) và
các biến (cột). Biến là những thứ mà chúng ta đo đếm, kiểm soát, hoặc thao tác
trong nghiên cứu. Chúng khác nhau ở nhiều khía cạnh, đáng chú ý nhất là vai trò
của chúng đƣợc đƣa ra trong nghiên cứu của chúng ta và trong các loại biện pháp
có thể đƣợc dụng cho chúng. Một tập tin dữ liệu là một bảng đƣợc tổ chức trong
các trƣờng hợp (hàng) và các biến (cột). Biến là những điều mà chúng tôi đo lƣờng,
điều khiển, hoặc thao tác trong nghiên cứu. Chúng khác nhau ở nhiều khía cạnh,
<i>- Tạo một bảng tính mới </i>
Để tạo ra một tập tin dữ liệu mới, nhấn vào nút "tệp mới" (“new file”)
hoặc chọn mục trình đơn "File" và "New". Bằng các cách này, hộp thoại sau đây
đƣợc mở ra.
9
không chắc chắn về số lƣợng cột và hàng muốn lập. Trong khu vực có tiêu đề "Vị trí"
(“Placement”), chọn "Là một cửa sổ độc lập" (“As a stand-alone window”).
Các tập tin dữ liệu đƣợc tạo ra và tự động đặt tên “Bảng tính 1”
("Spreadsheet 1"). Bạn có thể thay đổi tên này nếu bạn lƣu nó (xem phần sau).
<i>- Lưu một tập tin dữ liệu mới </i>
Ấn vào nút "Save" hoặc chọn mục File-Menu "Save" hoặc "Save as".
Chọn một thƣ mục và nhập tên cho tập tin dữ liệu của bạn. Nếu bạn đã chọn một
thƣ mục và nhập tên, nhấp vào nút "Save". Tập tin đƣợc lƣu trong thƣ mục mà bạn
đã chọn và có tên bạn đã nhập. Các tên tập tin kết thúc bằng đuôi ".sta", nghĩa là
tập tin này là một tập tin dữ liệu trong STATISTICA.
Ví dụ, nếu bạn nhập "Bài tập_1" là tên của tập tin, tập tin này sẽ đƣợc gán
tên " Bài tập_1.sta".
<i>- Nhập và chỉnh sửa dữ liệu </i>
Nếu bạn chọn một ô trong bảng bằng cách nhấp chuột trái, bạn có thể nhập một
giá trị dữ liệu cho ô này bằng bàn phím. Sau khi nhập dữ liệu, nhấn phím quay lại. Các
con trỏ di chuyển đến các ô bên dƣới hoặc đến ô đầu tiên trong cột tiếp theo.
Để thay thế một giá trị dữ liệu hiện có, chọn ô tƣơng ứng và gõ giá trị mới.
Giá trị hiện tại sẽ đƣợc thay thế.
<b>Copy chức năng sao chép đƣợc gọi bằng nút "Copy" </b> , mục menu
"Edit/Copy" hoặc phím tắt Ctrl + C.
Bất cứ khi nào chức năng sao chép đƣợc gọi, nội dung của các ô này đƣợc
đánh dấu để sao chép vào clipboard. Clipboard là một bộ nhớ mà giữ thông tin
đƣợc sao chép (nghĩa là các giá trị dữ liệu trong các ô đƣợc đánh dấu) cho đến khi
bạn dán chúng vào một vị trí mới hoặc cho đến khi bạn gọi chức năng sao chép lại.
Chỉ có giá trị dữ liệu đƣợc sao chép. Nếu bạn muốn bao gồm các tiêu đề cột
với chức năng sao chép, chọn mục trình đơn "Copy với Headers". Đối với bảng
tính, lựa chọn tùy chọn này sẽ sao chép không chỉ gồm nội dung trong khối đƣợc
đánh dấu của ơ, mà cịn bao gồm cả tên hàng và tên cột cũng đƣợc đánh dấu.
<b>Cut hành động này loại bỏ các nội dung của các ô đƣợc đánh dấu, văn bản </b>
10
trong bảng tính đƣợc thay thế bằng dữ liệu bị thiếu cho đến khi giá trị mới đƣợc
nhập vào. Chức năng cắt đƣợc gọi bằng một trong các cách sau đây:
1. Thực đơn chính (main menu): Edit / Cut
2. Biểu tƣợng:
3. Phím tắt: CTRL+X
<b>Paste chức năng này dán (chèn) các nội dung hiện tại của clipboard vào một </b>
vị trí đã chọn của một bảng tính Statistica. Gọi chức năng bằng một trong những
cách sau đây:
1. Thực đơn chính (main menu): Edit/ Paste
2. Biểu tƣợng:
3. Phím tắt: CTRL+V
<b>Kéo và thả (drag and drop) </b>
Di chuyển một khối (Moving a Block): Bạn có thể di chuyển một khối bằng
cách chỉ vào đƣờng biên của vùng lựa chọn (con trỏ chéo sẽ thay đổi sang hình mũi
tên) và kéo nó vào một vị trí mới.
Sao chép một khối: Bạn có thể sao chép một khối ơ hoặc văn bản bằng cách
chỉ vào đƣờng biên của vùng lựa chọn (con trỏ chéo sẽ thay đổi sang hình mũi tên)
và trong khi giữ phím Ctrl, kéo nó vào một vị trí mới.
Chèn một khối: Để chèn một khối giữa các cột hoặc các hàng, nhấn phím
SHIFT trong khi kéo các khối.
<b>Ví dụ: Nhập dữ liệu sau đây vào trong tập tin dữ liệu của bạn. Sử dụng các </b>
chức năng sao chép và dán! Lƣu tập tin dữ liệu.
<b>2.2. Thêm và tính tốn các biến </b>
<i>- Thêm các biến </i>
11
2. Chọn “Vars / Add Variables”
Tùy chọn này sẽ thêm các cột trống ở vị trí đƣợc chỉ định, do đó kích thƣớc
của tập tin sẽ tăng lên. Bạn có thể thêm biến vào bảng tính bằng cách chỉ định số
lƣợng các biến mới để thêm ("bao nhiêu"), cũng nhƣ nơi để thêm chúng ("After").
"Sau 0" (“After 0”) có nghĩa là các cột mới đƣợc coi nhƣ là cột đầu tiên, "Sau 1"
(“After 1”) sẽ làm cho cột mới trở thành cột thứ hai trong bảng…
Các cột mới sẽ đƣợc đặt tên “NewVar”. Bạn có thể thay đổi tất cả các tên cột
sau này:
<i>- Tính tốn các biến mới </i>
Chọn cột mà bạn muốn các giá trị mới xuất hiện (ví dụ, cột có tiêu đề
"NewVar").
1. Chọn mục trình đơn: "Data/Variable specs..."
2. Chọn “Vars/Specs”
3. Nhấn đúp chuột vào tiêu đề của cột
12
Trong phần dƣới cùng của hộp thoại, bạn có thể thêm phần mơ tả cho biến của
Ví dụ: =(v1+v2+v3)/3; Tính trung bình cộng của 3 biến đầu tiên.
Lƣu ý rằng bạn có thể nhấp vào nút "Function" trong hộp thoại này để mở
hộp thoại Function Wizard. Từ hộp thoại này, bạn có thể chọn các phần mong
muốn của công thức (ví dụ, một nhà điều hành, hàm phân phối, hàm toán học).
<i>- Gán giá trị văn bản </i>
Một số biến có đầu vào khơng phải là số. Ví dụ, các biến "lồi" có tên
"Thông", "Linh sam"… Nhập các ký tự văn bản trong mỗi ơ rất tốn thời gian, do đó
ta có thể nhập "1" cho "Thơng" và "2" cho "Linh sam".
STATISTICA cho phép gán các giá trị văn bản theo các giá trị số. Đó là, đầu
tiên chúng ta nhập giá trị số (1, 2...). Sau đó chúng lựa chọn thay vì 1,
STATISTICA sẽ in tên cây là "Thông"… Những giá trị văn bản này đƣợc gọi là
"nhãn" (“Label”).
Nhấn đúp chuột vào tiêu đề cột. Nhấp vào nút . Một hộp thoại đƣợc
mở ra. Nhập nhãn văn bản đầu tiên mà bạn muốn gán (ví dụ “Thơng”) và các giá trị
số (1). Ấn nút quay lại. Sau đó nhập nhãn văn bản thứ hai (“Linh sam”)… Nhấn
“OK” khi bạn đã hoàn tất. Tất cả các giá trị số trong cột sẽ đƣợc thay thế bởi các
13
<b>Bảng 2.1. Kết quả thống kê số loài cho 111 cây của rừng hỗn giao tự nhiên - gỗ </b>
<b>tự nhiên núi đất ở huyện Vân Đồn, tỉnh Quảng Ninh </b>
(Nguồn Nguyễn Thanh Sơn, 2017)
<b>TT </b> <b>Tên loài </b> <b>TT </b> <b>Tên loài </b> <b>TT </b> <b>Tên loài </b> <b>TT </b> <b>Tên loài </b>
1 Lọng bàng 29 Trâm 57 Sp2 85 Sp2
2 Lọng bàng 30 Ba soi 58 Sp2 86 Hà lu
3 Sp2 31 Bò ngứa 59 Sp2 87 Thai
4 Sai 32 Sp2 60 Bò chắc 88 Sp2
5 Sến mủ 33 Bò ngứa 61 Sp2 89 Thai
6 Chẹo 34 Bò ngứa 62 Sp2 90 Hà lu
7 Lọng bàng 35 Bò ngứa 63 Sp2 91 Hà lu
8 Sp3 36 Thẩu tấu 64 Sp2 92 Hà lu
9 Lọng bàng 37 Thẩu tấu 65 Sp2 93 Lim xanh
10 Vạng trứng 38 Sp2 66 Dẻ 94 Sp2
11 Vạng trứng 39 Cứt ngựa 67 Sp2 95 Sp2
12 Trâm 40 Lồm côm 68 Sp2 96 Lọng bàng
13 Sâm cau 41 Móng dị 69 Sp2 97 Sp2
14 Sp2 42 Nhựa dò 70 Lim xanh 98 Sp2
15 Sai 43 Rè dập 71 Lim xanh 99 Nắng có
16 Chẹo 44 Máu chó 72 Sp2 100 Máu chó
17 Dẻ 45 Bò ngứa 73 Sp2 101 Bò ngứa
18 Chẹo 46 Bò ngứa 74 Chay 102 Sp2
19 Vối thuốc 47 Sp2 75 Sơn 103 Bò ngứa
20 Dẻ 48 Dẻ 76 Dẻ 104 Sp2
21 Dẻ 49 Sp2 77 Bò ngứa 105 Bứa
22 Dẻ 50 Sp2 78 Bò ngứa 106 Hà lu
23 Dẻ 51 Móng cỏ 79 Hà lu 107 Hà lu
24 Dẻ 52 Móng cỏ 80 Sp2 108 Hà lu
25 Dẻ 53 Bò ngứa 81 Sp2 109 Sơn
26 Dẻ 54 Sp2 82 Bò ngứa 110 Cứt ngựa
27 Dẻ 55 Sp2 83 Dè đập 111 Sp2
14
15
<b>2.3. Lƣu và mở các tập tin </b>
<i>- Lưu tập tin </i>
Mỗi khi bạn thực hiện thay đổi cho bảng tính, lƣu tập tin của bạn thông qua
lệnh "File/Save". Nếu tập tin chƣa đƣợc lƣu trƣớc, hộp thoại "Save As" sẽ mở ra và
bạn có thể ghi rõ tên tập tin và lƣu vào một vùng nào đó trong ổ đĩa mà bạn muốn.
Một khi tên và vị trí của tập tin đã đƣợc xác định, bất cứ khi nào bạn chọn "Save",
bảng tính sẽ tự động đƣợc lƣu lại, ghi đè lên các bản sao trƣớc đó của tập tin. Nếu
bạn muốn thay đổi tên hoặc vị trí của các tập tin, chọn “Save As”.
<i>- Mở các tập tin STATISTICA </i>
Các tập tin dữ liệu STATISTICA có thể đƣợc mở ra bằng nhiều cách.
1. Chọn File Open/Save As hoặc nhấp vào nút thanh công cụ
16
<b>Chƣơng 3 </b>
<b>THỐNG KÊ MÔ TẢ (BASIC STATISTICS) </b>
<b>3.1. Thanh công cụ "Basic Statistics/Tables" </b>
Số liệu thống kê trong mục này đƣợc quy ƣớc gọi là thống kê cơ bản và
thƣờng đƣợc thảo luận nhƣ là một nhóm vì chúng thƣờng đƣợc sử dụng nhƣ là
nhóm ban đầu trong giai đoạn thăm dò của phân tích dữ liệu. Chọn mục
"Statistics/BasicStatistics/Tables" để bắt đầu. Hộp thoại sau đây sẽ mở ra:
<b>3.2. Phân tích thống kê (Statistical analysis) </b>
<i>- Tính tốn các thống kê mô tả </i>
Nếu chúng ta chọn "thống kê mô tả" ("Descriptive statistics"), chúng ta có
thể dễ dàng tính tốn một số thống kê đơn giản là giá trị trung bình, giá trị nhỏ nhất
và lớn nhất, độ lệch chuẩn. Đầu tiên, chúng ta phải chọn các biến muốn phân tích
bằng cách sử dụng nút . Nút sẽ cho kết
quả trong một sách bài tập (“Workbook”) mới. Để mở lại hộp thoại, nhấp vào biểu
tƣợng ở phía dƣới cùng của cửa sổ STATISTICA.
Nếu muốn nhiều chỉ tiêu thống kê mơ tả hơn, chúng ta có thể sử dụng hộp
17
<b>Valid N: Số giá trị không bị thiếu (non missing values). </b>
<b>Mean: Giá trị trung bình cộng; </b>
<b>Sum: Tổng của tất cả các giá trị. </b>
<b>Median: Trung vị mẫu là giá trị chia đôi dãy số liệu và thoả mãn điều kiện: </b>
số phần tử lớn hơn nó và nhỏ hơn nó bằng nhau khi dãy quan sát đƣợc sắp xếp theo
thứ tự từ nhỏ đến lớn t.
<b>Standard deviation: Độ lệch chuẩn đƣợc tính bằng căn bậc hai của tổng </b>
bình phƣơng độ lệch (từ giá trị trung bình) chia cho n-1.
<b>Variance: Phƣơng sai của một biến đƣợc tính là tổng bình phƣơng độ lệch </b>
(từ giá trị trung bình) chia cho n-1.
<b>Standard error of the mean: Sai số của số trung bình đƣợc tính bằng độ </b>
lệch chuẩn chia cho căn bậc hai của n.
<b>95% confidence limits of the mean: 95% độ tin cậy của số trung bình đƣợc </b>
<i>tính tốn dựa trên các giá trị tra bảng t tƣơng ứng. </i>
<b>Minimum and Maximum: Giá trị nhỏ nhất và giá trị lớn nhất. </b>
<b>Range: Phạm vi biến động (bằng giá trị lớn nhất trừ giá trị nhỏ nhất). </b>
<b>Skewness: Độ lệch phân bố là thƣớc đo mức độ đối xứng của phân bố của </b>
các giá trị. Nếu phân bố đối xứng thì độ lệch bằng khơng.
<b>Kurtosis: Độ nhọn phân bố là chỉ tiêu thuyết minh cho mức độ tập trung của </b>
18
Ví dụ 3.1: Hãy tính các đặc trƣng mẫu về đƣờng kính theo số liệu bảng 3.1 sau.
<b>Bảng 3.1. Đƣờng kính ngang ngực D1.3 của 54 cây rừng tự nhiên IIIA3 tại khu </b>
<b>Bảo tồn Xuân Nha, huyện Vân Hồ, tỉnh Sơn La. </b>
(Nguồn Cao Danh Toàn, 2017)
<b>TT D<sub>1.3</sub> (cm) </b> <b>TT D<sub>1.3</sub> (cm) TT D<sub>1.3</sub> (cm) </b> <b>TT D<sub>1.3</sub> (cm) TT D<sub>1.3</sub> (cm) </b>
1 15,0 12 14,3 23 15,6 34 53,8 45 9,6
2 24,5 13 9,6 24 8,3 35 8,0 46 8,9
3 10,8 14 37,6 25 12,7 36 7,6 47 45,2
4 54,8 15 13,1 26 6,7 37 8,6 48 15,9
5 9,9 16 9,9 27 17,8 38 8,3 49 12,1
6 11,8 17 25,2 28 8,6 39 52,2 50 6,4
7 19,1 18 15,3 29 10,2 40 45,2 51 47,1
8 25,2 19 47,8 30 10,2 41 49,4 52 9,6
9 10,5 20 9,2 31 26,1 42 11,5 53 13,1
10 9,6 21 18,2 32 33,1 43 27,1 54 43,0
11 12,7 22 25,5 33 39,8 44 51,9
Để thực hiện trƣớc tiên đƣa số liệu gốc từ bảng 3.1 vào một cột của bảng tính
nhƣ hình sau:
Thực hiện quy trình <i><b>Statistics/Basic </b></i> <i><b>statistics/Descriptive </b></i>
<i><b>statistics/Variables: chọn D</b></i>1.3<i><b>/vào mục Advanced: chọn Mean, Sum, Median, </b></i>
19
<i><b>Conf. limits for mean, Skewness, Kurtosis, Minimum and Maximum, </b></i>
<i><b>Range/Summary: statistics. </b></i>
Kết quả nhƣ sau:
Mean 21,3
Median 13,7
Mode 9,6
Range 48,4
Variance 236,2
Std.Dev. 15,4
Coef.Var. 72,0
Standard error 2,1
Skewness 1,04
Kurtosis -0,4
Minimum 6,4
Maximum 54,8
Confidence - 95% 12,9
Confidence + 95% 19,0
Valid N 54
Sum 1152,9
Bảng này từ trên xuống dƣới lần lƣợt là trung bình mẫu, trung vị mẫu, Mode,
phạm vi biến động, phƣơng sai, độ lệch chuẩn, hệ số biến động, sai số của số trung
bình mẫu, độ lệch phân bố, độ nhọn phân bố, trị số quan sát nhỏ nhất, trị số quan
sát lớn nhất, sai số cực hạn của trung bình mẫu với độ tin cậy 95%, dung lƣợng
mẫu, và tổng các trị số quan sát.
<i>- Bảng tần số </i>
20
Trong hộp thoại chính của "Descriptive Statistics and Tables" chúng ta chọn
Ví dụ, chúng ta chọn biến “Damage” trong hộp thoại.
<b>Trong mục Phƣơng pháp phân loại (Categorization Methods): </b>
Các thiết lập trong hộp này sẽ quyết định các biến hiện đang đƣợc chọn sẽ
đƣợc phân loại hoặc lập bảng kê cho các bảng tần số.
<b>All distinct values: Chọn lựa chọn này nếu bạn muốn các tần số đƣợc dựa </b>
trên tất cả các giá trị khác biệt của mỗi biến đƣợc lựa chọn.
<b>With Text Values: Chọn lựa chọn này nếu bạn muốn các tần số phải dựa </b>
trên các giá trị văn bản riêng biệt cho mỗi biến đƣợc lựa chọn.
<b>No. of exact intervals: Nếu lựa chọn này đƣợc thiết lập thì các giá trị của </b>
mỗi biến sẽ đƣợc chia thành các cự li tƣơng ứng.
<b>"Neat" intervals: Nếu chọn lựa chọn này thì các giá trị sẽ đƣợc làm trịn (ví </b>
dụ, 10.5, 11.0, 11.5,…).
<b>Step size: Nếu lựa chọn này đƣợc thiết lập thì cự li các tổ trong các bảng tần </b>
21
<b>Starting at minimum: Nếu lựa chọn này đƣợc thiết lập thì cự ly tổ đầu tiên </b>
sẽ bắt đầu từ giá trị nhỏ nhất của biến quan sát.
<b>With text labels: Nếu chọn mục này thì bảng tần số và biểu đồ sẽ đƣợc dán </b>
nhãn với các giá trị văn bản (ví dụ: nam, nữ), với điều kiện là các giá trị văn bản
phải có sẵn cho các biến tƣơng ứng trong các tập tin dữ liệu hiện tại.
Ví dụ 3.2: Lập bảng phân bố tần số thực nghiệm số cây theo cỡ kính theo số
liệu bảng 3.1 trên.
<i><b>Thực hiện quy trình Statistics/Basic statistics/ Frequency tables/Variables: </b></i>
chọn biến D1.3<i><b>/vào Advanced chọn "Neat" intervals, approximate no.: </b></i>
<i><b>12/Summary: Frequency tables. </b></i>
Ta đƣợc kết quả nhƣ sau:
<b> From To </b> <b>Frequency table: D1.3 (cm) </b>
<b>Count Cumulative Percent Cumulative </b>
5.0 <x<=10.0 16 16 29,6 29,6
10.0 <x<=15.0 13 29 24,1 53,7
15.0 <x<=20.0 6 35 11,1 64,8
20.0 <x<=25.0 1 36 1,9 66,7
25.0 <x<=30.0 5 41 9,3 75,9
30.0 <x<=35.0 1 42 1,9 77,8
35.0 <x<=40.0 2 44 3,7 81,5
40.0 <x<=45.0 1 45 1,9 83,3
45.0 <x<=50.0 5 50 9,3 92,6
50.0 <x<=55.0 4 54 7,4 100,0
55.0 <x<=60.0 0 54 0,0 100,0
Missing 0 54 0,0 100,0
22
<i>- Biểu đồ có/khơng mơ phỏng phân bố </i>
Để tạo biểu đồ, chúng ta chọn mục "Graphs/Histograms". Một hộp thoại
đƣợc mở ra cho phép bạn tạo ra một số loại biểu đồ 2D.
<b>Graph Type: Bạn có thể chọn kiểu biểu đồ 2D từ danh sách các dạng đồ thị </b>
trong hộp thoại này.
<b>2D Histograms – Regular: Trục tung của biểu này là các tần số phân bố của </b>
các biến đƣợc lựa chọn (nếu có nhiều hơn một biến đƣợc chọn), hoặc lựa chọn mỗi
biểu đồ biểu thị cho mỗi biến trong danh sách).
<b>Ngoài ra, bạn có thể lựa chọn dạng 2D Histograms – Multiple, 2D </b>
<b>Histograms - Double-Y, 2D Histogram - Hanging Bars. </b>
Biểu đồ với mô phỏng phân bố:
Nếu một phân bố đƣợc chọn (ví dụ: Phân bố chuẩn), mật độ lý thuyết sẽ
đƣợc mô phỏng cho các dữ liệu và hiển thị với biểu đồ. Để ngăn chặn tùy chọn này,
hãy chọn Fit type "Off".
Ví dụ 3.3: Vẽ biểu đồ phân bố thực nghiệm số cây theo cỡ đƣờng kính của ví
dụ 3.1.
<i><b>Quy trình nhƣ sau: Graph/2D/Histogram/Variables: chọn D</b></i>1.3/vào
23
<b>3.3. Tạo một báo cáo và in ấn </b>
Tất cả các kết quả đã có từ trƣớc đến bây giờ đƣợc lƣu trong sách Chƣơng
tập (Workbook). Chúng ta có thể lƣu sách Chƣơng tập này và mở lại khi cần. Quy
trình lƣu giữa đã đƣợc mơ tả trong mục lƣu các tập tin dữ liệu. Với Workbook đang
mở, chọn "File/Save" hoặc "File/Save as". Workbook đƣợc lƣu và kết thúc với
đuôi ".stw".
Workbook thuận tiện cho việc sắp xếp các kết quả đã đƣợc xử lý. Tuy nhiên,
Workbook không thuận tiện cho việc in ấn. Nếu chọn "File/Print" hoặc nhấn vào
nút sẽ chỉ in các mục đang đƣợc đánh dấu trong Workbook.
Nếu chúng ta muốn in nhiều hơn một mục trên một trang hoặc thêm một số
ký tự vào kết quả, đầu tiên chúng ta cần tạo ra một báo cáo (Report). Chọn
"File/New.../Report" và chọn "As a stand-alone window ".
Một cửa sổ trống đƣợc mở ra. Click vào bất cứ nơi nào trên trang trống. Bạn
có thể nhập văn bản bằng cách sử dụng bàn phím. Định dạng văn bản này bằng
cách sử dụng thanh công cụ (kiểu font, kích thƣớc…) nhƣ trong một chƣơng trình
xử lý văn bản. Với bảng hoặc đồ thị, dùng chức năng sao chép. Click vào trong báo
cáo (Report) của bạn và dán bảng hoặc đồ thị đã sao chép.
Bạn có thể dùng nhiều bảng và đồ thị theo mong muốn. Sau đó bạn lƣu các
báo cáo của bạn và/hoặc in nó bằng cách sử dụng mục trình lệnh "File/Print". Sử
dụng chức năng "File/Print Preview" để xem trƣớc khi in.
24
<b>Chƣơng 4 </b>
<b>MÃ HÓA CÁC BIẾN (RECORDING VARIABLES) </b>
<b>4.1. Mã hóa các biến </b>
Bạn có thể mã hóa lại hay "dịch" các giá trị ban đầu của biến đang đƣợc chọn
bằng một số giá trị mới với hộp thoại "Variables/Recode Values".
Ví dụ, chúng ta muốn mã hóa lại các giá trị của biến chiều cao (Height). Đầu
<b>tiên, thêm một cột mới (add a new variable) trong tập tin dữ liệu và đặt tên là </b>
H_Class (nếu không thêm cột mới, bạn sẽ ghi đè lên các giá trị ban đầu của chiều
cao!). Chọn cột và chọn các mục "Data/Recode..." hoặc sử dụng . Hộp
thoại sau xuất hiện.
Ở phía bên tay trái của hộp thoại, bạn có thể xác định đƣợc các trƣờng hợp
mà bạn muốn nhóm vào cùng một nhóm. Ví dụ, tất cả các trƣờng hợp có chiều
cao nhỏ hơn 6 sẽ thuộc nhóm đầu tiên và gán là giá trị 1 trong mục "New value".
Tiếp theo, tất cả các trƣờng hợp có chiều cao từ 6 đến 9 là nhóm thứ hai và gán
giá trị 2,…
<b>Điều kiện lựa chọn các trƣờng hợp: </b>
<b>Tên biến (Variable Names): Ghi rõ là biến số (v1, v2, v3, …) hay là biến </b>
tên (ví dụ: GIỚI TÍNH, ngày, thời gian,...)
= (bằng)
25
< (nhỏ hơn)
> (lớn hơn)
<= (nhỏ hơn hoặc bằng)
>= (lớn hơn hoặc bằng)
Kèm theo các giá trị bằng ký tự của một biến đƣợc viết trong dấu nháy đơn
(ví dụ: v1 = 'Thơng').
Ví dụ 4.1: Hãy mã hóa đƣờng kính ngang ngực của 161 cây trong bảng 4.1
sau theo cỡ kính 1 (đƣờng kính từ 6 cm đến 8 cm), cỡ kính 2 (đƣờng kính từ 8 cm
đến 10 cm),…
<b>Bảng 4.1. Đƣờng kính ngang ngực D1.3 của 161 cây rừng gỗ tự nhiên núi </b>
<b>đất lá rộng thƣờng xanh nghèo kiệt ở huyện Vân Đồn, tỉnh Quảng Ninh </b>
<b>(Nguồn Nguyễn Thanh Sơn, 2017). </b>
<b>TT D1.3 (cm) TT D1.3 (cm) TT D1.3 (cm) TT D1.3 (cm) </b>
1 9,5 42 7 83 9 124 8,1
2 10 43 13,1 84 9,4 125 14,6
3 9,6 44 6,5 85 9,2 126 10,2
4 12,1 45 6,1 86 13,5 127 8
5 8,3 46 8,9 87 6,9 128 8,1
6 11,2 47 7,4 88 6,3 129 9,5
7 6,8 48 6,9 89 8 130 10,7
8 6,4 49 8,9 90 6,7 131 9,6
9 6,4 50 8,9 91 8,6 132 7,6
10 7,2 51 8,4 92 13,3 133 10,2
11 9,6 52 8,8 93 16,4 134 8,8
12 6,2 53 7,4 94 8,2 135 7,6
13 6,7 54 11 95 11 136 7,6
14 12,5 55 8 96 8,7 137 8,4
26
<b>TT D1.3 (cm) TT D1.3 (cm) TT D1.3 (cm) TT D1.3 (cm) </b>
16 7,5 57 12,5 98 7,1 139 6,3
17 8,1 58 6,7 99 8,2 140 6,2
18 8,5 59 9,5 100 9,6 141 12,7
19 6,6 60 6,8 101 6,1 142 6,1
20 8,4 61 7,9 102 15,1 143 7,3
21 6,6 62 7,8 103 8,1 144 9,5
22 8,3 63 13,5 104 7,7 145 6,6
23 8,5 64 6,8 105 6,7 146 6,8
24 7,3 65 6,6 106 8,6 147 6,2
25 9,5 66 8,6 107 9,3 148 6,8
26 8,6 67 11,5 108 6,2 149 7,3
27 8,9 68 6,3 109 7,4 150 13,5
28 7,6 69 10,9 110 8,4 151 8,6
29 7,6 70 9,1 111 10,5 152 10,9
30 6,4 71 7,6 112 7,1 153 9,6
31 9,7 72 17,1 113 8,7 154 7,7
32 9,6 73 6,1 114 6,4 155 8,9
33 6,2 74 7,4 115 9,6 156 10,3
34 12,5 75 8,6 116 7 157 6,1
35 6,5 76 6,6 117 7,4 158 10,9
36 7,6 77 8,9 118 7,3 159 6,6
37 8,4 78 6,5 119 8,5 160 8,3
38 6,4 79 8,9 120 6,2 161 8,7
39 10,5 80 6,9 121 8,2
40 8,1 81 8,4 122 11
27
Từ phần mềm STATISTICA mở file Excel có lƣu trữ số liệu ở bảng 4.1. Sau
<i><b>Sau đó theo quy trình sau: “Data/Recode/trong Category 1: v1>=6 and v1<8 </b></i>
<i><b>và New Value 1: 7 (là giá trị trung bình cộng của 6 và 8), tƣơng tự, trong Category </b></i>
<i><b>2: v1>=8 and v1<10, New Value 2: 9, tƣơng tự nhƣ vậy cho đến hết. Ta đƣợc giá </b></i>
trị “D_moi” nhƣ sau:
<b>4.2. Lựa chọn trƣờng hợp </b>
28
Conditions", hoặc bằng cách nhấp đúp vào ở Status Bar, hoặc bằng cách
nhấp vào nút trên bảng điều khiển start-up.
Ví dụ, chúng ta muốn tính tốn thống kê mô tả cho biến chiều cao, nhƣng
chúng ta chỉ quan tâm đến các trƣờng hợp cây bị tổn thƣơng ít (damage = 1). Bắt
đầu "Statistics/ Descriptive Statistics và nhấn vào nút "Select cases".
Hộp thoại mở ra, trong mục "Enable selection conditions", chọn “Specific,
selected by” chọn “Damage =1”.
Ví dụ 4.2: Tính các đặc trƣng mẫu cho chiều cao vút ngọn cho những cây có
phẩm chất “b” theo số liệu bảng 4.2 dƣới đây.
<b>Bảng 4.2. Chiều cao vút ngọn HVN của 142 cây rừng gỗ tự nhiên núi đất lá </b>
<b>rộng thƣờng xanh nghèo ở huyện Vân Đồn, tỉnh Quảng Ninh </b>
(Nguồn Nguyễn Thanh Sơn, 2017)
<b>HVN </b> <b>Phẩm chất HVN Phẩm chất HVN Phẩm chất HVN Phẩm chất </b>
13,0 b 10,5 B 5,0 b 13 a
15,0 b 8,5 B 8,5 a 5,5 c
15,0 b 7,5 C 8,5 b 7,5 b
9,5 c 8,5 B 9,5 a 12 b
8,5 b 6,5 B 5,0 a 5,5 b
29
<b>HVN</b> <b>Phẩm chất HVN Phẩm chất HVN Phẩm chất HVN Phẩm chất </b>
6,5 b 9,5 B 14,5 c 12 a
13,0 b 11,5 B 6,5 b 5,5 b
7,5 b 7,5 C 9,5 a 5 c
7,0 b 8,5 B 6,5 b 5,5 c
11,5 b 6,5 C 7,5 b 6,5 c
6,5 b 8,5 b 8,5 b 5 c
7,0 b 9,5 b 10,5 b 5,5 c
5,0 b 7,5 c 8,5 b 6,5 a
10,5 a 9,5 b 8,5 a 6,5 c
10,5 b 15,0 c 6,5 a 14 c
7,0 b 11,5 b 7 b 5 c
10,5 b 9,5 c 7 b 18 a
11,5 b 11,5 b 8,5 b 11 b
7,5 b 10,5 b 16,5 b 5,5 c
7,5 b 10,5 b 15,5 a 11 b
10,5 b 9,5 b 17 a 5,5 c
5,0 b 9,5 b 22,5 c 6 c
10,5 a 6,5 b 16,5 b 7 b
5,0 b 7,5 b 9,5 a 9,5 b
18,5 b 9,5 c 8 c 7,5 b
7,5 b 7,5 c 6,5 b 7 b
5,5 b 16,5 b 5 a 11 a
8,5 b 8,0 c 5,5 c 17 a
7,5 b 6,5 c 11,5 a 5,5 b
7,5 c 7,5 b 11,5 a 5 c
16,5 b 7,5 b 12 c 7,5 b
5,5 c 5,5 b 6,5 b 6,5 b
9,5 c 5,0 a 5 b 13 a
7,5 b 11,5 a 12 c
30
<i><b>Thực hiện quy trình sau: Statistics/Descriptive Statistics/Variables: chọn </b></i>
<i><b>biến “Chieu cao”/chọn Select cases/Enable Selection Condition/Specific, selected </b></i>
<i><b>by: v2 = “b”/OK, tiếp theo vào Advanced và chọn các đặc trƣng mẫu nhƣ hƣớng </b></i>
<i><b>dẫn ở mục 3.2/Summary: Statistics. Kết quả nhƣ sau: </b></i>
Valid N 82
Mean 9,0
Confidence 8,3
Confidence 9,7
Median 8,5
Mode 7,5
Sum 737,5
Minimum 5,0
Maximum 18,5
Variance 9,8
Std.Dev. 3,1
Coef.Var. 34,7
Standard 0,3
Skewness 1,1
Kurtosis 0,8
Kết quả trên là các đặc trƣng mẫu về chiều cao của 82 cây có phẩm chất “b”.
<b>4.3. Box plots </b>
<b>Trong Box plots, phạm vi biến động của các giá trị của một biến đƣợc lựa </b>
chọn (hoặc nhiều biến) đƣợc vẽ riêng cho nhóm của các trƣờng hợp đã đƣợc xác
định bởi giá trị của biến phân nhóm.
31
trị đƣợc chọn sẽ đƣợc thể hiện trên biể đồ. Các giá trị bất thƣờng (outlier) cũng có
thể đƣợc thể hiện trên biểu đồ.
Ví dụ:
1. Mở hộp thoại Box Plots thông qua "Graphs/2D Graphs/Box Plots".
2. Chọn Graph Type "Box-Whiskers" và "Regular".
3. Chọn biến (DBH) và biến phân nhóm (Damage).
4. Mục "Middle Point", chọn “Median”. Click OK.
Ví dụ 4.3: Vẽ biểu đồ dạng Box plots cho giá trị trung vị mẫu của chiều cao
vút ngọn theo 3 cấp phẩm chất “a”, “b” và “c” theo số liệu trong bảng 4.2.
32
Kết quả nhƣ hình sau:
Box Plot of Chieu cao grouped by Pham chat
Median
25%-75%
Non-Outlier Range
Outliers
Extremes
b c a
Pham chat
4
6
8
10
12
14
16
18
20
22
24
Ch
ieu
ca
33
<b>Chƣơng 5 </b>
<b>BIỂU ĐỒ </b>
<b>5.1. Mơ phỏng một thí nghiệm ngẫu nhiên </b>
Các kết quả có thể có của một thử nghiệm ngẫu nhiên là gieo một súc sắc có
các mặt là "1", "2", "3", "4", "5", "6". Không gian sự kiện là Ω={1,2,3,4,5,6}.
Chúng ta quan tâm đến tần số của mỗi lần gieo súc sắc trong 100 lần lặp lại.
Đầu tiên chúng ta thêm một cột mới là “Súc sắc”. Trong "Long name" chúng
ta gõ một hàm mà sẽ tạo ra các số ngẫu nhiên trong khoảng (0, x). Hàm này đƣợc
<b>Rnd(x): Quay về một số ngẫu nhiên thực tế từ phân bố đều trong khoảng từ </b>
0 đến x
<b>Trunc(x): Cắt x đến một số nguyên. </b>
<b>Vậy, phƣơng trình là: = Trunc(Rnd(6)+1) </b>
<b>5.2. Tƣơng quan (Correlation) </b>
Tƣơng quan là biểu thị mối quan hệ tuyến tính giữa hai hay nhiều biến. Hệ
số tƣơng quan có thể nằm trong khoảng từ -1,00 đến 1,00. Nếu hệ số tƣơng quan
bằng -1,00 thì mối tƣơng quan đó là tƣơng quan nghịch, nếu hệ số tƣơng quan bằng
1,00 thì mối tƣơng quan đó là tƣơng quan thuận. Nếu hệ số tƣơng quan bằng 0 thì
giữa các biến khơng có tƣơng quan. Hệ số tƣơng quan thƣờng đƣợc sử dụng nhiều
<i>nhất là hệ số tƣơng quan Pearson r. </i>
Bình phƣơng hệ số tƣơng quan đƣợc gọi là hệ số xác định (R²), biểu thị tỷ lệ
biến đổi của một biến đƣợc giải thích bởi một biến khác.
34
<b>One variable list - square matrix: Lựa chọn này cho phép chọn một biến </b>
và tính tốn ma trận các mối tƣơng quan. Ma trận gồm các mối tƣơng quan giữa
mỗi cặp của các biến. Ví dụ, nếu chúng ta chọn đƣờng kính, chiều cao và hình số,
sau đó ma trận tƣơng quan có mối tƣơng quan giữa đƣờng kính và chiều cao,
đƣờng kính và hình số, chiều cao và hình số, và mỗi một trong ba hệ số tƣơng quan
này sẽ xuất hiện hai lần trong ma trận.
<b>Two lists (rectangular matrix): Lựa chọn này cho phép chọn hai biến và </b>
tính ma trận các mối tƣơng quan cho hai nhóm. Ví dụ, chọn chiều cao trong nhóm
đầu tiên, đƣờng kính và hình số trong nhóm thứ hai. Ma trận sẽ bao gồm tƣơng
quan giữa chiều cao và đƣờng kính, và giữa chiều cao và hình số.
Bấm nút để bắt đầu tính tốn.
35
<i><b>Display Options </b></i>
1. Display simple matrix: Chỉ có giá trị hệ số tƣơng quan
<i>2. Display r, p-levels, an N's: Hệ số tƣơng quan, giá trị p, và dung lƣợng mẫu n. </i>
3. Display detailed table of results: hệ số tƣơng quan, trung bình cặp, độ lệch
chuẩn cặp, hệ số tự do và các thống kê hồi quy khác.
<i><b>Other Options </b></i>
1. Extended precision calculations: cho độ chính xác rất cao
2. Missing data:
<i>Chọn casewise hoặc pairwise để xóa dữ liệu bị thiếu. </i>
Ví dụ 5.1: Hãy tính hệ số tƣơng quan giữa hai biến chiều cao vút ngọn và
đƣờng kính ngang ngực theo số liệu bảng 5.1.
<b>Bảng 5.1. Chiều cao vút ngọn và đƣờng kính ngang ngực D1.3 </b>
<b>của 139 cây rừng gỗ tự nhiên núi đất lá rộng thƣờng xanh phục hồi </b>
<b>ở huyện Vân Đồn, tỉnh Quảng Ninh. </b>
(Nguồn Nguyễn Thanh Sơn, 2017)
<b>D (cm) </b> <b>H (m) </b> <b>D (cm) </b> <b>H (m) </b> <b>D (cm) </b> <b>H (m) </b> <b>D (cm) </b> <b>H (m) </b>
10,6 6,5 20,0 12,5 10,2 5,5 6,0 3,5
9,2 6,2 25,0 14,5 10,9 5,5 9,0 4,5
6,6 4,5 11,0 6 8,8 5 16,0 7,5
7,0 5,2 8,8 5,5 24,5 10,5 13,7 6
10,6 7 16,0 8,5 8,2 5 11,8 5
10,3 7,5 7,2 4,5 9,5 5,5 9,0 4,5
14,7 8,5 9,8 6,5 12,0 5,5 11,8 5,5
6,0 4,5 15,9 9,5 14,3 7,5 19,0 8
19,0 12,5 32,5 15,5 10,0 6,5 17,8 7,5
36
<b>D (cm) </b> <b>H (m) </b> <b>D (cm) </b> <b>H (m) </b> <b>D (cm) </b> <b>H (m) </b> <b>D (cm) </b> <b>H (m) </b>
12,8 8 16,2 8,7 10,1 6,5 15,7 7
13,2 8,5 6,9 4,5 8,0 4,5 14,8 6,5
13,7 8,5 6,9 5,5 11,5 5,5 8,3 4
14,1 9,7 7,0 4,3 8,0 4,5 16,3 6,5
18,6 12 16,6 8 17,7 8,5 14,5 11,5
12,3 8,2 14,8 7,5 20,2 9,5 8,5 4,5
12,5 8,5 11,0 6 10,8 5,5 10,5 4,5
6,7 4 15,4 8 9,3 5 18,6 10
7,5 4,5 6,3 4,5 6,2 3,2 10,0 7,5
12,0 8 13,0 7,5 6,9 3,5 12,0 10,5
13,0 7,5 6,4 4 8,6 4 16,2 9,5
15,5 9,5 10,0 6,5 20,1 9,5 8,7 5,5
8,7 6,5 6,7 4 11,8 6,5 9,0 5,5
13,0 8,7 19,5 10,5 17,8 8,5 8,2 4
18,0 11,5 16,7 8 11,2 6,5 6,1 4,5
14,5 8,5 9,6 5,5 6,6 4,5 6,6 4,5
11,8 6 13,0 7,5 7,4 4 14,5 7
10,5 5,5 8,4 5,5 8,0 4,5 8,5 4,5
13,7 7,3 11,5 6,5 17,3 8,5 8,7 4,5
6,5 3,5 6,5 4,5 13,8 6,5 6,5 3,5
11,7 5,5 8,0 5,5 17,0 8,5 7,5 4,5
6,0 3 17,7 9,5 11,7 5,5 7,0 4,5
9,0 5,5 32,0 15,5 9,3 5,5 8,0 5
7,7 4,5 16,0 9,5 9,9 6,5 7,0 4,5
37
<i><b>Quy trình nhƣ sau: Statistics/Basic Statistics/Correlation Matrices/Two </b></i>
<i><b>lists/First variable list: chọn biến “Duong kinh”, Second variable list (optional): </b></i>
<i><b>chọn biến “Chieu cao”/trong Options chọn Display r, p-levels, an N's/Summary. </b></i>
Kết quả nhƣ sau:
Kết quả trong hình trên cho biết hệ số tƣơng quan giữa chiều cao và đƣờng
kính là 0,9113 và mối tƣơng quan này có ý nghĩa vì p = 0,00 < 0,05.
<b>5.3. Biểu đồ đám mây điểm (Scatterplots) </b>
<i>Ví dụ chúng ta muốn biểu diễn mới quan hệ giữa chiều cao (h) và đƣờng </i>
<i>kính (d) cho số liệu bảng 5.2 sau bằng biểu đồ đám mây điểm. </i>
<b>Bảng 5.2. Đƣờng kính ngang ngực D1.3 và chiều cao vút ngọn HVN </b>
<b>của 83 cây rừng tự nhiên trạng thái IIIC </b>
<b> tại khu Bảo tồn Xuân Nha, huyện Vân Hồ, tỉnh Sơn La </b>
(Nguồn Cao Danh Toàn, 2017)
<b>D (cm) </b> <b>H (m) </b> <b>D (cm) </b> <b>H (m) </b> <b>D (cm) </b> <b>H (m) </b> <b>D (cm) </b> <b>H (m) </b>
6,1 5 19,1 16 7,6 6 9,9 8
16,6 13 6,1 5 8,0 6 47,1 29
9,2 7 50,6 29 21,3 16 25,8 22
38
<b>D (cm) </b> <b>H (m) </b> <b>D (cm) </b> <b>H (m) </b> <b>D (cm) </b> <b>H (m) </b> <b>D (cm) </b> <b>H (m) </b>
25,2 18 7,0 6 31,2 22 57,3 35
22,3 15 22,9 21 9,2 7 9,2 6
23,9 19 20,7 10 20,4 17 23,6 19
8,6 6 27,7 12 29,6 16 9,2 7
15,0 13 7,6 6 17,2 12 18,8 13
28,3 22 12,4 12 36,9 25 15,3 10
7,0 5 15,0 12 21,7 18 20,7 13
20,1 16 17,8 13 29,3 20 10,2 6
29,0 21 28,0 20 11,5 9 51,9 33
8,0 7 35,7 25 19,4 15 12,7 8
33,1 25 16,2 11 13,1 11 21,3 16
22,6 18 8,9 10 18,8 15 13,4 8
19,7 17 71,3 32 10,5 9 24,2 18
8,0 9 11,5 10 28,3 10 16,2 12
25,2 19 6,4 4 25,5 14 26,1 20
6,7 5 14,3 12 16,6 8 16,9 11
18,8 15 21,7 17 40,1 21
Biểu đồ đám mây điểm biểu thị mối quan hệ giữa hai biến X (là đƣờng kính
ngang ngực) và Y (là chiều cao vút ngọn). Mỗi điểm dữ liệu sẽ đƣợc biểu diễn
trong không gian hai chiều là theo trục hoàng (X) và trục tung (Y).
39
đánh dấu, màu sắc, font chữ, cỡ chữ,… Chỉ cần bấm đúp vào các mục tƣơng ứng và
chọn các thơng số mà bạn thích.
<b>Scatterplots with Histograms: Thông qua thực đơn "Graphs/2D </b>
40
Một dạng biểu đồ khác cũng là dạng biểu đồ 2 chiều theo quy trình sau:
<i><b>Graph/3D seq./Bivariate Histogram/Variables: X chọn biến “Duong kinh” và Y </b></i>
<i><b>chọn biến “Chieu cao”/OK/OK. </b></i>
<b>5.4. Bảng chéo (Crosstabulation) </b>
Bảng chéo là một sự kết hợp của hai (hoặc nhiều) các bảng tần số và đƣợc
sắp xếp sao cho mỗi ô trong bảng kết quả đại diện cho sự kết hợp của các giá trị cụ
thể của biến chéo. Bằng cách kiểm tra các tần số này, chúng ta có thể xác định mối
quan hệ giữa các biến chéo.
41
Ví dụ 5.2: Tạo bảng crosstabulation cho hai biến là đƣờng kính và chiều cao
trong bảng 5.2 trên.
Quy trình nhƣ sau: Theo số liệu bảng 5.2, tạo thêm 2 biến là “D_moi” và
“H_moi” nhƣ đã hƣớng dẫn ở mục 4.1.
Sau đó chọn 2 biến là “D_moi” và “H_moi”, click vào
và nhập hai biến vào (List 1: D_moi, List 2: H_moi), bấm
vào nút "OK" và sau đó Kết quả nhƣ sau:
42
Grps và Row Totals). Ví dụ, từ bảng trên chúng ta thấy có 7 cây ở cỡ đƣờng kính là
16 cm và cỡ chiều cao là 13 m.
Hình thức đơn giản nhất của bảng chéo là bảng 2 x 2, chỉ có 2 biến và mỗi
biến chỉ có 2 giá trị.
Bất kỳ bảng chéo hai chiều nào cũng có thể đƣợc thể hiện trong một biểu đồ
3 chiều. Bạn có thể mở hộp thoại tƣơng ứng thông qua biểu tƣợng
(trong phần của hộp thoại lập bảng chéo).
Muốn thêm nhiều lựa chọn hơn, chọn mục "Graphs/3DSequential Graphs/Bivariate
Histograms...". Chọn các biến X và Y (D_moi và H_moi), và
click OK.
Ngoài ra, chúng ta có thể vẽ biểu đồ phân nhóm, trên biểu đồ đó mỗi một
biến đƣợc biểu diễn bằng biểu đồ riêng đƣợc lấy ra ở mỗi cấp (nhóm). Nhấn vào
trong hộp thoại lập bảng chéo để bắt đầu.
44
<b>Chƣơng 6 </b>
<b>SO SÁNH HAI MẪU </b>
<b>6.1. Dữ liệu - Nhập dữ liệu </b>
Nếu dữ liệu của bạn đã đƣợc nhập trong một định dạng tập tin (ví dụ Excel),
bạn có thể tạo ra một tập tin dữ liệu trong STATISTICA nhƣ sau: Chọn "File /
Open" thông qua thực đơn hoặc nhấp chuột vào biểu tƣợng.
Ví dụ, tập tin của bạn là một bảng tính Excel. Chọn "Excel Files (*.xls)" và
nhấn "Open". Hộp thoại tiếp theo sẽ đƣa ra hai cách nhập dữ liệu.
Tất cả các trang (các bảng của bảng tính
Excel) nằm trong một Workbook mới của STATISTICA. Sử dụng tùy chọn này
nếu bạn nhằm mục đích chỉ là để hiển thị dữ liệu. Phân tích dữ liệu là khơng thể!
Chỉ có một trang (bảng của bảng tính
Excel) đƣợc nhập vào nhƣ một bảng tính. Sử dụng tùy chọn này nếu bạn muốn
phân tích các dữ liệu trong bảng đó. Nhấp vào nút này dẫn đến một hộp thoại trong
đó bạn chọn bảng bạn muốn nhập dữ liệu.
Cửa sổ tiếp theo cung cấp cho bạn một số tùy chọn để kiểm soát việc nhập
dữ liệu. Chọn những con số của các biến và số lƣợng hàng, cột bạn muốn nhập.
Nếu tồn bộ bảng đƣợc phân tích, bạn khơng phải thay đổi những mục này.
Nếu dòng đầu tiên của bảng Excel có chứa các tên biến, đánh dấu vào ơ đánh
dấu ở phía dƣới cùng của cửa sổ. Bạn cũng có thể xác định các giá trị của cột đầu
tiên của bảng Excel đƣợc coi là tên trƣờng trong STATISTICA ("Get case names
45
<b>6.2. Mô phỏng phân bố - phân bố chuẩn (Normal distribution) </b>
Nếu chúng ta muốn kết luận ý nghĩa của mơ phỏng phân bố, chúng ta có thể
dùng kiểm định giả thuyết về luật phân bố (goodness-of-fit-test). Bạn tìm những
tiêu chuẩn kiểm định này trong "Statistics/Basic Statistics and Tables/Descriptive
Statistics". Mở hộp thoại và chọn một hoặc nhiều biến. Chọn tiêu chuẩn
Kolmogorov-Smirnov hoặc Shapiro-Wilk (hoặc cả hai). Các kết quả kiểm tra đƣợc
hiển thị cùng với biểu đồ.
Bạn có thể phân tích chi tiết hơn trong "Statistics/Distribution Fitting". Để mô
phỏng một phân bố chuẩn, bấm OK. Đối với các phân bố khác, chọn trong danh sách.
Trong cửa sổ tiếp theo, chọn một hay nhiều biến. Tiêu chuẩn kiểm định mặc
định là tiêu chuẩn χ2
46
liên tục (nhƣ đƣờng kính hoặc chiều cao), bạn nên sử dụng tiêu chuẩn
Kolmogorov-Smirnov. Nhấp chuột vào và hộp thoại sau sẽ hiển thị.
Các kết quả có thể đƣợc hiển thị bằng dạng biểu đồ
( ) hoặc bằng dạng bảng ( ).
<b>Tiêu chuẩn χ2: Theo mặc định, chƣơng trình sẽ tính tốn tiêu chuẩn χ</b>2 dựa
Nếu mức ý nghĩa của tiêu chuẩn χ2 (p <0,05), chúng ta bác bỏ giả thuyết rằng
các dữ liệu thực nghiệm tuân theo phân bố lý thuyết.
<b>Tiêu chuẩn Kolmogorov-Smirnov: Tiêu chuẩn này có thể đƣợc tính từ các </b>
giá trị phân nhóm hoặc dựa trên các dữ liệu gốc. Đối với các biến liên tục, nên
dùng tiêu chuẩn Kolmogorov-Smirnov (xem lại phần trên). Chƣơng trình này sẽ
thơng qua các dữ liệu quan sát đƣợc sắp xếp và tính tốn tần suất tích lũy lý thuyết
tại mỗi điểm. Tiêu chuẩn thống kê Kolmogorov ("D-Max") là sự khác biệt tuyệt đối
lớn nhất giữa phân bố lũy tích thực nghiệm và phân bố lũy tích lý thuyết.
Nếu mức ý nghĩa của tiêu chuẩn Kolmogorov-Smirnov p <0,05, chúng ta bác
bỏ giả thuyết rằng các dữ liệu thực nghiệm tuân theo phân bố giả thuyết.
(Khơng có ý nghĩa)
Ví dụ 6.1: Mô phỏng phân bố thực nghiệm số cây theo cỡ đƣờng kính
(Ni/D1.3) lâm phần rồng trồng Bạch đàn 7 tuổi tại xã Hẹ Muông, huyện Điện Biên,
47
<b>Bảng 6.1. Đƣờng kính ngang ngực của 108 cây Bạch đàn tại xã Hẹ Muông, </b>
<b>huyện Điện Biên, tỉnh Điện Biên </b>
(Nguồn Cao Thị Thu Hiền, 2016).
<b>TT </b> <b>D (cm) TT </b> <b>D (cm) TT </b> <b>D (cm) TT </b> <b>D (cm) </b>
1 9,9 28 13,1 55 13,7 82 7
2 14,6 29 6 56 10,8 83 13,7
3 18,1 30 12,1 57 15 84 10,5
4 13,1 31 16,6 58 12,4 85 8,3
5 14,6 32 11,5 59 15,9 86 11,1
6 11,8 33 12,7 60 11,8 87 12,1
7 13,7 34 15 61 12,1 88 12,1
8 16,6 35 12,7 62 8,6 89 11,8
9 16,6 36 10,5 63 13,7 90 8,6
10 9,5 37 15,9 64 12,7 91 13,1
11 8,3 38 14,6 65 11,1 92 10,5
12 15,6 39 17,8 66 12,7 93 12,1
13 14,6 40 13,4 67 13,4 94 13,4
14 12,7 41 10,8 68 11,8 95 7,3
15 16,6 42 13,7 69 10,5 96 13,1
16 17,8 43 15,3 70 9,9 97 13,7
17 13,7 44 15,3 71 9,9 98 13,1
18 7 45 14 72 13,4 99 6,4
19 15,6 46 14,3 73 7,3 100 17,2
20 18,1 47 14,6 74 11,8 101 8
21 10,2 48 13,7 75 7,6 102 10,2
22 14,6 49 14 76 11,8 103 13,4
23 10,5 50 13,1 77 9,9 104 13,1
24 14 51 10,5 78 9,5 105 15,9
25 11,1 52 14,6 79 11,8 106 7,6
26 14 53 13,4 80 11,5 107 14,6
48
Thực hiện các bƣớc đã hƣớng dẫn nhƣ trên, kết quả nhƣ sau:
Kết quả cho thấy, giá trị p theo tiêu chuẩn Kolmogorov-Smirnov là p> 0,20,
giá trị này lớn hơn 0,05, vậy phân bố số cây theo cỡ đƣờng kính của Bạch đàn 7
tuổi là tuân theo phân bố chuẩn.
49
Giá trị p tính theo tiêu chuẩn Khi bình phƣơng (Chi-Square test) bằng 0,09,
giá trị này lớn hơn 0,05. Vậy phân bố số cây theo cỡ đƣờng kính của Bạch đàn 7
tuổi là tuân theo phân bố chuẩn.
<b>6.3. Khoảng tin cậy của giá trị trung bình </b>
Khoảng tin cậy của số trung bình cho chúng ta một loạt các giá trị xung
quanh giá trị trung bình mà ở đó có giá trị thực của số trung bình tổng thể.
Trong hộp thoại "Descriptive Statistics", bạn có thể yêu cầu khoảng tin cậy
<i>cho bất kỳ giá trị mức ý nghĩa nào (p-level). Hộp thoại này là một phần của cửa sổ </i>
"Advanced".
Chọn mức ý nghĩa thích hợp (thƣờng là 90, 95 hoặc 99%).
Ví dụ, nếu trung bình trong mẫu của bạn là 23, giới hạn trên và dƣới của
khoảng tin cậy 95% là 19 và 27, sau đó bạn có thể kết luận rằng với độ tin cậy 95%
số trung bình tổng thể lớn hơn 19 và nhỏ hơn 27.
Lƣu ý rằng việc tính khoảng tin cậy dựa trên điều kiện đại lƣợng phải có
phân bố chuẩn trong tổng thể. Ƣớc lƣợng có thể khơng có giá trị nếu điều kiện này
không đƣợc đáp ứng. Cũng lƣu ý rằng độ rộng của khoảng tin cậy phụ thuộc vào
dung lƣợng mẫu và về sự biến động của giá trị dữ liệu. Dung lƣợng mẫu càng lớn
thì độ tin cậy càng cao.
Ví dụ 6.2: Hãy ƣớc lƣợng đƣờng kính ngang ngực trung bình của Bạch đàn
theo số liệu bảng 6.1 với độ tin cậy là 99,9%.
50
Từ kết quả trên cho thấy, đƣờng kính ngang ngực trung bình của Bạch đàn
nằm trong khoảng từ 11,61 cm đến 13,37 cm với độ tin cậy của khoảng ƣớc lƣợng
là 99,9%.
<b>6.4. Tiêu chuẩn t (t-test) </b>
Sự khác biệt giữa số trung bình đƣợc
tính từ một mẫu và số trung bình giả
<i>thuyết (Một mẫu - One sample t-test) </i>
Sự khác biệt giữa hai số trung bình đƣợc
<i>tính tốn từ hai mẫu (Hai mẫu - two - </i>
<i>sample t - test) </i>
H0 H1 H0 H1
µ ≤ µ0
µ ≥ µ0
µ > µ0 (một chiều)
µ < µ0 (một chiều)
µ1 ≤ µ2
µ1 ≥ µ2
µ1 > µ2 (một chiều)
µ1 < µ2 (một chiều)
µ = µ0 µ ≠ µ0 (hai chiều) µ1 = µ2 µ1 ≠ µ2 (hai chiều)
<i>- Một mẫu (One sample t-test) </i>
Mở hộp thoại trong "Statistics/Basic Statistics and
51
Kết quả đƣợc cho trong bảng sau:
Chúng ta thấy số trung bình mẫu của đƣờng kính là 11,43 cm với độ lệch
chuẩn là 2,95 cm và sai số của số trung bình mẫu là 0,42 cm. Sai số của số trung
bình mẫu đƣợc tính bằng
√ (
√ ). Trong bảng trên, khoảng tin cậy
<i>cũng đƣợc tính tốn. Giá trị t đƣợc tính bằng </i>
<i>. Giá trị </i>
p-value < 0,05, nghĩa là có một sự sai lệch đáng kể giữa số trung bình mẫu và số
trung bình giả thuyết. Trong ví dụ của chúng ta, giả thuyết cho rằng đƣờng kính
trung bình tổng thể bằng 14 cm bị bác bỏ.
Ví dụ 6.3: Đƣờng kính trung bình của Keo lai theo số liệu bảng 6.2 bằng 11
cm hay khác 11 cm với độ tin cậy là 95%?
<b>Bảng 6.2. Đƣờng kính ngang ngực của 141 cây Keo lai tuổi 8 </b>
<b>tại xã Nà Hỳ, huyện Nậm Pồ, tỉnh Điện Biên </b>
(Nguồn Cao Thị Thu Hiền, 2016)
<b>TT D (cm) TT </b> <b>D (cm) TT </b> <b>D (cm) TT </b> <b>D (cm) </b>
1 13,7 37 11,8 73 15,3 109 9,9
2 8,6 38 11,8 74 12,7 110 14,6
3 10,8 39 11,1 75 10,5 111 13,1
4 8,9 40 12,7 76 16,9 112 16,6
5 11,8 41 10,8 77 14,6 113 14,6
6 10,2 42 18,1 78 12,7 114 12,4
7 12,4 43 12,7 79 7,0 115 9,9
8 14,0 44 15,0 80 13,4 116 15,3
52
12 13,1 48 17,2 84 12,7 120 12,1
13 12,7 49 13,1 85 11,5 121 15,0
14 12,4 50 15,6 86 8,6 122 14,6
15 7,0 51 17,8 87 7,6 123 11,8
16 14,3 52 8,3 88 13,4 124 13,4
17 9,2 53 7,3 89 14,3 125 7,6
18 14,6 54 9,2 90 6,4 126 11,8
19 7,6 55 7,3 91 11,5 127 10,5
20 12,1 56 10,5 92 11,8 128 9,9
21 12,1 57 7,3 93 13,1 129 14,6
22 13,7 58 13,7 94 7,3 130 13,4
23 15,3 59 14,6 95 21,0 131 11,5
24 12,1 60 10,2 96 6,7 132 6,7
25 12,1 61 11,8 97 12,4 133 7,3
26 11,1 62 10,2 98 14,6 134 8,3
27 11,1 63 10,5 99 8,6 135 17,2
28 12,1 64 9,5 100 10,5 136 12,4
29 14,6 65 10,5 101 8,9 137 7,0
30 11,1 66 11,1 102 8,6 138 15,0
31 9,9 67 8,6 103 13,1 139 13,4
32 12,1 68 11,5 104 7,6 140 13,1
33 12,1 69 11,1 105 13,4 141 14,3
34 12,1 70 11,5 106 13,7
53
Đặt giả thuyết:
H0: Đƣờng kính ngang ngực trung bình của Keo lai bằng 11 cm
H1: Đƣờng kính ngang ngực trung bình của Keo lai khác 11 cm
<i><b>Thực hiện quy trình nhƣ sau: Statistics/Basic Statistics and Tables/t-test, </b></i>
<i><b>single sample/Variables: Chọn biến “Duong kinh”/Options/Test all mean against: </b></i>
<i><b>nhập giá trị số là 11/Summary. Kết quả nhƣ sau: </b></i>
Giá trị t tính đƣợc bằng 3,03 với p-value bằng 0,0029 < 0,05, vậy giả
thuyết H0 bị bác bỏ, có nghĩa là đƣờng kính ngang ngực trung bình của Keo lai
là khác 11 cm.
<i>- Hai mẫu (Two sample t-test) </i>
<i>Tiêu chuẩn t (t-test) là tiêu chuẩn thƣờng đƣợc sử dụng nhiều để đánh giá sự </i>
khác biệt về số trung bình giữa hai nhóm.
<i>Điều kiện để sử dụng tiêu chuẩn t cho các mẫu độc lập là (1) phƣơng sai </i>
của các mẫu phải bằng nhau và (2) đại lƣợng quan sát ở mỗi mẫu phải có phân
bố chuẩn.
Điều kiện các đại lƣợng quan sát phải có phân bố chuẩn có thể đƣợc kiểm tra
trực quan qua phân bố của dữ liệu (thông qua biểu đồ) hoặc bằng phƣơng pháp
kiểm định giả thuyết về luật phân bố chuẩn (xem ở phần trƣớc).
Điều kiện phƣơng sai phải bằng nhau có thể đƣợc kiểm tra bằng tiêu chuẩn F
<i>(đƣợc thể hiện trong bảng kết quả đầu ra của tiêu chuẩn t) hoặc bạn có thể sử dụng </i>
lựa chọn bằng cách tick vào tiêu chuẩn Levene (Levene test).
Nếu những điều kiện này khơng đƣợc đáp ứng, chúng ta vẫn có thể kiểm tra
sự khác nhau về số trung bình giữa các nhóm bằng tiêu chuẩn phi tham số hoặc cho
<i>tiêu chuẩn t trong trƣờng hợp các phƣơng sai không bằng nhau. </i>
Có hai cách nhập số liệu trong STATISTICA để xử lý số liệu theo tiêu
<i>chuẩn t. </i>
54
<i>Nếu dữ liệu của bạn đƣợc sắp xếp nhƣ định dạng 1, bắt đầu hộp thoại t-test </i>
bằng trong "Statistics/Basic Statistics and Tables". Nếu dữ
liệu của bạn ở định dạng 2, chọn . Phƣơng pháp phân tích
dữ liệu cho 2 trƣờng hợp trên là giống nhau. Giả sử dữ liệu của chúng ta theo định
dạng 1. Chúng ta muốn kiểm tra xem có sự khác biệt trong đƣờng kính cây giữa hai
nhóm bị tổn hại (damage) hay khơng, nghĩa là kiểm tra xem đƣờng kính của những
cây bị tổn hại nặng và nhẹ có nhƣ nhau khơng.
55
Chúng ta thấy rằng đƣờng kính trung bình của nhóm 1 là 11,63 cm (tổn hại = 1)
và trong nhóm 2 là 11,28 cm (tổn hại = 2). Đầu tiên chúng ta nhìn vào cột cuối
<i>cùng của bảng, chúng ta thấy giá trị p-value cho tiêu chuẩn F (kiểm tra sự bằng </i>
nhau của các phƣơng sai) là 0,73, giá trị này lớn hơn 0,05, vậy chúng ta chấp nhận
giả thuyết, nghĩa là phƣơng sai của hai nhóm là bằng nhau. Sau đó, chúng ta đi giải
<i>thích kết quả cho tiêu chuẩn t. Giá trị p-value của tiêu chuẩn t là 0,68, giá trị này </i>
lớn hơn 0,05, vậy chúng ta chấp nhận giả thuyết rằng đƣờng kính trung bình của 2
Nếu chọn tiêu chuẩn Levene ("Levene's test") trong hộp thoại cũng
cho phép chúng ta kiểm tra sự bằng nhau của các phƣơng sai. Tiêu chuẩn này sẽ
phù hợp hơn so với tiêu chuẩn F nếu dữ liệu của bạn cho thấy có sự sai lệch so với
<i>phân bố chuẩn. Nếu giá trị p-value của tiêu chuẩn Levene nhỏ hơn 0,05 thì giả </i>
thuyết về sự bằng nhau của các phƣơng sai bị bác bỏ.
Nếu giả thuyết về sự bằng nhau của các phƣơng sai chọn:
Ví dụ 6.4: Hãy so sánh đƣờng kính ngang ngực trung bình của Keo lai ở 2 xã
theo số liệu bảng 6.3, cho biết mức ý nghĩa là 0,05?
<i><b>Bảng 6.3. Đƣờng kính ngang ngực của 141 cây Keo lai tuổi 8 tại xã Nà Hỳ, </b></i>
<b>huyện Nậm Pồ, tỉnh Điện Biên </b>
(Nguồn Cao Thị Thu Hiền, 2016).
<b>D (cm) </b> <b>Xã </b> <b>D (cm) </b> <b>Xã </b>
6,7 Thanh Nƣa 9,9 Pú Nhi
8,9 Thanh Nƣa 7,0 Pú Nhi
8,6 Thanh Nƣa 7,0 Pú Nhi
9,9 Thanh Nƣa 8,9 Pú Nhi
7,0 Thanh Nƣa 9,9 Pú Nhi
11,1 Thanh Nƣa 11,1 Pú Nhi
6,7 Thanh Nƣa 12,1 Pú Nhi
9,2 Thanh Nƣa 8,9 Pú Nhi
56
9,5 Thanh Nƣa 9,9 Pú Nhi
7,3 Thanh Nƣa 8,0 Pú Nhi
11,8 Thanh Nƣa 6,0 Pú Nhi
7,6 Thanh Nƣa 8,0 Pú Nhi
8,0 Thanh Nƣa 7,0 Pú Nhi
9,5 Thanh Nƣa 9,9 Pú Nhi
7,3 Thanh Nƣa 8,0 Pú Nhi
7,0 Thanh Nƣa 7,0 Pú Nhi
8,9 Thanh Nƣa 8,9 Pú Nhi
9,2 Thanh Nƣa 8,0 Pú Nhi
7,3 Thanh Nƣa 14,0 Pú Nhi
14,0 Pú Nhi
8,9 Pú Nhi
9,9 Pú Nhi
Nhập số liệu vào STATISTICA nhƣ sau:
Đặt giả thuyết:
57
H1: Đƣờng kính ngang ngực trung bình của Keo lai trồng ở 2 xã là khác nhau
<i><b>Quy trình nhƣ sau: Statistics/Basic Statistics and Tables/t-test, independent, </b></i>
<i><b>by variables/Variables (groups)/First variable (group) list: chọn biến “D</b></i>1”,
<i><b>Second variable (group) list: chọn biến “D</b></i>2<i><b>”/vào Options: chọn Levene’s </b></i>
<i><b>test/Summary: T-tests. Kết quả nhƣ sau: </b></i>
58
<b>Chƣơng 7 </b>
<b>CÁC GIÁ TRỊ TRA BẢNG </b>
Một trong những chức năng hữu ích của hộp thoại The Probability
<i>Distribution Calculator là cho phép bạn tính tốn các giá trị tra bảng (critical value) </i>
<i>F, t, hoặc z. </i>
Giả sử chúng ta có hai nhóm cây: 50 cây đƣợc bón phân và 50 cây khơng
đƣợc bón phân. Sau đó chúng ta đo chiều cao cho mỗi cây trong mẫu. Mục đích
của chúng ta là kiểm tra xem giữa các cây đƣợc bón phân và khơng đƣợc bón phân
có sự khác biệt về chiều cao hay không. Giả sử rằng phân bố về chiều cao của hai
nhóm cây là tuân theo phân bố chuẩn. Nhƣ vậy, tiêu chuẩn phù hợp trong trƣờng
<i>hợp này là tiêu chuẩn t dành cho 2 mẫu độc lập. </i>
Giả sử chiều cao trung bình của cây đƣợc bón phân là ̅ = 15,43 (m), độ
lệch chuẩn S1 = 2,37 (m). Chiều cao trung bình của cây khơng đƣợc bón phân là ̅
= 13,82 (m) và S2 = 2,32 (m). Phƣơng sai chung là:
<i>Tiêu chuẩn t đƣợc tính theo cơng thức sau: </i>
Giả sử chúng ta đo chiều cao cho 50 cây ở hai nhóm (đƣợc bón phân và
<i>khơng đƣợc bón phân) lặp lại nhiều lần và tính giá trị t cho mỗi mẫu. Sau khi lặp lại </i>
<i>nghiên cứu 1000 lần hoặc hơn, chúng ta có thể vẽ phân bố của tiêu chuẩn t cho </i>
1000 "thí nghiệm" này. Phân bố này đƣợc gọi là phân bố lấy mẫu. May mắn là,
điều kiện về luật phân bố của các đại lƣợng quan sát (trong trƣờng hợp này là chiều
cao) đã đƣợc cho nên chúng ta có thể suy luận cho phân bố lấy mẫu mà không cần
phải lặp lại nghiên cứu 1000 lần. Trong trƣờng hợp này, nếu chiều cao có phân bố
chuẩn trong tổng thể và nếu khơng có sự khác nhau về số trung bình giữa 2 nhóm
<i>thì phân bố lấy mẫu sẽ là phân bố t với bậc tự do là 98. </i>
59
Phép tính đƣợc mở thông qua hộp thoại trong thực đơn
"Statistics/Basic Statistics and Tables".
Chúng ta chọn phân bố t (với bậc tự do là 98, df = 98). Có hai khả năng xảy ra:
a) Chúng ta có thể nhập vào giá trị độ tin cậy (0,95) và nhận đƣợc giá trị tra
<i>bảng cho tiêu chuẩn t. Nhấp vào "Compute", giá trị tra bảng là 1,661, vậy chúng ta </i>
bác bỏ giả thuyết vì 3,4326 > 1,661.
<i>b) Chúng ta có thể nhập giá trị t tính đƣợc và tìm đƣợc giá trị cho độ tin cậy. </i>
<i>Giá trị p-value cho chúng ta biết, 99,9561% của tất cả các giá trị của phân bố </i>
t98 nhỏ hơn 3,4326, vì vậy giá trị này là cực kỳ "bất thƣờng". Lƣu ý rằng, dấu trừ
60
<b>Chƣơng 8 </b>
<b>HỒI QUY TUYẾN TÍNH (LINEAR REGRESSION) </b>
<b>8.1. Giới thiệu </b>
Mục đích chung của hồi quy nhiều lớp là để tìm hiểu thêm về mối quan hệ
giữa các biến độc lập và một biến phụ thuộc. Trƣờng hợp đơn giản nhất là chỉ có
một phụ thuộc và một biến độc lập (ví dụ: chiều cao và đƣờng kính ngang ngực).
<b>Bình phƣơng nhỏ nhất (Least Squares): Phƣơng pháp này cho phép chúng </b>
ta tìm đƣợc một đƣờng (line) sao cho các độ lệch bình phƣơng của các giá trị thực
nghiệm tới đƣờng đó là nhỏ nhất.
<b>Bình phƣơng gia quyền nhỏ nhất (Weighted Least Squares): Trong một </b>
số trƣờng hợp, trong phân tích hồi quy chúng ta mong muốn để thêm các hệ số
(weight) khác nhau cho các giá trị quan sát và phép tính này đƣợc gọi là ƣớc lƣợng
bình phƣơng gia quyền nhỏ nhất. Phƣơng pháp này thƣờng đƣợc áp dụng khi các
phƣơng sai của các số dƣ bị thay đổi theo phạm vi biến động của các giá trị biến
độc lập. Trong trƣờng hợp đó, ngƣời ta có thể dùng các giá trị nghịch đảo của các
phƣơng sai cho các số dƣ nhƣ là các hệ số và tính theo phƣơng pháp bình phƣơng
gia quyền nhỏ nhất.
Dạng phƣơng trình tuyến tính một lớp nhƣ sau:
Y = a + b.X
<i>Trong đó: Y là biến phụ thuộc, X là biến độc lập, a là hằng số (constant) và b </i>
<i>là hệ số hồi quy (slope hoặc regression coefficient). Hằng số a còn đƣợc gọi là hệ </i>
số tự do (intercept).
Dạng phƣơng trình tuyến tính nhiều lớp có dạng nhƣ sau:
Y = a + b1.X1 + b2.X2 + … bn.Xn
<i>Trong phƣơng trình này, các hệ số hồi quy b thể hiện sự đóng góp độc lập </i>
của các biến độc lập trong dự đoán biến phụ thuộc.
61
càng chính xác. Ví dụ, nếu khơng có mối quan hệ giữa biến X và Y thì tỷ lệ giữa
biến bộng số dƣ của biến Y với phƣơng sai ban đầu là bằng 1,0. Nếu X và Y có mối
quan hệ chặt chẽ thì khơng có phƣơng sai dƣ và tỷ lệ phƣơng sai sẽ là 0,0. Trong
hầu hết các trƣờng hợp, tỷ lệ này sẽ nằm trong khoảng từ 0,0 tới 1,0. Nếu lấy 1,0
trừ đi tỷ lệ này thì đƣợc gọi là R2 hoặc hệ số xác định (coefficient of determination).
Giá trị R2 thuyết minh mức độ phù hợp của mơ hình hồi quy với các dữ liệu
thực nghiệm. Ví dụ, R2 càng gần 1,0 chứng tỏ có thể giải thích đƣợc gần hết tất cả
các biến động của các biến trong mô hình.
<b>Điều kiện </b>
<b>Điều kiện tuyến tính: Trƣớc hết, trong hồi quy tuyến tính nhiều lớp, giả </b>
định đƣợc đặt ra là mối quan hệ giữa các biến là tuyến tính. Tuy nhiên, trong thực
tế thì giả định này hầu nhƣ không bao giờ đƣợc xác nhận, nhƣng nhiều quy trình
hồi quy khơng bị ảnh hƣởng nhiều bởi điều kiện này.
<b>Điều kiện phân bố chuẩn: trong hồi quy nhiều lớp, các giá trị dƣ (giá trị dự </b>
đoán trừ đi giá trị thực nghiệm) là tuân theo phân bố chuẩn.
<b>8.2. Quy trình trong STATISTICA </b>
Bắt đầu hộp thoại hồi quy qua "Statistics/Multiple Regression". Chọn các
biến phụ thuộc và độc lập, cân nhắc phƣơng pháp giải quyết các dữ liệu bị thiếu
(xem lại chƣơng trƣớc) và nhấn OK.
<b>8.3. Kết quả </b>
62
Kết quả mục Summary Box
Dependent: Tên của biến phụ thuộc (ví dụ trong hình trên là Height - chiều cao)
No. of Cases: Dung lƣợng mẫu hợp lệ (n) (phụ thuộc vào cách bạn chọn xóa
các dữ liệu bị thiếu)
Multiple R: Đây là hệ số tƣơng quan, nó là căn bậc hai của R2 (hệ số xác định).
R2: Hệ số xác định
(
)
Adjusted R2: R2 đƣợc điều chỉnh bằng cách lấy tổng bình phƣơng số dƣ và
tổng bình phƣơng của tồn mẫu quan sát chia cho bậc tự do tƣơng ứng.
( )
⁄
⁄
Nếu có nhiều biến độc lập đƣợc xem xét trong một mơ hình, R2 ln tăng.
Hệ số xác định điều chỉnh giải thích cho sự tăng lên của số lƣợng biến. Vì vậy, nếu
có nhiều hơn một biến độc lập, bạn nên nhìn vào giá trị của hệ số xác định điều
chỉnh thay vì hệ số xác định R2.
Standard error of estimate: Chỉ số này đo sự phân tán của các giá trị quan sát
về đƣờng hồi quy.
Intercept: Hệ số tự do
Std. Error: Đây là sai số chuẩn của hệ số tự do
<i>t(df) and p-value: Giá trị t và xác suất tƣơng ứng p-value đƣợc sử dụng để </i>
kiểm tra giả thuyết hệ số tự do bằng 0 hay khác 0.
<i>F, df, and p-value: Giá trị F và xác suất tƣơng ứng p-value đƣợc sử dụng để </i>
kiểm tra mối quan hệ giữa biến phụ thuộc và các biến độc lập.
Kết quả mục Model-Box
Hệ số hồi quy có ý nghĩa thống kê đƣợc đánh dấu bằng màu đỏ.
63
<b>8.4. Kết quả chi tiết </b>
<i>- Tóm tắt: Kết quả hồi quy (Summary: Regression results) </i>
Kết quả ở bảng trên đƣa ra giá trị của hệ số hồi quy đã đƣợc chuẩn hóa
(Beta) và chƣa đƣợc chuẩn hóa (B) cùng với sai số và mức ý nghĩa tƣơng ứng. Tóm
tắt cho việc phân tích hồi quy (ví dụ: R, R2,…) đƣợc hiển thị trong tiêu đề của
bảng. Ví dụ từ kết quả bảng trên ta có:
Height 1,4 + 0,57.DBH
<i>- Phân tích số dư (Residual analysis) </i>
Biểu đồ đám mây điểm (scatter plots) có thể giúp để kiểm tra luật phân bố
chuẩn của số dƣ. Nhấp chuột vào , sau đó vào
64
Trong hình trên, "Observed values" biểu thị các giá trị của biến phụ thuộc
trong tập tin dữ liệu. "Predicted values" là những giá trị đƣợc dự đốn bởi mơ hình,
tức là các giá trị trên đƣờng hồi quy.
Trong biểu đồ đám mây điểm của các giá trị dƣ và giá trị dự đoán sau đây
(gọi là biểu đồ của số dƣ), các điểm chấm đen trên biểu đồ nên phân tán xung
quanh 0.
Ví dụ 8.1: Lập tƣơng quan tuyến tính giữa chiều cao vút ngọn và đƣờng kính
ngang ngực theo số liệu trong bảng 8.1.
<b>Bảng 8.1. Chiều cao vút ngọn và đƣờng kính ngang ngực D1.3 của 89 cây rừng </b>
<b>tự nhiên trạng thái IIIB ở xã Xuân Nha, huyện Vân Hồ, tỉnh Sơn La. </b>
(Nguồn Cao Danh Toàn, 2017)
<b>D (cm) H (m) D (cm) H (m) D (cm) H (m) D (cm) H (m) </b>
58,9 28 20,4 18 22,0 18 8,0 5
35,0 17 62,1 31 14,0 9 70,7 34
9,2 7 27,7 19 65,0 30 34,1 23
23,9 13 6,7 5 7,3 5 20,1 17
17,2 15 24,2 19 24,8 19 6,1 5
11,8 12 8,0 5 14,6 8 15,6 10
7,0 6 29,3 20 19,7 18 14,0 11
65
<b>D (cm) H (m) D (cm) H (m) D (cm) H (m) D (cm) H (m) </b>
20,7 10 15,0 9 6,7 5 76,8 35
27,7 12 33,4 24 18,8 15 22,9 17
7,6 6 15,6 10 29,3 21 8,6 4
12,4 12 8,6 6 24,5 19 8,3 5
15,0 12 73,2 36 6,4 4 21,3 18
17,8 13 20,7 18 65,3 31 9,2 7
28,0 20 16,2 9 25,8 19 8,9 6
35,7 25 7,6 4 20,7 18 15,3 11
16,2 11 8,3 6 10,5 7 8,6 6
8,9 10 28,3 19 28,0 20 28,0 19
71,3 32 35,7 25 24,2 18 6,4 5
11,5 10 60,2 29 7,0 5 58,3 28
6,4 4 40,1 26 17,5 12 33,8 22
14,3 12 8,9 5 13,4 10 6,1 4
44,6 26
<i><b>Thực hiện theo quy trình sau: Statistics/Multiple Regression/Variables: </b></i>
<i><b>Dependent var: chọn biến “H”, Independent variable list: chọn biến </b></i>
<i><b>“D”/OK/Summary: Regression results. Kết quả nhƣ sau: </b></i>
66
Kiểm tra điều kiện số dƣ có phân bố chuẩn theo quy trình: Vào
Residuals/assumptions/prediction chọn Perform residual analysis/Normal plot of
residuals. Kết quả nhƣ sau:
67
<b>Chƣơng 9 </b>
<b>HỒI QUY (REGRESSION) </b>
<b>9.1. Hồi quy phi tuyến cố định (Fixed Nonlinear Regression) </b>
Hộp thoại này cho phép bạn chọn nhiều dạng biến đổi phi tuyến của các
biến độc lập. Các cách biến đổi nhƣ vậy trong một mơ hình hồi quy có thể tăng sự
phù hợp của mơ hình hồi quy. Mơ hình hồi quy phi tuyến thƣờng đƣợc sử dụng
trong lâm nghiệp. Đặc biệt, mơ hình tăng trƣởng thƣờng đƣợc mô tả bởi một hàm
phi tuyến.
68
Biến đổi phi tuyến đƣợc chọn sẽ đƣợc đánh dấu bằng ký hiệu “” trong ô
bên cạnh.
Trong hộp thoại tiếp theo, bạn sẽ đƣợc yêu cầu xác định dạng phƣơng trình
cho mơ hình hồi quy. Trong mơ hình hồi quy, bạn có thể sử dụng cả biến ban đầu
và những biến đã đƣợc biến đổi.
<b>9.2. Mô phỏng đƣờng cong (Fitting Growth Curves) </b>
Chúng ta muốn phân tích một mơ hình phi tuyến trong đó mơ tả chiều cao
(H) nhƣ là một hàm của tuổi (A). Ví dụ, chọn phƣơng trình phi tuyến của
Michailow
<i>Trong phƣơng trình này, a và b là các tham số đƣợc ƣớc lƣợng. </i>
Chúng ta có thể áp dụng phƣơng pháp tuyến tính hóa cho phƣơng trình
Michailow bằng cách lấy logarit tự nhiên cả 2 vế của phƣơng trình, ta đƣợc:
( ) ( )
( ) ( )
Đặt ( ) , ( ) , ,
Ta có phƣơng trình tuyến tính nhƣ sau:
Chúng ta tính tốn các tham số của phƣơng trình trên nhƣ cho phần hồi quy
nhiều lớp (Multiple Regression). Từ các tham số đã đƣợc ƣớc lƣợng cho hàm tuyến
tính, chúng ta có thể tính các tham số cho phƣơng trình Michailow nhƣ sau:
và
69
<b>Bảng 9.1. Chiều cao vút ngọn và đƣờng kính ngang ngực D1.3 của 83 cây rừng </b>
<b>tự nhiên trạng thái IIIB ở xã Tân Xuân, huyện Vân Hồ, tỉnh Sơn La. </b>
<b> (Nguồn Cao Danh Toàn, 2017) </b>
<b>D (cm) </b> <b>H (m) D (cm) H (m) D (cm) H (m) D (cm) H (m) </b>
6,1 5 19,1 16 7,6 6 9,9 8
16,6 13 6,1 5 8,0 6 47,1 29
9,2 7 50,6 29 21,3 16 25,8 22
76,8 36 18,5 12 22,6 17 10,5 9
25,2 18 7,0 6 31,2 22 57,3 35
22,3 15 22,9 21 9,2 7 9,2 6
23,9 19 20,7 10 20,4 17 23,6 19
8,6 6 27,7 12 29,6 16 9,2 7
15,0 13 7,6 6 17,2 12 18,8 13
28,3 22 12,4 12 36,9 25 15,3 10
7,0 5 15,0 12 21,7 18 20,7 13
20,1 16 17,8 13 29,3 20 10,2 6
29,0 21 28,0 20 11,5 9 51,9 33
8,0 7 35,7 25 19,4 15 12,7 8
33,1 25 16,2 11 13,1 11 21,3 16
22,6 18 8,9 10 18,8 15 13,4 8
19,7 17 71,3 32 10,5 9 24,2 18
8,0 9 11,5 10 28,3 10 16,2 12
25,2 19 6,4 4 25,5 14 26,1 20
6,7 5 14,3 12 16,6 8 16,9 11
18,8 15 21,7 17 40,1 21
<i><b>Thực hiện quy trình sau: Statistics/Advanced Models/Fixed Nonlinear </b></i>
70
<i><b>LN(X)/OK/Variables: Dependent variables: chọn H, Independent variables: chọn </b></i>
<i><b>LN-V1 (là ln(D))/OK/Summary: Regression results. </b></i>
Kết quả nhƣ sau:
Từ bảng trên ta có, hệ số tự do a = -19,181 và hệ số hồi quy b = 11,716. Hai
tham số a và b đều tồn tại trong tổng thể vì để có giá trị p-value = 0,000 < 0,05.
Vậy phƣơng trình logarithm biểu diễn mối quan hệ giữa chiều cao vút ngọn và đƣờng
kính ngang ngực là: H = -19,181 + 11,716.ln(D). Hệ số xác định R2 bằng 0,864.
71
<b>Chƣơng 10 </b>
<b>HỒI QUY PHI TUYẾN (NONLINEAR REGRESSION) </b>
<b>10.1. Giới thiệu </b>
Chúng ta đã thấy trong Chƣơng tập 10 rằng để giải các hàm phi tuyến, có thể
dùng cách sử dụng hộp thoại "Fixed New Linear Regression". Tuy nhiên, có những
hàm khác mà không thể xử lý theo cách này, ví dụ nhƣ hàm tăng trƣởng của
Chapman-Richards.
( <sub>)</sub>
Trong đó a, b và c là các tham số cần đƣợc ƣớc tính.
Cơng cụ để giải quyết các hàm mà không thể chuyển về dạng tuyến tính
trong STATISTICA, đƣợc gọi là “ƣớc lƣợng phi tuyến” ("Nonlinear Estimation").
<b>10.2. Sử dụng hộp thoại "Ƣớc lƣợng phi tuyến" </b>
Bắt đầu hộp thoại "Nonlinear Estimation" qua trình đơn
"Statistics/Advanced Linear & Nonlinear Models". Có một số dạng phân tích mà
chúng ta có thể lựa chọn.
User-specified regression: Cho phép áp dụng bất kỳ hàm nào trong hồi quy.
Logit and Probit regression: đƣợc sử dụng nếu biến phụ thuộc là biến nhị
thức (cụ thể là biến phụ thuộc chỉ có hai giá trị là 0 và 1).
Exponential functions: có dạng (
72
Để tìm phƣơng trình lý thuyết phù hợp với đƣờng cong tăng trƣởng trên,
chúng ta chọn "User-specified regression, custom loss function". Nhấp vào
và nhập phƣơng trình:
Thay vì dùng tên biến (ví dụ nhƣ H, A) bạn cũng có thể sử dụng các ký hiệu
v3 và v1 (tƣơng ứng với biến H và A). Nếu có các giá trị bị thiếu trong tập dữ liệu,
Trong cửa sổ tiếp theo có thể thấy tất cả các thơng tin về mơ hình của chúng
tơi. Bấm vào , chọn .
Ví dụ, đối với hàm Chapman-Richards chúng ta chọn a = 20, b= 0.1 và c = 1.
Sau đó, giữ tất cả các giá trị mặc định và nhấn OK.
73
Nhấp vào "Advanced" để có kết quả chi tiết. tạo
ra một bảng cho các ƣớc lƣợng của ba tham số a, b và c.
Do đó hàm hồi quy là ( <sub>)</sub>
cho biểu đồ đàm mây điểm giữa chiều cao (H) và
tuổi (A) với hàm hồi quy ƣớc lƣợng.
Ví dụ 10.1: Biểu diễn mối quan hệ giữa chiều cao vút ngọn và đƣờng kính
ngang ngực theo số liệu trong bảng 9.1 theo dạng hàm Power: H = a.bD
<b>Bảng 10.1. Chiều cao vút ngọn và đƣờng kính ngang ngực D1.3 của của </b>
<b>142 cây rừng gỗ tự nhiên núi đất lá rộng thƣờng xanh nghèo </b>
<b>ở huyện Vân Đồn, tỉnh Quảng Ninh. </b>
(Nguồn Nguyễn Thanh Sơn, 2017)
<b>D (cm) H (m) D (cm) H (m) D (cm) H (m) D (cm) H (m) </b>
19,8 13,0 15,6 10,5 6,3 5,0 18,5 12,5
20,6 15,0 14,3 8,5 12,3 8,5 7,7 5,5
23,2 15,0 12,0 7,5 12,1 8,5 10,5 7,5
14,8 9,5 12,3 8,5 14,9 9,5 17,7 11,5
13,0 8,5 8,0 6,5 6,5 5,0 6,9 5,5
23,1 15,0 16,2 11,5 18,6 12,5 9,9 6,5
8,0 6,5 12,3 9,5 19,3 14,5 17 11,5
74
<b>D (cm) H (m) D (cm) H (m) D (cm) H (m) D (cm) H (m) </b>
10,0 7,5 10,0 7,5 15,2 9,5 6,3 5
9,6 7,0 12,3 8,5 10 6,5 7,9 5,5
16,3 11,5 7,9 6,5 12 7,5 8,4 6,5
8,0 6,5 14,0 8,5 14 8,5 6,2 5
9,2 7,0 13,5 9,5 14 10,5 7,5 5,5
6,3 5,0 10,0 7,5 13 8,5 8,5 6,5
15,0 10,5 13,2 9,5 13 8,5 8,2 6,5
14,0 10,5 21,0 15,0 8 6,5 19 13,5
9,2 7,0 16,3 11,5 9,1 7 6,8 5
13,6 10,5 14,2 9,5 9,4 7 26,5 17,5
15,7 11,5 15,3 11,5 11,1 8,5 14,6 10,5
8,9 7,5 15,7 10,5 23 16,5 6,9 5,5
11,2 7,5 16,0 10,5 20 15,5 13,2 10,5
15,9 10,5 12,6 9,5 24,8 17 6,8 5,5
6,9 5,0 13,1 9,5 33,5 22,5 8 6
16,2 10,5 8,6 6,5 23,5 16,5 9,5 7
6,3 5,0 13,1 7,5 14 9,5 13 9,5
31,5 18,5 14,0 9,5 11,1 8 10,3 7,5
10,3 7,5 10,1 7,5 9 6,5 9 7
7,6 5,5 25,1 16,5 6,5 5 12,8 10,5
12,5 8,5 11,8 8,0 7,4 5,5 23,5 16,5
10,3 7,5 8,3 6,5 16,2 11,5 8,6 5,5
9,9 7,5 10,8 7,5 15,2 11,5 6,2 5
26,4 16,5 10,7 7,5 16,9 12 10,8 7,5
8,1 5,5 8,7 5,5 9,2 6,5 8,7 6,5
13,2 9,5 6,7 5,0 6 5 16,7 12,5
10,0 7,5 16,8 11,5 16,6 12
75
Thực hiện quy trình sau: Statistics/Advanced Models/Nonlinear
Estimation/User-specified regression, custom loss function//OK/Function to be
estimated & loss function/Estimated function: đánh công thức của hàm phi tuyến H
= a*b**D/OK/OK/Summary: Parameter estimates.
Kết quả nhƣ sau:
Tham số a = 4,479 và tham số b = 1,053, vậy phƣơng trình phi tuyến biểu
diễn mối quan hệ giữa chiều cao vút ngọn và đƣờng kính ngang ngực là:
76
<b>Chƣơng 11 </b>
<b>PHÂN TÍCH PHƢƠNG SAI MỘT NHÂN TỐ (ONE-WAY ANOVA) </b>
<b>11.1. Giới thiệu </b>
Nhìn chung, mục đích của phân tích phƣơng sai là để kiểm tra sự khác biệt
giữa nhiều giá trị trung bình. Tên này bắt nguồn từ thực tế là để kiểm định thống kê
giữa các giá trị trung bình, nhƣng thực sự thì chúng ta đi so sánh (hay phân tích)
các phƣơng sai.
Điều này đƣợc thực hiện bằng cách phân chia tổng phƣơng sai thành các
phƣơng sai thành phần là phƣơng sai ngẫu nhiên (SSerror), phƣơng sai do nhân tố
nào đó (within-group SS, between groups SS, SSEffect). Nếu tỷ số của các thành
phần này cao đáng kể, chúng ta bác bỏ giả thuyết khơng là khơng có sự khác biệt
giữa các giá trị trung bình và chấp nhận đối thuyết rằng có ít nhất hai giá trị trung
bình là khác nhau.
Ví dụ: Phân tích dữ liệu từ một thí nghiệm phân bón đã đƣợc tiến hành, so
sánh sự khác nhau giữa nhân tố đối chứng (A) với các nhân tố phân bón dùng
phosphate (B) và nitơ (C). Biến quan sát ở đây là tăng trƣởng đƣờng kính cm/năm
và trong dữ liệu đƣợc đặt tên là Growth.
77
Trong cửa sổ tiếp theo, một bản tóm tắt về đặc tả mơ hình đƣợc đƣa ra. Có
một biến phụ thuộc (tăng trƣởng_growth) và một biến phân nhóm (fert) với ba mã
(A, B, C). Ở phần dƣới cùng của cửa sổ, rất nhiều thông tin đƣợc cung cấp trong
Thứ nhất, hiển thị kết quả thống kê trong các nhóm phân bón bằng cách nhấp
vào nút . Giá trị trung bình, độ lệch chuẩn và số lần quan sát
đƣợc đƣa ra cho mỗi nhóm phân bón. Trên bạn có thể chọn các thống kê
mơ tả khác nhƣ tổng (sum), giá trị nhỏ nhất (min), giá trị lớn nhất (max),...
<b>11.2. Các bộ phận của tổng các bình phƣơng (SS) </b>
Lý thuyết ANOVA dựa trên thực tế là tổng bình phƣơng (SSTotal_sum of
squares) có thể đƣợc phân tách thành phƣơng ngẫu nhiên (SSError) và phƣơng giữa
các nhóm (SSEffect).
<sub> </sub> <sub> </sub> <sub> </sub>
Sự biến động trong nhóm (SSError) thƣờng đƣợc gọi là phƣơng sai ngẫu
78
cho phần biến động này ở thí nghiệm hiện tại. Tuy nhiên, chúng ta có thể giải
thích SSEffect. Phần phƣơng sai này là do sự khác biệt giữa các giá trị trung bình
giữa các nhóm.
SS có thể đƣợc hiển thị bằng cách sử dụng nút trong
.
Bảng kết quả chứa tổng bình phƣơng với bậc tự do tƣơng ứng (df) và phƣơng
sai (SS/df). Trong ví dụ này, SSEffect =160200.8, SSError =6373.9, do đó:
SSTotal =160200.8 + 6373.9 =166574.
Chúng ta có:
<sub> </sub>
<sub> </sub>
Và <sub> </sub>
Thông thƣờng, tất cả các SS và MS đƣợc hiển thị trong một bảng (gọi là
bảng ANOVA):
Kết quả so sánh dựa trên tỉ số giữa phƣơng sai của nhân tố thí nghiệm
(MSEffect) với phƣơng sai ngẫu nhiên (MSError). Theo giả thuyết không (khơng có sự
khác biệt giữa các giá trị trung bình của các nhóm trong quần thể). Vì vậy, nếu H0
là đúng, thì phƣơng sai của nhân tố thí nghiệm nhỏ hơn so với phƣơng sai ngẫu
nhiên.
<sub> </sub>
Khi giả thiết khơng có sự khác biệt giữa các giá trị trung bình của các nhóm
là đúng, tiêu chuẩn kiểm tra thống kê này tuân theo phân bố F với bậc tự do là
dfEffect và dfError . Do đó, chúng ta từ chối giả thuyết, khi F tính đƣợc lớn hơn giá trị
79
<i>Với giá trị p-value nhỏ hơn 0,05, vì vậy chúng ta có thể bác bỏ giả thuyết H</i>0,
nghĩa là có sự khác biệt đáng kể giữa các số trung bình của các nhóm.
<b>11.3. Tiêu chuẩn Post hoc (Post hoc tests) </b>
Thơng thƣờng, sau khi có đƣợc kết quả kiểm tra bằng tiêu chuẩn F từ phân
tích phƣơng sai ANOVA, ngƣời ta muốn biết những số trung bình nào nằm trong
cùng một nhóm và những nhóm nào đặc biệt khác nhau.
Nút sẽ mở một bảng với nhiều tiêu chuẩn kiểm tra sự sai khác
giữa các số trung bình.
Chúng tôi khuyên bạn nên sử dụng tiêu chuẩn "Tukey HSD (honest
significant difference) test" nếu dung lƣợng mẫu ở tất cả các nhóm bằng nhau và
tiêu chuẩn "Tukey HSD for unequal sample sizes (Spjotvoll & Stoline test)" trong
trƣờng hợp dung lƣợng mẫu ở tất cả các nhóm khơng bằng nhau.
80
Chúng ta thấy rằng cả hai B và C đều khác biệt đáng kể so với A, trong khi
khơng có sự khác biệt đáng kể giữa B và C (p = 0.104).
<b>11.4. Kiểm tra các điều kiện cho ANOVA </b>
Phân tích trong ANOVA dựa trên hai điều kiện chính sau:
1. Dữ liệu quan sát trong mỗi nhóm phải có phân bố chuẩn
2. Phƣơng sai trong tất cả các nhóm phải bằng nhau.
Chúng tơi sử dụng tiêu chuẩn Levene để kiểm tra sự bằng nhau của các
phƣơng sai ( ).
<i>Giả thuyết về sự bằng nhau của các phƣơng sai đƣợc chấp nhận vì p-value = 0,287. </i>
Nếu dung lƣợng mẫu ở tất cả các nhóm đủ lớn, chúng ta có thể kiểm tra điều
kiện (1) riêng cho từng nhóm bằng cách sử dụng hộp thoại "Nonparametric
statistics" (dùng tiêu chuẩn Kolmogorov-Smirnov hoặc Shapiro-Wilk) (xem lại
Chƣơng 7) hoặc kiểm tra phân bố của số dƣ. Số dƣ (residuals) có thể đƣợc ghi vào
một bảng tính mới bằng cách mở hộp thoại “More results”, “Residuals 1” và
“Save” trong thực đơn Oneway-ANOVA. Bạn cũng có thể vẽ phân bố của số dƣ
bằng cách mở hộp thoại . Nếu số dƣ có phân bố chuẩn
81
Ví dụ 11.1: Kết quả đo chiều cao của một loài cây theo 5 xuất xứ khác nhau
đƣợc cho trong bảng 11.1 sau:
<b>Chiều cao </b>
<b>Xuất xứ </b>
<b>1 </b> <b>2 </b> <b>3 </b> <b>4 </b> <b>5 </b>
28 33 23 21 63
34 31 27 28 126
33 37 12 70
20 15
30
Hỏi các xuất xứ khác nhau thì sinh trƣởng chiều cao của cây có khác nhau
khơng? Cho biết mức ý nghĩa bằng 0,05.
82
Đặt giả thuyết:
H0: Các xuất xứ khác nhau cho sinh trƣởng chiều cao là nhƣ nhau;
H1: Các xuất xứ khác nhau cho sinh trƣởng chiều cao là khác nhau.
<i><b>Quy trình nhƣ sau: Statistics/Basic Statistics & Tables/Breakdown & </b></i>
<i><b>one-way ANOVA/OK/Variables/Dependent variables: chọn biến “chieu cao”, </b></i>
<i><b>Grouping variables: chọn biến “Xuat xu”/OK/Codes for grouping variables: chọn </b></i>
Kết quả nhƣ sau:
<i>Kết quả cho thấy, giá trị p-value = 0,000737 nhỏ hơn 0,05, vì vậy chúng ta </i>
có thể bác bỏ giả thuyết H0, nghĩa là các xuất xứ khác nhau thì cho sinh trƣởng
chiều cao là khác nhau.
83
Kết quả nhƣ hình sau:
Kết quả cho thấy rằng 4 xuất xứ (1, 2, 3, 4) là khơng có sự sai khác nhau (các
giá trị p-value lớn hơn 0,05) và đều khác biệt đáng kể so với xuất xứ 5 (các giá trị
p-value nhỏ hơn 0,05).
Quay trở lại phần điều kiện của phân tích phƣơng sai (ANOVA), thực hiện
<i><b>tiếp quy trình sau: ANOVA & test, chọn Categorized normal prob. plots. </b></i>
Kết quả nhƣ sau:
84
Tiếp tục chọn Levene tests để kiểm tra sự bằng nhau của các phƣơng sai.
Kết quả nhƣ sau:
Giá trị p-value = 0,000627 < 0,05, vậy phƣơng sai các tổng thể không
bằng nhau.
Từ việc kiểm tra 2 điều kiện của phân tích phƣơng sai cho thấy, hai điều kiện
Kết quả của phân tích phƣơng sai nhƣ sau:
<i>Kết quả cho thấy, giá trị p-value = 0,000190 nhỏ hơn 0,05, vì vậy chúng ta </i>
có thể bác bỏ giả thuyết H0, nghĩa là các xuất xứ khác nhau thì cho sinh trƣởng
chiều cao là khác nhau.
85
Kết quả kiểm tra điều kiện của phân tích phƣơng sai: (1) Các tổng thể có
phân bố chuẩn:
Từ biểu đồ cho thấy, số dƣ của 5 xuất xứ có phân bố chuẩn.
(2) sự bằng nhau của các phƣơng sai tổng thể:
86
<b>Chƣơng 12 </b>
<b>PHÂN TÍCH PHƢƠNG SAI HAI NHÂN TỐ (TWO-WAY ANOVA) </b>
Ví dụ chúng ta đi phân tích dữ liệu sau:
<b>Phân bón </b> <b>Khoảng cách </b> <b>Tăng trƣởng thể tích </b>
1 1 18,4
1 1 17,6
2 1 23,7
2 1 24,3
3 1 30,1
3 1 27,9
1 2 17,9
1 2 17,1
2 2 22,3
2 2 21,7
3 2 24,9
3 2 26,3
1 3 15,3
1 3 14,7
2 3 17,6
2 3 18,3
3 3 20,8
3 3 21,2
1 4 9,8
1 4 10,3
2 4 13,0
2 4 13,5
3 4 14,9
87
Để phân tích dữ liệu này trong STATISTICA, chúng ta phải tạo một tập tin
dữ liệu STATISTICA với ba cột ( một cột cho nhân tố "Phân bón”, một cột cho
nhân tố "Khoảng cách" và một cột cho biến phụ thuộc "Tăng trƣởng thể tích". Vì
vậy, tập tin dữ liệu phải có dạng sau:
88
Trong cửa sổ tiếp theo, xác định các nhân tố cần phân tích và biến phụ thuộc.
Giống nhƣ trong phân tích ANOVA một nhân tố đã đƣợc mô tả trong Chƣơng tập
12, chúng ta phải xác định mã của các nhân tố mà chúng ta muốn phân tích (chọn
"Codes for between-groups factors" → "All"). Trong chọn
"Parametrization" (trong trƣờng hợp dung lƣợng mẫu không bằng nhau chọn "type
III sum of squares").
"Sigma-restricted" yêu cầu Σαi = 0, "No intercept" nghĩa là µ= 0.
Nhấp vào OK sẽ cho chúng ta kết quả phân tích ANOVA 2 nhân tố.
Nhấp vào "All effects" để có đƣợc một bảng có các giá trị nhƣ tổng biến
động (SS), bậc tự do (Degr. of Freedom), phƣơng sai (MS) kết quả kiểm tra theo
<i>tiêu chuẩn F (F) và giá trị p-value tƣơng ứng. </i>
Nhân tố “Phân bón” đƣợc dán nhãn “phan bon” và “Khoang cach” là nhãn
của nhân tố “Khoảng cách”. Dịng có gắn nhãn “Phan bon*Khoang cach” là kết quả
của sự tƣơng tác giữa nhân tố phân bón và nhân tố khoảng cách. Cả hai nhân tố đều
<i>có giá trị p-value <0,05, do đó cả nhân tố phân bón và khoảng cách đều có ảnh </i>
hƣởng đến tăng trƣởng thể tích. Giá trị p-value cho tƣơng tác giữa hai nhân tố cũng
cho thấy rằng ảnh hƣởng của khoảng cách đối với tất cả các loại phân bón là khơng
giống nhau (hoặc, ngƣợc lại, ảnh hƣởng của phân bón đối với tất cả các khoảng
cách là không giống nhau).
89
<i>Trong đó: µ là trung bình chung, αi là ảnh hƣởng của phân bón i (i = 1, 2, 3), </i>
<i>βj là ảnh hƣởng của khoảng cách j (j =1, 2, 3, 4), αβij là tƣơng tác qua lại giữa phân </i>
<i>bón i và khoảng cách j. </i>
Đặt giả thuyết: H0: ∑ H1: ∑
Kết quả ở dòng có nhãn PHOS: Bác bỏ giả thuyết H0, nghĩa là tăng âm thể
tích ở các nhóm phân bón là khơng giống nhau.
Giải thích tƣơng tự cho các dòng các nhãn “Khoang cach” và “Phan
bon*Khoang cach”.
Nút sẽ mở ra một hộp thoại mà chúng ta có thể minh họa ảnh
hƣởng của nhân tố phân bón và khoảng cách tới tăng trƣởng thể tích bằng đồ họa.
90
Tiêu chuẩn Tukey HSD-test đƣợc tìm thấy ở trong bảng kết quả ANOVA
trong “Post-hoc” và “More results”, kiểm tra sự bằng nhau của các phƣơng sai
trong “Assumptions” và “More results”, và các tham số ƣớc lƣợng trong
“coefficients” mục “summary”.
91
<b>Chƣơng 13 </b>
<b>PHÂN TÍCH HIỆP PHƢƠNG SAI (ANCOVA) </b>
<b>13.1. Giới thiệu </b>
Phân tích hiệp phƣơng sai là phân tích kết hợp giữa phân tích phƣơng sai và
phân tích hồi quy.
Ví dụ chúng ta có dữ liệu về 22 lần đo nhiệt độ vào tháng 2 ở các độ cao
khác nhau ở các trạm phía Đơng và phía Tây của một khu vực miền núi. Trong đó,
13 lần đo đƣợc đo ở các trạm phía Tây và 9 lần đo đƣợc đo ở các trạm phía Đơng.
<b>Vị trí </b> <b>Nhiệt độ </b> <b>Độ cao </b>
Tây -2,4 613
Tây -1,2 314
Tây -1,8 544
Tây 0,1 235
Tây -0,1 175
Tây -1,8 495
Tây 0,4 168
Tây 0,4 210
Tây 0,6 123
Tây -1,2 399
Tây -0,2 190
Tây -0,1 222
Tây 0 171
Đông 0,1 200
Đông 0,2 320
Đông -1,6 566
Đông -1,6 556
Đông 0,5 265
Đông -0,4 324
Đông -4,5 1142
Đông -2 607
92
<i>Nếu chúng ta dùng tiêu chuẩn t dành cho 2 mẫu độc lập thì kết quả cho </i>
thấy nhiệt độ trung bình ở phía Đơng và phía Tây khơng có sự sai khác nhau
(với α = 0,05).
Tuy nhiên, thƣờng thì nhiệt độ khơng khí phụ thuộc vào độ cao của các trạm
khí tƣợng thủy văn. Để giải quyết vấn đề này có thể đƣợc thực hiện bằng cách phân
tích cả yếu tố độ cao (X) trong mơ hình thống kê. Yếu tố độ cao này đƣợc coi là
hiệp biến (covariate). Do đó, ta có mơ hình nhƣ sau:
( )
<i>Trong đó αi là yếu tố địa hình (Đơng, Tây), Đơng j = 1, 2,…, 9; Tây i = 1, 2,…,13. </i>
β là hệ số hồi quy chung trong đƣờng hồi quy nhiệt độ - độ cao (temperature -
elevation) của hai phía Đơng và Tây.
Bây giờ, chúng ta sẽ kiểm tra xem nhiệt độ trung bình trong ở phía Đơng và
Tây có khác nhau khơng. Trƣớc hết, chúng ta thực hiện phân tích phƣơng sai một
nhân tố (one-way ANOVA nhƣ Chƣơng 12). Trong phân tích này, vị trí (phía Đơng
và Tây ) là biến phân nhóm (biến độc lập) và nhiệt độ là biến phụ thuộc. Các kết
quả đƣợc đƣa ra trong bảng sau. Lƣu ý rằng chúng ta cũng có thể sử dụng tiêu
<i>chuẩn t vì chúng ta muốn so sánh chỉ có hai nhóm. </i>
93
Trong phân tích hiệp phƣơng sai (ANCOVA), chúng ta sẽ phân tích đồng
thời biến là biến vị trí (phía Đơng và phía Tây) và biến độ cao.
Thay vì mơ phỏng dữ liệu bằng một đƣờng hồi quy chung, chúng ta sẽ mơ
phỏng cho mỗi vị trí bằng một đƣờng hồi quy nhƣng có cùng giá trị hệ số hồi quy.
Sau đó chúng ta xác định xem hai đƣờng hồi quy này có khác nhau khơng.
<b>13.2. Thực hiện ANCOVA trong STATISTICA </b>
Chọn mục trình đơn "Statistics/Advanced Linear/Nonlinear Models/General
Linear Models", sau đó chọn "Analysis of covariance" và nhấp vào OK.
Hộp thoại mở ra, nhập biến phụ thuộc ("dependent variable") là nhiệt độ
(Nhiet do), biến phân nhóm ("categorical predictor") là vị trí (Vi tri), biến tƣơng tác
("continuous predictor") là độ cao (Do cao). Trong chọn "All".
94
Có hai nhân tố ảnh hƣởng tới mơ hình là nhân tố "độ cao" và nhân tố "vị trí".
Cả hai nhân tố này đều có ảnh hƣởng rõ tới mơ hình vì p < 0,05. Chúng ta đã chọn
Ở đây đƣa ra giả thuyết là các hệ số hồi quy là bằng nhau bởi vì sự tƣơng tác
giữa độ cao và vị trí khơng khác biệt đáng kể so với 0 (mơ hình độ đồng nhất về hệ
số hồi quy trong STATISTICA).
<b>13.3. Tính tốn các đƣờng hồi quy song song </b>
Để tính các hệ số tự do (intercepts) và hệ số hồi quy (slope) của các đƣờng
hồi quy, ta tiến hành nhƣ sau. Đầu tiên chúng ta tính hệ số hồi quy. Nhấp vào nút
trong . Bảng kết qua đƣợc đƣa ra ở dƣới đây. Bạn sẽ tìm thấy
tham số hồi quy trong đƣờng có nhãn "độ cao" ("elevation") trong cột có tên
"Temperature Param.".
95
Nhấp chuột vào sẽ tạo một bảng kết quả chứa các
tham số cần ƣớc tính.
Kết quả cho thấy hệ số tự do là 1,59419 cho phía Đơng và 1.07887 cho
phía Tây.
Vì vậy, các phƣơng trình hồi quy cụ thể nhƣ sau:
y<i>east</i> =1.59419 −0.00553⋅x
y<i>Tây</i> =1.07887 −0.00553⋅x
<b>13.4. Biểu đồ của đƣờng hồi quy </b>
Bây giờ chúng ta sẽ tạo ra một biểu đồ đám mây điểm cho cả hai đƣờng
hồi quy.
96
Để biểu đồ có xuất hiện các đƣờng hồi quy, tiến hành các bƣớc nhƣ mô tả
trong Chƣơng tập 10, tức là nhấp chuột vào bất kỳ vị trí nào trong biểu đồ bằng
chuột phải, mở hộp thoại "Graph Properties (All Options)" và . Nhấp
chuột vào và gõ vào phƣơng trình hồi quy đầu tiên
Y=1.59419−0.00553*X. Sau đó bấm vào một lần nữa và gõ vào
phƣơng trình thứ hai Y=1.07887−0.00553*X. Cả hai đƣờng hồi quy này sẽ xuất
hiện trên biểu đồ.
Để thay đổi dạng đƣờng của các đƣờng hồi quy, nhấp đúp vào bất cứ vị trí
nào trên đƣờng hồi quy đó và mở hộp thoại "Pattern" qua nút .
97
<b>Chƣơng 14 </b>
<b>HỒI QUY LOGISTIC (LOGISTIC REGRESSION) </b>
Hồi quy logistic còn đƣợc gọi là tuyến tính tổng quát (Generalized Linear
<i>Biến phụ thuộc là xác suất p phụ thuộc vào độ tuổi của cây và khoảng cách. </i>
Do đó, phƣơng pháp tiếp cận đầu tiên có thể là một mơ hình tuyến tính nhƣ sau:
<i>với i = 1, 2 (2 cấp tuổi) </i>
Ngồi ra, phƣơng trình trên cũng có thể đƣợc viết nhƣ là một mơ hình hồi
<i>quy tuyến tính với hiệp biến (covariate) x và một biến giả D. </i>
<i> (D = 1 nếu tuổi > 55) </i>
Nghĩa là và . Nhƣ vậy, những cây có tuổi lớn
hơn 55 (age > 55) trong khoảng cách x có xác suất bị bệnh từ trung bình đến cao là
, cịn những cây có tuổi nhỏ hơn 55 có xác suất là .
Tuy nhiên, mơ hình này có thể cho xác suất lớn hơn 1 hoặc nhỏ hơn 0 bởi vì
sự phụ thuộc vào khoảng cách đƣợc mơ phỏng bằng một đƣờng thẳng có hệ số hồi
<i>quy β</i>2<i>. Để tránh trƣờng hợp này, các giá trị p đƣợc chuyển từ khoảng [0,1] đến [0, ∞) </i>
<i>bằng p → p/(1-p) cuối cùng là (- ∞, ∞) bằng cách lấy logarithm tự nhiên. Các giá </i>
<i>trị p đƣợc chuyển đổi sau đó đƣợc giải thích bởi một mơ hình tuyến tính. </i>
(
)
<i>Và đƣợc gọi là logits. Cho x và D, p có thể đƣợc tính bằng </i>
<sub> ( </sub> ( <sub> </sub> <sub> </sub> )<sub> )</sub>
<b>14.1. Hồi quy logistic với hai biến (khoảng cách và tuổi) là các biến độc lập </b>
98
99
Bảng trên đƣa ra kết quả ƣớc lƣợng các tham số (trong cột thứ ba) và giá
<i>trị p-value của tiêu chuẩn Wald (trong cột cuối) của mơ hình phân tích hiệp </i>
phƣơng sai.
(<sub> </sub>) <i>với i = 1, 2 </i>
<i>Trong đó x là khoảng cách đến đƣờng hồi quy, αi</i> mô tả hƣởng của hai cấp
<i>tuổi. Nhƣ vậy, chúng ta có hai đƣờng hồi quy với hệ số hồi quy bằng nhau là β và </i>
<i>các hệ số tự do là μ + αi</i>.
Tiếp tục chọn "Aggregation" và "Goodness of fit". Kết quả nhƣ sau:
Bậc tự do (degrees of freedom – df) là hiệu số giữa dung lƣợng tổng thể và
số lƣợng các tham số có ảnh hƣởng trong mơ hình df=12-3=9. Ở ví dụ này, mơ
hình có 3 tham số, trong đó có 2 hệ số tự do và 1 hệ số hồi quy.
Độ lệch (Deviance) và tiêu chuẩn χ2
100
giá trị tra bảng (giá trị theo mức ý nghĩa) theo phân bố χ2 với bậc tự do là 9
(χ2
9;0,05 = 3.325).
Kết quả cho thấy có sự thiếu phù hợp với mơ hình (p=0.000274).
101
Kết quả cho thấy, các tham số ƣớc lƣợng không thay đổi, nhƣng tiêu chuẩn
<i>Wald với các giá trị p-value và mức độ phù hợp của đƣờng hồi quy với các giá trị </i>
thực nghiệm đã thay đổi.
Các tỷ lệ Pearson’s Chi2 (Pearson/(Pearson/df)) và Deviance
(Deviance/(Deviance/df) bây giờ gần 1, giá trị AIC giảm từ năm 2003 xuống còn
580. Biến khoảng cách (khoang cach) có ảnh hƣởng đáng kể tới mô hình, nhƣng
các cấp tuổi (tuoi) lại khơng ảnh hƣởng đáng kể tới mơ hình, kết quả này tƣơng tự
<i>nhƣ trƣớc nhƣng có các giá trị p-value lớn hơn. </i>
<b>14.2. Hồi quy logistic với một biến (khoảng cách) </b>
103
Khoảng cách (khoang cach) có ảnh hƣởng đáng kể tới mô hình, và giá trị
Scale khơng bằng 1 cho thấy số liệu bị phân tán quá mức đã đƣợc hiệu chỉnh.
<b>14.3. Biểu đồ đám mây điểm và hàm hồi quy logistic </b>
104
Để tạo ra một đồ thị đám mấy điểm cho các hàm phi tuyến tính mơ tả xác
suất của bệnh (disease probability), cần thêm một cột bổ sung trong bảng tính dữ
liệu, cột này có chứa các tần số tƣơng đối quan sát đƣợc của cây bệnh.
105
<i>Biến đổi nghịch đảo đƣợc tìm thấy bằng cách giải phƣơng trình logit cho p </i>
nhƣ sau (đối với phƣơng pháp tuyến tính đơn).
(
) ( ) ( )
( )
( )
( )
( )
106
<b>Chƣơng 15 </b>
<b>TIÊU CHUẨN XẾP HẠNG (RANK TESTS) </b>
<i>Với các tiêu chuẩn truyền thống nhƣ tiêu chuẩn t, cần các giả thuyết nhƣ </i>
phân bố chuẩn hoặc q trình tính tốn phải dựa vào các đặc trƣng mẫu nhƣ số
Ví dụ sau đây là số liệu về sinh khối của một thí nghiệm đƣợc thiết kế để
kiểm tra hiệu quả của một loại vitamine đối với sự phát triển của nấm. Trong số 22
loại nấm thì có 12 loại đƣợc chọn ngẫu nhiên và đƣợc dùng vitamin, 10 loại khác
đƣợc dùng làm đối chứng. Kết quả sinh khối đƣợc cho trong bảng sau:
Vitamin 2,91 3,32 3,10 2,88 2,02 2,60 2,15 2,84 1,91 3,11 3,57 3,42
Đối
chứng
1,80 1,56 1,47 1,32 2,31 2,51 2,15 1,65 2,04 1,02
107
- Chọn "Statistics/Nonparametric/Comparing two independent samples
(groups) ", chọn "the variables" và "the Mann-Whitney U-test".
- Tính giá trị Z bằng tay
Kết quả nhƣ sau:
Kết quả cho thấy khơng có giá trị nào bị lặp lại, bởi vì Z và Zadjusted không
<i>khác nhau. Giá trị p cho phép kiểm định hai chiều là 0,00043 và giả thuyết H</i>0 bị
<i>bác bỏ (p-value < 0,05), nghĩa là sinh khối giữa 2 nhóm là khác nhau. Giá trị </i>
Z-value đƣợc tính nhƣ sau:
√
√
-0.5 đƣợc gọi là giá trị hiệu chỉnh.
108
<b>TÀI LIỆU THAM KHẢO </b>
<b>A. Tiếng Việt </b>
<i>1. Ngô Kim Khôi (1998). Thống kê toán học trong Lâm nghiệp. Nxb. </i>
<b>Nông nghiệp. </b>
<i>2. Ngô Kim Khôi, Nguyễn Hải Tuất, Nguyễn Văn Tuấn (2002). Tin học </i>
<i>ứng dụng trong Lâm nghiệp. Nxb. Nông nghiệp. </i>
<i>3. Nguyễn Hải Tuất 1982. Thống kê toán học trong lâm nghệp. Nxb. </i>
<i>Nông nghiệp. </i>
<i>4. Nguyễn Hải Tuất, Nguyễn Trọng Bình (2005). Khai thác và sử dụng </i>
<i>SPSS để xử lý số liệu nghiên cứu trong Lâm nghiệp. Nxb. Nông nghiệp. </i>
<i>5. Nguyễn Hải Tuất, Ngô Kim Khôi (1996). Xử lý thống kê các kết quả </i>
<i>nghiên cứu thực nghiệm trong nông lâm nghiệp trên máy vi tính. Nxb. Nơng nghiệp. </i>
<i>6. Nguyễn Hải Tuất, Ngô Kim Khôi (2009). Thống kê sinh học. Nxb. </i>
Nông nghiệp.
<b>B. Tiếng Anh </b>
<i>1. Cobb, G. W. (1998). Introduction to Design and Analysis of Experiments. </i>
Springer, Berlin.
<i>2. Joachim S., (2016). Biometric data analysis and experiment planning. </i>
Lecture note, Georg-August-Universität Göttingen.
<i>3. K Jayaraman (2000). A Statistical Manual for Forestry Research - do </i>
FAO xuất bản tại Bangkok
<i>4. Mickey, R.M.; Dunn, O.J.; Clark, V.A. (2010). Applied Statistics: Analysis </i>
<i>of Variance and Regression. Wiley New York. </i>
<i>5. Sokal, R. R.; Rohlf, F. J. (1995). Biometry. W. H. Freeman and Company, </i>
New York.
<i>6. Van Laar, A. (1991). Forest Biometry. University of Stellenbosch, </i>
South Africa.
<i>7. Yandell, B. S. (1997). Practical Data Analysis For Designed Experiments. </i>
Chapman & Hall, London.