Phân tích một số mô hình thí nghiệm thông dụng trong lâm nghiệp với sự trợ giúp của phần mềm spss và phần mềm r

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.67 MB, 109 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

BỘ NÔNG NGHIỆP VÀ PTNT

TRƯỜNG ĐẠI HỌC LÂM NGHIỆP

------------------------

NGUYỄN VIỆT HƯNG

Ph©n tÝch vµ xö lý sè liÖu
cho mét sè m« h×nh thÝ nghiÖm th«ng dông
trong l©m nghiÖp víi sù trî gióp cña phÇn
mÒm SPSS vµ phÇn mÒm R

LUẬN VĂN THẠC SỸ KHOA HỌC LÂM NGHIỆP

NGƯỜI HƯỚNG DẪN KHOA HỌC:
GS. TS. NGUYỄN HẢI TUẤT

Hà Nội - 2011

1

ĐẶT VẤN ĐỀ
Ứng dụng công nghệ tin học đóng vai trò quan trọng trong nghiên cứu, quản lý
tài nguyên thiên nhiên. Thông qua phân tích, thống kê dữ liệu trên các phần mềm
giúp chúng ta hệ thống hóa cơ sở dữ liệu, đánh giá các thí nghiệm, phân tích các
mối quan hệ phức tạp trong tự nhiên và với các nhân tố xã hội để tìm ra quy luật
nhằm quản lý bền vững hoặc đưa ra được những phát hiện mới.

Xử lý thống kê thông qua công nghệ tin học ngày nay đã phát triển một bước
dài, nó giúp cho con người rút ngắn được thời gian tính toán, xử lý được một lượng
lớn thông tin và có được những hiểu biết một cách khách quan các quy luật tự nhiên
và xã hội. Chính vì vậy, việc sử dụng các phần mềm trong công tác nghiên cứu
khoa học, quản lý và phân tích trong tất cả các lĩnh vực nói chung và trong ngành
lâm nghiệp nói riêng là điều không phải bàn cãi.
Do nhiều nguyên nhân khác nhau, việc áp dụng các tiến bộ về tin học trong
lâm nghiệp còn có nhiều hạn chế, đặc biệt là trong nghiên cứu và phân tích thí
nghiệm khoa học. Có thể nhận thấy các nghiên cứu có sử dụng đến các biện pháp
thí nghiệm trong lâm nghiệp thường tập trung chủ yếu vào các nghiên cứu về lâm
sinh, giống và trồng rừng... các thí nghiệm trong lĩnh vực này thường có những
dung lượng mẫu, số liệu điều tra nghiên cứu và các công thức thí nghiệm đa dạng,
có những nghiên cứu sau khi thu thập xong số liệu sử dụng nhiều phần mềm khác
nhau để xử lý và phân tích số liệu. Vì lý do này mà việc xây dựng quy trình xử lý và
phân tích số liệu trong các thí nghiệm trước đây thường rời rạc ở một số công đoạn
mà chưa phải là toàn bộ quá trình. Chính vì vậy, việc xây dựng được quy trình xử lý
và phân tích số liệu bằng một phần mềm duy nhất là một điều cần thiết.
Phân tích số liệu và biểu đồ thường được tiến hành bằng các phần mềm thông
dụng như SAS, SPSS, Stata, Statistica, và S-Plus. Đây là những phần mềm được
các công ti phần mềm phát triển và giới thiệu trên thị trường khoảng ba thập niên
qua, và đã được các trường đại học, các trung tâm nghiên cứu và công ti kĩ nghệ
trên toàn thế giới sử dụng cho giảng dạy và nghiên cứu. Trong số các phần mềm
này, phần mềm đã và đang được sử dụng rộng rãi tại Việt Nam nói chung và trong

2

ngành, trong trường Lâm nghiệp nói riêng là phần mềm SPSS.[17]. Tuy nhiên, đứng
trên khía cạnh bản quyền, để sử dụng các phần mềm này tuơng đối đắt tiền (có khi
lên đến hàng trăm ngàn đô-la mỗi năm), một số trường đại học ở các nước đang

phát triển (và ngay cả ở một số nước đã phát triển) không có khả năng tài chính để
sử dụng chúng một cách lâu dài. Do đó, các nhà nghiên cứu thống kê trên thế giới
đã hợp tác với nhau để phát triển một phần mềm mới, với chủ trương mã nguồn mở,
sao cho tất cả các thành viên trong ngành thống kê học và toán học trên thế giới có
thể sử dụng một cách thống nhất và hoàn toàn miễn phí.[17]. Phần mềm hoàn toàn
miễn phí được nói tới ở đây chính là phần mềm R.
Xuất phát từ những lý do trên, tôi đã tiến hành thực hiện đề tài: “Phân tích và
xử lý số liệu cho một số mô hình thí nghiệm thông dụng trong lâm nghiệp với sự
trợ giúp của phần mềm SPSS và phần mềm R” làm luận văn tốt nghiệp. Kết quả
nghiên cứu của đề tài sẽ giúp cho công tác xử lý, phân tích số liệu một số mô hình
thí nghiệm thông dụng trong lâm nghiệp được rút ngắn và có tính hoa học hơn.

3

Chương 1
TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU
1.1. Tổng quan về các nghiên cứu thí nghiệm trong lâm nghiệp
Theo nghĩa rộng của quan điểm triết học duy vật: “Thí nghiệm là một phần
của sự nghiệp sản xuất trong xã hội loài người, nhằm khám pháp ra các quy luật
khách quan của thế giới vật chất với mục đích nắm vững và bắt các điều bí mật của
thiên nhiên phục vụ cho cuộc sống con người”. [1]
Như chúng ta đã biết, từ cổ xưa loài người đã phải kiếm ăn để sinh sống, do
đó, con người phải biết lựa chọn, so sánh để tìm kiếm thức ăn. Song cũng chính từ
đó mà họ đã tạo ra một kho tàng các kinh nghiệm quý báu thúc đẩy xã hội phát
triển. Khi xã hội tiến lên đòi hỏi con người cũng phải nắm bắt, vận dụng các quy
luật khách quan của tự nhiên có hiệu quả hơn. Muốn làm được điều này cần phải có
phương pháp và từ đó phương pháp thí nghiệm ra đời. [1]
Nghiên cứu khoa học nói chung và khoa học lâm nghiệp nói riêng hay cụ thể
hơn là nghiên cứu khoa học trong lĩnh vực lâm học phụ thuộc rất mật thiết với điều

kiện tự nhiên và các điều kiện kinh tế - xã hội, nên việc vận dụng các phương pháp
và kết quả nghiên cứu của các nước trên thế giới có tính kế thừa, chọn lọc cho phù
hợp với điều kiện cụ thể của Việt Nam là rất cần thiết. Ngay trong phạm vi của đất
nước chúng ta không thể có tính đồng nhất về các điều kiện cụ thể cho các thực
nghiệm lâm nghiệp.Vậy nhiệm vụ của các nhà khoa học lâm nghiệp là phải nghiên
cứu, đề xuất được những biện pháp kỹ thuật thích hợp cho vùng nơi mình phụ trách
nhằm khai thác bền vững, hiệu quả các điều kiện ấy. Để có kết quả nghiên cứu đúng
và khách quan cần phải có kiến thức tổng hợp: Toán học, hóa học, thổ nhưỡng, khí
tượng, sinh học... và cả tính sáng tạo đúng đắn.
Trên thực tế có nhiều cách để phân loại các thí nghiệm trong lâm nghiệp, phân
loại có thể dựa vào đặc điểm đối tượng thí nghiệm hoặc địa điểm tiến hành thí nghiệm.
Dựa vào đặc điểm đối tượng thí nghiệm chia thí nghiệm thành 2 loại:
+ Thí nghiệm quan sát: ta chỉ đơn thuần quan sát các đối tượng thí nghiệm
và ghi lại các dữ liệu liên quan đến các tính trạng quan tâm. Chúng ta không tác

4

động để can thiệp và sự tồn tại của đối tượng quan sát. Trong loại thí nghiệm quan
sát, các đối tượng không thể bố trí một các ngẫu nhiên về các nghiệm thức.[2]
+ Thí nghiệm thực nghiệm: chúng ta can thiệp vào nghiên cứu bằng cách áp
dụng các công thức thí nghiệm khác nhau cho các nhóm đối tượng nghiên cứu. Sau
đó chúng ta tiến hành quan sát ảnh hưởng của các công thức thí nghiệm lên đối
tượng nghiên cứu. Đối với loại thí nghiệm này, các động vật được bố trí một cách
ngẫu nhiên đối với các công thức thí nghiệm trong quá trình thiết kế.[2]
Dựa vào địa điểm tiến hành thí nghiệm, người ta có thể chia thí nghiệm
thành các loại sau:
1. Nhóm thí nghiệm nghiên cứu trong phòng
Đây là loại nghiên cứu mà những thí nghiệm được thực hiện trong các phòng
thí nghiệm, điều kiện để thực hiện được các thí nghiệm đó gồm các loại dụng cụ

như: hóa chất, các máy móc phân tích, các bình, hộp, khay đựng. Nhóm các thí
nghiệm này hầu như độc lập với điều kiện tự nhiên của môi trường bên ngoài. Cho
nên các kết quả từ các thí nghiệm này được kiểm tra, điều khiển bằng các dụng cụ
có độ chính xác cao. Tuy nhiên, những số liệu này chưa được áp dụng vào thực tế.
Bởi vì, ở những môi trường nghiên cứu khác mà nhất là trên thực địa thì có rất
nhiều nhân tố sinh thái ảnh hưởng tới sinh vật (cây trồng). Hơn nữa, có nhiều nhân
tố khó có thể kiểm soát cụ thể và chính xác.
2. Nhóm thí nghiệm trong vườn ươm
Các thí nghiệm thuộc nhóm phương pháp nghiên cứu này có đối tượng
nghiên cứu là các cây trồng được gieo trồng trên bầu, túi, chậu... trong vườn ươm,
nhà lưới, nhà kính. Về điều kiện thì đối với nhóm này cây trồng đã được sống trong
một phần là điều kiện tự nhiên, còn một phần là điều kiện nhân tạo.
3. Nhóm thí nghiệm bố trí thực địa
Trong ngành nông nghiệp phương pháp này được gọi là nghiên cứu trên
“đồng ruộng”. Nhóm nghiên cứu này bao gồm những thí nghiệm mà cây trồng được
sống trong điều kiện tự nhiên. Do đó, nó chịu sự chi phối của nhiều nhân tố (gọi là

5

các nhân tố sinh thái) từ môi trường bên ngoài, những nhân tố đó là: Điều kiện thời
tiết, đất đai, các biện pháp kỹ thuật lâm sinh.... Loại thí nghiệm này có ưu điểm là:
- Số lượng cá thể lớn (dung lượng mẫu lớn)
- Gần với điều kiện sản xuấtCũng qua những kết quả thí nghiệm trên thực địa có
thể nhận định rõ thêm kết quả và kết luận của thí nghiệm trong phòng vàvườn ươm.
Những kết quả của thí nghiệm trên thực địa sẽ được coi là cơ sở xây dựng biện pháp kỹ
thuật cho quy trình sản xuất và thâm canh cây trồng, đối với các thí nghiệm về giống,
các sản phẩm từ các mô hình thí nghiệm có thể là nguyên liệu cho một thí nghiệm cải
tiến giống khác hoặc là nguyên liệu phục vụ cho sản xuất cây giống.
1.2. Một số kiểu thiết kế thí nghiệm và vận dụng mô hình thí nghiệm trong lâm nghiệp

1.2.1. Thiết kế thí nghiệm theo kiểu ngẫu nhiên hoàn toàn (CRD)
Thiết kế thí nghiệm theo kiểu ngẫu nhiên có nghĩa là các nghiệm thức được
phân vào các đơn vị thí nghiệm một cách hoàn toàn ngẫu nhiên, hay mỗi đơn vị thí
nghiệm có một cơ hội giống nhau để được tiếp nhận một nghiệm thức. Thiết kế thí
nghiệm theo kiểu này rất hiệu quả trong trường hợp các đơn vị thí nghiệm đồng đều
nhau và ngược lại sẽ không hiệu quả nếu các đơn vị thí nghiệm không đồng nhất.
Bao gồm thiết kế thí nghiệm ngẫu nhiên hoàn toàn một nhân tố và thiết kế thí
nghiệm ngẫu nhiên hoàn toàn đa nhân tố. Các nhân tố trong thí nghiệm có thể chỉ có
nhân tố định tính hoặc định lượng hoặc bao gồm cả hai. Trong các nhân tố thí
nghiệm lại có nhiều mức nhân tố. Thí nghiệm một nhân tố cung cấp thông tin về
ảnh hưởng chính chỉ của một nhân tố thí nghiệm. Có thể hình dung thiết kế thí
nghiệm theo kiểu ngẫu nhiên như sau:
Giả sử ta có a công thức thí nghiệm được lặp lại r lần. Như vậy, số đơn vị thí
nghiệm là n = a*r. Trên nền đất ta phân thành n ô có kính thước như sau bố trí một
cách ngẫu nhiên cho a công thức với r lần lặp. Chẳng hạn a = 4 công thức A, B, C,
D lặp lại r = 5 lần, số đơn vị thí nghiệm n = 4*5 = 20 ô, được bố trí như sơ đồ sau:

6

1 (D)

2 (C)

3 (B)

4 (C)

5 (A)

6 (C)

7 (D)

8 (A)

9 (B)

10 (C)

11 (B)

12 (C)

13 (B)

14 (D)

15 (A)

16 (A)

17 (B)

18 (D)

19 (D)

20 (A)

Hình 1.1: Sơ đồ thí nghiệm theo kiểu ngẫu nhiên hoàn toàn
Trong sơ đồ trên, các số thứ tự ô thí nghiệm đánh từ trái sang phải và từ trên
xuống dưới. Các công thức thí nghiệm A, B, C, D được bố trí một cách ngẫu nhiên
bằng phương pháp rút thăm hoặc bảng số ngẫu nhiên. Trong thí nghiệm Lâm sinh,
đại lượng quan sát trên các ô thường là đường kính hoặc chiều cao trung bình của
một lô cây trồng thí nghiệm trên các ô. Cũng có những thí nghiệm nhất là trong
nông nghiệp, đại lượng quan sát là sinh khối của cây trồng. Với kiểu thí nghiệm này
các nhân tố thí nghiệm cũng chính là nhân tố phân tích phương sai và ta có thể hoàn
toàn áp dụng mô hình phân tích phương sai một nhân tố để phân tích ảnh hưởng của
các công thức thí nghiệm như nhân tố A.[11]
Thiết kế thí nghiệm theo kiểu ngẫu nhiên hoàn toàn tương đối phổ biến trong lâm
nghiệp, kiểu thiết kế này thường được sử dụng trong mô hình thí nghiệm chỉ có một nhân
tố như xuất xứ cây trồng, mật độ trồng khác nhau, chế độ chăm sóc khác nhau.
Đã có rất nhiều nghiên cứu trong lâm nghiệp sử dụng mô hình thí nghiệm theo
kiểu ngẫu nhiên hoàn toàn. Trong quá trình đánh giá kết quả khảo nghiệm xuất xứ Pinus
caribeae tại Lang Hanh-Lâm Đồng. Tác giả Bảo Huy đã bố trí thí nghiệm theo kiểu ngẫu
nhiên để tiến hành phân tích. Theo dự kiến sẽ có 10 xuất xứ P.caribeae được trồng khảo
nghiệm tại trạm thực nghiệm Lang Hanh năm 1991. Việc bố trí thí nghiệm ban đầu đã dự
kiến tiến hành theo kiểu ngẫu nhiên đầy đủ RCB (Randomized Complete Blocks), bao
gồm 10 công thức chỉ thị 10 xuất xứ và được lặp lại ở 4 khối. Nhưng trong quá trình triển
khai trồng thực nghiệm, chỉ còn lại 7 xuất xứ và chỉ có 5 xuất xứ lặp lại đủ 4 lần, còn 2
xuất xứ chỉ được lặp lại 2 lần.. [12].
Trong nghiên cứu khảo nghiệm xuất xứ loài cây Tràm cho chất lượng tinh
dầu cao tại Ba Vì - Hà Nội [9], tác giả Phạm Thị Thanh Hường đã tiến hành thí
nghiệm nghiên cứu tình hình sinh trưởng của các xuất xứ Tràm và chọn lọc cây trội.

7

Từ số liệu điều tra sinh trưởng của các xuất xứ tác giả đã sử dụng phần mềm SPSS
để lựa chọn ra xuất xứ tốt và từ đó dựa vào chỉ tiêu sinh trưởng và độ tuổi của cây
chọn ra những cây trội phục vụ công tác chọn giống. Trong nghiên cứu này tác giả
đã không áp dụng các biện pháp thống kê để chọn lọc cây trội mà chỉ sử dụng các
chỉ tiêu sinh trưởng để lựa chọn. Điều này đã làm cho kết quả nghiên cứu thiếu tính
thuyết phục.
Nghiên cứu về xuất xứ Mây nếp, tác giả Nguyễn Minh Thanh đã tiến hành
trồng thử nghiệm 5 xuất xứ mây nếp trên các vùng sinh thái khác nhau. Từ đó thu
thập và xử lý số liệu về đặc điểm sinh trưởng và phát triển của cây Mây nếp bằng
SPSS để tìm ra xuất xứ nào tốt nhất bằng cách so sánh sinh trưởng của các xuất xứ
với nhau tại hai khu vực nghiên cứu là Hà Giang và Hòa Bình. Kết quả xử lý cho
thấy xuất xứ Mây nếp từ Thái Bình là xuất xứ tốt nhất. Ngoài ra, dựa vào tính năng
xây dựng phương trình hồi quy tuyến tính nhiều lớp của phần mềm SPSS, tác giả đã
đưa ra phương pháp phân chia điều kiện lập địa thích hợp cho loài Mây nếp tại khu
vực nghiên cứu.[8]

1.2.2. Thiết kế thí nghiệm theo kiểu khối ngẫu nhiên đầy đủ (RCBD hay RCB).
Trong ngành lâm nghiệp rất ít gặp trường hợp bố trí thí nghiệm hai nhân tố
và có một lần quan sát ở mỗi tổ hợp cấp của nhân tố. Vì những thí nghiệm như vậy
thường không đủ thông tin để đánh giá kết quả của thí nghiệm. Muốn tăng thêm
lượng thông tin thường mỗi tổ hợp cấp của hai nhân tố phải có nhiều lần lặp lại thí
nghiệm. Người ta gọi cách bố trí thí nghiệm theo phương pháp này là thiết kế thí
nghiệm theo kiểu khối ngẫu nhiên đầy đủ. Trong bố trí thí nghiệm theo kiểu này,
nhân tố A là những công thức thí nghiệm cần theo dõi, nhân tố B là các khối. Việc
phân bố các công thức thí nghiệm trong mỗi khối thường theo nguyên tắc ngẫu
nhiên hay hệ thống.
Có thể mô tả kiểu thiết kế khối ngẫu nhiên đầy đủ như sơ đồ sau:

8

Hình 1.2: Sơ đồ bố trí thí nghiệm theo kiểu khối ngẫu nhiên đầy đủ
Trên hình 1.2: thí nghiệm khối ngẫu nhiên đầy đủ được bố trí thành 3 khối
với 2 nhân tố thí nghiệm là A và B trong đó: A1, A2, A3 là các mức thí nghiệm của
nhân tố A, B1, B2 là mức thí nghiệm của nhân tố B. Thí nghiệm được lặp lại 3 lần
trên 3 khối. Tùy theo yêu cầu mà thí nghiệm có thể có nhiều khối hay nhiều lần lặp.
Xét về bản chất, sơ đồ bố trí thí nghiệm theo kiểu khối ngẫu nhiên đầy đủ
gần giống so với phương pháp bố trí thí nghiệm theo kiểu ngẫu nhiên hoàn toàn.
Tuy nhiên, các công thức thí nghiệm ở đây được chia ra thành khối và được xắp xếp
một cách ngẫu nhiên[9,16]. Điểm khác biệt giữa hai kiểu này là: đối với kiểu thiết
kế thí nghiệm ngẫu nhiên hoàn toàn thì trên 1 lần lặp không nhất định phải đủ tất cả
các công thức thí nghiệm. Chính vì vậy mà trên một lần lặp của kiểu bố trí ngẫu
nhiên hoàn toàn sẽ có thể xuất hiện hai hoặc nhiều công thức thí nghiệm giống
nhau. Đối với kiểu thiết kế thí nghiệm khối ngẫu nhiên đầy đủ thì yêu cầu đó là trên
một khối các công thức thí nghiệm phải được xuất hiện 1 lần và chỉ 1 lần duy
nhất.[1].
Khi nghiên cứu và xây dựng quy trình nhân giống cây Mây nếp bằng phương
pháp nuôi cấy Invitro tác giả Nguyễn Thị Mai Dương [5] đã tiến hành làm 5 thí
nghiệm lớn để xác định được phương pháp và quy trình nhân giống mây. Tác giả đã
phân tích và so sánh các mẫu thí nghiệm theo các nội dung thí nghiệm: ảnh hưởng
của giá thể và chế độ chiếu sáng đến tỉ lệ sống của cây mây nếp in vitro ngoài vườn

9

ươm, kỹ thuật kích thích tăng trưởng chồi trong điều kiện nuôi cấy in vitro. Trong
các thí nghiệm này tác giả đã sử dụng phần mềm SPSS so sánh và lựa chọn ra công
thức thí nghiệm phù hợp và hiệu quả nhất.
Tác giả Nguyễn Minh Thanh trong luận án tiến sĩ của mình đã tiến hành
nghiên cứu công thức trồng Mây nếp theo các công thức trồng: 1 cây/hố, 2 cây/hố, 3

cây/hố và mức độ bón phân khác nhau. Tác giả đã bố trí thí nghiệm theo kiểu khối
ngẫu nhiên đầy đủ. Tuy nhiên, trong quá trình nghiên cứu, do nhiều nguyên nhân
khác nhau, tác giả đã chuyển công thức thí nghiệm hai nhân tố thành một nhân tố đó
là chỉ nghiên cứu công thức trồng mà không nghiên cứu tới chế độ bón phân. Công
thức thí nghiệm đã cho ra kết quả: Mây nếp sinh trưởng tốt nhất tại công thức trồng
3 cây/hố.[8].

1.2.3. Thiết kế thí nghiệm theo kiểu ô vuông la tinh
Đây là dạng thiết kế phục vụ cho phân tích phương sai 3 nhân tố. Trong
trường hợp bố trí theo khối thì số công thức có thể nhiều hoặc ít hơn số khối và khi
phân tích người ta có thể bỏ qua sự khác nhau giữa các nên đất mà trên đó tiến hành
làm các thí nghiệm khác nhau. Trong trường hợp số khối luôn luôn bằng số công
thức thí nghiệm (số lần lặp lại bằng số công thức thí nghiệm) ta gọi là bố trí theo ô
vuông la tinh. Chẳng hạn thí nghiệm có thể bố trí theo sơ đồ sau:
Khối
Khối 1
Khối 2
Khối 3
Khối 4
Khối 5
Khối 6

(1)
(2)
(3)
(4)
(5)
1
2
3

4
5
6
1
2
3
4
5
6
1
2
3
4
5
6
1
2
3
4
5
6
1
2
3
4
5
6
Hình 1.3: Sơ đồ bố trí thí nghiệm theo kiểu ô vuông la tinh

(6)

6
5
4
3
2
1

Ở sơ đồ trên ta có 6 khối: (1), (2), (3), (4), (5), (6) nằm ngang mà mỗi khối
chia làm 6 ô đều nhau. Trên mỗi ô này tiến hành một công thức khác nhau. Vị trí
của các thí nghiệm được bố trí trên các ô theo một cách nào đó sao cho trong một
hàng và trong một cột không có sự trùng lặp một công thức. Để xác định được sai
số của thí nghiệm khi phân tích người ta phải loại trừ những biến động do các khối

10

và các cột gây nên, chỉ còn biến động do các công thức khác nhau đưa lại (không có
ảnh hưởng qua lại).
Mô hình thiết kế thí nghiệm theo kiểu ô vuông la tinh thường được sử dụng
trong việc phân tích thí nghiệm có số lượng mẫu bị hạn chế và sự đồng đều không cao.
[2]. Trong các đề tài nghiên cứu tại Việt Nam hiện chưa có mô hình thí nghiệm theo
kiểu ô vuông la tinh một cách điển hình. Đây là một trong những khó khăn trong việc
tham khảo và xây dựng quy trình xử lý phân tích dữ liệu trong luận văn này.
Như vậy, có thể thấy rằng trong hầu hết các lĩnh vực của lâm nghiệp, bao
gồm từ trồng rừng, kỹ thuật lâm sinh, nhân giống đều có thể sử dụng biện pháp thí
nghiệm và cách bố trí thí nghiệm khác nhau. Với đặc điểm thí nghiệm có dung
lượng mẫu lớn, việc xây dựng quy trình xử lý hợp lý sẽ làm cho việc xử lý số liệu
đơn giản, nhanh chóng hơn, chính xác hơn. Xây dựng quy trình xử lý số liệu còn có
tác động ngược lại đối với việc bố trí và thiết kế thí nghiệm bởi dựa vào quy trình
xử lý này sẽ khiến cho việc lựa chọn bố trí thí nghiệm ngoài thực địa được chính

xác hơn.

1.2.4. Một số kiểu thí nghiệm khác
Ngoài các kiểu thí nghiệm ở trên, trong bố trí và thiết kế thí nghiệm có
những phương pháp khác như: Thiết kế thí nghiệm theo kiểu “lưới ô vuông la tinh”
hay thiết kế theo kiểu “ô chính ô phụ”.....
Thiết kế thí nghiệm theo kiểu ô chính, ô phụ (Split Plot Desgin - SPD)
Thí nghiệm kiểu ô chính ô phụ (hay có nơi gọi là thí nghiệm chia ô lớn ô
nhỏ, thí nghiệm hai nhân tố chia ô) - Split plot desgin [1,2,11]. Sơ đồ bố trí thí
nghiệm có thể được mô tả như sau:

Hình 1.4: Sơ đồ bố trí thí nghiệm trong kiểu ô chính ô phụ

11

Công thức mô tả thí nghiệm này:

Trong đó

-

là trung bình chung

-

chênh lệch do ảnh hưởng của mức i nhân tố A (trên ô lớn);

-

là chênh lệch do ảnh hưởng của mức j của nhân tố B (trên

-

là chênh lệch do ảnh hưởng của khối l;

ô nhỏ);

-

là tương tác giữa nhân tố A và khối được dùng làm sai

-

là tương tác của 2 nhân tố A và B

-

là sai số độc lập phân phối chuẩn N (0,

số ô lớn

)

Thí nghiệm hai nhân tố chia ô thích hợp để nghiên cứu ảnh hưởng của 2 nhân
tố bố trí theo cách sau:
Nguyên vật liệu thí nghiệm chia thành một số các ô lớn và các mức của yếu
tố thứ nhất được bố trí ngẫu nhiên vào các ô lớn. Sau đó, mỗi ô lớn lại được chia
thành các ô con và các mức của yếu tố thứ 2 được bố trí vào các ô con.
Mô hình thí nghiệm hai nhân tố chia ô được sử dụng khi một yếu tố cần

nhiều nguyên vật liệu hơn yếu tố thứ 2. Nếu một yếu tố được áp dụng muộn hơn so
với yếu tố còn lại thì yếu tố muộn hơn sẽ được bố trí vào ô con. Ngoài ra, từ kinh
nghiệm thực tế ta biết được yếu tố có mức biến động lớn hơn thì yếu tố này sẽ được
bố trí vào ô lớn. Hoặc ta muốn có một kết luận chính xác đối với một yếu tố thì yếu
tố đó đuwọc bố trí vào ô nhỏ. Nhân tố trên ô lớn có sai số gọi là sai số ô lớn, nhân tố
trên ô nhỏ có sai số gọi là nhân tố ô nhỏ.
* Ưu, nhược điểm của kiểu bố trí thí nghiệm ô chính, ô phụ:

12

- Thí nghiệm này có cách phân tích phức tạp, mức chính xác của hai nhân tố
khác nhau, nhân tố trên ô lớn có độ chính xác thấp hơn nhân tố trên ô nhỏ.
- Thí nghiệm phù hợp với nếu ta chỉ quan tâm đến một trong hai yếu tố và tương
tác giữa chúng. Ví dụ: nghiên cứu ảnh hưởng của chế độ bón phân đến sự phát triển của
cây, đồng thời cũng quan tâm đến tương tác của loại phân với loài cây...
- Kiểu thí nghiệm này sẽ gặp khó khăn trong việc ước tính nếu số liệu bị
khiếm khuyết. Số bậc tự do của sai số ngẫu nhiên bị giảm rất nhiều do có hai lần
tương tác (tương tác giữa hai yếu tố AxB và tương tác giữa yếu tố A với khối hay
còn gọi là sai số ô lớn), chính vì vậy cũng làm giảm độ chính xác của các ước lượng
và các kết luận.
Kiểu thí nghiệm lưới ô vuông la tinh:
Kiểu thí nghiệm lưới ô vuông la tinh được mô tả như hình vẽ dưới đây:

Hình 1.5: Sơ đồ bố trí thí nghiệm trong kiểu thí nghiệm lưới ô vuông la tinh
Kiểu thí nghiệm lưới ô vuông la tinh được bố trí và sắp xếp hoàn toàn giống
với kiểu bố trí thí nghiệm ô vuông la tinh. Tuy nhiên, sự khác nhau ở đây là thí
nghiệm lưới ô vuông la tinh bao gồm nhiều ô vuông la tinh gộp lại với nhau.
Thí nghiệm 2 nhân tố kiểu chia ô hoàn toàn ngẫu nhiên:

13

Kiểu thiết kế này giống như kiểu mô hình chia ô chính ô phụ, sự khác biệt
của thí nghiệm này đối với kiểu mô hình ô chính ô phụ đó là người ta tiến hành thiết
kế để một yếu tố được bố trí ngẫu nhiên trên các ô lớn. Ví dụ yếu tố thứ nhất (A) có
4 mức (A1, A2, A3, A4) được bố trí ngẫu nhiên trên 12 ô lớn. Mỗi mức của yếu tố A
được lặp lại 3 lần. Yếu tố thứ 2 (B) có 2 mức (B1, B2). Mỗi ô lớn được chia thành 2
ô con để bố trí ngẫu nhiên các mức của yếu tố B. Đây chính là mô hình thí nghiệm 2
nhân tố kiểu chia ô hoàn toàn ngẫu nhiên. Mô hình bố trí thí nghiệm có thể được mô
phỏng như hình vẽ sau:

Hình 1.6: Sơ đồ bố trí thí nghiệm theo kiểu chia khối ngẫu nhiên
Mô hình toán học của kiểu thí nghiệm này được mô phỏng như sau:
xijl = m + ai + ok(i) + bj + (ab)ij + eijl ; (i = 1, a; j = 1, b; k = 1, r)
Trong mô hình này hai nhân tố A và B coi như nhân tố cố định. Các tổng
bình phương của yếu tố A, B, tương tác AB, sai số ngẫu nhiên (sai số bé) và các bậc
tự do được tính tương tự như phương pháp ô chính ô phụ.
1.3. Tổng quan về ứng dụng phần mềm thống kê SPSS và R

1.3.1. Ứng dụng phần mềm SPSS
Trên thế giới, đã có rất nhiều phần mềm máy tính chuyên dụng về xử lý thống
kê các số liệu thực nghiệm, trong đó có SPSS (Statistical Package for Social Sciences).
Tuy là một phần mềm xử lý thống kê chuyên dụng nhưng SPSS lại khá dễ sử dụng và
đang được ứng dụng rộng rãi trên thế giới do có giao diện thân thiện với người dùng,
các thủ tục phân tích thống kê đơn giản, cho kết quả nhanh và đáp ứng được yêu cầu
phân tích thống kê cơ bản và cả những kết quả đáp ứng các yêu cầu phân tích chuyên
sâu về mặt thống kê. Ở Việt nam, việc sử dụng các phần mềm thống kê cũng như SPSS
trong xử lý số liệu đã được áp dụng trong những năm gần đây.

14

Trong lĩnh vực Lâm nghiệp, từ cuối những năm 70 các ứng dụng CNTT
trong quản lý, phân tích dữ liệu đã được đưa vào phục vụ công tác tổng điều tra quy
hoạch rừng. Máy vi tính thời gian này còn khá lạc hậu, chạy chậm, độ tin cậy không
cao cùng với các phần mềm nghèo nàn do đó xử lý lượng dữ liệu lớn là rất khó khăn
và tốn kém. Mãi đến đầu những năm 90 viện Điều tra Quy hoạch rừng mới du nhập
về phần mềm SPSS phiên bản 1.0 chạy trên máy vi tính với hệ điều hành DOS và
nó đã trở thành công cụ hữu hiệu trong xử lý và phân tích dữ liệu thống kê, phiên
bản này lần đầu tiên cũng được giới thiệu như một chuyên đề tại trường Đại học
Lâm nghiệp vào những năm 1994 cho các lớp sau đại học, từ năm 2003 chính thức
được đưa vào thành môn học giảng dạy cho các lớp cao học Lâm nghiệp. Từ đó đến
nay phần mềm SPSS đã trở thành công cụ xử lý và phân tích dữ liệu trong các công
trình nghiên cứu của mình. Cũng có một số tài liệu, giáo trình về SPSS, nhưng
những tài liệu này chủ yếu hoặc thiên về hướng dẫn sử dụng hoặc thiên về các ứng
dụng kinh tế - xã hội.[10].
Nhiều trường đại học như Đại học Nông nghiệp Hà Nội, Đại học Nông lâm
Huế, Đại học kinh tế Đà Nẵng cũng đã đưa phần mềm SPSS vào giảng dạy, nhiều
nhà nghiên cứu cũng đã sử dụng phần mềm SPSS làm công cụ xử lý và phân tích dữ
liệu trong các công trình nghiên cứu của mình. Cũng có một số tài liệu, giáo trình về
SPSS được các nhà nghiên cứu viết ra nhưng những tài liệu này chủ yếu thiên về
hướng dẫn sử dụng hoặc thiên về các ứng dụng kinh tế- xã hội.[1,10,11].
Hiện tại cũng có nhiều phần mềm xử lý thống kê khác rất nổi tiếng như SAS,
STATA, MICROSTA, EVIEW,… mỗi phần mềm này đều có những điểm mạnh và
điểm yếu riêng và thích hợp với nhiều lĩnh vực khác nhau chẳng hạn như: STATA,
EVIEW mạnh về phân tích hồi quy, hồi quy logistic do đó phù hợp với lĩnh vực
kinh tế xã hội; SAS mạnh về phân tích phương sai phân tích hỗn hợp nhưng phải
biết lập trình, do đó thích hợp với những người sử dụng có trình độ cao. Riêng đối
với SPSS, hiện nay được nhiều người ưa dùng nhất bởi một số ưu điểm đặc biệt sau:

1. Về quản lý dữ liệu

15

SPSS có một bộ soạn thảo dữ liệu tương tự như excel, bộ soạn thảo cho phép vào
các dữ liệu và mô tả các thuộc tính của chúng, tuy nhiên SPSS không có những
công cụ quản lý dữ liệu thật mạnh (mặc dù SPSS phiên bản 11 có thêm các lệnh
chuyển cấu trúc dữ liệu theo chiều ngang thành cấu trúc dữ liệu theo chiều dọc và
ngược lại). SPSS xử lý mỗi file dữ liệu ở một thời điểm và không phải là rất mạnh
khi thực hiện các nhiệm vụ phân tích cần làm việc với nhiều file dữ liệu cùng một
lúc. Các file dữ liệu có thể có đến 4096 biến và số lượng bản ghi chỉ bị giới hạn
trong dung lượng của đĩa cứng.
Các báo cáo thống kê trên tập số liệu cở sở hết sức đa dạng và linh hoạt với
nhiều chiều phân tổ khác nhau và dễ dàng thực hiện không phải lập trình. Các bảng
biểu, các báo cáo được trình bày đẹp, chất lượng cao được thực hiện trên cửa sổ, có
thể tiếp tục hiệu chỉnh, in ra hoặc chuyển sang tài liệu khác.
2. Về phân tích thống kê
Một trong những công việc thường xuyên phải làm đối với cán bộ nghiệp vụ
thống kê là tổng hợp số liệu theo các biểu bảng đã thiết kế trước đối với số liệu thu
được. Nếu ai đã từng sử dụng SPSS và STATA, đều thấy rằng khả năng lập các
biểu bảng số liệu tổng hợp, các báo cáo thống kê trên tập số liệu cơ sở trong SPSS
là hết sức đa dạng và linh hoạt với nhiều chiều phân tổ khác nhau và dễ dàng thực
hiện không phải lập trình. Các bảng biểu, các báo cáo được trình bày đẹp, chất
lượng cao được hiện trên cửa sổ, có thể tiếp tục hiệu chỉnh, in ra hoặc chuyển sang
các tài liệu khác. Đây là một ưu điểm nổi bật của SPSS, vì để lập trình tạo ra một
biểu bảng như ý là một công việc hết sức tỉ mẩn và nặng nhọc.
Sức mạnh lớn nhất của SPSS là lĩnh vực phân tích phương sai (SPSS cho
phép thực hiện nhiều loại kiểm định tác động riêng biệt) và phân tích nhiều chiều
(thí dụ phân tích phương sai nhiều chiều, phân tích nhân tố, phân tích nhóm tổ).

SPSS phiên bản 11 còn bổ sung thêm một số khả năng phân tích các mô hình hỗn
hợp. Cái yếu nhất của SPSS là khả năng xử lý đối với những vấn đề ước lượng phức
tạp và do đó khó đưa ra được các ước lượng sai số đối với các ước lượng này. SPSS
cũng không hỗ trợ các công cụ phân tích dữ liệu theo lược đồ mẫu.

16

3. Về vẽ đồ thị
SPSS có một giao diện giữa người và máy rất đơn giản để tạo ra các đồ thị và
khi đã tạo được một đồ thị, nhờ giao diện này mà người sử dụng có thể tuỳ ý hiệu
chỉnh đồ thị cũng như hoàn thiện chúng. Các đồ thị có chất lượng rất cao và có thể
dán vào các tài liệu khác, thí dụ như Word hoặc Powerpoint.

1.3.2. Ứng dụng phần mềm R
Năm 1996, trong một bài báo quan trọng về tính toán thống kê, hai nhà thống
kê học Ross Ihaka và Robert Gentleman thuộc Trường đại học Auckland, New
Zealand phát hoạ một ngôn ngữ mới cho phân tích thống kê mà họ đặt tên là R [17].
Sáng kiến này được rất nhiều nhà thống kê học trên thế giới tán thành và tham gia
vào việc phát triển R. Cho đến nay, qua chưa đầy 10 năm phát triển, càng ngày càng
có nhiều nhà thống kê học, toán học, nghiên cứu trong mọi lĩnh vực đã chuyển sang
sử dụng R để phân tích dữ liệu khoa học. Trên toàn cầu, đã có một mạng lưới hơn
một triệu người sử dụng R, và con số này đang tăng rất nhanh. Có thể nói trong
vòng 10 năm nữa, vai trò của các phần mềm thống kê thương mại sẽ không còn lớn
như trong thời gian qua nữa.[17].
Thật ra, về bản chất, R là ngôn ngữ máy tính đa năng, có thể sử dụng cho
nhiều mục tiêu khác nhau, từ tính toán đơn giản, toán học giải trí (recreational
mathematics), tính toán ma trận (matrix), đến các phân tích thống kê phức tạp. Vì là
một ngôn ngữ, cho nên người ta có thể sử dụng R để phát triển thành các phần mềm
chuyên môn cho một vấn đề tính toán cá biệt. Vì thế, những ai làm nghiên cứu khoa

học, nhất là ở các nước còn nghèo khó như nước ta, cần phải học cách sử dụng R
cho phân tích thống kê và đồ thị. [16,17,18]
* Những ưu điểm chính của R
- R là ngôn ngữ lập trình miễn phí: Để phân tích thống kê hay lập trình có
thể có sử dụng nhiều phần mềm hay ngôn ngữ khác nhau (như SAS, SPSS, Stata,
Fortran, C#,…) Tuy nhiên, phần lớn những phần mềm này không phải là miễn phí.
Do vậy nếu sử dụng R để giảng dạy cho sinh viên thì sau khi sinh viên ra trường,
sinh viên có thể tiếp tục tiếp cận với phần mềm và sử dụng trong công việc. Nếu

17

giảng dạy bằng một phần mềm giữ bản quyền như SAS (nếu nhà trường có mua
quyền sử dụng) thì sau khi sinh viên tốt nghiệp, không thể ứng dụng được nếu luật
bảo vệ sở hữu trí tuệ được thực thi. R hiện nay được coi là chuẩn trên thực tế (de
factor standard) để giảng dạy về thống kê.
- R là ngôn ngữ lập trình nguồn mở: R là một thành phần của GNU project
(dự án hợp tác đại trà và phần mềm miễn phí). Mã nguồn của R cung cấp miễn phí
cho tất cả mọi người tuân theo giấy phép công cộng chung GNU (GNU General
Public License), và phiên bản nhị phân trước khi biên dịch được cung cấp cho nhiều
hệ điều hành khác nhau. Do là phần mềm nguồn mở, có đến 2000 người đóng góp
vào việc xây dựng phần mềm và có đến 2 triệu người dùng. Là nguồn mở nên việc
phát triển R rất linh hoạt và cho phép tích hợp R với các hệ thống khác nhau và với
các phần mềm sử lí số liệu khác nhau. R được sử dụng bởi ngân hàng Hoa Kì (Bank
of America), New York Times, Face book và Google cũng như phần lớn các công
ty đứng hàng đầu của Mỹ. Dù một cá nhân sử dụng R cho bất kì mục đích gì luôn
luôn có ai đó có cùng mục đích sử dụng và có thể trao đổi, giúp đỡ nhau cùng thực
hiện mục tiêu của mình. Luôn luôn có những gói phần mềm, trao đổi, hướng dẫn sử
dụng R xuất hiện mới mỗi ngày hoặc mỗi tuần. Các diễn đàn của cộng đồng sử
dụng R phổ biến nhất là Crantastic, Stackoverflow, revolutions blog, R-bloggers...

- R là một ngôn ngữ lập trình thông dịch (interpreted language) được sử
dụng thông qua trình thông dịch dòng lệnh (command line intepreter). Tương tự
như các phần mềm khác, R có thể hỗ trợ các phép tính ma trận. Cấu trúc dữ liệu của
R không chỉ là số nguyên (integer), số thực (double precision), chuỗi (string) mà
còn có thể là vector, ma trận, khung dữ liệu (data frame) là các ma trận với cấu trúc
dữ liệu thuộc các loại khác nhau. Là ngôn ngữ lập trình R:
- cho phép người dùng thêm vào các tính năng bổ sung bằng cách định nghĩa
các hàm số mới, xây dựng các gói (package) mới, dùng các gói (package) do người
khác xây dựng
- Có thể liên kết với các mã của ngôn ngữ C, ngôn ngữ C++, ngôn ngữ
Fortran, v.v.

18

Là ngôn ngữ lập trình nên người sử dụng có thể kết hợp nhiều phương pháp
khác nhau để giải quyết vấn đề và cho kết quả có tính lập lại. R có sẵn các thư viện
có thể thực thi trên các đối tượng khác nhau như vector, ma trận. Một thí dụ của khả
năng tính toán nhanh trong các tình huống bất ngờ. Ngay sau khi Michael Jackson
chết trong vòng 3 giờ, tờ New York Times đã đưa ra các thống kê và đồ thị sắp
hạng của tạp chí Billboard về các bài hát của Michael Jackson (Jackson’s billboard
rankings over time) và ngôn ngữ R được sử dụng để thực hiện các tính toán
( />R là một ngôn ngữ lập trình hướng đối tượng mạnh có nghĩa là R Có phương
tiện lập trình hướng đối tượng (object oriented programming) tốt hơn phần lớn các
ngôn ngữ lập trình khác. Việc lập trình hướng đối tượng với R khá đơn giản, chỉ cần
khai báo đối tượng cho biến số thì khi gọi hàm số của biến số đó, instant phù hợp
của hàm số sẽ được sử dụng.
Không chỉ là ngôn ngữ lập trình, R còn là một môi trường phần mềm có
nghĩa là R cung cấp nhiều thư viện cho các giải thuật truy cập số liệu, thao tác số
liệu, phân tích số liệu và vẽ đồ thị. R có thể vẽ các loại đồ thị như chuỗi thời gian, tổ

chức đồ, phân tán đồ, mặt 3 chiều, bản đồ,…
R là ngôn ngữ lập trình chuyên dụng cho chuyên viên thống kê: R có thể tiến
hành các thuật toán thống kê chuẩn như tính toán trung bình, độ lệch chuẩn, phương
sai, hiệp phương sai, hồi quy, ANOVA, phân tích sống còn, GLM, GAM, mạng
thần kinh. Ngoài các phương pháp thống kê kinh điển, R vượt qua các phần mềm
khác để ứng dụng trong các phương pháp tính toán hiện đại nhất (thí dụ như để
phân tích hệ gen – genomics, xác định các biến dị của DNA người,…).
* Những nhược điểm chính của R
R cũng có một số nhược điểm hay có thể gọi là thiếu sót, tuy nhiên các
nhược điểm này có thể được khắc phục dễ dàng bởi chính R :
- R không phải là một cơ sở dữ liệu nhưng lại có thể kết nối với các hệ quản
trị cơ sở dữ liệu (DBMS)

19

- R không có giao diện đồ họa người dùng, nhưng nó có thể kết nối với Java,
TclTk.
- Việc diễn giải ngôn ngữ R có thể rất chậm, nhưng có thể cho phép gọi tới
các mã C hoặc C++.
- R không có các bảng tính quan sát dữ liệu, nhưng nó có thể kết nối với
Excel/MSOffice.
- Mỗi câu lệnh của R kết thúc bằng phím Enter, điều này gây ra sự bất tiện
trong khi lâp trình, đặt biệt là khi xây dựng một hàm, chỉ cần sai một dòng lệnh, ta
sẽ phải làm lại từ đầu.
- Một nhược điểm khác của R là nó không chuyên nghiệp và không hỗ trợ
thương mại .
1.4. Thảo luận về tổng quan vấn đề nghiên cứu
Có thể thấy rằng: hầu hết các nghiên cứu khoa học trong lâm nghiệp mà đặc
biệt là trong các lĩnh vực về chọn giống, trồng rừng và lâm sinh thường sử dụng thí

nghiệm với số liệu thu thập lớn. Để phân tích các số liệu này cần phải có phương
pháp phân tích và thống kê khoa học và chính xác. Nếu không có công cụ hỗ trợ từ
máy tính như hiện nay chắc chắn rằng việc tính toán sẽ gặp nhiều khó khăn và sẽ có
nhiều sai sót không đáng có. Chính vì vậy việc xây dựng các quy trình xử lý thống
kê cho các thí nghiệm lâm nghiệp dựa vào các phần mềm thống kê thông dụng như
SPSS và R là một việc đáng quan tâm.
Ưu điểm về phân tích phương sai của SPSS cũng là những ứng dụng phổ biến
xử lý và phân tích dữ liệu trong lĩnh vực Lâm nghiệp. Những phiên bản mới của
SPSS còn bổ sung những thủ tục phân tích tinh tế hơn, hiện vẫn chưa được khai thác
hoặc khai thác rất hạn chế trong lĩnh vực Lâm nghiệp.
Mặc dù được sử dụng khá rộng rãi trong nhiều lĩnh vực, đặc biệt trong lâm
nghiệp nhưng chưa có một công trình nghiên cứu ứng dụng SPSS trong lâm nghiệp
một cách có hệ thống và đầy đủ, các mô hình nâng cao (Advanced Models) thì hầu
như hoàn toàn chưa được nghiên cứu tới.

20

Đối với phần mềm R, đây là một phần mềm mới được xây dựng nhưng có
nhiều ưu điểm trong phân tích thống kê, hơn nữa đây lại là phần mềm hoàn toàn
miễn phí nên việc sử dụng nó không bị ràng buộc về vấn đề bản quyền. Tuy nhiên,
việc sử dụng thành thạo phần mềm R lại là một vấn đề do phần mềm này sử dụng
chủ yếu vào ngôn ngữ lập trình nên người sử dụng phải có một kiến thức về tin học
và lập trình nhất định.
Trong quá trình nghiên cứu và thảo luận để lựa chọn xây dựng phương pháp
phân tích và xử lý số liệu có thể nhận thấy rằng với cùng một số liệu và một phương
pháp nghiên cứu dù sử dụng phần mềm R hay SPSS sẽ cho ra kết quả giống nhau.
Do thời gian và kiến thức còn hạn chế, tác giả đã lựa chọn phần mềm SPSS để làm
phần mềm phân tích chính do phần mềm này đã tương đối phổ biến trong ngành
lâm nghiệp. Còn phần mềm R được giới thiệu nhằm gợi mở cho các đề tài, luận văn

sau tiếp tục tiến hành nghiên cứu.

21

Chương 2
MỤC TIÊU, GIỚI HẠN, NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU
2.1. Mục tiêu nghiên cứu

2.1.1. Mục tiêu chung
- Góp phần đơn giản tính toán và xử lý, phân tích thống kê trong lâm nghiệp

2.1.2. Mục tiêu cụ thể
- Xây dựng được các quy trình xử lý và phân tích dữ liệu bằng SPSS trong
một số thí nghiệm điển hình, thông dụng trong lâm nghiệp.
- Đưa ra phương pháp bố trí thí nghiệm hợp lý cho một số thí nghiệm trong
lâm nghiệp.
2.2. Phạm vi và giới hạn của đề tài

2.2.1. Đối tượng nghiên cứu
Đối tượng nghiên cứu của đề tài chủ yếu là rừng trồng, các mô hình thí nghiệm
trong lâm nghiệp trong các lĩnh vực lâm sinh, trồng rừng, nghiên cứu giống...

2.2.2. Giới hạn mô hình nghiên cứu
Đề tài chỉ tập trung nghiên cứu phân tích số liệu sẵn có và đưa ra quy trình
phân tích số liệu bằng phần mềm SPSS cho các mô hình thí nghiệm mà không đi
sâu vào nghiên cứu và phân tích đặc điểm mô hình thí nghiệm và so sánh các mô
hình với nhau.
2.3. Nội dung nghiên cứu
Để thực hiện được mục tiêu nghiên cứu, đề tài tiến hành các nội dung nghiên

cứu như sau:
- Xây dựng quy trình sàng lọc số liệu thô
- Xây dựng các quy trình xử lý cho mô hình thí nghiệm thiết kế ngẫu nhiên.
- Xây dựng các quy trình xử lý cho mô hình thí nghiệm kiểu khối ngẫu nhiên
đầy đủ
- Xây dựng quy trình xử lý cho mô hình thí nghiệm ô vuông la tinh.

22

2.4. Phương pháp nghiên cứu

2.4.1. Quan điểm và phương pháp luận
Trong Lâm nghiệp khi nghiên cứu một vấn đề nào đó về mặt định lượng,
người ta đều phải quan sát, thu thập số liệu, hoặc làm một số thí nghiệm có liên
quan và sau cùng thu thập những kết quả. Để so sánh và đánh giá các kết quả
nghiên cứu với nhau, bắt buộc các thí nghiệm phải tuân thủ theo một mô hình phân
tích thống kê. Chính vì vậy khi nghiên cứu quy trình xử lý số liệu bằng SPSS một
yêu cầu không thể thiếu đó là các số liệu được lấy ra từ các mô hình thí nghiệm phải
gắn liền với mô hình toán học có nghĩa là phải bố trí theo đúng mô hình toán.
Một yêu cầu khác trong đề tài này đó chính là nghiên cứu phải gắn liền
phương pháp toán học và phương pháp sinh học do đối tượng nghiên cứu của đề tài
chủ yếu là cây rừng - là một thực thể sinh học. Vì vậy ngoài phân tích toán học cần
phải có cả phân tích sinh học.
Nguồn vào của đề tài là các bộ số liệu, thông tin về các mô hình thí nghiệm
(MHTN), kết quả của đề tài là quy trình xử lý thống kê dựa trên phần mềm phân tích
thống kê SPSS. Chính vì vậy đề tài chỉ tập trung đi sâu nghiên cứu phương pháp xử lý
số liệu mà không đi sâu nghiên cứu về mặt toán học và thống kê toán học.

2.4.2. Phương pháp thu thập số liệu

2.4.2.1. Thu thập số liệu phục vụ tính toán
- Thu thập dữ liệu thực tế phù hợp với các nội dung nghiên cứu trên
- Sử dụng, kế thừa các dữ liệu có sẵn thỏa mãn mục tiêu nghiên cứu, từ các
nguồn dữ liệu của Viện Điều tra Quy hoạch rừng, Viện Khoa học Lâm nghiệp, Viện
Sinh thái rừng và Môi trường - Trường Đại học Lâm nghiệp.
2.4.2.2. Nội nghiệp
- Đọc, tham khảo các tài liệu, nghiên cứu ứng dụng các phần mềm có liên quan.
- Tiến hành các hội thảo tư vấn chuyên môn, đặc biệt tư vấn về phần mềm
SPSS: Lựa chọn một số nội dung khó trong phần mềm SPSS đưa ra thảo luận dưới
dạng các hội thảo chuyên môn, với sự tham gia của các chuyên gia giỏi.
- Tham khảo các ý kiến chuyên gia trong lĩnh vực thống kê.

23

- Xây dựng các quy trình kỹ thuật trên phần mềm SPSS thực hiện các nội dung
nghiên cứu trên: Trong SPSS đã cung cấp nhiều thủ tục xử lý và phân tích dữ liệu. Tuy
nhiên trình tự logic thực hiện các thủ tục phân tích cho những vấn đề cụ thể lại do
người sử dụng lựa chọn. Do đó chất lượng xử lý và phân tích dữ liệu phụ thuộc rất
nhiều vào trình độ của người sử dụng, đặc biệt trình độ hiểu biết của người sử dụng về
cơ sở toán học thống kê, về tin học và các thuật ngữ chuyên môn sử dụng trong phần
mềm. Việc xây dựng các quy trình kỹ thuật thực hiện các bước xử lý và phân tích cho
những vấn đề nghiên cứu nêu trên chính là để khắc phục hạn chế này.

2.4.3. Phương pháp phân tích số liệu
2.4.3.1. Phân tích số liệu cho mô hình thí nghiệm ngẫu nhiên hoàn toàn
Việc phân tích số liệu cho mô hình thí nghiệm thiết kế ngẫu nghiên là phân
tích phương sai một nhân tố. Các bước phân tích số liệu được mô tả như sau:
Giả sử nhân tố A được chia a cấp khác nhau và trong mỗi cấp thí nghiệm
được lặp lại một cách ngẫu nhiên ni lần (

).

Trước khi tiến hành phân tích phương sai và nghiên cứu anh hưởng của nhân
tố A người ta cần xem xét các điều kiện sau đây:
- Các trị số quan sát xij ở mỗi cấp là những giá trị thực của một biến ngẫu
nghiên Xij có phân bố chuẩn N [

].

- Phương sai của các biến ngẫu nhiên Xij phải bằng nhau, tức là:

Như vậy cũng có nghĩa là mỗi biến ngẫu nhiên Xij đều có phân bố chuẩn với
kỳ vọng

và phương sai

.

Trong thí nghiệm điều kiện phân bố chuẩn của các đại lượng quan sát thường là
đạt được. Nếu trường hợp chưa xác định được thì có thể dùng phương pháp sơ đồ nếu
không đòi hỏi độ chính xác cao. Còn việc kiểm định sự bằng nhau của các phương sai
theo tiêu chuẩn Cochran hoặc Barlett. Riêng trong SPSS thường dùng tiêu chuẩn Levene
cũng rất phù hợp cho trường hợp đại lượng không có phân bố chuẩn.

24

Phương trình mô hình cơ bản của phân tích phương sai cho mô hình thí
nghiệm thiết kế theo kiểu ngẫu nhiên hoàn toàn có dạng như sau:

Xij =
Trong đó:

(1)

-

là số trung bình chung của tổng thể đối với tất cả các cấp

-

là tham số đặc trưng ảnh hưởng tới nhân tố A (

)

Nếu nhân tố A có tác động đồng đều (ngẫu nhiên) đến kết quả thí nghiệm thì
= 0 ở tất cả các cấp. Và giả thuyết H0 được cho là:
hoặc

H0 :
H1: Có ít nhất 1

Giả thuyết H1 nói lên rằng tác động của nhân tố A là không đồng đều tới tất
cả các cấp còn

là một biến ngẫu nhiên độc lập có phân bố chuẩn như điều kiện đã

ở trên đã nói. Nó đặc trưng cho sai số thí nghiệm.
Tiến hành phân tích phương sai cho thí nghiệm ta được bảng phân tích
phương sai. Kết quả phân tích phương sai được thể hiện như bảng sau:

Bảng 2.1: Phân tích phương sai một nhân tố theo kiểu thí nghiệm ngẫu nhiên
hoàn toàn
Nguồn biến
động
(1)
Nhân tố A
Sai số
Tổng

Tổng biến
động bình
phương
(2)
VA
VN
VT

Phương sai
(PS)

Bậc tự do
(3)
a-1
n-a
N-1

(4)
S a = Va/(a-1)
S2N = VN/(n-a)
S2x = VT/(n-1)

2

F
(5)
S a/ S2N

Xác suất
của F (.Sig)
(6)

2

2.4.3.2. Phân tích số liệu cho mô hình thí nghiệm kiểu khối ngẫu nhiên đầy đủ
Trong mô hình thí nghiệm khối ngẫu nhiên đầy đủ, người ta thường coi khối
thí nghiệm (hay lần lặp) là một nhân tố. Chính vì vậy khi nói phân tích phương sai
hai nhân tố cần phải hiểu nhân tố ở đây bao gồm một nhân tố thí nghiệm và một
nhân tố là khối thí nghiệm. Trong trường hợp có 2 nhân tố thí nghiệm trong mô

Phân tích một số mô hình thí nghiệm thông dụng trong lâm nghiệp với sự trợ giúp của phần mềm spss và phần mềm r

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về