Tải bản đầy đủ (.docx) (14 trang)

0.SỬ DỤNG BIPLOT TRONG NC SINH HỌC(23_1_22)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (648.89 KB, 14 trang )

SỬ DỤNG BIPLOT TRONG CÁC NGHIÊN CỨU DỮ LIỆU ĐA
BIẾN SỐ TRONG LĨNH VỰC SINH HỌC
PGS.TS.Chế Đình Lý (tháng 4/2020)
1. KHÁI NIỆM VỀ DỮ LIỆU ĐA BIẾN SỐ
Dữ liệu đa biến số trong bất kỳ lĩnh vực sinh học nào thường là dữ liệu thu thập trên
nhiều đối tượng (đơn vị, lặp lại) và trên mỗi đơn vị, thu thập nhiều biến số.
Các tập dữ liệu đa biến trước đây thường được xử lý đơn giản bằng các phương
pháp thống kê đơn biến:
1- Thống kê mơ tả, trình bày độ lớn của biến số (trung bình, trung vị..) ; mức độ
phân tán biến thiên của dữ liệu (độ lệch chuẩn; phương sai; phạm vi..)
2- Thống kê suy diễn: từ mẫu suy ra kết luận chung cho cuộc điều tra khảo sát
(kiểm định t, z)
3- So sánh nhiều mẫu (dùng kiểm định F)
4- Lập mơ hình hồi qui từ dữ liệu thực nghiệm, giữ 2, hay nhiều biến số….
5- Mô phỏng các dữ liệu thu thập theo các mốc thời gian cách đều (time series)
Các phương pháp xử lý dữ liệu đơn biến khơng đáp ứng nhu cầu đánh giá, tìm kiếm
tri thức trong nghiên cứu. Vì vậy, ngày nay các nhà nghiên cứu sinh học đã khai
khác sử dụng các phương pháp xử lý dữ liệu đa biến để khám phá nhiều thông tin
hơn nhằm phục vụ cho nghiên cứu khoa học như:
- Loài vi sinh vật nào thường xuất hiện trong những hồn cảnh mơi trường
nào?
- Các genotype của thực vật hay động vật nào tương thích, thích nghi được với
các kiểu môi trường nào?
- Loại men nào phù hợp với loại thực phẩm nào?
- Bệnh đường ruột thường sinh ra trong những vùng địa lý, kinh tế xã hội
nào….
Nói chung, khi nghiên cứu các đối tượng liên ngành, nhà nghiên cứu không thể
chỉ sử dụng các công cụ xử lý đơn biến mà phải sử dụng các công cụ phân tích
khám phá dữ liệu đa biến. Một trong các cơng cụ đó là biplot.
2. CẤU TRÚC DỮ LIỆU ĐA BIẾN PHÙ HỢP ĐỂ SỬ DỤNG PHÂN
TÍCH BẰNG BIPLOT


Dữ liệu đa biến phù hợp khi sử dụng đồ thị biplot để phân tích khám phá rất đa
dạng, nhưng thường có cấu trúc chung:
1) Các cột là các biến số thu thập từ các đối tượng (lặp lại); các biến số bao gồm
các mẫu thông tin của nhiều lĩnh vực liên ngành: kinh tế, xã hội, mơi trường.
2) Các dịng là các mẫu đã đo đạc hay thu thập.
Dưới đây là các ví dụ về cấu trúc dữ liệu đa biến trong các ngành sinh học, môi
trường…
Dữ liệu nghiên cứu chất lượng môi trường nước theo vùng kinh tế xã hội


Ma trận dữ liệu kinh tế xã hội
Mẫu Số nhà
nướ máy
c

Số
dân


Ma trận dữ liệu chất lượng nước

Trại
chăn
ni

Ơ

1

1


2

2

3

3

4

4

5

5

pH

COD

Coliform

Dữ liệu điều tra đa dạng sinh học nước theo vùng kinh tế xã hội
ƠTC

Lồi 1

Lồi 2


Lồi 3

Lồi 4

Lồi 5

pH

Độ sâu
(m)

C/N

Loại
đất

Độ ẩm

01

1

0

2

0

5


0

0

0

0

0

02

0

0

0

1

4

0

0

3

0


3

03

0

2

0

3

6

0

0

0

0

0

04

0

0


2

4

4

0

1

0

0

0

05

0

3

3

2

5

0


0

0

3

0

06

0

2

2

4

5

0

2

0

4

0


07

0

2

2

2

4

0

3

0

3

0

08

0

0

0


2

5

0

0

0

1

0

09

0

0

3

0

4

0

0


0

5

0

10

5

0

1

0

5

1

0

0

3

0

11


0

0

0

0

3

0

0

0

4

0

12

0

0

2

3


7

0

0

0

1

0

Dữ liệu về genotype xuất hiện trong các loại môi trường
Genotypes

E1

E2

E3

E4

E5

E6

E7

E8


E9

G1

4.46

4.15

2.85

3.08

5.94

4.45

4.35

4.04

2.67

G2

4.42

4.77

2.91


3.51

5.70

5.15

4.96

4.39

2.94

G3

4.67

4.58

3.10

3.46

6.07

5.03

4.73

3.90


2.62

G4

4.73

4.75

3.38

3.90

6.22

5.34

4.23

4.89

3.45


G5

4.39

4.60


3.51

3.85

5.77

5.42

5.15

4.10

2.83

G6

5.18

4.48

2.99

3.77

6.58

5.05

3.99


4.27

2.78

G7

3.38

4.18

2.74

3.16

5.34

4.27

4.16

4.06

2.03

G8

4.85

4.66


4.43

3.95

5.54

5.83

4.17

5.06

3.57

G9

5.04

4.74

3.51

3.44

5.96

4.86

4.98


4.51

2.86

G10

5.20

4.66

3.60

3.76

5.94

5.35

3.90

4.45

3.30

G11

4.29

4.53


2.76

3.42

6.14

5.25

4.86

4.14

3.15

G12

3.15

3.04

2.39

2.35

4.23

4.26

3.38


4.07

2.10

G13

4.10

3.88

2.30

3.72

4.56

5.15

2.60

4.96

2.89

G14

3.34

3.85


2.42

2.78

4.63

5.09

3.28

3.92

2.56

G15

4.38

4.70

3.66

3.59

6.19

5.14

3.93


4.21

2.93

G16

4.94

4.70

2.95

3.90

6.06

5.33

4.30

4.30

3.03

G17

3.79

4.97


3.38

3.35

4.77

5.30

4.32

4.86

3.38

G18

4.24

4.65

3.61

3.91

6.64

4.83

5.01


4.36

3.11

3. KHÁI NIỆM VÀ Ý NGHĨA CỦA BIPLOT
3.1. Khái niệm về biplot

Biplot là đồ thị biểu diễn đồ họa của dữ liệu đa biến, trong đó các phần tử của một
ma trận dữ liệu được biểu diễn theo các điểm đánh dấu (marker) và vectơ (mũi tên(
được liên kết với các hàng và cột của ma trận.
Biplot có 3 loại thông tin: điểm đánh dấu biểu thị đối tượng nghiên cứu (điểm quan
trắc, genotype (chủng vi sinh); Mũi tên biểu thị các biến số (thuộc tính hay đặc
trưng của đối tượng) và hai trục PCA 1 và PCA 2
Score Plot of Chi phí, ..., "Niacin"

Loading Plot of Chi phí, ..., "Niacin"
Chi phí

2
0.50

"Thiamine"
Chất đạm

Second Component

Second Component

1


Điểm đánh dấu =
đối ctượng

0

-1

0.25

0.00

"Niacin"

-0.25

Chất sắt

-2

"Riboflavin"

-0.50

-3
-3

-2

-1


0

1

First Component

2

3

4

0.0

0.1

0.2

0.3

0.4

0.5

First Component

Biplot thể hiện xấp xỉ hai chiều thứ nguyên (dimension) vào 1 ma trận và vẽ các
hiệu ứng hàng và hiệu ứng cột cùng nhau, mô tả mối quan hệ giữa các biến quan sát
khác nhau và đồng thời hiển thị mối quan hệ của các đối tượng với tư cách từng đơn
vị và từng nhóm đơn vị đối với các biến số đã nghiên cứu.



Biểu diễn đồ họa này của ma trận cho phép kiểm tra các mối quan hệ, xu hướng,
cụm, tương quan gần đúng và phương sai hiện có trong dữ liệu.
Biplots cung cấp trực quan hóa của hai biến số, thơng thường, nhưng không nhất
thiết, trong hai chiều thứ nguyên.
Dữ liệu X có thể biểu thị (1) ma trận với n hàng đại diện cho các đối tượng (mẫu)
và cột biểu thị p biến số (biến định lượng) hoặc (2) bảng hai chiều có hàng và cột
đều đại diện cho các biến phân loại.
Biểu tượng vẽ thường là các điểm đánh dấu (thường là cho các mẫu và được phân
biệt bằng hình dạng và / hoặc màu sắc) và các đường (thường cho các biến có thể
được thể hiện như các vectơ mũi tên).
3.2. Ý nghĩa của biplot

Biplot cung cấp một cơng cụ hữu ích để phân tích dữ liệu và cho phép đánh giá trực
quan cấu trúc của ma trận dữ liệu đa biến.
Nó đặc biệt trình bày trong phương pháp phân tích thành phần chính, trong đó
biplot có thể hiển thị khoảng cách giữa các đơn vị và chỉ ra sự phân cụm các đối
tượng cũng như hiển thị phương sai và tương quan của các biến.
Biplot cho phép thông tin về cả các đối tượng (mẫu) và các biến số của ma trận dữ
liệu được hiển thị bằng đồ họa.
Các mẫu (đơn vị, lặp lại) được hiển thị dưới dạng các điểm trong khi các biến số
được hiển thị dưới dạng vectơ, trục tuyến tính hoặc quỹ đạo phi tuyến.
Biplot mở rộng ý tưởng về một biểu đồ phân tán đơn giản (scatter plot) gồm hai
biến cho trường hợp có nhiều biến, với mục tiêu trực quan hóa lượng thơng tin tối
đa có thể có trong dữ liệu. Dữ liệu nghiên cứu thường được trình bày dưới dạng một
bảng hình chữ nhật và biplot lấy tên của nó từ thực tế là nó trực quan hóa các hàng
và các cột của bảng này trong một không gian chung.
Biplot là biểu diễn đồ họa của dữ liệu đa biến, trong đó các yếu tố của dữ liệu
ma trận được biểu diễn theo dấu chấm và vectơ liên kết với các hàng và cột

của ma trận (Salinas et. al., 2013).
Các bước chuẩn bị Biplot
 Thu thập dữ liệu đa biến cho các đơn vị khác nhau (ví dụ: Giống, Hộ gia đình,
v.v.)
 Chạy PCA trong phần mềm thống kê bằng các giá trị thực tế của các biến số khác
nhau sẽ tạo ra các thành phần chính, tức là các biến có các biến lượng có ý nghĩa,
các giá trị eigen và hệ số tải cho mỗi biến
 Hai PC đầu tiên thể hiện phương sai (biến lượng) lớn nhất, được dùng cho biplot
4. NHỮNG CƠ SỞ KHOA HỌC ĐỂ NHẬN THỨC THỂ HIỆN CỦA
BIPLOT
4.1. Biểu thị hình học của đại lượng phương sai

Về mặt hình học, biến lượng hay phương sai được diễn tả trên một đường thẳng
bằng các điểm dữ liệu phân tán chung quanh trị trung bình.
Ví dụ:


Nhiệt độ được đo 5 lần dữ liệu là 17°, 19°, 23°, 18° và 20°. Biến lượng chung quanh
trung bình là bé và biểu thị hình học tương ứng là:
17 18 19 20

0

23

Nếu 5 số đo nhiệt độ là 4°, 12°, 23°, 18°, 27°, thì biến lượng của biến số này lớn hơn

0

4


12

18

23

27

Các thuật ngữ sau đây là tương đương: Việt ngữ: Biến lượng = phương sai = lượng
biến thiên. Anh ngữ: Variance = variability = inertia.
4.3. Bản đồ các biến số, bản đồ của các điểm đánh dấu (đối tượng).

Bản đồ biplot là sự tích hợp hai bản đồ: bản đồ các biến số và bản đồ các điểm đánh
dấu,
Ví dụ, hãy xem xét trường hợp nghiên cứu về nơi ở khác nhau của các loài cá dọc
theo con sông từ suối cho đến cửa sông
Sáu biến số được đo trong 30 địa điểm khác nhau: Nhiệt độ, độ sâu, lượng xả thải,
tốc độ dòng chảy, độ trong và độ mặn và các điểm đánh dấu địa điểm là S1, S2, S3,
… S30.
Từ đó chúng ta có song đơi: 30 lần lặp lại thể hiện 6 biến số và ngược lại 6 biến số
chứa 30 dữ liệu 30 địa điểm. Nói cách khác , tùy thuộc vào quan điểm nhìn, người
ta có thể xem xét tập dữ liệu của 30 địa điểm trong không gian 6 chiều (siêu không
gian của 6 biến số môi trường) hay 6 điểm dữ liệu trong không gian của 30 chiều
(siêu không gian của 30 lần lặp lại (đối tượng)).
Khi phân tích đa biến bắt đầu, nhà phân tích phải quyết định bản đồ nhân tố sẽ lập
cho các biến hay cho các đối tương lặp lại.
Thực tế có hai bản đồ nhân tố sẽ trả lời hai câu hỏi khác nhau:
Những liên hệ giữa các biến là gì? => bản đồ các biến số.
Những liên hệ hay sự tương đồng giữa các địa điểm => bản đồ đối tương (lặp lại).

Bản đồ nhân tố của các biến có thể đặt song song cùng với bản đồ đối tượng lặp lại.
Tốt nhất là trình bày hai bản đồ cùng kích thước.
Từ sự song hành đó, có thể suy diễn tương ứng giữa các đối tương lặp lại và các
biến số.
Các đối tượng lặp lại hay các biến số gần với gốc toạ độ không nói lên đặc tính gì
và khơng có ý nghĩa trong việc diễn đạt thông tin.
4.2. Các nguyên tắc chỉ dẫn đọc biplot trong nghiên cứu đa biến

Các biến số và các đối tượng (lặp lại,ô mẫu, cây con, doanh nghiệp)
- Một biến là một thông số thay đổi khi được đo hay khảo sát nhiều lần;
- Sự lặp lại trên các đối tượng là các số đo lặp lại trên cùng một biến;


- Thường quy ước trong các CSDL được phân tích, các biến là các cột, lặp lại nên là
các dòng.
Ghi chú: lặp lại có thể là ơ mẩu, cây, con…
Các quy tắc đọc bản đồ biplot
Để có thể đọc đúng thông tin của thị Biplot, ta cần thực hiện các phương pháp xử lý
đặc biệt đã được áp dụng cho
(1) các hàng và/hoặc cột, như xác định trọng tâm (centroid) và chuẩn hóa dữ liệu, và
(2) chia tỷ lệ thành phần chính và chia tỷ lệ đối xứng nhau giữa PCA1 và PCA2.
Một bản đồ nhân tố khơng có chia thang độ trên các trục và được trình bày về mặt
sự gần gủi địa lý của các điểm trong bản đồ.
Ngồi ra, để có thể đọc các biplot để kết xuất các thơng tin hữu ích cho nghiên cứu,
ta cần chú ý một số quy tắc cơ bản như sau:
Quy tắc 1: Bản đồ điểm đánh dấu (đối tượng) và bản đồ biến số phải cùng kích
thước
Một điểm quan trọng trong việc xây dựng các biểu đồ thực tế cho các biplots là các
trục tọa độ dọc và ngang vật lý phải có cùng tỷ lệ vật lý.
Khơng tn thủ tỷ lệ này sẽ khiến không thể đánh giá các sản phẩm bên trong trong

biểu đồ.
 Không bao giờ kéo đồ thị, làm thay đổi lích thức các trục trên bản đồ biplot!
Quy tắc 2: loại data ta sử dụng khi xử lý
Có hai trường hợp về dữ liệu, tùy hoàn cảnh nghiên cứu:
1) Theo qui ước chung bảng hai chiều để xử lý PCA hay FA có cột là biến số
(chỉ thị, thuộc tính) và dịng là các mẫu (đối tượng, đơn vị) mà ta đo đạc, thu
thập.
2) Dữ liệu nghiên cứu quan hệ giữa sinh vật và môi trường, bào gồm hai ma
trận: Ma trận G (Genotype) chứa thông tin sinh vật và ma trận E
(Environment)
Ma trận dữ liệu (đối tượng) (hoàn
cảnh

Ma trận dữ liệu của các biến số NC chính
(Sinh vật lý )

Ơ
mẫu

Ơ
mẫu

Độ
dài

Bề
ngang

.....


1

1

2

2

3

3

4

4

5

5

Chủng Trọng Số cá thể
loại
lượng trên m3

Số mọc
đuôi…

 Các mẫu (đối tượng, đơn vị, kiểu gen) được hiển thị dưới dạng điểm và các
biến số (chỉ thị, thuộc tính, mơi trường) dưới dạng vectơ;
Quy tắc 3: Góc giữa các vec tơ (mũi tên biến số)



 Xem xét góc hình thành giữa các vectơ trên đồ thị các vectơ biến số. nếu hai
vectơ (chỉ thị, thuộc tính, mơi trường) có một góc nhỏ thì chúng được liên
kết chặt chẽ và có tương quan nhau. ố co
 3a: Góc giữa hai vec tơ là góc nhọn, mũi tên sát nhau thí biến cố có tương
quan thuận
 3b: nếu hai vec tơ trực giao thì khơng có tương quan
 3c: nếu hai vec tơ đối nhau (góc tù lớn, thì hai biến có tương quan nghịch.
Quy tắc 4: Sự tương đồng của các điểm đánh dấu (đối tương) về các biến số:
điểm đánh dâu (marker) (đối tượng, đơn vị, kiểu gen) thể hiện độ lệch chuẩn so với
mức trung bình của từng biến số (chỉ thị, thuộc tính, mơi trường);
 4a: Các điểm đánh dấu cùng ở gần các biến số nào sẽ có tương đồng nhau về
các biến số đó
 4b: Các điểm đánh dấu đối diện nhau trên bản đồ nhân tố có các giá trị biến
số đối nghịch nhau
 4c: Các địa điểm xuất hiện trên một hướng trực giao với các địa điểm khác,
sẽ khơng có các biến tương quan nhau
Quy tắc 5: gốc tọa độ của các vec tơ biến số
gốc tọa độ đại diện cho giá trị trung bình cho từng biến số (chỉ thị, thuộc tính, mơi
trường);, tức là nó đại diện cho kiểu mẫu (đối tượng, đơn vị, kiểu gen) có giá trị
trung bình trong mỗi mơi trường. Điểm đánh dấu (đối tượng, đơn vị, kiểu gen) trung
bình này có giá trị bằng 0 trong ma trận dữ liệu có tính trọng tâm hay nói cách khác,
nếu dữ liệu được chuẩn hóa ;
Quy tắc 6: Hình chiếu của điểm đánh dấu đối tượng, đơn vị, kiểu gen) lên vec tơ
biến số
hình chiếu của điểm mẫu (đối tượng, đơn vị, kiểu gen) trên vectơ biến số (chỉ thị,
thuộc tính, mơi trường) càng lớn, đối tượng này (đơn vị, kiểu gen) này càng lệch
khỏi mức trung bình trong biến số (chỉ thị, thuộc tính, mơi trường);


Ví dụ 1: nơi trú ẩn của các loài cá
Tập dữ liệu bao gồm các biến số về nơi trú ẩn được khảo sát từ thượng nguồn.
Ma trận dữ liệu của các biến số mơi trường
Ơ
mẫu

Temperature

Discharge

Salinity

Depth Current Transparency

S1
S2
S3
….
S30
Các bản đồ nhân tố cho phép thực hiện phân tích tương tứng


Trong ví dụ này các điểm trên mỗi bản đồ có vị trí tương đối diễn đạt sự tương đồng
hay tương quan của các biến số.
Bản đồ các biến số
Trong bản đồ nhân tố của các cột, các biến số được diễn đạt tổng quát bằng các vec
tơ xuất phát từ trung tâm của đồ thị.
Áp dụng quy tắc 3: Các biến số gần nhau ((e.g. Discharge and Temperature) có
tương quan thuận với nhau.(Quy tắc 3)
Các biến số đối diện nhau (e.g. Current velocity and Salinity) thì có tương quan

nghịch nhau (một biến có giá trị cao , trong khi biến kia có giá trị thấp)
Các biến trực giao nhau thì khơng có tương quan thận lẫn tương quan nghịch nhưng
độc lập lẫn nhau, (e.g. Depth and Temperature).
Bản đồ các điểm đánh dấu (đối tượng, lặp lại)
Áp dụng quy tắc 4a: Các địa điểm gần với nhau trong một vùng nào đó trong bản
đồ thì tương đồng nhau về các biến đã đo ở các địa điểm này (Vd địa điểm S1, S29,
S24 có giá trị tương đồng về Temperature and Discharge)
Áp dụng quy tắc 4b Các địa điểm đối diện nhau trên bản đồ nhân tố có các giá trị
biến số đối nghịch nhau (vd. Các giá trị cao Temperature and Discharge trong địa
điểm S1 hay S29 nhưng có giá trị thấp ở địa điểm S10 hay S14);
Áp dụng quy tắc 4c Các địa điểm xuất hiện trên một hướng trực giao với các địa
điểm khác, sẽ khơng có các biến tương quan nhau (vd. Địa điểm S11, S3, S8 khơng
có những đặc trưng chung với các địa điểm S14, S2 hay S10).

Trình bày khái quát
Dữ liệu thật sự phản ảnh sự thay đổi của nơi ở dọc trên sơng:
Các điểm nằm ở thượng nguồn, trong vùng núi, có dòng chảy cao, nước trong, nhiệt
độ thấp và xả thải ít. Tạo thành nơi ở đặc trưng của các suối nhỏ vùng núi.
Ngược lại, các điểm nằm ở phía biển, trên cửa sơng, có độ mặn cao, nhiệt độ cao
hơn và xả thải lớn hơn. Các hồ sâu cũng có thể tìm thấy dọc theo sơng và vì vậy độ
sâu khơng có liên hệ với các biến số khác.


4.5. Ví dụ 2: Dữ liệu khảo sát các lồi xuất hiện vào các thời điểm khác nhau ở
rừng ngập mặn

Ma trận dữ liệu của các biến số loài cá xuất hiện trong các tháng quan trắc
Thời
điểm


SP1 SP2

SP3 ….. …..

…..

…..

…..

SP18 Sp19 SP20

T1
T2
….
T12
Trong vùng rừng ngập mặn ven bờ, các loài cá được lấy mẫu hàng tháng.
Phân tích nhấn mạnh vào sự thay đổi các loài di cư vào và ra khu vực (Nghiên cứu
động thái của quần xã).

Bản đồ biến số (các loài bắt được) chứng tỏ là Sp3, Sp4, Sp5 được bắt từ February đến
May;
Sp15, Sp16 and Sp18 chung từ August đến October và Sp9 đến Sp14 được bắt chủ yếu từ
November đến January.
Phân tích tồn bộ theo cách tổng hợp và hiệu quả, Sự thay đổi của quần xã cá được
đặc trưng bởi ba mùa phân biệt (bản đồ lặp lại: September đến November, January,
and February.
4.6. Ví dụ 3: Dữ liệu khảo sát các loại thực phẩm với thành phần khác nhau
Có 10 loại thực phẩm. Khảo sát 6 thông số như sau:
T

T
1
2
3
4
5
6

Tên thực phẩm
"Ham"
"Pork Chops"
"Beef Rib Roast"
"Beef Chuck Roast"
"Halibut"
"Beef Liver"

Chi phí
28
25
25
18
18
15

Chất đạm
29
29
29
32
33

30

Chất sắt
21
22
22
22
6
55

"Thiamine "Riboflavin "Niacin
"
"
"
38
11
29
59
12
36
4
9
30
3
10
29
4
4
74
18

198
105


7
8
9
10

"Eggs"
"Dry Beans"
"Bacon"
"Peanut Butter"

10
2
5
4

19
16
6
12

22
30
4
5

7

8
7
3

16
6
3
2

1
12
7
43

Xử lý bằng phương pháp phân tích thành phần chính PCA:
Principal Component Analysis: Chi phí, Chất đạm, Chất sắt,
"Thiamine", "Riboflavin", "Niacin"
Eigenanalysis of the Correlation Matrix
Eigenvalue
Proportion
Cumulative

2.9567
0.493
0.493

Variable
Chi phí
Chất đạm
Chất sắt

"Thiamine"
"Riboflavin"
"Niacin"

1.6511
0.275
0.768

PC1
0.367
0.464
0.439
0.261
0.437
0.445

0.7997
0.133
0.901

0.4553
0.076
0.977

0.1178
0.020
0.997

0.0194
0.003

1.000

PC2
0.564
0.306
-0.317
0.437
-0.480
-0.257

Score Plot of Chi phí, ..., "Niacin"

Loading Plot of Chi phí, ..., "Niacin"
Chi phí

2
0.50

"Thiamine"
Chất đạm

Second Component

Second Component

1

0

-1


0.25

0.00

"Niacin"

-0.25

Chất sắt

-2

"Riboflavin"

-0.50

-3
-3

-2

-1

0

1

2


3

0.0

4

0.1

0.2

0.3

0.4

0.5

First Component

First Component

Biplot of Chi phí, ..., "Niacin"
2

5
9

1

Second Component


1
9

0

9
9

10

-1

3
9
4
9

7
9

2
9
Chi phí
"Thiamine"
Chất đạm

"Niacin"
Chất sắt
"Riboflavin"


8
9
6
9

-2

-3
-3

-2

-1

0

1

2

3

First Component

Qua kết quả hiển thị trên biplot, cho thấy:
- Nhóm các sản phẩm 1, 2, 3, 4, 5: có giá trị Thiamin và chi phí cao

4



- Nhóm sản phẩm 7, 8, 9, 10 ở phía ngược lại với giá trị Thiamin và chi phí
thấp
- Nhóm chất sắt, Riboflavine và Niacin khác biệt với các sản phẩm khác nhau.
- Hai biến Thiamine và giá trị chi phí có liên hệ nhau (góc nhọn).
- Nhóm chất sắt, Niacin có tương quan nhau (góc nhọn)
- Có thể thấy Sản phẩm 6 có giá trị bất thường, các sản phẩm cịn lại hình
thành hai nhóm nhóm A (1,2,3,4,5) có chi phí cao; nhóm B (7,8,9,10) thì
ngược lại có chi phí thấp hơn./.
PHỤ LỤC
Phụ lục I. Biểu thị hình học của dữ liệu đa biến


Phụ lục 2. Các phương pháp phân tích khám phá (exploratory research) cho kết
xuất biplot


Phụ lục 3. Các quy tắc diễn đạt trong biplot


SỬ DỤNG BIPLOT TRONG CÁC NGHIÊN CỨU DỮ LIỆU ĐA
BIẾN SỐ TRONG LĨNH VỰC SINH HỌC
1
1. KHÁI NIỆM VỀ DỮ LIỆU ĐA BIẾN SỐ................................1
2. CẤU TRÚC DỮ LIỆU ĐA BIẾN PHÙ HỢP ĐỂ SỬ DỤNG PHÂN
TÍCH BẰNG BIPLOT...........................................................1
3. KHÁI NIỆM VÀ Ý NGHĨA CỦA BIPLOT...............................3

3.1. Khái niệm về biplot................................................................................3
3.2. Ý nghĩa của biplot..................................................................................3
4. NHỮNG CƠ SỞ KHOA HỌC ĐỂ NHẬN THỨC THỂ HIỆN CỦA

BIPLOT.............................................................................4

4.1. Biểu thị hình học của đại lượng phương sai...........................................4
4.2. Các nguyên tắc chỉ dẫn đọc biplot trong nghiên cứu đa biến.................4
4.3. Bản đồ các biến số, bản đồ của các mẫu lặp lại.....................................5
4.4. Ví dụ 1: Áp dụng phân tích biplot cho dữ liệu các điểm quan trắc và biến
số mơi trường........................................................................................7
4.5. Ví dụ 2: Dữ liệu khảo sát các loài xuất hiện vào các thời điểm khác nhau ở
rừng ngập mặn.......................................................................................9
4.6. Ví dụ 3: Dữ liệu khảo sát các loại thực phẩm với thành phần khác nhau9
PHỤ LỤC....................................................................................................11
Phụ lục I. Biểu thị hình học của dữ liệu đa biến..........................................11
Phụ lục 2. Các phương pháp phân tích khám phá (exploratory research) cho kết
xuất biplot...........................................................................................12
Phụ lục 3. Các quy tắc diễn đạt trong biplot..............................................13



×