Tải bản đầy đủ (.doc) (17 trang)

Phân tích theo nhóm thứ bậc HCA

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (435.68 KB, 17 trang )

Phân tích theo nhóm thứ bậc Bộ giáo dục và đào tạo
(HCA)

Trờng đại học bách khoa hà nội
----------------------------

Tiểu luận
Môn học xử lý số liệu
Đề Số: 28

Phân tích theo nhóm thứ bậc (HCA)
cách tiến hành và làm ví dụ ứng dụng

Hà néi, 12 - 2007

-1–


Phân tích theo nhóm thứ bậc (HCA)

Mở đầu
Chúng ta đà biết, trong quá trình nghiên cứu khoa học chúng ta thờng xuyên gặp
phải các vấn đề xử lý số liệu. Dữ liệu mà chúng ta thu đợc thờng ở dạng cồng kềnh, cha
đủ để phân tích, đánh giá. Vì vậy, một trong những bớc quan trọng của quá trình nghiên
cứu đó là xử lý số liệu.
Nghĩa là đòi hỏi chúng ta phải chuyển những mẫu dữ liệu quan sát thô mà ta đÃ
tiến hành mà hóa và kiểm tra thành những con số thống kê có ý nghĩa cho việc diễn giải
kết quả nghiên cứu. Toàn bộ công việc xử lý phân tích phức tạp này sẽ đợc thực hiện
bởi các phần mềm chuyên dụng hỗ trợ.
Hiện nay có ba bộ chơng trình thờng dùng phục vụ cho xử lý và phân tích số liệu
thống kê trên thế giới, đó là SAS, SPSS và STATA. Các chơng trình này không những đợc giảng dạy trong các trờng đại học mà còn là những công cụ không thể thiếu đợc đối


với các nhà thống kê và các nghiên cứu quan sát thống kê ở nhiều lĩnh vực khác nhau.
Trong số ba bộ chơng trình thì SAS là chơng trình lớn nhất và mạnh nhất nhng lại đắt
nhất, nên trong giai đoạn hiện nay ít đợc phổ biến ở nớc ta; còn hai bộ chơng trình SPSS
và STATA nhiều ngời biết và đang sử dụng trong nghiên cứu thống kê từ đầu những năm
1990.
SPSS là một bộ chơng trình mà nhiều ngêi sư dơng a thÝch do nã rÊt dƠ sư dụng.
SPSS có một giao diện giữa ngời và máy cho phép sử dụng các menu thả xuống để chọn
các lệnh thực hiện. Khi thực hiện một phân tích chỉ đơn giản chọn thủ tục cần thiết và
chọn các biến phân tích và bấm OK là có kết quả ngay trên màn hình để xem xét. SPSS
cũng có một ngôn ngữ có ph¸p cã thĨ häc b»ng c¸ch d¸n có ph¸p lệnh vào cửa sổ cú
pháp từ một lệnh vừa chọn và thực hiện, nhng nói chung khá phức tạp và không trực
giác.
Các bớc cơ bản trong quá trình xử lý dữ liệu :
Bớc 1: Xác định loại dữ liệu thu thập đợc
- Dữ liệu định tính: thang đo định danh/ thang đo thứ tự
- Dữ liệu định lợng: thang đo khoảng/ thang đo tỉ lệ
Bớc 2: Xác định những nội dung cần phân tích để mô tả kết quả dữ liệu (có thể xử lý
đơn hay xử lý chéo)
Bớc 3: Chọn lựa kỹ thuật phân tích tơng thích.
Bớc 4: Nhập dữ liệu theo tiêu chuẩn kỹ thuật đà chọn và xử lý kết quả (do máy tính
thực hiện)
Bớc 5: Đọc kết quả xử lý và nhận xét kết quả
-2


Ph©n tÝch theo nhãm thø bËc (HCA)

I. Giíi thiƯu vỊ HCA
Phân tích theo nhóm (Cluster Analysis) là mt trong những phơng pháp thông kê
mà trong đó mỗi nhóm riêng biệt quan sát sẽ đợc gộp lại thành 1 hạng, cấp (hay gọi là

nhóm) dựa trên sự tơng tự nhau. Nghĩa là phân chia n đối tợng thành k nhóm sao cho các
đối tợng trong mỗi nhóm giống nhau hơn các đối tợng của nhóm khác, với k cha biết.
Các phơng pháp thông thờng dùng trong thuật toán phân nhóm là: phân nhóm theo
thứ bậc (Hierarchical cluster analysis ) và K-means analysis., mixture models, SOM,
Trong đó phân tích theo nhóm thứ bËc (Hierarchical cluster analysis HCA) là thđ tơc thùc
hiƯn ®Ĩ nhằm xác định các nhóm có cùng tính chất trong rất nhiều đặc tính khác nhau dựa
trên các đặc tính ®· lùa chän. Chóng ta cã thĨ sư dơng ph¬ng pháp phân tích theo nhóm
thứ bậc để phân chia hoặc gộp nhóm.
Gộp nhóm

Phân nhóm

Hình 1: Thuật toán phân tích theo nhóm thứ bậc.
Nh vậy để phân nhóm theo thứ bậc, trớc hết chúng ta phải tính toán sự giống nhau
giữa các phần tử của hai đối tợng. Khi đó, hai nhóm giống nhau nhất sẽ tạo thành một
nhóm mới. ở đây, chúng ta lại cần phải tính toán sự giống nhau giữa nhóm mới với các
nhóm còn lại, hai nhóm giống nhau nhất tạo thành một nhóm mới khác. Chúng ta có thể
biểu diễn quá trình này theo sơ đồ hình 1.
Thủ tục của phơng pháp phân tích gộp nhóm bắt đầu từ n điểm ( n đợc coi là cỡ mẫu)
gộp hai điểm giống nhau nhất trong mỗi bớc và kết thúc khi đạt đợc số nhóm cần thiết.

-3


Phân tích theo nhóm thứ bậc (HCA)

Hình 2 Sơ đồ kết nối đơn

Tính toán sự giống nhau
giữa các phần tử của hai

đối tượng

Hai nhóm giống nhau
nhất tạo thành một
nhóm mới

Tính toán sự giống nhau
giữa nhóm mới với các
nhóm còn lại.
Hình 1: Thủ tục phân nhóm
Phơng pháp gộp nhóm đơn giản nhất trong HCA là sự kết nối đơn. Nét đặc biệt của
phơng pháp này là khoảng cách giữa các nhóm bị giới hạn đợc coi là khoảng cách giữa
các cặp đối tợng gần nhau nhất mà tại đó , mỗi cặp chứa một trong đối tợng từ mỗi nhóm
là đáng kÓ.
-4–


Phân tích theo nhóm thứ bậc (HCA)

Theo phơng pháp liên kết đơn, khoảng cách giữa hai đối tợng D(r,s) đợc tính theo
công thức sau:
D(r,s)= min {d(i,j): trong đó i thuộc nhóm r và j thuộc nhóm s}
Nh vậy ở mỗi cấp ,nhóm r và nhóm s sẽ đợc trộn với nhau khi khoảng cách D(r,s) là nhỏ
nhất. Khoảng cách giữa các nhóm đợc minh hoạ ở hình 2 .
Ngợc với kết nối đơn, kết nối hoàn toàn mà
trong đó khoảng cách giữa các nhóm là khoảng
cách xa nhất trong không gian của các cặp đối tợng từ mỗi nhóm. Khoảng cách D(r,s) đợc tính :
D(r,s)= max {d(i,j), trong đó, i thuộc nhóm r và j
thuộcnhóm s}
Nh vậy khoảng cách giữa hai nhóm đợc đa ra với

giá trị đờng liên kết dài nhất giữa các nhóm. Và ở
mỗi cấp của phân nhóm, nhóm r và nhóm s sẽ
Hình 3: Kết nối hoàn toàn
đợc trộn với nhau khi khoảng cách D(r,s) là lớn nhất, điều này đợc thể hiện rõ ở hình 3.
Một phơng pháp khác đợc sử dụng trong HCA đó là
kết nối trung bình. ở đây sự khác biệt giữa hai nhóm
chính là trung bình các khoảng cách giữa các phần tử
của hai nhóm . Khi đó, khoảng cách D(r,s) đợc tính
theo:
D(r,s)= Trs / (Nr*Ns)
Trong đó: Trs là tổng của tất cả khoảng cách giữa nhóm r
và s. Nr và Ns là cỡ của nhóm r và s tơng ứng.
Tại mỗi cấp của thứ bậc, nhóm r và nhóm s sẽ đợc trộn
với nhau khi khoảng cách D(r,s) là nhỏ nhất. Điều này
Hình 4: Kết nối trung bình
đợc thể hiện rõ hơn ở hình vẽ 4.
Ngoài các phơng pháp trên, kết nối trung bình nhóm cũng đợc sử dụng trong HCA.
Theo phơng pháp này, sự khác biệt giữa hai nhóm đợc dạ trên khoảng cách giữa trung
bình của hai nhóm .
Có thể nói rằng, phơng pháp phân tích theo nhóm thứ bậc là một thủ tục thống kê
tiêu chuẩn, HCA cung cấp sự hình dung về mặt trực quan của kÝch thíc cđa sè liƯu, trong
®ã biĨu ®å HCA ®· kết hợp chặt chẽ về kích thớc với cơ sở dữ liệu. Ngoài ra biểu đồ HCA
còn cho biết mức độ tơng tự nhau
( giống nhau) của các mảng trái ngợc.
Bên cạnh đó đối với một cơ sở dữ liệu, bất kỳ mẫu mới nào cha biết thì có thể dễ
dàng đợc phân hạng khi sử dụng biểu đồ HCA để xác định hoặc ít nhất là cho ta sự nhận
biết về mối quan hệ cơ sở dữ liệu gần nhÊt.
-5–



Phân tích theo nhóm thứ bậc (HCA)

Số liệu của phơng pháp phân tích theo nhóm thứ bậc(HCA)
Số liệu : áp dụng cho số liệu nhị phân, số đếm, định lợng. Tỷ lệ của các biến là 1
vấn đề quan trọng sự khác nhau về tỷ lệ có thể ảnh hởng tới giải pháp nhóm của chúng
ta. Nếu các biến có tỷ lệ (độ chia) khác nhau quá lớn ( ví dụ nh 1 biến có giá trị là đôla và
1 biến là năm) thì chúng ta nên xem xét lại cho chuẩn (điều này có thể đợc làm tự động
nhờ vào thủ tục HCA).
Giả thuyết: Các phép đo giống và khác nhau đà đợc sử dụng phải nên phù hợp với
số liệu phân tích. Việc để sót các biến số chịu ảnh hởng có thể dẫn tới kết quả có giải pháp
sai lầm. Bởi vậy phân tích theo nhóm thứ bậc là 1 phơng pháp có tích chất thăm dò, kết
quả nên đợc xử lý tiếp bằng các thủ tơc kh¸c nh : Anova, PCA, K – mean cluster vv..khi
vẫn thấy hoài nghi cho tới khi chúng đợc khẳng định với một mẫu độc lập.
Phân tích theo nhóm thứ bậc thích hợp với việc xử lý các mẫu nhỏ (<250 biến). Để
thực hiện phân nhóm thứ bậc, các nhà nghiên cứu phải chỉ rõ đợc các đặc tính tơng tự
nhau hay khác xa nhau nh thế nào để xác định, những nhóm nh thế nào thì đợc gộp chung
lại ( hoặc phân ra), và cần thiết bao nhiêu nhóm. Phân tích theo nhóm thứ bậc có thể tạo ra
các nhóm với kích thớc từ 1 K, nhng chỉ đợc sử dụng đối với các mẫu tơng đối nhỏ.
Trong nhóm thứ bậc, các nhóm thờng đợc xếp lồng vào nhau hơn là việc riêng rẽ qua lại,
các nhóm lớn hơn sẽ tạo ra ở các cấp sau có thể chứa nhiều các nhóm nhỏ hơn đ ợc tạo ra ở
các cấp phía trớc của quá trình kết hợp
Thông thờng sử dụng thủ tục phân tích nhóm thứ bậc (HCA) đối víi 1 mÉu nhá ( vÝ
dơ 200) ®Ĩ kiĨm tra đánh giá các kết quả về số lợng nhóm phân khác nhau. Số nhóm tối u
phụ thuộc mục đích nghiên cứu. Nhận dạng các điểm đặc trng có thể sẽ cần cho 1 số
các nhóm và việc nhận dạng các điểm khác thờng cũng có thể cần thiết cho nhiều
nhóm. Sau khi phân tích theo nhóm thứ bậc để xác định số lợng các nhóm nh mong muốn,
các nhà nghiên cứu có thể tiếp tục phân tích toàn bộ số liệu đà thành lập cùng với k
mean clustering ( phân tích nhóm trung bình) hoặc sử dụng PCA ( princical component
analysis ) để phân tích để thấy rõ hơn sự phân nhóm theo các đặc tính cho trớc.
Phân tích theo nhóm thứ bậc (HCA) là phơng pháp thông kê để tìm ra các nhóm

trong các trờng hợp cụ thể tơng đối giống nhau dựa trên các đặc tính của phép đo. Nó bắt
đầu trong mỗi trờng hợp nhóm tách ra và sau đó kết hợp lại thành các dÃy nhóm, giảm số
lợng nhóm qua từng bớc cho tới khi chỉ còn nhóm đợc loại ra. Khi có N trờng hợp ( sự
kiện) thì điều này bao gồm N 1 các bớc nhóm, hoặc hợp nhất. Quá trình phân nhóm thứ
bậc có thể đợc mô tả nh là 1 cây hoặc dendrogram tại đó mỗi bớc trong quá trình phân
nhóm đợc minh họa nhờ sự chắp nối ( kết hợp ) của cây. Phân tách nhóm bắt đầu cùng với
1 nhóm lớn và tiếp tục quá trình chia cắt thành các nhóm nhỏ mà chúng khác nhau hoàn
toàn ( không đồng dạng) và phân nhóm không thứ bậc (là sự phân cắt các mẫu. Mỗi nhóm
-6


Phân tích theo nhóm thứ bậc (HCA)

có 1 điểm gốc và tất cả các đối tợng trong phạm vi khoảng cách qui định thì đà bao gồm
các nhóm thí dụ nh K-means clustering) là đợc sử dụng. Bắt đầu từ thứ bậc phát sinh và
tiểu sử nhóm và sau đó sử dụng không thứ bậc để tạo ra sự đồng điều với các nhóm thành
viên với khả năng chuyển mạch của nó. Trong trờng hợp này, trọng tâm đợc hình thành ở
các nhóm thứ bậc sẽ đợc di chuyển nh giống với trọng tâm ở phân nhóm không thứ bậc.
Trong HCA, khoảng cách giữa các đối tợng trong dữ liệu đợc tính toán và so sánh.
Khi khoảng cách giữa các mẫu là khá nhỏ, điều này ngụ ý rằng các mẫu đều rất có thể nh
nhau ( tơng tự nhau), ít nhất là do bởi phép đo đem lại. Các mẫu không tơng tự nhau sẽ có
khoảng cách liên quan lín h¬n. Sù hiĨu biÕt trong lÜnh vùc khoa häc sinh học khi phân
loại số lợng, phân tích theo nhóm thứ bậc cho phép tập hợp dữ liệu thành nhóm thể hiện
những thuộc tính tơng tự nhau.
Mục tiêu ban đầu của HCA là hiển thị số liệu theo hạng với ý nghĩa nhấn mạnh tự tổ
hợp tự nhiên trong ngân hàng dữ liệu. Ngợc lại, với kỹ thuật phân tích cố gắng tập hợp
những nhóm mẫu mới thành những loại ( hạng) đà có sẵn trớc, HCA sẽ tìm kiếm để xác
định các loại ( hạng) đó đầu tiên. Kết quả biểu diễn HCA trong form hình cây làm cho
việc hình dung về mối quan hệ giữa các nhóm có thể dễ dàng hơn nhiều so với những gì
thực tế.

Phân tích theo nhóm thứ bậc (HCA) là 1 phơng pháp phân tích số liệu quan trọng.
Mục đích đầu tiên của nó là biểu diễn số liệu bằng cách làm nổi bật thành các nhóm và
mô hình tự nhiên của nó. Kết quả với các thuộc tính tự nhiên đà đa ra đợc form hình cây
cho phép có thể hình dung đợc về các mẫu hay biến ở không gian 2 chiều. Khoảng cách
giữa các mẫu hay biến đợc tính toán và biến đổi thành 1 ma trận tơng tự S ( thờng có 1
chú thích rằng không nên mắc lỗi từ ma trận của các giá trị duy nhất từ PCA) mà trong đó
các yếu tố có các chỉ tiêu tơng tự nhau.
Một số khái niệm trong phân tích nhóm
- Sự hình thành nhóm (Cluster formation): là quá trình lựa chọn các thủ tục để làm
cách nào đó tạo ra các nhóm và làm thế nào để tính toán đợc chúng. Môi trờng hợp phân
tích nhóm thứ bậc cùng tính chất thì đâu tiên ngời ta xem xét 1 nhóm sau đó trờng hợp thứ
2 với khoảng cách thấp nhấp ( hoặc là tơng tự cao nhất) sẽ đợc kết hợp thành 1 nhóm. Nếu
khoảng cách thấp nhấp # thì đợc xem nh là kế bên. Nếu trờng hợp thứ 3 gần hơn với trờng
hợp thứ 4 với khoảng cách hơn thì trờng hợp 3 và 4 sẽ trở thành trờng hợp nhóm thứ 2.
Nếu không trờng hợp 3 đợc thêm vào trờng hợp nhóm 1 . Quá trình đợc lặp, thêm các trờng hợp để tạo thành các nhóm hiện tại, tạo ra nhóm mới hoặc kết hợp các nhóm để cuối
cùng đạt đợc số lợng các phân nhóm
- Sự khác nhau (Distance.) : Bớc đầu tiên trong quá trình phân tích nhóm là thành
lập đợc ma trận tơng tự và khác nhau. Ma trân này là 1 bảng trong đó cả dòng và cột là các
-7


Phân tích theo nhóm thứ bậc (HCA)

đơn vị của phép phân tích và các ô thêm vào là các phép đo ( giá trị đo) của phần tơng tự
và sai khác đối với bất kỳ trờng hợp nào Có rất nhiều các giá trị đo khác nhau trong quá
trình theo dõi quan sát Khi các nhóm gần nhất kết hợp thành những nhóm lớn hơn hoặc
khi xem xét mối quan hƯ cđa 1 ®iĨm víi 1 nhãm. SPSS sÏ gióp chúng ta đo khoảng cách
giữa các điểm này cho việc đếm các số liệu nh : không gian ơclit (Euclidean distance),
không gian ơclit vuông góc (squared Euclidean distance), Chebychev, block, Minkowski,
or customized vv

- Không gian ơclit (Euclidean distance) là không gian đo thông dụng nhất. Nó đa
ra các cặp trờng hợp đợc vẽ bởi 2 biến (trong hệ trục) đợc tạo nên bởi trục x và y. Không
gian ơclit là căn bậc 2 của tổng bình phơng x khác nhau và bình phơng khoảng cách y.
( nhớ lại công thức hình học lớp phổ thông : đây là công thức tính chiều dài của mặt thứ 3
của 1 hình lăng trụ tam giác)
- Không gian ơclit vuông góc (Squared Euclidean distance) : nó rời các điểm và vị
trí có tầm quan trọng lớn hơn trên đối tợng ra xa nhau hơn, do vậy làm tăng sự ảnh hởng
của các phần bên ngoài.
- Không gian ( City block) nh chúng ta đà biết không gian block và Manhattan, thì
có sự khác nhau tuyệt đối trung bình với 2 hay nhiều chiều đợc sử dụng để xác định
khoảng cách
- Không gian ( Chebychev distance) là sự khác nhau tuyệt đối lớn nhất giữa từng
cặp trờng hợp về bất kỳ của 1 trong 2 hoặc nhiều chiều ( biến) đợc sử dụng để xác định
khoảng cách. Các cặp đôi sẽ đợc xác định khi có sự khác nhau về các kích thớc đơn lẻ
khác nhau của chúng, bỏ qua các tơng tự (giống nhau) đối với kích thớc còn lại
- Không gian ( Minkowski distance) là 1 hàm khoảng cách tổng quát. Đối với 2
điểm I và j, với khoảng cách đo đợc cã kÝch thíc k (biÕn) cho p.
dij = [sum(xik - xjk )p](1/p)
Khi p = 1 thì không gian Minkowski sẽ là không gian city block. Trong trờng hợp
số liệu là hệ nhị phân, khi p = 1 không gian Minkowski là không gian Hamming, đợc xác
định bởi số 1. Khi p = 2 không gian Minkowski là không gian ơclit. Khi biến k không
thuộc dạng chuẩn và đo ở các tû lƯ kh¸c nhau, c¸c biÕn víi tû lƯ lín h¬n sÏ chiÕm u thÕ.
II. øng dơng
øng dơng kü tht ph©n tÝch theo nhãm thø bËc (Hierarchical Cluster Analysis –
HCA ) để xác định sự giống và khác nhau của 5 mÉu qu¶ cã mói sau : Ora, hnj, anl,
sih, nav.
II.1. Phân tích thành phần các mẫu
- Phơng pháp phân tích: phơng pháp sắc kí
-8



Phân tích theo nhóm thứ bậc (HCA)

- Kết quả đợc thể hiện ở bảng 2.1.
II.2. Phân tích số liệu
Các giá trị phân tích thành phần hóa học của mỗi giống quả có múi sẽ đợc tập hợp
thành 1 ma trận T (m, n) trong đó m là số lợng quả có múi (m = 5) và n là các thành phần
hóa học ( n = 33) sau đó tiến hành ph©n tÝch theo nhãm thø bËc (Hierarchical Cluster
Analysis – HCA) đợc thực hiện trên phần mềm SPSS 11.5 for Window để xác định mối tơng quan giữa các mẫu quả cã mói .
II.3. XÐt sù gièng nhau cđa c¸c mÉu quả.
* Phơng pháp phân tích: Phân tích theo nhóm thứ bậc (HCA)
* Cách thực hiện: sử dụng phần mềm SPSS11.5 theo các bớc sau:
Bảng 2.1 Thành phần của các mẫu qu¶ cã mói
Mẫu
No
. Compound
ORA
HNJ
ANL
SIH
NAV
Area% Area% Area% Area% Area%
1 Ethyl acetate
nd
nd
nd
nd
nd
3 a-Pinene
0.4

0.4
0.5
0.5
0.5
5 Camphene
*
*
*
*
*
6 Undecane
nd
nd
nd
nd
nd
7 b-Pinene
**
**
**
**
**
8 Sabinene
0.2
0.7
0.8
0.8
0.8
9 d-3-Carene
0.1

0.1
0.1
0.1
0.1
10 Myrcene
2.0
2.0
2.0
2.1
2.0
11 a-Phellandrene
**
**
**
**
**
12 a-Terpinene
nd
nd
nd
nd
nd
13 Limonene
94.7
93.6
94.2
93.6
94.4
14 b-Phellandrene
0.2

0.3
0.3
0.3
0.3
15 (Z)-b-Ocimene
*
*
*
*
*
17 (E)-b-Ocimene
**
**
**
**
0.1
18 g-Terpinene
nd
nd
nd
nd
nd
20 p-Cymene
nd
*
*
*
nd
22 Terpinolene
**

*
0.3
*
*
23 Octanal
0.1
0.4
*
0.2
0.4
24 Tridecane
nd
nd
nd
nd
nd
2,7-Dimethyl -1,627 octadiene
nd
nd
nd
nd
nd
28 Nonanal
nd
0.1
**
**
**
29 Tetradecane
**

nd
nd
*
nd
30 Tetradec-1-ene
nd
nd
nd
nd
nd
34 (Z)-Linalool oxide
nd
nd
nd
nd
nd
35 (Z)-Limonene oxide
**
*
nd
**
**
-9–


Ph©n tÝch theo nhãm thø bËc (HCA)

37 (E)-Limonene oxide
nd
**

nd
nd
nd
38 Menthone
**
nd
nd
nd
nd
39 (E)-Linalool oxide
nd
nd
nd
nd
nd
(E)-Sabinene hydrate
40
nd
nd
nd
nd
nd
41 d-Elemene
nd
nd
nd
nd
nd
42 Octyl acetate
nd

nd
nd
nd
nd
44 Citronellal
**
0.1
0.1
0.1
**
46 a-Copaene
nd
nd
nd
nd
nd
Trong ®ã: nd: không phát hiện đợc
nq: không định lợng
* : vùng diện tÝch Peak < 0.005%.
**: vïng diÖn tÝch Peak tõ 0.005- 0.05%
1. Xử lí số liệu:
Dựa vào bảng trên ta thấy rằng, dữ liệu bài cho dùng để phân nhóm theo thành phần.
Do vậy, để phân nhóm theo mẫu, chúng ta cần chuyển dữ liệu trên: chuyển cột hàng.
Tuy nhiên khi nhập số liệu vào phần mềm, cần phải xem xét một số sao cho phù hợp với
chơng trình nhận dữ liệu của phần mềm SPSS:
- Loại bỏ các dấu ngoặc()
- Loại bỏ dấu
- Và một số thủ tục phụ khác.
Ví dụ: (Z)-b-Ocimene => ZbOcimene
2. Nhập dữ liệu vào data view:

Click chuét theo thø tù sau:
File ->open Database -> New Query.

- 10 –


Phân tích theo nhóm thứ bậc (HCA)

Khi đó trên màn hình xuất hiện bảng Database Wizard: Lựa chọn Excel files next.
Tìm đờng dẫn đến file số liệu, click OK. Và một số bớc đơn giản tiếp theo ta đợc bảng
khai báo số liệu.

3. Lựa chọn phơng pháp phân tích ph©n nhãm
- 11 –


Ph©n tÝch theo nhãm thø bËc (HCA)

Click chuét theo thø tự sau: AnalyzeClassify Hierarchical Cluster

4. Chọn dạng đồ thị ( biểu đồ phân nhóm)
Khai báo biến nh bảng Hierarchical Cluster Analysis.
Chọn dạng đồ thị:Dendrogram(dạng cây) Continue

- 12


Phân tích theo nhóm thứ bậc (HCA)

5. Chọn phơng pháp phân nhóm: Chọn liên kết giữa các nhóm: between-groups linkage

*Interval: Dùng cho các biến định lợng.
Lựa chọn phép đo sự giống nhau: ở bài này chọn Squared Euclidean distance
- Khoảng cách Euclides (Euclidean distance),
- Bình phơng khoảng cách Euclides (Squared Euclidean distance).
- Tơng quan cosine của góc giữa hai véc tơ (Cosine)
- Hệ số tơng quan Pearson (Pearson correlation) và một số các khác nh: khoảng cách
Chebyshev(Chebyshev), khoảng cách khối (Block), khoảng cách Minkowski
(Minkowski) và khoảng cách thuần hoá (Customized).
* Counts : Dùng cho số liệu là các số đếm.
Lựa chọn phép đo sự giống nhau:
- Tham số Khi-bình phơng (Chi-square measure)
- Phi-bình phơng (Phi-square measure)
* Binary: Dùng cho các biến nhị nguyên :
Lựa chọn phép đo sự giống nhau: khoảng cách Euclides, bình phơng khoảng cách
Euclides, hiệu số cỡ mÉu (Size difference), hiƯu sè kiĨu mÉu (Pattern difference), ph¬ng
sai (Variance), độ lệch (Dispersion), dáng điệu phân phối (Shape), khớp cặp đơn giản
- 13


Ph©n tÝch theo nhãm thø bËc (HCA)

(Simple matching), hƯ sè tơng quan 4 điểm Phi (Phi 4- point correlation) cùng các loại
tham chiếu thống kê.
* Transform Values: Dùng chuẩn hoá số liệu (trớc khi tính toán độ gần nhau nhất).
Việc chuẩn hoá này không thích hợp với các biến nhị nguyên. Danh sách các phơng
pháp tiến hành chuẩn hoá sẽ hiện ra khi nhấn phím mũi tên trong ô Standardize.
Các phơng pháp chuẩn hoá :
- Giá trị lệch của điểm (Z scores), số liệu trải từ -1 đến 1 (Range -1 to 1), số liệu trải
tử 0 đến 1 (Range 0 to 1), biên độ cực đại là 1 (Maximum magnitude of 1), trị
trung bình là 1 (Mean of 1), độ lệch tiêu chuẩn là 1 (Standard deviation of 1).

- Chuẩn hoá theo biến (By variable) hoặc theo quan sát (By case).

6. Kết quả thu đợc
III. Nhận xét kết quả .
Sau khi chạy chơng trình, ta thu đợc các bảng kÕt qu¶ sau:
- 14 –


Phân tích theo nhóm thứ bậc (HCA)

Bảng 3.1 Case Processing Summary(a,b)
Cases
Valid
N
5

Missing
Total
N
Percent N
Percent
0
.0
5
100.0
a Squared Euclidean Distance used
b Average Linkage (Between Groups)
Nh vậy bằng phơng pháp HCA sử dụng sự kết nối trung bình giữa các
nhóm(Average Linkage (Between Groups) ) ,với phép đo sự giống nhau đợc sử dụng ở đây
là khoảng cách ơclit hay còn khoảng cách hình học ( Squared Euclidean Distance used).

Percent
100.0

Tổng số mẫu nghiên cứu là 5 mẫu: : Ora, hnj, anl, sih, nav. Tất cả các mẫu ở đây
đều phân tích đợc. Sự kết nối giữa các nhóm mẫu quả đợc thể hiện ở bảng 6.2 dới đây.
* Sự kết nối trung bình giữa các nhóm (Average Linkage (Between Groups))
B¶ng 3.2. Agglomeration Schedule
Stage Cluster First
Cluster Combined
Appears
Cluster Cluster
Cluster Cluster Next
Stage 1
2
Coefficients 1
2
Stage
1
2
4
.077
0
0
4
2
3
5
.291
0
0

3
3
1
3
.599
0
2
4
4
1
2
.913
3
1
0
Qua kÕt qu¶ gép nhãm ë B¶ng 3.2 trªn, ta thÊy ë cÊp thø nhÊt, nhãm mÉu quả
2(HNJ) và mẫu quả 4( SIH) có mức độ giống nhau hơn cả với hệ số (của phép đo sự giống
nhau nói ở phần trên) là nhỏ nhất 0.077 và chúng đợc gộp thanhh một nhóm. Tiếp theo, ở
cấp thứ hai, ta lại thấy nhóm mẫu quả thứ 3(ANL) và thứ 5(NAV) lại giống nhau hơn cả
với hệ số của phép đo sự giống nhau là 0.291 và hai nhóm mẫu quả này sẽ đợc trộn với
nhau thành một nhóm mới. Tơng tự ở cấp thứ 3, nhóm mẫu quả 1 (ORA) và nhóm mẫu
quả 3(ANL) sẽ đợc trộn với nhau víi phÐp ®o møc ®é gièng nhau cã hƯ sè lµ 0.599. Ci
cïng, ë cÊp thø 4 cịng lµ cÊp cuèi cïng, kÕt qu¶ cho thÊy nhãm mÉu qu¶ 1( ORA) và
nhóm mẫu quả 2( HNJ) đợc kết hợp với nhau tạo thành một nhóm với hệ số của phép đo
mức độ tơng đồng là 0.913.
Tuy nhiên , sự kết nối giữa các nhóm mẫu qủa có múi ở đây không đơn giản nh vậy.
Mà tại mỗi cấp phân nhóm, có thể xuất hiện nhóm mẫu quả mới đợc tạo bởi giữa nhóm
mẫu quả thuộc nhóm mẫu quả vừa tạo thành tại cấp này với nhóm mẫu quả đơn lẻ khác.

- 15



Ph©n tÝch theo nhãm thø bËc (HCA)

ThËt vËy, ë cÊp phân nhóm thứ nhất và thứ hai không xuất hiện nhóm mẫu quả nào
thuộc hai nhóm mẫu quả vừa tạo thành. Do đó không có nhóm mới nào đợc hình thành ở
đây. Song ở cấp phân nhóm thứ 3 nhận thấy rằng, nhóm mẫu quả(1-3) mới đợc tạo thành
ở cấp này có nhóm mẫu 1 giống mẫu 2 . vì vậy hình thành nhóm mẫu quả mới và chính là
nhóm mẫu quả ở cấp cuối cùng. Kết quả này còn đợc thể hiện rõ hơn ở bảng 3.3
Bảng 3.3.Vertical Icicle
Number of
clusters

1
2
3
4

Case
4:
2:
5:
S
H
N
I
N
A
H
J

V
X X X X X X
X X X
X X
X X X
X X
X X X
X

3:
A
N
L
X X
X X
X
X

1:
O
R
A
X
X
X
X

B¶ng 3.3 chØ ra cho chúng ta thấy rằng, với 5 mẫu quả đà cho sẽ đợc phân nhóm nh
sau:
Trớc tiên, mẫu quả 4(SIH) và mẫu quả 2(HNJ) giống nhau hơn cả nên đợc trộn với

nhau. Khi đó, 5 mẫu quả ta đang nghiên cứu sẽ đợc chia làm 4 nhóm mẫu quả. Tiếp theo,
xét sự giống nhau trong 4 nhóm mẫu quả này, ta thấy, mẫu quả 5 (NAV) có sự tơng đồng
với mẫu quả 3(ANL) và chúng sẽ đợc gộp thành một nhóm. Do đó, Số nhóm mẫu quả ta
thu đợc là 3. T¬ng tù nh vËy, xÐt sù gièng nhau trong 3 nhóm mẫu quả vừa thu đợc, nhóm
mẫu quả 1(ORA) giống mẫu quả 3(NAL) và chúng đợc trộn với nhau, kết quả là chúng ta
thu đợc hai nhóm mẫu quả lớn. Và xét mức độ giống nhau trong hai nhóm mẫu quả trên ta
lại nhận thấy,số mẫu quả này lại có sự khác nhau không nhiều do đó ta thu đợc một nhóm
duy nhất.
Tuy nhiên để minh hoạ các kết quả thể hiện ở trên một cách tổng quan nhất, chúng ta
có thể dựa vào biểu đồ cây dới đây:

Dendrogram
* * * * * * H I E R A R C H I C A L

C L U S T E R

Dendrogram using Average Linkage (Between Groups)

- 16 –

A N A L Y S I S * * * * * *


Ph©n tÝch theo nhãm thø bËc (HCA)
Rescaled Distance Cluster Combine
C A S E
Label
HNJ
SIH
ANL

NAV
ORA

Num
2
4
3
5
1

0
5
10
15
20
25
+---------+---------+---------+---------+---------+

B1

C1



B2

C2


B3



1

2

3

D



4

Nh vậy, biểu đồ cây trên đà thể hiện đợc mức độ giống nhau trong từng mẫu quả
có múi. Để thấy rõ hơn, chúng ta dựng các đờng thẳng đứng ( 1,2,3,4) tơng ứng với các
cấp phân nhãm. T¹i cÊp 1( øng víi D ~ 2), 5 mẫu quả có múi đợc chia làm 4 nhóm mẫu
quả. T¹i cÊp 2(D~10), chóng ta nhËn thÊy 4 nhãm mÉu vừa hình thành đợc chia làm 3
nhóm mẫu quả(B1,B2,B3) do nhóm mẫu quả 3 và 5 tơng tự giống nhau nên chúng đợc
trộn với nhau thành một nhóm, các mẫu còn lại khác nhau và chúng ở các nhóm đơn lẻ.
Tiếp theo, tại cấp 3 ( D~20), chỉ có hai nhóm mẫu quả (C1,C2), do có sự giống nhau giữa
mẫu 3 cđa nhãm B2 víi nhãm mÉu B3 nªn hai nhóm mẫu này đợc trộn với nhau tạo nên
nhóm mới C2( nhóm này khác so với nhóm C1). Tuy nhiên ë cÊp 4( D~25) cđa ph©n
nhãm, mÉu 1 cđa C1 lại có điểm giống với mẫu 2 của nhóm C2 nên chúng lại đợc trộn với
nhau tạo thành một nhóm duy nhất.
Việc phân cấp tại các giá trị khác nhau của thang đo khoảng cách(0-25) cho thấy,
với D càng lớn thì mức độ gần nhau hơn của chúng càng giảm, nghĩa là mức độ tơng đồng
của các nhóm mẫu quả có múi bị loÃng dần, không chặt chẽ, song vẫn ít nhiều giống
nhau tại D nào đó(D<25).


- 17


Phân tích theo nhóm thứ bậc (HCA)

Tài liệu tham khảo
1. Phân tích dữ liệu nghiên cứu SPSS, Hoàng Trọng và Chu NguyÔn Méng Ngäc

2. O'Mahony, M., Sensory evaluation of food. Statistical methods and procedures.
Marcel Dekker, New York (1986), 487 p.
3. Nguyen Hoang Dung, Ha Duyen Tu, and Luu Duan, The role of sensory
evaluation in food quality management and development, Proceedings of the 8th
Asian Food Conference, Hanoi (2003), pp. 862-866.
4.

- 18 –



×