Phân tích mơ tả
và PCA
Dominique Valentin
Hervé Abdi
ENSBANA/CESG
The university of Texas at Dallas
Xét lại ví dụ về sữa chua
Cấu trúc
Độ đặc: consistency of the mass in the mouth
Tỷ lệ tan chảy: lượng sản phẩm bị tan chảy dưới một sức ép cụ thể của lưỡi
Độ hạt: lượng mảnh nhỏ có trong khối sản phẩm
Độ dính vịm miệng: lượng màng mỏng cịn sót lại trên bề mặt vòm miệng
Các vị cơ bản:
Ngọt: đường mía
Chua: acid lactic
Đắng: caffeine
Mặn: NaCl (muối ăn)
Hương vị:
Nước: vị giống nước lọc
Gỗ: mùi gỗ gọt bút chì
Sữa: sữa nguyên kem
Kem: kem tươi
Đất: đất
Bột: 1 muỗng hương liệu pha trong nước
Phấn: smecta
Vỏ bột bánh: vỏ bột bánh thương mại
Hazelnut: bột hazelnut
Nấm: nấm khô ngâm trong nước
Xét lại ví dụ về sữa chua
9 cảm quan viên
5 loại sữa chua: 3 sữa chua đậu nành
2 sữa chua lên men từ sữa bị
Đắng
Hồn tồn khơng
Rất mạnh
Hồn tồn khơng
Rất mạnh
Hồn tồn khơng
Rất mạnh
Mặn
Chát
Xét lại ví dụ về sữa chua
Cấu trúc
Đặc
10,00
8,00
6,00
4,00
ab
ab
a
b
2,00
b
0,00
soja
sojasun
carrefour
sojade
Intensité moyenne
Intensité moyenne
Bột
10,00
6,00
4,00
soja
sojasun
carrefour
b
ab
a
ab
2,00
0,00
soja
sojasun
carrefour
sojade
ab
d
sojade
velouté leaderprice
danone
Tan chảy
velouté leaderprice
danone
Intensité moyenne
Intensité moyenne
4,00
ab
bc
0,00
velouté leaderprice
danone
10,00
6,00
bc
2,00
Béo
8,00
a
8,00
10,00
8,00
6,00
abc abc
4,00
c
abc
ab
2,00
0,00
soja
sojasun
carrefour
sojade
velouté leaderprice
danone
Xét lại ví dụ về sữa chua
Vị
Chua
10,00
8,00
6,00
4,00
ab
ab
ab
ab
ab
2,00
0,00
soja
sojasun
carrefour
sojade
Intensité moyenne
Intensité moyenne
Ngọt
10,00
a
8,00
6,00
4,00
cd
soja
sojasun
carrefour
2,00
a
a
a
a
a
0,00
soja
sojasun
carrefour
sojade
sojade
velouté leaderprice
danone
Chát
velouté leaderprice
danone
Intensité moyenne
Intensité moyenne
4,00
bc
0,00
velouté leaderprice
danone
10,00
6,00
cd
2,00
Đắng
8,00
cd
10,00
8,00
6,00
4,00
a
abc abc
c
abc
2,00
0,00
soja
sojasun
carrefour
sojade
velouté leaderprice
danone
Xét lại ví dụ về sữa chua
Mùi
Phấn
10,00
8,00
6,00
4,00
c
abc abc
d
2,00
d
0,00
soja
sojasun
carrefour
sojade
Intensité moyenne
Intensité moyenne
Bột
10,00
8,00
6,00
a
b
4,00
soja
sojasun
carrefour
2,00
a
ab
ab
b
0,00
soja
sojasun
carrefour
sojade
velouté leaderprice
danone
Intensité moyenne
Intensité moyenne
8,00
ab
b
sojade
velouté leaderprice
danone
Kem
10,00
4,00
b
0,00
velouté leaderprice
danone
Hazelnut
6,00
b
2,00
10,00
a
8,00
6,00
4,00
2,00
c
c
c
c
0,00
soja
sojasun
carrefour
sojade
velouté leaderprice
danone
Giải pháp: Phân tích thành phần chính
Facteur 2 - 17.84 %
sucre
epais
0.8
Facteur 2 - 17.84 %
noisette
farine
gras
0.4
farineux astringent
bois
eau
terreux
champignon
craie
creme
0
lait
acide
-0.4
fondant
sojade
Soja bifidus
2
danone bifidus
Soja sun
1
soja bio
velouté danone
0
Soja délice
soja champion
-1
Leader price
-0.8
-2
-4.5
-0.8
-0.4
0
0.4
0.8
Facteur 1 - 61.04 %
Soja carrefour
Soja leaderprice
carrefour
-3.0
-1.5
0
1.5
3.0
Facteur 1 - 61.04 %
Phân tích thành phần chính (PCA) là gì?
Một kỹ thuật thống kê được dùng để chuyển một
lượng lớn các biến số tương quan nhau thành một
lượng nhỏ hơn các biến số khơng tương quan gọi là
các thành phần chính.
Thành phần chính thứ nhất biểu diễn mức độ biến
thiên nhiều nhất trong các số liệu, và mỗi thành
phần tiếp theo biểu diễn càng nhiều mức độ biến
thiên còn lại càng tốt.
Kỹ thuật toán học được sử dụng trong PCA được
gọi là phân tích giá trị riêng.
Sử dụng PCA khi nào ?
Để phân tích các bảng số liệu hai chiều gồm có
I quan sát và J biến định lượng
Biến số
1
..
.
i
..
.
I
……...
Quan sát
1 … j … J
…... yij
Vì sao sử dụng PCA ?
1. Để đánh giá sự giống nhau giữa các quan sát, ở
đây là các sản phẩm
2. Để đánh giá cấu trúc trong mối quan hệ giữa các
biến số, ở đây là các thuộc tính mơ tả descriptors
3. Để giảm bớt số lượng các biến số, từ đó có thể
biểu diễn các số liệu bằng đồ họa
Đưa ra một mô tả tổng hợp cho các
sản phẩm
Nguyên tắc chung của PCA
…... y
ij
Các thành phần chính
PC1 .. PCk .. PCK
1
Phân tích đường chéo .
.
Hoặc phân tích riêng .
i …...
Cpik
..
.
……...
1
..
.
i
..
.
I
……...
Quan sát
Biến số
1 … j … J
I
Vòng tròn tương quan
PC2
Hình chiếu của các quan sát
PC2
+
Cp1
+
+
+
PC1
Một ví dụ nhỏ: profile rượu vang
Amber
Black
currant
Musc
Goose
berry
Coconut
Leather
Woody
Vanilla
Rasberry
v1
7.000
3.000
1.000
6.000
9.000
3.000
1.000
0.000
2.000
v2
0.000
5.000
1.000
1.000
0.000
7.000
0.000
1.000
6.000
v3
1.000
9.000
0.000
0.000
0.000
6.000
1.000
1.000
5.000
v4
1.000
6.000
7.000
0.000
1.000
6.000
4.000
6.000
4.000
v5
6.000
1.000
8.000
5.000
4.000
2.000
5.000
5.000
1.000
v6
1.000
6.000
5.000
1.000
0.000
5.000
5.000
7.000
6.000
v7
7.000
3.000
1.000
6.000
8.000
2.000
1.000
0.000
2.000
v8
6.000
3.000
0.000
5.000
5.000
3.000
1.000
1.000
3.000
v9
0.000
4.000
4.000
1.000
0.000
7.000
6.000
5.000
5.000
v10
4.000
2.000
6.000
5.000
6.000
2.000
5.000
7.000
1.000
v11
5.000
1.000
4.000
6.000
7.000
1.000
6.000
7.000
2.000
v12
1.000
6.000
0.000
1.000
0.000
5.000
0.000
1.000
8.000
Một ví dụ nhỏ: profile rượu vang
coconut
vanilla
woody
goose berry
leather
amber
rasberry
black currant
Một ví dụ nhỏ: profile rượu vang
Làm thế nào để tìm các thành phần chính?
Bước 1: lấy vài số liệu
Bước 2: lấy hiệu các giá trị trung bình các biến số
Bước 3: tìm các vectơ riêng và các giá trị riêng của ma
trận đồng phương sai
Bước 4: tìm các thành phần chính bằng cách chiếu các
quan sát lên các vectơ riêng
Bước 5: tính tốn các tải (loading) chẳng hạn như sự
tương quan giữa các biến số gốc và các thành phần
chính
Ví dụ 2D: bước 1 lấy số liệu
20 từ :
Biến 1 = số chữ cái
Biến 2 = số dòng dùng để định nghĩa
từ trong từ điển
Số chữ cái của từ
Ví dụ 2D: bước 1 lấy số liệu
Số dòng của định nghĩa
Ví dụ 2D: bước 2 Lấy hiệu trung bình
Y = “Chiều dài của từ ”
MY = 6
y = (Y −MY)
W = “Số dòng của định nghĩa”
MW = 8
w = (W −MW)
Ví dụ 2D: bước 2 Lấy hiệu trung bình
Ví dụ 2D: bước 3 tìm các vectơ riêng
Ví dụ 2D: bước 3 tìm các vectơ riêng
Ví dụ 2D: chiếu các quan sát
Ví dụ 2D: chiếu các quan sát
Ví dụ 2D: tính tốn các tải (loadings)
Hệ số tương quan Pearson
r (W, F1) = 0.97
Ví dụ 2D: tính tốn các tải (loadings)
Hệ số tương quan Pearson
r (W, F2) = 0.23