Tải bản đầy đủ (.pdf) (38 trang)

Đồ án môn học Công nghệ thực phẩm Ứng dụng SensoMineR vào đánh giá cảm quan

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.2 MB, 38 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
KHOA KỸ THUẬT HÓA HỌC
BỘ MÔN CÔNG NGHỆ THỰC PHẨM
o0o








Đồ án công nghệ thực phẩm

ỨNG DỤNG SENSOMINER VÀO ĐÁNH GIÁ
CẢM QUAN







GVHD: TS Nguyễn Hoàng Dũng
Th.S Nguyễn Thanh Khương
SVTH: Lê Trần Thị Thùy Duyên
MSSV: 60400437
Lớp : HC04TP1






Tp HCM, Tháng 5/2008
GVHD: TS. Nguyễn Hoàng Dũng
Ứng dụng SensoMineR vào đánh giá cảm quan Th.S Nguyễn Thanh Khương






Lời cảm ơn

Để hoàn thành đồ án này, em xin chân thành cảm ơn
thầy Nguyễn Hoàng Dũng, cô Nguyễn Thanh Khương đã hướng
dẫn tận tình trong quá trình em thực hiện đồ án. Đặc biệt, xin
chân thành cảm ơn thầy Hoàng Dũng đã tạo cơ hội cho em được
tiếp cận với các phương pháp phân tích thống kê và thực hiện xử
lý các số liệu trên phần mềm hiện đại.
Em cũng xin tỏ lòng biết ơn sâu sắc đến các thầy cô, đặc
biệt là các thầy cô trong bộ môn Công Nghệ Thực Phẩm. Các
thầy cô đã truyền dạy cho em những kiến thức vô cùng quý báu,
giúp em có nền tảng kiến thức để thực hiện đồ án này.
Tuy nhiên, do phải tiếp cận, tìm hiểu một vấn đề hoàn
toàn mới lạ và thời gian thực hiện có hạn nên không tránh khỏi
những thiếu sót. Rất mong được các thầy cô xem xét, và góp ý
để đồ án này được hoàn hiện hơn.
Sinh viên thực hiện
Trang ii

GVHD: TS. Nguyễn Hoàng Dũng
Ứng dụng SensoMineR vào đánh giá cảm quan Th.S Nguyễn Thanh Khương





Lời mở đầu


Đánh giá cảm quan là một lĩnh vực nghiên cứu rất sôi động
hiện nay, bằng chứng là các hội thảo Pangborn và Sensometric
thường xuyên được tổ chức với sự tham gia của rất nhiều nhà nghiên
cứu trong lĩnh vực này. Rất nhiều phương pháp xử lý kết quả đánh
giá cảm quan đã được đề xuất và công nhận.
Hai tác giả Francois Husson và Sebastien Lê đã tổng hợp các
phương pháp phân tích cổ điển trong đánh giá số liệu cảm quan và
các phương pháp phân tích hiện đại đã được công nhận trên vào một
phần mềm nhỏ có tên SensoMineR, được ứng dụng riêng trong lĩnh
vực đánh giá cảm quan.
Đồ án “ứng dụng SensoMineR vào đánh giá cảm quan” sẽ tìm
hiểu chức năng của một module trong SensoMineR, bao gồm các
thuật toán, ý nghĩa của các kết quả mà module này xuất ra cũng như
ứng dụng của module trong một ví dụ cụ thể.


Trang iii
GVHD: TS. Nguyễn Hoàng Dũng
Ứng dụng SensoMineR vào đánh giá cảm quan Th.S Nguyễn Thanh Khương



MỤC LỤC

Phần 1: Tổng Quan 1
I. Giới thiệu R 1
II. Giới thiệu SensoMineR 1
III. Panels comparison 3
III.1. Cú pháp của hàm panelmatch() 3
III.2. Các thuật toán 4
III.2.1. Phân tích thành phần chính (Principal Components Analysis – PCA) 5
III.2.2. Phân tích đa yếu tố (Multiple Factor Analysis – MFA) 13
III.2.3. Xây dựng ellipse tin cậy 15
III.3. Kết quả 16
Phần 2: Ứng Dụng 17
I. Tổng quan 17
II. Ví dụ 19
II.1. Các bước xử lý số liệu với SensoMineR 19
II.1.1. Cấu trúc bảng số liệu để xử lý bằng SensoMineR 19
II.1.2. Nhập số liệu 20
II.1.3. Xử lý số liệu 20
II.2. Nhận xét kết quả 23
Phần 3: Kết luận 28
Tài liệu tham khảo 29
Phụ lục I 31
Phụ lục II 31
Phụ lục III 32

Trang iv
GVHD: TS. Nguyễn Hoàng Dũng
Ứng dụng SensoMineR vào đánh giá cảm quan Th.S Nguyễn Thanh Khương



DANH MỤC HÌNH

Hình 1.1: Biểu diễn tác dụng của scaling 8
Hình 1.2: Hình mô tả dữ liệu trước và sau quy tâm 9
Hình 1.3: Hai thành phần chính được chọn 11
Hình 1.4: Chiếu các sản phẩm lên mặt phẳng tạo nên bởi hai thành phần chính 12
Hình 1.5: Tóm tắt nguyên tắc và kết quả của PCA 13
Hình 1.6: Nguyên tắc của MFA 14
Hình 2.1: Một phần bảng số liệu thu được từ hội đồng người Pakistani. 19
Hình 2.2: Cửa sổ Comparison of panels 22
Hình 2.3: Vòng tròn tương quan 23
Hình 2.4: Đồ thị trình bày điểm mô tả sản phẩm theo từng người thử ở cả hai hội đồng 25
Hình 2.5: Đồ thị trình bày điểm trung bình sản phẩm với ellipse tin cậy của hai hội đồng 26
Hình 2.6: Đồ thị biểu diễn ellipse tin cậy bao quanh điểm sản phẩm theo từng hội đồng 27










Trang v
GVHD: TS Nguyễn Hoàng Dũng
Ứng dụng SensoMineR vào đánh giá cảm quan Th.S Nguyễn Thanh Khương



Phần 1: Tổng Quan

I. Giới thiệu R
R là một phần mềm sử dụng cho phân tích thống kê và vẽ đồ thị, được hai nhà thống kê
học Ross Ihaka và Robert Gentleman sáng tạo ra. Kể từ ngày ra đời, R được rất nhiều nhà nghiên
cứu thống kê và toán học trên thế giới ủng hộ và tham gia phát triển [4, 29].
Thực chất R là một ngôn ngữ máy tính, có thể được sử dụng nhằm nhiều mục tiêu khác
nhau, từ tính toán đơn giản, tính toán ma trận đến các tính toán thống kê phức tạp. Vì R là một
ngôn ngữ, nên người ta có thể dùng R để phát triển thành các phần mềm chuyên môn, để giải
quyết một vấn đề cụ thể. Các phần mềm nhỏ được phát triển từ ngôn ngữ R, chạy trong hệ thống
R được gọi là các packages.
Trong R, cũng tích hợp sẵn khoảng 25 packages phục vụ cho các tính toán căn bản. Các
packages này được gọi là các packages cơ sở. Ngoài ra, còn rất nhiều các packages khác với
nhiều chức năng và ứng dụng cụ thể vào nhiều lĩnh vực khác nhau, người sử dụng có thể tải về,
cài đặt và sử dụng tùy theo nhu cầu.
Người sử dụng có thể truy cập vào website chính thức của R có tên “Comprhensive R
Archive Network” (
để tải chương
trình và các packages. R là một phần mềm hoàn toàn miễn phí. Nhưng trái với suy nghĩ thông
thường, R miễn phí nhưng không có nghĩa là chất lượng kém. Vì thực tế cho thấy, cho đến nay,
chỉ khoảng 5 năm phát triển nhưng các nhà thống kê học, toán học, nghiên cứu trong mọi lĩnh
vực đã chuyển sang dùng R để phân tích dữ liệu khoa học. Dựa vào con số người sử dụng R đang
tăng theo cấp số nhân như hiện nay, người ta dự đoán, trong vòng 10 năm nữa, R có thể thay thế
hoàn toàn các phần mềm thống kê đắt tiền khác [4].
II. Giới thiệu package SensoMineR
SensoMineR là một gói (package) phần mềm nhỏ, bao gồm các hàm thực thi, được ứng
dụng trong xử lý số liệu của đánh giá cảm quan.
Trang 1
GVHD: TS Nguyễn Hoàng Dũng

Ứng dụng SensoMineR vào đánh giá cảm quan Th.S Nguyễn Thanh Khương
SensoMineR được viết chương trình bằng ngôn ngữ R, bởi hai tác giả Francois Husson,
Sébastien Lê, thuộc khoa toán học ứng dụng của trường đại học Agrocampus Rennes. Đây là một
ưu thế của SensoMineR vì R là một phần mềm hoàn toàn miễn phí, chúng ta có thể tải về từ bất
cứ đâu trên thế giới và sau vài phút cài đặt là có thể sử dụng ngay. Tùy theo lựa chọn của người
sử dụng, SensoMineR sẽ thực hiện các xử lý thống kê bằng rất nhiều phương pháp khác nhau, từ
các phương pháp cổ điển đến hiện đại như kiểm định Student (t-test), phân tích phương sai
(Anova), phân tích thành phần chính (PCA), phân tích đa yếu tố (MFA)… trên số liệu đánh giá
cảm quan và xuất ra các kết quả dạng biểu đồ hay các bảng số liệu đã xử lý thống kê. Các kết quả
dạng hình ảnh này giúp người thực hiện đánh giá cảm quan dễ dàng nhận xét, phân tích kết quả
thực nghiệm [24, 15].
Ngoài địa chỉ website của R, chúng ta có thể tải package SensoMineR tại địa chỉ
[26].
Như đã nhắc đến ở trên, SensoMineR là một package bao gồm nhiều hàm. Trong mỗi
hàm có các thông số mặc định và các thông số thay đổi. Khi thực thi các hàm, chúng ta bắt buộc
phải nhập các thông số thay đổi, trong khi các thông số mặc định có thể bỏ qua. Trong trường
hợp các thông số mặc định được bỏ qua thì chương trình sẽ hiểu chúng ta lựa chọn các thông số
này giống như mặc định. Các thông số mặc định được các tác giả khuyến cáo là các thông số
thường dùng hay hữu ích trong các trường hợp. Các thông số mặc định cũng được xem là một sự
hướng dẫn cho những người mới sử dụng. Tuy nhiên, chúng ta cũng có thể thay đổi các thông số
này để phù hợp với từng trường hợp cụ thể [15].
SensoMineR có thể giải quyết các vấn đề liên quan tới:
Thiết kế tối ưu (Optimal design)
Mô tả sản phẩm (Characterization products)
Đánh giá năng lực hội đồng (Panel performance)
Liên kết sự ưu tiên và số liệu cảm quan (Relating perfrence and sensory data)
Phép thử tam giác (Triangle test)
So sánh các hội đồng đánh giá cảm quan (Panels comparison)
Số liệu của phép thử napping (Napping data)
Các chức năng công cụ (Tool functions)

Đây cũng chính là các module trong package SensoMineR [24, 15].
Trang 2
GVHD: TS Nguyễn Hoàng Dũng
Ứng dụng SensoMineR vào đánh giá cảm quan Th.S Nguyễn Thanh Khương
Một module trong package SensoMineR có thể có một hoặc nhiều chức năng. Ví dụ,
trong module Triangle test, có hai chức năng là thiết kế một phép thử tam giác (Design for
triangle test) và phân tích số liệu của phép thử tam giác (Analysis triangle test); còn trong module
Panels comparison chỉ có một chức năng là so sánh các hội đồng đánh giá cảm quan.
Mỗi chức năng trong một module lại tương ứng với một hàm trong package SensoMineR.
Trở lại ví dụ trên, khi chúng ta lựa chọn thực hiện chức năng Design for triangle test thì tương
ứng chương trình sẽ thực hiện hàm triangle.design(). Tuy nhiên, cũng có một số hàm trong
package SensoMineR không tương ứng với chức năng nào trong các module như hàm
chocolate, sensochoc, sensopanels, hedochoc, cocktail, napping…vì đây là
các bảng số liệu có sẵn trong package. Các bảng số liệu này được dùng làm ví dụ để những người
mới sử dụng biết cách thực hiện các hàm trong package SensoMineR.
Trong khuôn khổ đồ án này, em chỉ xin đề cập đến một module trong SensoMineR là
module Panels comparison và ứng dụng cụ thể của module này vào xử lý một ví dụ trong thực tế
để hiểu rõ hơn chức năng của nó.
III. Panels comparison
Module Panels comparison có ứng dụng chủ yếu là so sánh các hội đồng đánh giá cảm
quan. Khi lựa chọn thực hiện chức năng so sánh hội đồng của module Panels comparison thì
tương ứng chương trình sẽ thực thi hàm panelmatch()[12, 17].
III.1. Cú pháp của hàm panelmatch()[23, 25]
panelmatch(donnee, col.p, col.j, firstvar, alpha = 0.05, coord =
c(1,2), scale.unit = TRUE, nbsimul = 500, nbchoix = NULL,
centerbypanelist = TRUE, scalebypanelist = FALSE, name.panelist =
FALSE, cex = 1, color = NULL, hierar = NULL)
Trong đó:
Các thông số thay đổi là
donnee, col.p, col.j, firstvar.

donnee: bảng số liệu cần xử lý, được tạo thành từ ít nhất hai biến định lượng (sản phẩm
và hội đồng) và một tập biến (là các thuộc tính mô tả cảm quan). Cấu trúc của bảng số liệu sẽ
được mô tả cụ thể trong phần ví dụ áp dụng.
col.p: vị trí của biến sản phẩm, hay vị trí của cột sản phẩm trong bảng số liệu.
col.j: vị trí của biến người thử, hay vị trí của cột người thử trong bảng số liệu.
Trang 3
GVHD: TS Nguyễn Hoàng Dũng
Ứng dụng SensoMineR vào đánh giá cảm quan Th.S Nguyễn Thanh Khương
firstvar: vị trí của thuộc tính mô tả cảm quan đầu tiên, hay vị trí của cột trình bày
thuộc tính mô tả đầu tiên.
Các thông số mặc định là:
alpha: mức ý nghĩa lựa chọn khi vẽ ellipse tin cậy. Mặc định là alpha = 0.05.
coord: cặp vector vuông góc dùng xác định các thành phần khi vẽ đồ thị. Mặc định chọn
thành thứ nhất và thành phần thứ hai, ứng với trị riêng thứ nhất và thứ hai, vì thường thì hai thành
phần này biểu diễn được nhiều thông tin nhất.
scale.unit: mặc định là TRUE, các thuộc tính mô tả được lấy tỷ lệ với phương sai
đơn vị.
nbsimul: số lượng các giả định được sử dụng để xây dựng các ellipses tin cậy. Nguyên
tắc xây dựng ellipses tin cậy sẽ trình bày cụ thể trong phần các thuật toán. Mặc định là 500.
nbchoix: số lượng người thử ảo tạo thành một hội đồng ảo. Mặc định là số lượng người
thử trong hội đồng nguyên thủy.
centerbypanelist: mặc định là TRUE, các số liệu của từng người thử được quy tâm
trước khi xây dựng các trục.
scalebypanelist: mặc định là FALSE, là TRUE thì các số liệu của từng người thử
sẽ được lấy tỷ lệ trước khi xây dựng các trục.
name.panelist: mặc định là FALSE, là TRUE thì tên của từng người thử sẽ được
biểu diễn ngay trên đồ thị.
cex: là hàm par() trong package graphics. Graphics là package hỗ trợ vẽ đồ thị trong
R. Trong hàm
par()có rất nhiều thông số, chọn cex = 1 tương ứng thực thi hàm

par(no.readonly=TRUE), có nghĩa là ta chọn tất cả các thông số mà không cần nêu cụ thể tên
của thông số đó ra.
color: các màu được sử dụng để vẽ đồ thị. Mặc định có 35 màu.
hierar: trật tự của các biến. Mặc định là NULL.
III.2. Các thuật toán
Phần này sẽ trình bày các thuật toán được sử dụng để xây dựng các đồ thị trong kết quả
xuất ra của hàm
panelmatch().
Thực thi hàm panelmatch() thực ra là thực hiện một phân tích đa yếu tố (Multiple
Factors Analysis – MFA). Tuy nhiên, trước khi tìm hiểu MFA là gì và thực hiện như thế nào, thì
Trang 4
GVHD: TS Nguyễn Hoàng Dũng
Ứng dụng SensoMineR vào đánh giá cảm quan Th.S Nguyễn Thanh Khương
chúng ta tìm hiểu khái niệm và cách thực hiện phân tích thành phần chính (Principal Components
Analysis – PCA), vì thực chất thực hiện MFA được thực hiện qua hai bước: thực hiện PCA trên
từng bảng số liệu sau đó hợp nhất các bảng số liệu và thực hiện một PCA tổng thể.
III.2.1. Phân tích thành phần chính (Principal Components Analysis – PCA)
III.2.1.1. Định nghĩa.
PCA là một kỹ thuật thống kê đa chiều nhằm đơn giản hóa tập hợp dữ liệu phức tạp
(Jackson, 1991; Wold, et al., 1984; Wold, et al., 1987) [6].
Đầu tiên, chúng ta hãy xem xét những khó khăn, phức tạp khi quan sát các sản phẩm
trong không gian đa chiều. Giả sử có n sản phẩm và p tính chất đặc trưng cho sản phẩm. Để quan
sát mối tương quan giữa các sản phẩm và các tính chất, ta sử dụng quan điểm đa chiều
(multidimension point of view). Quan điểm đa chiều được hiểu là quan sát các đối tượng khi đặt
chúng trong không gian đa chiều. Như vậy, quan sát sản phẩm theo quan điểm đa chiều là đặt sản
phẩm trong không gian đa chiều, với mỗi chiều tương ứng với một tính chất đặc trưng cho sản
phẩm, với các tọa độ theo các chiều được xác định dựa vào số điểm được đưa ra bởi các người
thử đối với từng thuộc tính.
Nếu chỉ có một sản phẩm và hai hoặc ba tính chất đặc trưng, thì sản phẩm sẽ được biểu
diễn thành một điểm trong không gian hai hay ba chiều. Nhưng trong trường hợp nhiều sản phẩm

được mô tả bởi nhiều thuộc tính thì vấn đề trở nên phức tạp, tập hợp dữ liệu thu được gồm nhiều
điểm sẽ được biểu diễn thành một “đám mây” trong không gian đa chiều. Vì vậy, để đánh giá
mối tương quan giữa các sản phẩm và các thuộc tính trở nên khó khăn là phức tạp.
Do đó, PCA là một công cụ hữu hiệu để phân tích tập hợp dữ liệu trong trường hợp này,
vì PCA làm giảm chiều của tập hợp dữ liệu để dễ dàng đánh giá mối tương quan giữa các sản
phẩm và thuộc tính, trong khi thông tin của tập dữ liệu bị mất mát ít nhất.
III.2.1.2. Nguyên tắc PCA
Nguyên tắc của PCA là tìm ra các hướng phân tán chính của tập dữ liệu sau đó chiếu toàn
bộ tập dữ liệu lên các hướng phân tán chính này [20].
Mục đích của PCA là làm giảm số chiều của tập hợp dữ liệu. Nhưng khi giảm số chiều
cũng đồng nghĩa là làm mất mát một lượng thông tin về sản phẩm. Vì vậy, yêu cầu đặt ra là cần
giảm tối đa lượng thông tin bị mất mát. PCA làm giảm số chiều của tập dữ liệu và hạn chế lượng
thông tin mất mát bằng cách chỉ bỏ những chiều ít thể hiện thông tin về sự phân tán của sản phẩm
nhất.
Trang 5
GVHD: TS Nguyễn Hoàng Dũng
Ứng dụng SensoMineR vào đánh giá cảm quan Th.S Nguyễn Thanh Khương
Để xác định chiều nào thể hiện ít thông tin về sản phẩm nhất, thay vì xác định sự phân tán
của các sản phẩm theo từng chiều hay từng mặt phẳng, một công việc rất khó khăn vì thực tế có
rất nhiều chiều, chúng ta xác định hướng phân tán chính và mức độ phân tán của các sản phẩm
theo các hướng phân tán chính đó.
Hướng phân tán chính và mức độ phân tán của các sản phẩm được xác định dựa vào
vector riêng và trị riêng của tập dữ liệu. Vector riêng đặc trưng cho hướng của phân tán, còn trị
riêng ứng với mức độ phân tán của tập dữ liệu. Như vậy, vector riêng tương ứng với trị riêng
càng lớn thì theo hướng của vector riêng đó, càng thể hiện được nhiều thông tin của tập dữ liệu
[20, 19]. Hay nói cách khác, các hướng được chọn để biểu diễn trong PCA (các thành phần chính
– pricipal components PC) là hướng của các vector riêng tương ứng với các trị riêng có giá trị lớn
nhất [6].
III.2.1.3. Các bước thực hiện
a. Thu thập dữ liệu

PCA áp dụng cho các tập hợp dữ liệu trong đó các sản phẩm phân tích phải có sự đồng
nhất về các thuộc tính cảm quan được đánh giá [17].
Sau khi thu thập dữ liệu, ta lập bảng sau: hàng là các sản phẩm khác nhau, cột biểu diễn
các tính chất của sản phẩm.
Bảng 1: Bảng số liệu trong phân tích thành phần chính
Tính chất 1 Tính chất 2 …… Tính chất p
Sản phẩm 1
Sản phẩm 2
……….
Sản phẩm n

Biểu diễn dưới dạng ma trận ta thu được ma trận X, là ma trận số liệu ban đầu.














=













=
npnn
p
p
n
xxx
xxx
xxx
X
X
X
X




.
21
22221
11211
2

1
(1)
Ma trận X là ma trận p x n, với p là tính chất của sản phẩm, n là số sản phẩm.
Trang 6
GVHD: TS Nguyễn Hoàng Dũng
Ứng dụng SensoMineR vào đánh giá cảm quan Th.S Nguyễn Thanh Khương
b. Tiền xử lý dữ liệu
Bước tiền xử lý liên quan tới một số khái niệm thống kê như giá trị trung bình, phương
sai, độ lệch chuẩn. Chúng ta sẽ nhắc lại một số khái niệm về các đại lượng này.
Giá trị trung bình (Mean)
Giá trị trung bình của một tập hợp các quan sát được tính bằng cách lấy tổng giá trị của tất
cả các quan sát chia cho số quan sát.
Trung bình của tổng thể:
N
x
N
i

=
=
1
μ
(2)
Trung bình của mẫu:
n
x
x
n
i


=
=
1
(3)
Trong đó: x: giá trị của các quan sát.
N: số quan sát của tổng thể.
n: số quan sát của mẫu.
Phương sai (Variance)
Là bình phương độ lệch so với giá trị trung bình.

=


=
n
i
i
xx
n
s
1
22
)(
1
1
(4)
Độ lệch chuẩn (Standard Deviation)
Là căn bậc hai của phương sai.
Công thức tính:
1

)(
1
2
2


==

=
n
xx
ss
n
i
i

Tiền xử lý dữ liệu gồm hai bước: (5)
b.1. Lấy tỷ lệ (scaling)
Lấy tỷ lệ là làm cho các biến có phương sai bằng nhau.
Có nhiều cách để lấy tỷ lệ dữ liệu, nhưng kỹ thuật thường áp dụng nhất là lấy tỷ lệ theo
phương sai đơn vị (unit variance scaling – UV- scaling). Phương sai đơn vị là phương sai được
hiệu chỉnh bằng cách chia mỗi biến cho độ lệch chuẩn của nó (s
k
).
Trang 7
GVHD: TS Nguyễn Hoàng Dũng
Ứng dụng SensoMineR vào đánh giá cảm quan Th.S Nguyễn Thanh Khương
Khi thực hiện UV-scaling thì đối với mỗi biến (mỗi cột), chúng ta tính toán độ lệch chuẩn
(s
k

) sau đó nhân mỗi cột của dữ liệu với nghịch đảo độ lệch chuẩn 1/ s
k
. Kết quả là tất cả các biến
đều có phương sai bằng nhau và bằng phương sai đơn vị.
Một ví dụ về tác dụng của UV- scaling trong hình 1.1. Giả sử ta có các biến biểu diễn
thành một “hình chữ nhật” có “chiều dài” khác nhau, đường gạch ngang của mỗi hình chữ nhật
biểu diễn giá trị trung bình của biến đó . Giá trị của phương sai ở đây tương ứng với “chiều dài”
của biến. Một biến “dài” tức là có mức độ phân tán lớn, tức là giá trị phương sai lớn. Như vậy,
UV-scaling có ý nghĩa là làm co các biến “dài” và kéo giãn các biến “ngắn”. Kết quả là làm cho
tất cả các biến có phương sai bằng nhau và bằng phương sai đơn vị.

Hình 1.1: Biểu diễn tác dụng của scaling.
Tại sao phải scaling dữ liệu?
Bởi vì các biến thường có khoảng dao động khác nhau. Khoảng dao động có thể lớn hoặc
nhỏ. PCA là phương pháp tìm hướng các phân tán lớn nhất của các biến và chiếu toàn bộ dữ liệu
lên các hướng đó. Vì thế nếu không lấy tỷ lệ các biến thì có vẻ như các biến có khoảng dao động
lớn được “ưu tiên” hơn trong phương pháp phân tích này [6].
b.2. Quy tâm dữ liệu (centering)
Quy tâm dữ liệu được thực hiện bằng cách biến đổi đưa giá trị trung bình
i
X
về 0. Hay
nói cách khác là chúng ta tịnh tiến gốc tọa độ về tâm của tập dữ liệu. Giá trị x
ij
ban đầu được thay
bằng giá trị a
ij
mới.
Trang 8
GVHD: TS Nguyễn Hoàng Dũng

Ứng dụng SensoMineR vào đánh giá cảm quan Th.S Nguyễn Thanh Khương
a
ij
= x
ij

i
X
(6)
Lúc này, thay vì các giá trị xoay quanh điểm trung bình, nó sẽ xoay quanh gốc tọa độ O.

Hình 1.2: Hình mô tả dữ liệu trước và sau quy tâm
Ta có ma trận dữ liệu mới:














=
npnn
p

p
aaa
aaa
aaa
A




21
22221
11211
(7)
c. Lập ma trận hiệp phương sai
Khi biểu diễn ma trận X trong không gian, p là số chiều và n là số điểm trong không gian
này. Những điểm này tạo trong không gian p chiều một đám mây và đám mây phân tán theo tất
cả các chiều trong không gian. Để biểu diễn sự phân tán của tập hợp này bằng một phương trình
toán học là không thể, do đó người ta thực hiện phép chiếu sự phân tán này lên các mặt phẳng và
các trục tọa độ. Khi chiếu lên mặt phẳng, sự phân tán này chính là giá trị hiệp phương sai của hai
trục tạo thành mặt phẳng đó Cov (x
j
, x
k
). Còn khi chiếu lên một trục thì sự phân tán này là giá trị
phương sai của trục đó Cov (x
j
, x
j
) = Var (x
j

). Từ các giá trị Cov này, chúng ta thiết lập được ma
trận hiệp phương sai:















=
pppp
p
p
CCC
CCC
CCC
C




21

22221
11211
(8)
Trang 9
GVHD: TS Nguyễn Hoàng Dũng
Ứng dụng SensoMineR vào đánh giá cảm quan Th.S Nguyễn Thanh Khương
Với
1
.
1
))((
),(
11

=

−−
==
∑∑
==
n
aa
n
yyxx
xxCovC
n
í
ikij
n
i

kikjij
kjjk
(9)
x
ij
, x
ik
: là giá trị tại tính chất thứ j, k của sản phẩm thứ i (i

[1, n]).
j
x
,
k
x
: là các giá trị trung bình của các tính chất j, k.
Ma trận hiệp phương sai là một ma trận vuông p x p, với p là số tính chất mô tả sản phẩm,
có các phần tử trên đường chéo là hiệp phương sai của một biến với chính nó.
d.Tính trị riêng và vector riêng của ma trận hiệp phương sai
Vector riêng (eigenvector) đặc trưng cho hướng phân tán và trị riêng (eigenvalue) đặc
trưng cho mức độ phân tán của tập dữ liệu [20].
Trị riêng và vector riêng được tìm trên ma trận hiệp phương sai (ma trận C) vì ma trận C
chính là hình chiếu sự phân tán của dữ liệu lên các mặt phẳng và các trục nên ma trận C mô tả
được sự phân tán của ma trận X. Do đó, ma trận tương quan C được dùng để tính toán thay thế
cho ma trận X.
Phương pháp tìm trị riêng và vector riêng:
Giải phương trình đặc trưng 0=− IC
λ
. Trị riêng chính là nghiệm của phương
trình trên (I là ma trận đơn vị)


Tìm vector riêng tương ứng với các trị riêng λ bằng cách giải hệ phương trình đại
số tuyến tính thuần nhất (C – λI).x = 0. Nghiệm không tầm thường của nó chính là
vector riêng cần tìm.

Các tính chất của vector riêng:
Mỗi vector ứng với duy nhất một trị riêng, ngược lại ứng với một trị riêng có vô số
vector riêng tương ứng.

Tất cả các vector riêng của một ma trận thì trực giao với nhau và không phu thuộc
vào số chiều của ma trận.

e.
Xác định các thành phần chính
Tiêu chuẩn khi lựa chọn thành phần chính là dựa vào giá trị của trị riêng. Dựa vào độ lớn
của giá trị riêng, chúng ta đánh giá được phương sai hay mức độ khác nhau của tập dữ liệu ban
đầu được thành phần đó giữ lại. Trị riêng càng lớn thì mức độ thể hiện của thành phần chính càng
tốt. Phương sai hay mức độ khác nhau của đám mây dữ liệu nói lên mức độ phân tán của đám
Trang 10
GVHD: TS Nguyễn Hoàng Dũng
Ứng dụng SensoMineR vào đánh giá cảm quan Th.S Nguyễn Thanh Khương
mây trong không gian p chiều. Nếu các thành phần chính giữ lại được tỷ lệ lớn phương sai cũng
có nghĩa là nó phản ánh tốt sự phân tán của đám mây dữ liệu đó khi giảm số chiều của nó. Nói
cách khác, mục đích chính của PCA là giảm số chiều của tập dữ liệu nhưng vẫn giữ lại sự khác
nhau vốn có của các biến gốc một cách đầy đủ nhất, hay lượng thông tin được giữ lại từ tập dữ
liệu ban đầu là chính xác nhất.
Tương ứng với trị riêng càng lớn thì phần trăm phương sai giải thích càng lớn. Phần trăm
phương sai giải thích của một thành phần là phần trăm thông tin mà thành phần đó giữ lại được
so với lượng thông tin ban đầu. Phần trăm phương sai giải thích được xác định bởi công thức:
p

k
p
λλλ
λ
+++
=

21
1
, với p trị riêng. (10)
Trong đó λ
p
là giá trị của trị riêng thứ p.
Thành phần chính thứ nhất được chọn là đường thẳng cùng phương với vector riêng ứng
với trị riêng lớn nhất. Tương tự thành phần chính thứ hai được chọn.

Hình 1.3: Hai thành phần chính được chọn.
f. Chuyển dữ liệu về các trục là các thành phần chính
Vì tính chất tất cả các vector riêng của một ma trận thì trực giao với nhau, nên hai thành
phần chính được chọn (cùng phương với hai vector riêng trực giao) tạo nên một mặt phẳng.
Chuyển dữ liệu về các trục là các thành phần chính thực chất là chiếu các sản phẩm lên
mặt phẳng tạo nên bởi hai thành phần chính thứ nhất và thứ hai. Tọa độ của các điểm bây giờ
được chuyển thành các tọa độ trong hệ trục mới (hình 1.4).
Sau khi chuyển dữ liệu về các trục là các thành phần chính, ta thu được đồ thị sản phẩm.
Đồ thị sản phẩm là mặt phẳng có hai trục vuông góc là hai thành phần chính, trên đó tập sản
Trang 11
GVHD: TS Nguyễn Hoàng Dũng
Ứng dụng SensoMineR vào đánh giá cảm quan Th.S Nguyễn Thanh Khương
phẩm ban đầu được biểu diễn thành các “điểm trình bày sản phẩm”. Tọa độ của các điểm trình
bày sản phẩm được xác định bằng cách chiếu sản phẩm trong không gian p chiều lên mặt phẳng

tạo bởi hai thành phần chính.


Hình 1.4: Chiếu các sản phẩm lên mặt phẳng tạo nên bởi hai thành phần chính.
g. Tính toán các hệ số tương quan
Hệ số tương quan r được tính như sau:
),().,(
),(
),(
yyCovxxCov
yxCov
yxr =
, r

[-1, 1] (11)
Lần lượt tính toán hệ số tương quan giữa các giá trị của các thuộc tính mô tả các sản phẩm
trong không gian ban đầu với giá trị của thuộc tính đó trong hai trục mới được tạo thành từ hai
thành phần chính. Hệ số tương quan này cho biết mối tương quan của các thuộc tính với từng
thành phần chính. Mỗi thuộc tính sẽ có hai hệ số tương quan với hai thành phần chính. Hai hệ số
tương quan này sẽ xác định vị trí của vector thuộc tính trong vòng tròn tương quan.
Vòng tròn tương quan là vòng tròn có bán kính là 1, trên mặt phẳng tạo nên bởi hai thành
phần chính, tâm trùng với giao điểm của hai trục tạo nên bởi hai thành phần chính. Trên vòng
tròn tương quan các vector thuộc tính xuất phát từ tâm, đỉnh vector được xác định dựa vào các hệ
số tương quan được tính toán ở trên. Do hệ số tương quan luôn có giá trị ≤ 1 nên các vector thuộc
tính luôn có độ dài ≤ 1.
Trang 12
GVHD: TS Nguyễn Hoàng Dũng
Ứng dụng SensoMineR vào đánh giá cảm quan Th.S Nguyễn Thanh Khương
III.2.1.4. Kết quả
Khi thực hiện một PCA, chúng ta thu được vòng tròn tương quan và đồ thị sản phẩm [19]

(hình 1.5). Cách đánh giá các đồ thị này sẽ được trình bày cụ thể trong phần ứng dụng.

Hình 1.5: Tóm tắt nguyên tắc và kết quả của PCA
III.2.2. Phân tích đa yếu tố (Multiple Factor Analysis – MFA)
Nhược điểm của PCA là chỉ phân tích được các sản phẩm khi các thuộc tính được đánh
giá là giống nhau. Khi các sản phẩm được đánh giá bởi các thuộc tính khác nhau (các quan sát
được mô tả bởi vài tập biến) thì PCA không thể biểu diễn đồng thời các quan sát trong cùng một
không gian. Do đó, ta phải sử dụng một phương pháp phân tích khác, đó là phân tích đa yếu tố
[17].
III.2.2.1. Định nghĩa
MFA là phương pháp phân tích đồng thời các quan sát được mô tả bởi vài tập biến
(Escofier and Pagès, 1990, 1994) [13].
III.2.2.2. Các ký hiệu
Chúng ta có i (i =
I,1
) quan sát (sản phẩm) được mô tả bởi j (j =
J,1
) tập biến. Mỗi tập
biến có Kj biến, các biến là các thuộc tính mô tả. Kj có thể khác nhau giữa các tập biến, hay nói
cách khác là số lượng và thành phần các biến có thể khác nhau giữa các tập biến.
Trang 13
GVHD: TS Nguyễn Hoàng Dũng
Ứng dụng SensoMineR vào đánh giá cảm quan Th.S Nguyễn Thanh Khương
Các quan sát được mô tả bởi một tập biến gọi là một dữ liệu. Vài tập biến mô tả các quan
sát tập thành tập dữ liệu [13].
III.2.2.3. Nguyên tắc
Đối với mỗi dữ liệu, ta thực hiện các PCA riêng biệt. Tức là đối với dữ liệu thứ nhất (tập
biến có chứa K1 biến), quan sát i được biểu diễn thành một điểm trong không gian R
K1
. R

K1

không gian có K1 chiều, mỗi chiều được xây dựng tương ứng với một biến trong tập biến. Như
vậy, các quan sát được mô tả bởi tập biến thứ nhất được biểu diễn trong không gian R
K1
, tạo
thành đám mây . Tương tự, các quan sát được mô tả bởi tập biến thứ j (tập biến chứa Kj biến)
được biểu diễn thành đám mây trong không gian R
1
I
N
j
I
N
KJ
. Sau đó, tất cả sự phân tán của các quan
sát được tập hợp trong một không gian R
K
, tạo thành đám mây . Không gian R
I
N
K
là tổng của J
không gian con từ R
K1
đến R
KJ
. Bây giờ, tất cả các quan sát đều thuộc về không gian tổng cộng
R
K

(hình 1.6).

Hình 1.6: Nguyên tắc của MFA.
Trang 14
GVHD: TS Nguyễn Hoàng Dũng
Ứng dụng SensoMineR vào đánh giá cảm quan Th.S Nguyễn Thanh Khương
Trong không gian R
K
, chiếu lên không gian con R
I
N
K1
ta thu được đám mây . Hay
nói cách khác, chúng ta đã biểu diễn đồng thời các quan sát được mô tả bởi các tập biến khác
nhau, bằng cách chiếu lên các không gian con. Bây giờ có thể thực hiện PCA trên toàn bộ các
quan sát trong không gian R
1
I
N
I
N
K
như bình thường [13].
III.2.2.4. Các bước tiến hành MFA
MFA được thực hiện qua hai bước chính [11, 21]:
Đầu tiên, thực hiện các PCA trên mỗi dữ liệu riêng biệt. Sau đó từng dữ liệu riêng
biệt được chuẩn hóa bằng cách chia tất cả các yếu tố của dữ liệu đó cho trị riêng thứ nhất,
trị riêng thứ nhất này thu được nhờ thực hiện PCA trên dữ liệu đó.
Ý nghĩa của bước chia tất cả các yếu tố của dữ liệu cho trị riêng thứ nhất là làm
cân bằng ảnh hưởng của các tập biến. Cân bằng ảnh hưởng của các tập biến là thao tác

tương tự như cân bằng ảnh hưởng của các biến trong PCA (bước lấy tỷ lệ). Trong MFA,
các tập biến sẽ được biểu diễn đồng thời trong không gian R
K
. Do đó, nếu các tập biến
không được làm cân bằng ảnh hưởng thì sẽ có tập biến nào đó có ảnh hưởng quyết định
khi xác định thành phần chính thứ nhất, kết quả là, chúng ta chỉ phân tích được một tập
biến chứ không phải tất cả các tập biến.
Thứ hai, tất cả các tập dữ liệu đã được chuẩn hóa được hợp nhất thành một ma
trận duy nhất để thực hiện một PCA tổng thể trên ma trận này.
Các bước thực hiện PCA riêng biệt và PCA tổng thể là giống nhau và giống như thực hiện
một PCA thông thường như đã được mô tả trong phần (III.2.1), nên phần này không nhắc lại.
III.2.3. Xây dựng ellipse tin cậy
Đối với một hội đồng k gồm n
k
người thử. Chúng ta sử dụng kỹ thuật lặp để tạo nên N
đánh giá cảm quan giả định của hội đồng ảo về các thuộc tính cảm quan đã thành lập trước. Hội
đồng ảo tạo nên từ n
k
người thử được tạo thành bằng cách “chọn ngẫu nhiên có hoàn lại”
(sampling with replacement) ,hay còn gọi là kỹ thuật bootstrap, từ n
k
người thử có mặt trong hội
đồng ban đầu [9, 15, 17].

N là số đánh giá cảm quan giả định đã đặt trước (thể hiện bởi thông số nbsimul trong
hàm panelmatch())
Đối với mỗi sản phẩm, trọng tâm của n
k
người thử ảo được tính toán và được xem như là
điểm biểu diễn sản phẩm dựa vào đánh giá của cả hội đồng ảo. Các điểm trình bày các sản phẩm

Trang 15
GVHD: TS Nguyễn Hoàng Dũng
Ứng dụng SensoMineR vào đánh giá cảm quan Th.S Nguyễn Thanh Khương
theo các hội đồng ảo này được chiếu lên các trục của đồ thị sản phẩm. N điểm này cho thấy một
sự biến thiên trong đánh giá cảm quan phụ thuộc vào thành phần người thử trong một hội đồng
cho trước. Để làm rõ sự biến thiên này, một ellipse được dựng lên bao quanh (1-
alpha)% số
điểm trình bày sản phẩm. Đó chính là ellipse tin cậy ứng với mức ý nghĩa
alpha. Ví dụ, nếu
alpha = 0.05 thì ellipse được dựng lên sẽ bao quanh quanh 95% số điểm trình bày sản phẩm [12,
17].
Thực hiện tương tự đối với K hội đồng.
III.3. Kết quả.
Khi thực thi hàm panelmatch(), chúng ta thu được các đồ thị sau [12, 17, 23, 25].
Vòng tròn tương quan: vòng tròn biểu thị mối tương quan giữa các thuộc tính mô tả
của sản phẩm được đưa ra bởi hai hội đồng.
Đồ thị trình bày sản phẩm theo mô tả của từng người thử của cả hai hội đồng. Trong
đó, mỗi sản phẩm được mô tả theo từng người thử được biểu diễn thành một chấm tròn,
còn sản phẩm được lấy trung bình từ các mô tả của cả hai hội đồng được biểu diễn
thành hình chữ nhật.
Đồ thị trình bày sản phẩm được lấy trung bình từ các mô tả của cả hai hội đồng và
khoảng tin cậy hình ellipse (ellipse tin cậy) bao quanh mỗi sản phẩm.
Đồ thị trình bày sản phẩm được lấy trung bình theo mô tả của từng hội đồng và cả
hai hội đồng cùng với ellipse tin cậy bao quanh các điểm đ
ó.

Trang 16
GVHD: TS Nguyễn Hoàng Dũng
Ứng dụng SensoMineR vào đánh giá cảm quan Th.S Nguyễn Thanh Khương




Phần 2: Ứng Dụng


I. Tổng quan
So sánh đánh giá cảm quan của các hội đồng khác nhau không phải là một chủ đề mới.
Nhiều thí nghiệm nhằm mục đích so sánh đánh giá cảm quan giữa các hội đồng khác nhau đã
được thực hiện. Ví dụ so sánh hội đồng nhằm mục đích nghiên cứu thị trường được thực hiện trên
hai hội đồng: một hội đồng đã qua huấn luyện và một hội đồng là người tiêu dùng [7, 8, 14, 16].
Một ví dụ cho mục đích này là một thí nghiệm mô tả trên sản phẩm chocolate dành cho trẻ em,
được thực hiện trên hai hội đồng là 261 trẻ 9-11 tuổi, là đối tượng tiêu dùng sản phẩm chocolate
dành cho trẻ em, và một hội đồng 10 chuyên gia cảm quan được huấn luyện theo tiêu chuẩn ISO
1992 [7]. Kết quả thí nghiệm cho thấy có nhiều điểm khác nhau khi mô tả sản phẩm của trẻ và
chuyên gia:
Trong khi các chuyên gia cố gắng phân tích các thuộc tính của sản phẩm để mô tả
nó, trong khi trẻ chỉ quan tâm đến các thuộc tính tổng thể.
Khi được yêu cầu mô tả sản phẩm, trẻ chủ yếu phân tích các thuộc tính có thể nhìn
thấy bằng mắt hơn là phân tích nó thông quan vị giác như các chuyên gia.
Vì thế họ đi đến kết luận là ngành công nghiệp marketing cần thực hiện nhiều thí nghiệm
cảm quan trên các hội đồng là trẻ em, để hiểu hơn trẻ cần gì nhằm phục vụ tốt hơn đối tượng tiềm
năng này.
Tuy nhiên, mục đích xem xét ảnh hưởng của yếu tố văn hóa đến đánh giá cảm quan dựa
trên các hội đồng thành lập từ các quốc gia khác nhau vẫn là đích đến thú vị, nhiều nghiên cứu đã
được thực hiện trên các hội đồng đến từ các quốc gia khác nhau.
Việc nghiên cứu ảnh hưởng của yếu tố văn hóa đến đánh giá cảm quan đã được đề cập
đến cách đây 20 năm và vấn đề này đặc biệt phát triển nhanh vào những năm gần đây [10]. Hầu
hết các nghiên cứu cảm quan, cho đến nay, về so sánh giữa các nền văn hóa với nhau được thực
hiện trên văn hóa Châu Âu và Châu Mỹ. Ví dụ một nghiên cứu gần đây được thực hiện trên ba
Trang 17

GVHD: TS Nguyễn Hoàng Dũng
Ứng dụng SensoMineR vào đánh giá cảm quan Th.S Nguyễn Thanh Khương
hội đồng được thành lập từ hai nước Anh và Hoa Kỳ (hai hội đồng đến từ Anh và một hội đồng
đến từ Hoa Kỳ), trên sản phẩm là rượu rum, cho thấy rằng sự khác biệt về đánh giá cảm quan
giữa các nền văn hóa là không đáng kể [18]. Tuy nhiên, cũng có giả thiết cho rằng do hai nền văn
hóa đang xét (Anh và Hoa Kỳ) có nhiều điểm tương tự nhau (ít ra cũng là cùng ngôn ngữ). Hiện
nay, mối quan tâm đang hướng tới văn hóa Châu Á. Theo các tác giả này thì sự khác biệt trong
đánh giá cảm quan giữa các nước Châu Á và Châu Âu có thể rõ nét hơn so với đánh giá cảm
quan của hai nước Châu Âu hay một nước Châu Âu với một nước Châu Mỹ. Do đó, một số
nghiên cứu về xem xét ảnh hưởng của yếu tố văn hóa đến đánh giá cảm quan của các hội đồng
gần đây đã được thực hiện trên hội đồng của một nước Châu Âu và một nước Châu Á [10, 12,
17].
Như vậy, ta thấy nhu cầu phát triển các chương trình xử lý thống kê nhằm xử lý kết quả
so sánh
đánh giá cảm quan giữa các hội đồng là rất lớn. Do đó, module Panles comparison trong
package SensoMineR đã đáp ứng được nhu cầu này. Đa số các so sánh hội đồng trước đây được
phân tích số liệu trên các phần mềm xử lý thống kê. Ví dụ phép thử cảm quan mùi so sánh hai hội
đồng đã qua huấn luyện [14] và so sánh hai hội đồng đã huấn luyện và chưa huấn trên sản phẩm
nước trái cây [8] đều sử dụng phần mềm xử lý thống kê SAS
®
(Statistical Analysis System
Institute) xử lý. SensoMineR có ưu điểm hơn so với các phần mềm thống kê khác, cụ thể là SAS
®

trong so sánh hội đồng là:
SensoMineR là một phần mềm miễn phí. Sử dụng SensoMineR không phải tốn chi
phí cho bản quyền như các phần mềm thống kê đắt tiền khác.
Hầu hết các module trong SensoMineR xuất ra các kết quả dạng đồ thị nên dễ
ận
nh xét và đánh giá, trong khi các phần mềm khác xuất ra kết quả với rất nhiều số

liệu, những người mới sử dụng khó có thể đánh giá được.
Do ụng đầu tiên là SensoMineR là một phần mềm còn khá mới mẻ (phiên bản được ứng d
2005, và module Panels comparison được ứng dụng lần đầu tiên năm 2007) nên tuy các thí
nghiệm so sánh hội đồng đã được thực hiện nhiều nhưng các thí nghiệm ứng dụng SensoMineR
vào xử lý kết quả so sánh hội đồng còn khá ít [10, 12, 17].
Để hiểu hơn cách xử lý số liệu so sánh hội đồng bằng cách sử dụng module Panels
comparison, chúng ta sẽ xét một ví dụ cụ thể.
Trang 18
GVHD: TS Nguyễn Hoàng Dũng
Ứng dụng SensoMineR vào đánh giá cảm quan Th.S Nguyễn Thanh Khương
II. Ví dụ
Ví dụ này là nghiên cứu thực hiện trên hai hội đồng đã qua huấn luyện, một hội đồng gồm
12 sinh viên người Pháp và một hội đồng gồm 11 nhân viên công ty EMB người Pakistani, nhằm
nghiên cứu ảnh hưởng của yếu tố văn hóa đến cách cảm nhận và mô tả cùng một tập hợp sản
phẩm. Thí nghiệm này sử dụng tám loại bánh biscuit được sản xuất công nghiệp và bày bán tại
các siêu thị, trong đó có bốn loại được sản xuất ở Pháp, bốn loại được sản xuất ở Pakistan (phụ
lục II). Mỗi hội đồng đưa ra một tập thuộc tính mô tả (phụ lục III) và đánh giá các thuộc tính đó
trên thang điểm từ 0 – 10 [12, 17].
II.1. Các bước xử lý số liệu với SensoMineR
II.1.1. Cấu trúc bảng số liệu để xử lý bằng SensoMineR
Sau khi tiến hành thí nghiệm, ta thu được bảng số liệu kết quả đánh giá của từng hội đồng
như hình 2.1. Trong đó, các cột là các thuộc tính mô tả, các hàng là các sản phẩm theo đánh giá
của từng người thử trong hội đồng. Đối với thí nghiệm này, chúng ta sẽ thu được hai bảng số liệu
của hai hội đồng. Trong bảng số liệu các thuộc tính mô tả là khác nhau, số lượng người thử trong
mỗi hội đồng cũng khác nhau. Tuy nhiên, điều cần lưu ý là cột vị trí sản phẩm, cột vị trí người
thử và cột bắt đầu thuộc tính mô tả đầu tiên phải giống nhau đối với cả hai bảng số liệu.


Hình 2.1: Một phần bảng số liệu thu được từ hội đồng người Pakistani.
Trang 19

GVHD: TS Nguyễn Hoàng Dũng
Ứng dụng SensoMineR vào đánh giá cảm quan Th.S Nguyễn Thanh Khương
II.1.2. Nhập số liệu
Có hai cách nhập số liệu vào R:
Cách 1: Sử dụng các hàm trong R
Thực hiện qua hai bước:
Bước 1: Lưu số liệu Excel dưới dạng “csv”
Bước 2: Dùng lệnh trong R (lệnh read.csv) để nhập dữ liệu dạng csv mà chúng ta đã lưu ở
trên, cụ thể sử dụng các lệnh sau:
>
setwd(“E:/doanmonhoc”)
>pakistani<-read.csv(“pakistani.csv”, header=TRUE)
>save(pakistani,file=“pakistani.rda”)
Lệnh thứ nhất nghĩa là chúng ta chỉ đường dẫn tới file excel có tên “pakistani” trong
directory E:/doanmonhoc. Lệnh thứ hai yêu cầu R đọc số liệu từ file “pakistani.csv”, với dòng
thứ nhất là tên cột (
header=TRUE), đồng thời lưu số liệu này trong một đối tượng có tên là
pakistani. Lệnh cuối cho R biết rằng các số liệu trong đối tượng mickey sẽ lưu trong file có tên là
“pakistani.rda” .
Cách 2: Nhập số liệu từ Excel sử dụng giao diện Rcmdr.
Phần mềm “tự động hóa” R có tên là Rcmdr ( viết tắt từ R commander). Thực chất,
Rcmdr là một package, chúng ta có thể tải về từ website chính thức của R (
.r-
project.org/src/contrib/Decriptions/Rcmdr.htlm), hay từ website của tác giả Rcmdr sau đây

Các bước nhập số liệu khi sử dụng giao diện Rcmdr như sau: Vào Data → Import data →
from Excel, cuối cùng là đặt tên và chọn đường dẫn tới file cần nhập.
Thực hiện nhập số liệu lần lượt với hai hội đồng.
Ưu điểm của cách nhập số liệu bằng giao diện Rcmdr là chúng ta có thể click chuột để
chọn đường dẫn tới các file cần nhập mà không cần phải viết hàm phức tạp. Đồng thời, chúng ta

có thể nhập số liệu trực tiếp từ file excel mà không cần lưu dưới dạng csv. Có thể nói đơn giản
hóa cách sử dụng R chính là mục đích chính của package Rcmdr.
II.1.3. Xử lý số liệu
Tương tự như nhập số liệu, chúng ta có thể yêu cầu chương trình xử lý số liệu vừa nhập
vào và xuất các kết quả theo hai cách:
Trang 20

×