Tải bản đầy đủ (.docx) (22 trang)

Phép thử phân biệt A not A

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (624.59 KB, 22 trang )

LÝ THUYẾT VÀ BÀI TẬP
ĐÁNH GIÁ CẢM QUAN
PHÉP THỬ A-NOT A
“Antoine G. de Bouille´
Philip Morris Products S.A., Neuchaˆtel, Switzerland”


Mục lục

LỜI MỞ ĐẦU
Trong thử nghiệm phân tích cảm quan, có thể xác định hai loại phép thử chính:
phép thử mô tả và phép thử phân biệt.
Trong loại thứ hai, mục đích của việc tiến hành các thử nghiệm như vậy thường là
dành cho nhà khoa học cảm quan hoặc nhà phát triển sản phẩm để tìm hiểu xem liệu có
sự khác biệt có thể cảm nhận được giữa hai (hoặc đơi khi nhiều hơn) tác nhân kích thích
hay khơng (Stone và Sidel, 1993).
Người đánh giá thực hiện thử nghiệm thường sẽ nhận được một hoặc một số mẫu
(tùy thuộc vào phép thử được sử dụng) và hỏi các câu hỏi như: mẫu nào là mẫu khác,
mẫu nào đắng nhất, có phải là mẫu tham chiếu khơng và nó khác như thế nào với mẫu
tham chiếu.
Các nhà khoa học ngày nay có nhiều cơng cụ để họ đạt được mục tiêu của mình,
nhưng thật khó khi lựa chọn cơng cụ phù hợp. Trong chương này, sẽ tập trung vào phép


thử A-not-A, tập trung vào nguyên tắc của nó, nhóm người đánh giá có thể tham gia phép
thử và phân tích dữ liệu. Ví dụ được đưa ra ở cuối chương.

1. Phép thử A - not A là gì?

Phép thử A-not-A là một phép thử cảm quan phân biệt yêu cầu người đánh giá xác
định xem một mẫu là “A” hay “Không phải-A”; “A” được coi là mẫu chuẩn và được xác


định trước khi thử nghiệm. Thông thường, người đánh giá nên làm quen với mẫu đối
chứng A. Điều này làm cho A-not-A trở thành một phép thử phù hợp khi người đánh giá
tiếp xúc nhiều với cùng một mẫu theo thời gian, điều này thường xảy ra trong kiểm sốt
chất lượng (QC) và mơi trường đảm bảo chất lượng (QA) (Van Hout và cộng sự, 2011).
Ví dụ, trong mơi trường sản xuất, phép thử A-not-A sẽ đưa ra câu trả lời nhanh chóng về
việc liệu một lơ sản xuất có các đặc tính cảm quan mà nó được cho là có hay khơng. Tuy
nhiên, thử nghiệm A-not-A sẽ khơng cung cấp thông tin chi tiết về bản chất của sự khác
biệt.
Mặc dù không được sử dụng rộng rãi trong các nghiên cứu về người tiêu dùng,
nhưng thử nghiệm A-not-A có thể hữu ích khi câu hỏi cần trả lời là liệu người tiêu dùng
trung thành của một sản phẩm có thể xác định được phiên bản mới của nó khác hay giống


với sản phẩm cũ hay không. Phép thử A-not-A thực hiện với một số mẫu thử nghiệm, sau
đó xác định được mẫu nào giống nhất về mặt cảm quan với mẫu tham chiếu.
Trong tài liệu, phép thử A-not-A có thể được mô tả như sau: người đánh giá nhận
được một mẫu và được yêu cầu xác định xem nó là “A” hay “khơng phải-A”. Trong
trường hợp đó, tài liệu tham khảo không được cung cấp. Trong trường hợp này, người
đánh giá chỉ có tài liệu tham khảo nội bộ của riêng họ (hoặc từ khóa đào tạo trước đó) để
xác định xem liệu mẫu được thử nghiệm có thực sự là A hay khơng-A. Có thể có hai
trường hợp: số lượng người đánh giá nhận được “A” và nhận được “không-A” được
quyết định trước hoặc người đánh giá được phân bổ ngẫu nhiên lấy mẫu “A” hoặc
“không phải A” để đánh giá. Gần đây, Stocks et al. (2013) đã thảo luận về khái niệm mẫu
nhắc trong thử nghiệm phân biệt. Điều này có ý nghĩa khi một cơng ty khơng có quy trình
đào tạo / làm quen đầy đủ (Bi và cộng sự, 2013a, b) và khơng có thời gian hoặc nguồn
lực để phát triển quy trình này. Mẫu nhắc nhở cũng có thể hữu ích khi những người đánh
giá được chọn tham gia phép thử có kiến thức hạn chế về sản phẩm và do đó cần phải làm
quen (lại) với mẫu tham chiếu.
Trong phép thử A-not-A, việc có một hoặc một số mẫu nhắc sẽ giúp đảm bảo rằng
người đánh giá đang đánh giá các mẫu trên các cơ sở tương đồng với tham chiếu A. Mẫu

nhắc đã chọn có thể là A hoặc khơng-A và người đánh giá được nhận biết trước mỗi mẫu
thử nghiệm. Khi tổng số mẫu được đánh giá tăng lên, cách tiếp cận này sẽ giảm thời gian
cần thiết cho các buổi đào tạo / làm quen (Stocks và cộng sự, 2013). Khi sử dụng các mẫu
nhắc, thử nghiệm A-not-A thường được gọi là “A-not-AR”.

2. Quy trình
2.1.
Làm quen

Khi sử dụng mẫu nhắc, đầu tiên người đánh giá được đưa mẫu “A” tham chiếu và
được yêu cầu làm quen với mẫu đó. Người đánh giá có thể thực hiện bước này trong
phịng đánh giá cảm quan hoặc thảo luận với trưởng ban hội thẩm về các đặc tính cảm
quan của mẫu.
Trong bước làm quen, người đánh giá được cung cấp tài liệu tham khảo “A”,
nhưng cũng nên cung cấp cho họ các mẫu “không phải-A”. Giúp người đánh giá nhận
thức được loại khác biệt được mong đợi giữa các mẫu “A” và “không phải A”. Van Hout
và cộng sự (2011) chỉ ra rằng người đánh giá cần phải làm quen với mẫu “A” trong buổi
đào tạo ngoài việc làm quen với phương pháp.


Bản thân việc làm quen với phương pháp này có thể được thực hiện bằng cách sử
dụng một tập hợp các mẫu khác biệt lớn / rõ ràng để bắt đầu. Đây sẽ là một bước dễ dàng
cho người đánh giá để họ có thể nhận biết và quen với việc điền vào bảng câu hỏi. Từ
buổi làm quen thứ hai, những khác biệt đó có thể được giảm bớt khi người đánh giá ngày
càng quen với phương pháp này hơn.
Trong bối cảnh QC / QA, khi người đánh giá đã được đào tạo chuyên sâu về các
đặc tính cảm quan của mẫu A, thì bước tái làm quen có thể không cần thiết mỗi khi họ
thực hiện đánh giá A-not-A. Tuy nhiên, là một phần của chương trình QA / QC rất hữu
ích nếu bạn lên kế hoạch tạo một số buổi làm quen lại trong suốt cả năm để đảm bảo
người đánh giá tin tưởng vào các đặc tính cảm quan của đối chiếu A.

2.2.

Thử nghiệm

Khi thực hiện phép thử, nếu mẫu nhắc “A” được đưa ra, bài kiểm tra đó sẽ bị loại
bỏ và người đánh giá sẽ được đưa cho một mẫu mã gồm ba chữ số và được yêu cầu đánh
giá nó. Mẫu này có thể là “A” hoặc “không phải-A”. Người đánh giá phải xác định xem
mẫu thử nghiệm có phải là tham chiếu “A” hay không phải là tham chiếu: “không phảiA”. Thông thường, nên hỏi người đánh giá về mức độ tin cậy của họ, thường bao gồm
các tùy chọn sau: hoàn tồn chắc chắn, khá chắc chắn, khơng chắc chắn lắm và chỉ đốn.
Hỏi về sự tự tin có thể hữu ích trong bối cảnh đào tạo để theo dõi sự chắc chắn của người
đánh giá ngoài câu trả lời của họ. Kiểm tra với độ chắc chắn cũng cho phép tính tốn chỉ
số R.
Tùy thuộc vào bản chất của mẫu, các mẫu tiếp theo có thể được đánh giá bởi
người đánh giá. Trong một số trường hợp, và đặc biệt nếu loại mẫu được thử nghiệm cho
phép, có thể bao gồm một hoặc một số mẫu nhắc giữa các mẫu thử nghiệm để giúp người
đánh giá nhận thức được các đặc điểm cảm quan của mẫu A. Tuy nhiên, điều này sẽ phải
được tính đến khi phân tích dữ liệu.
Người thử nghiệm có thể thêm phần nhận xét để người đánh giá có thể chỉ ra ngắn
gọn lý do tại sao một mẫu khác với tham chiếu “A.” Đây có thể là một cách thuận tiện để
xác định lý do tại sao “A” có thể được nhìn nhận khác với “khơng phải A” trong trường
hợp có sự khác biệt có ý nghĩa thống kê. Trong trường hợp người đánh giá thực hiện phép
thử A-not-A thường xuyên và khi dự kiến có một số khác biệt cụ thể, thì tờ phản hồi cũng
có thể bao gồm các thuộc tính cảm quan có thể có để phân biệt cả hai mẫu được thử
nghiệm. Tuy nhiên, bảng này không được ảnh hưởng đến người đánh giá khi quyết định
xem họ đang nếm “A” hay “không-A”. Việc thu thập thông tin cảm quan về sự khác biệt
có thể có giữa hai mẫu cũng nên được lấy từ người đánh giá để xác định chính xác mẫu
“không phải A” thực sự là mẫu “không phải A”.
Điều quan trọng cần nhấn mạnh là việc thu thập các giải thích hoặc lý do từ người
đánh giá khi thực hiện thử nghiệm chỉ mang tính chất hướng dẫn và nó khơng nên thay



thế thử nghiệm mơ tả cảm quan mà mục đích chính là mơ tả sản phẩm trong khi mục đích
của thử nghiệm A-not-A là để phát hiện xem các sản phẩm có khác nhau khơng.
Phiếu đánh giá:
PHÉP THỬ A-NOT-A
Tên:
Ngày:
Mã mẫu:




Bạn được cung cấp mẫu được mã hóa 3 chữ số
Thử và quyết định xem mẫu này là A hay không phải A
Tích vào độ chắc chắn dưới đây:

“A”: chắc chắn
“A”: khơng chắc
“not-A”: chắc chắn
“not-A”: khơng chắc

2.3.

Nhóm người đánh giá

Trong bất kỳ thử nghiệm cảm quan nào, ngoài việc chọn bao nhiêu người đánh giá
(Meilgaard và các cộng sự đề xuất từ 10 đến 50 người), cịn có câu hỏi về nhóm người
đánh giá nào nên tuyển dụng / sử dụng để thực hiện thử nghiệm. Thông thường, khuyến
nghị là chọn những người đánh giá chưa được đào tạo hoặc đã qua đào tạo. Có những
khác biệt cơ bản trong cách người đánh giá được đào tạo và người tiêu dùng thực hiện

cảm quan
Những người đánh giá được đào tạo sẽ áp dụng cách tiếp cận phân tích / khách
quan trong khi người tiêu dùng sẽ áp dụng cách tiếp cận tình cảm / chủ quan. Khi người
tiêu dùng là những người sử dụng nhiều sản phẩm và cũng có mối liên hệ cảm xúc với
nó, họ có thể nhạy cảm hơn với những thay đổi nhỏ và có thể nhận biết khác biệt hơn so
với nhóm được đào tạo về cảm quan (Lee, 2010). Điều quan trọng cần nhấn mạnh là
không nên sử dụng kết hợp cả người đánh giá được đào tạo và người tiêu dùng khi lựa
chọn người đánh giá cho phép thử (BS ISO 8588: 1987). Bảng A2.8, trong Phụ lục 2 (Bi,
2006) giúp xác định có bao nhiêu người đánh giá được chọn cho phép thử A-not-A dựa
trên xác suất ước tính PA (xác suất phản hồi “A” khi cho mẫu “A”) và PN ( xác suất của
phản hồi “A” khi cho mẫu “không phải-A”) với lũy thừa là 0,8 và mức ý nghĩa α≤ 0,1 và
0,05. Ví dụ, giả sử PN 0,4 và độ chênh lệch cảm quan ծ= 1, trong thiết kế phép thử đơn


nguyên, số người đánh giá yêu cầu sẽ là 21 đối với mức ý nghĩa α≤ 0,1 và 26 đối với mức
ý nghĩa α ≤0,05. Người thử nghiệm có thể khó xác định tham số nào để chọn trước khi
thử nghiệm.
Mức độ rủi ro α (còn được gọi là lỗi loại I) được định nghĩa là xác suất nói rằng
các mẫu là khác nhau trong khi thực tế chúng giống nhau. Trong thử nghiệm khác biệt
(khi chúng ta muốn kiểm tra xem các mẫu có khác nhau hay khơng), rủi ro α cần được
giảm thiểu. Các mức rủi ro sau đây có thể được hiểu là:
l 10% -5%: bằng chứng nhỏ cho thấy có sự khác biệt rõ ràng
l 5% -1%: bằng chứng vừa phải cho thấy sự khác biệt rõ ràng
l 1% -0,1%: bằng chứng rõ ràng cho thấy sự khác biệt rõ ràng
l Dưới 0,1%: bằng chứng rất rõ ràng cho thấy có sự khác biệt.
Độ mạnh của phép thử có thể được định nghĩa là xác suất phát hiện ra sự khác biệt
khi nó thực sự tồn tại. Giá trị càng gần 1, chúng ta càng có thể phát hiện ra sự khác biệt
khi nó tồn tại. Độ mạnh của phép thử có ảnh hưởng trực tiếp đến số lượng người đánh giá
được lựa chọn. Thông thường, đối với thử nghiệm khác biệt, 0,8 là chấp nhận được. PA
và PN sẽ được thiết lập dựa trên các thí nghiệm tương tự trước đó. ծ đại diện cho một chỉ

số về sự khác biệt hoặc giống nhau về mặt cảm quan (Bi, 2006). Mức độ của nó thể hiện
quy mô của sự khác biệt dự kiến giữa A và không phải A. Trên thực tế, ծ= 1 tương đương
với 76% số phân biệt trong phép thử 2-AFC hoặc 42% trong phép thử tam giác.
3. Khi nào sử dụng phép thử A-not A

Do bản chất của các mẫu được sử dụng, một số vấn đề có thể phát sinh chẳng hạn
như ảnh hưởng chuyển đổi đối với các hương vị mạnh (ví dụ: sản phẩm thuốc lá hoặc
rượu). Để chống lại những vấn đề đó, người đánh giá thường được cung cấp nước tráng
miệng và nghỉ ngơi giữa các lần lấy mẫu. Những giải pháp đó thường hiệu quả, nhưng
đôi khi số lượng mẫu đã cho chỉ cần giảm bớt. Trong trường hợp đó, các phương pháp trợ
giúp A-not-A như số lượng mẫu được trình bày có thể chỉ là 1 (giả sử người đánh giá đã
quen thuộc với mẫu tham chiếu A) hoặc hơn nếu sử dụng mẫu nhắc hoặc nếu thử nghiệm
được lặp lại .
A-not-A như một phép thử trình bày đơn lẻ có thể hữu ích trong việc đưa ra hướng
dẫn về sự khác biệt giữa hai mẫu trong khi giữ cho số lượng mẫu được trình bày trong
một lần nếm thử duy nhất rất thấp. Điều này làm cho phương pháp A-not-A có thể sử
dụng được khơng chỉ với các mẫu có cường độ vị cao mà cịn với các mẫu ít cường độ
hơn. Phương pháp này thường được coi là phù hợp với hầu hết các loại sản phẩm (Lee và
cộng sự, 2007).


Phép thử A-not-A cũng có thể được sử dụng khi người đánh giá thường tiếp xúc
với cùng một mẫu. Đây là trường hợp xảy ra trong môi trường sản xuất nơi ít biến thể của
mẫu được sản xuất khiến người đánh giá rất quen thuộc với cùng một mẫu, trong trường
hợp này, mẫu tham chiếu: “A.” Ngay cả khi người đánh giá biết các đặc điểm cảm quan
của nó, thì nên thường xuyên đào tạo lại họ bằng cách trình bày với họ trước khi kiểm tra,
đặc biệt nếu người đánh giá không được đào tạo chuyên sâu.
Phép thử A-not-A thường được sử dụng khi có sự khác biệt nhỏ giữa hai mẫu (màu
sắc, kích thước, hình dạng) và cần so sánh khách quan (Rogers, 2010; BS ISO 855: 1987,
Lawless và Heymann, 1999) . Tuy nhiên, điều quan trọng cần lưu ý là nếu sự khác biệt về

thị giác là quá quan trọng, người đánh giá có khả năng nhớ nó và sẽ bị thiên vị trong q
trình đánh giá và đưa ra phán đoán của họ.(Lawless và Heymann, 1999).
4. Phân tích dữ liệu
4.1.
Kiểm định Chi- bình phương

Trình bày mẫu
“A
“not-A”

Tổng

Trả lời: “A”
Trả lời: “not-

50
25

30
45

80
70

Tổng

75

75



A”

Trong ví dụ này, 150 người đánh giá được cung cấp một mẫu: “A” hoặc “không
phải A”. Do đó, 75 mẫu “A” và “khơng phải A” được kiểm tra bởi người đánh giá. Trong
số đó, mẫu “A” được trả lời là “A”= 50 và “không phải A”= 25, trong khi mẫu “không
phải A” được trả lời đúng là “không phải A” =45 và là “A”=30 . Mục đích bây giờ là để
biết liệu chúng ta có thể kết luận rằng các mẫu “A” và “không phải A” là khác nhau hay
khơng.
Một thiết kế thí nghiệm như vậy được gọi là đơn nguyên (Bi và Ennis, 1999) vì
người đánh giá chỉ được cung cấp một mẫu để đánh giá và ngoài ra, số lượng người đánh
giá nhận mẫu A và số lượng người đánh giá nhận mẫu không phải A được biết trước. Để
phân tích các loại dữ liệu này, kiểm tra Pearson Chi-bình phương (χ2) về tính đồng nhất
thường được sử dụng. Thử nghiệm này được mô tả trong ISO BS 5929-5: 1988 và thống
kê của nó là:


Trong đó ni, j là giá trị quan sát được trong ơ (i; j); Et, với mỗi ơ, là tích của tổng
của hàng nhân với tổng của cột đã cho, chia cho tổng số câu trả lời. Ví dụ: đối với một ô
biểu thị số câu trả lời đúng khi “A” được thử (ví dụ: 50), nó bằng phép nhân của tổng số
câu trả lời “A” với tổng số mẫu“A” chia tổng số câu trả lời (tức là 75 * 80/150).
Do đó, chúng tơi có:

Áp dụng cơng thức, χ 2 tính được là 10,714. Giá trị tính tốn này (hoặc giá trị
quan sát) cần được so sánh với giá trị tới hạn có thể tìm thấy trong bảng giá trị tới hạn χ 2
(Bảng A2.9, trong Phụ lục 2). Đối với 1 bậc tự do (được xác định bằng số lượng mẫu thử
nghiệm trừ đi 1) và mức ý nghĩa α≤ 0,05, giá trị tới hạn là 3,84. Vì giá trị quan sát của
chúng tôi cao hơn giá trị tới hạn, chúng tơi kết luận rằng có sự khác biệt có ý nghĩa thống
kê giữa hai mẫu “A” và “khơng phải A”.
Tính tốn này có thể dễ dàng được thực hiện với phần mềm R bằng công thức

chisq.test (). Dưới đây là cú pháp mà người dùng có thể sử dụng:
>>
x <– matrix(c(50, 25, 30, 45), ncol = 2)
chisq.test(x, correct=F)
Pearson’s Chi–squared test
data: x
X–squared = 10.714, df = 1, p–value = 0.001063
Hiệu chỉnh liên tục (cần thiết cho các giá trị thấp trong bảng kết quả) có thể được
áp dụng bằng cách thay thế FALSE bằng TRUE trong các đối số của hàm. Việc hiệu
chỉnh tính liên tục nên được áp dụng khi ít nhất một ơ trên bảng kết quả nhỏ hơn 5. Hàm
này trả về cả giá trị chi bình phương quan sát được cũng như giá trị p, sẽ là giá trị 95 %
mức độ tin cậy được hiểu là:
l Nhỏ hơn 0,05: tồn tại sự khác biệt có ý nghĩa thống kê
l Trên 0,05: khơng có sự khác biệt có ý nghĩa thống kê


Việc phân tích phép thử A-not-A sẽ phụ thuộc vào loại thiết kế được sử dụng. Bi
và Ennis (1999) đã trình bày chi tiết các mơ hình thống kê khác nhau để phân tích dữ liệu
được tạo ra tùy thuộc vào thiết kế thử nghiệm được sử dụng trong quá trình thử nghiệm
cảm quan là đơn nguyên (thử nghiệm Pearson χ 2 cho tính đồng nhất ở ví dụ trên), hỗn
hợp (thử nghiệm Pearson χ 2 cho tính độc lập), hoặc kết hợp (Thử nghiệm McNemar χ 2
để kiểm tra tỷ lệ tương quan).
Trong một thiết kế hỗn hợp, số lượng người đánh giá nhận mẫu “A” và số lượng
người đánh giá nhận mẫu “không phải A” không được biết trước mà được phân bổ ngẫu
nhiên. Để làm như vậy, một thiết kế ngẫu nhiên phải được thực hiện trước khi thử
nghiệm, trong đó người đánh giá chọn ngẫu nhiên một mẫu để đánh giá.
Trong khi đối với thiết kế thử nghiệm đơn nguyên, mục đích của bài kiểm tra
thống kê là so sánh tỷ lệ câu trả lời “A” từ những người đánh giá ban đầu nhận được “A”
so với những người đánh giá ban đầu nhận được “không A”, trong thiết kế hỗn hợp, mục
đích của bài kiểm tra là để ước tính xem việc trình bày “A” hay “khơng-A” cho người

đánh giá có ảnh hưởng đến số lượng câu trả lời “A” hay không (Bi, 2006).
Trong cả thử nghiệm đơn nguyên và hỗn hợp, tỷ lệ so sánh là độc lập. Tuy nhiên,
trong thử nghiệm cặp đôi, hai tỷ lệ đó khơng cịn độc lập nữa vì người đánh giá được đưa
ra cả “A” và “không-A” để đánh giá. Trong một thiết kế như vậy, tốt hơn là khơng nên
nói trước với người đánh giá rằng họ sẽ đánh giá cả hai mẫu “A” và “không phải A”.
Lưu ý về thử nghiệm lặp lại
Trong trường hợp thử nghiệm lặp lại, người đánh giá nhận được một số mẫu trong
một lần. Số lượng mẫu để đánh giá nên được quyết định trước khi bắt đầu phiên họp. Tùy
thuộc vào trình độ đào tạo của các chuyên gia đánh giá, nên đưa (lại) các đánh giá viên
mẫu nhắc “A” giữa các mẫu được thử nghiệm để tránh nhầm lẫn. Trong thử nghiệm lặp
lại, các hướng dẫn đưa ra cho người đánh giá là không thay đổi, nhưng việc phân tích dữ
liệu sẽ khác một chút. Trong trường hợp thiết kế đơn nguyên và hỗn hợp, các điều chỉnh
đối với thử nghiệm Pearson χ 2 phải được thực hiện [Mô hình nhị thức Beta (Bi, 2006) và
mơ hình Đa thức Dirichlet (Ennis và Bi, 1999), tương ứng].
Để “tăng” số lượng đánh giá, phép lặp thường được thực hiện, đặc biệt nếu khơng
có sẵn các nguồn bổ sung. Mặc dù việc lặp lại có thể chấp nhận được, nhưng bạn nên
thực hiện vào một buổi nếm thử khác. Điều này sẽ tránh thêm sự mệt mỏi về mặt cảm
quan và sự quen thuộc không mong muốn của người đánh giá với các mẫu.
4.2.

Mơ hình Thurstonian

Một cách tiếp cận khác để giải thích dữ liệu từ phép thử A-not-A là áp dụng mơ
hình Thurstonian.


Nhận thức về một kích thích thay đổi về cường độ theo một cách xác suất. Nói
cách khác, khi hầu hết những người đánh giá nhận thấy một kích thích ở mức điểm trung
bình, một số thì nhận thấy nó yếu hơn trong khi những người khác lại cho rằng nó mạnh
hơn. Đây cũng là trường hợp ở cấp độ cá nhân vì nhận thức về các kích thích có thể thay

đổi khi phải thử nhiều lần (ASTM E2262). Sự thay đổi được quan sát thấy do nhiều yếu
tố không chỉ lý do tâm lý và sinh lý mà còn do sự biến đổi của sản phẩm (minh họa trong
Hình 6.2).
Trong trường hợp các phép thử phân biệt, chúng tôi thường quan tâm đến việc biết
liệu có sự khác biệt có thể cảm nhận được giữa hai mẫu hay khơng. Kiểm định chi bình
phương được mơ tả ở trên, cũng như thống kê nhị thức được sử dụng rộng rãi, cho chúng
ta biết liệu người đánh giá có thực hiện tốt hơn phỏng đốn hay khơng.
Mơ hình Thurstonian cung cấp những hiểu biết sâu sắc về độ lớn của sự khác biệt
cảm quan giữa hai mẫu chứ không chỉ là một câu trả lời khác nhau / không khác nhau.
Khi hai mẫu được so sánh trong một bài kiểm tra phân biệt, độ lớn của sự khác biệt giữa
chúng có thể được biểu thị bằng khoảng cách Thurstonian. Trung bình mẫu B được cảm
nhận với cường độ cao hơn mẫu A, mặc dù điều này không đúng trong một số ít trường
hợp, như được thấy bởi một phần nhỏ của phần đuôi bên trái của đường cong B chồng lên
đuôi bên phải của đường cong A.


A và B đại diện cho cường độ của hai kích thích cảm giác. Nó cho thấy rằng mẫu
B có xu hướng được cảm nhận dữ dội hơn mẫu A. Sự khác biệt giữa A và B có thể được
định lượng trong mơ hình Thurstonian và được biểu thị bằng khoảng cách Thurstonian
hoặc ծ. Thống kê liên quan đến khoảng cách Thurstonian ծ được gọi là d’. Về mặt lý
thuyết, phép đo d’ độc lập với phép thử cảm quan được sử dụng (ASTM E-2262) không
giống như thống kê nhị thức trong đó số câu trả lời đúng bị sai lệch bởi phép thử phân
biệt được sử dụng (Brockhoff và Christensen,2009). Do đó, d’ là một cơng cụ hữu ích để
so sánh kết quả từ các thử nghiệm khác nhau ngay cả khi chúng được thực hiện trong các
điều kiện khác nhau. Ví dụ: có thể so sánh dữ liệu đến từ hai bảng khác nhau bằng hai
phương pháp khác nhau hoặc thậm chí với các cấp độ đào tạo khác nhau như nhóm
chuyên gia và nhóm người tiêu dùng. Ngồi ra, vì có thể so sánh nếu hai giá trị d’ khác
nhau đáng kể, mơ hình Thurstonian cũng có thể được áp dụng để theo dõi hiệu suất của
bảng điều khiển theo thời gian nếu chúng được cung cấp cùng một bộ mẫu để so sánh tại
các thời điểm khác nhau.

Quy tắc quyết định cho "A-Not-A"
Quy tắc quyết định hay chiến lược quyết định nhằm mục đích tìm hiểu quá trình
nhận thức của người đánh giá khi thực hiện phép thử phân biệt cảm quan. Trong phép thử
m-AFC (m> 2), người đánh giá so sánh cường độ cảm nhận của tất cả các mẫu và chọn
mẫu thích hợp (ví dụ, mẫu có vị đắng nhất). Trong các thử nghiệm như tam giác hoặc haiba, chiến lược nhận thức là so sánh các khoảng cách cảm giác trong đó mẫu xa nhất sẽ
được chọn làm mẫu lẻ. Trong bài kiểm tra A-not-A, chiến lược nhận thức không phải là
một trong số chúng: nó là tiêu chí b. Tiêu chí này có thể được coi là tài liệu tham khảo
nội bộ của người đánh giá mà họ sẽ căn cứ vào câu trả lời của mình trong quá trình kiểm
tra. Giả định rằng tiêu chí này là cố định cho một người đánh giá qua nhiều lần lặp lại
nhưng sẽ thay đổi từ người đánh giá này sang người đánh giá khác.
Trong một số trường hợp và trong thực tế, việc dựa vào tài liệu tham khảo nội bộ
của người đánh giá có thể là một vấn đề do trí nhớ kém, dẫn đến khả năng phân biệt giữa
các mẫu thấp hơn (Van Hout và cộng sự, 2011). Đưa ra một mẫu nhắc cho người đánh giá


không chỉ điều chỉnh các đánh giá của người đánh giá mà cịn giúp họ nhận ra liệu kích
thích được trình bày có gần với mẫu tham chiếu A. Điều này có thể có tác động đáng kể
trong việc tăng hiệu suất kiểm tra khi người đánh giá trở nên nhiều hơn quen thuộc và tự
tin về tham chiếu A qua nhiều phiên. ASTM E2262 mơ tả cách tính d’ và phương sai của
nó cho các thử nghiệm A-khơng-A với thiết kế đơn nguyên. Bước đầu tiên là tính hai tỷ lệ
sau:
l PA: số phản hồi “A” khi đưa ra mẫu “A”
l PnA: số câu trả lời “A” khi đưa ra mẫu “không phải A”.
Sử dụng Bảng A2.10, trong Phụ lục 2, giá trị d’ có thể được tìm thấy tại giao điểm
của cả PA và PnA. Chỉ riêng d’ có thể gây hiểu nhầm vì ở đây chưa tính đến số lượng
đánh giá viên tham gia vào bài kiểm tra. Điều quan trọng là phải có ý tưởng về phương
sai của d’ và do đó có ý tưởng về phạm vi thực tế của nó. Để tính tốn phương sai của d’,
phải sử dụng Bảng A2.11, trong Phụ lục 2. Việc sử dụng Bảng A2.11 khá giống với việc
sử dụng Bảng A2.10, vì giá trị cần tìm trong bảng (giá trị B) nằm ở giao điểm của PA và
PnA. Khi giá trị B được tìm thấy, độ lệch chuẩn S2 có thể được biểu thị bằng:


với n là số lượng người đánh giá nhận được “A” hoặc “không phải A”. Lấy dữ liệu
từ ví dụ trong Bảng 6.2, PA và PnA có thể được tính như sau:

Sử dụng Bảng A2.10 và A2.11, trong Phụ lục 2, có thể tìm thấy giá trị d' liên quan
chẳng hạn như d' = 0,693 cũng như giá trị β liên quan (3.294). Do đó, phương sai của d’
bằng:

Việc tính phương sai của d’ là cần thiết để tính khoảng tin cậy của nó. Khoảng tin
cậy trên và dưới có thể được tính như bên dưới ở mức 95%:

Giá trị d0 được tính tốn có thể thấp tới 0,28 và cao tới 1,10 ở độ tin cậy 95%.
Christensen và Brockhoff, 2016, phần mềm miễn phí R bao gồm một hàm được
gọi là AnotA (), tính tốn d’ và phương sai của nó cho A-not-A với thiết kế đơn nguyên.


Trong số các đối số cần được nhập là số lượng câu trả lời “A” khi “A” được trình bày và
số lượng câu trả lời “A” khi mẫu “not-A” được trình bày, chẳng hạn như:

Hàm AnotA () cũng trả về giá trị p liên quan đến kiểm định Fisher một phía cũng
được đề cập trong Bi (2006). Bằng cách nhập “? AnotA” trong bảng điều khiển R, người
dùng có quyền truy cập vào trang trợ giúp của hàm, cung cấp thơng tin chi tiết và ví dụ.
4.3.

Chỉ số R

Một cách khác để xem xét dữ liệu được tạo từ thử nghiệm “A-not-A” là tính chỉ số
R. Chỉ số R được phát triển bởi J. Brown (1974) và có thể được hiểu là tỷ lệ dự đoán các
câu trả lời đúng trong một phép thử 2-AFC. Một khía cạnh thú vị của chỉ số R là ngoài
việc xem xét sự chắc chắn của người đánh giá khi thực hiện thử nghiệm, nó cũng khơng

có sự khác biệt cảm quan cơ bản giữa hai mẫu (Ennis và cộng sự, 2014).
Thông thường, để tính chỉ số R, người trả lời sẽ được đưa ra một mẫu (“A” hoặc
“không phải-A”) và câu trả lời có thể có của họ sẽ là một trong bốn câu sau:
A: chắc chắn (A!)
A: không chắc (A?)
l Không phải A :chắc chắn (không phải-A!)
l Không phải A:không chắc (không-A?)


Giá trị chỉ số R được tính tốn thay đổi từ 50% (khơng khác biệt) đến 100% (khác
biệt hồn tồn). Chỉ số R có ưu điểm là dễ hiểu và trực quan vì nó trực tiếp thể hiện ước
tính tỷ lệ phần trăm người có thể phân biệt giữa hai mẫu.
Tuy nhiên, chỉ số R phụ thuộc vào phương pháp (Ennis và cộng sự, 2014) nên khó
so sánh kết quả từ hai phương pháp khác nhau.
5. Kết luận

Phương pháp A-not-A bề ngoài là một phương pháp tương đối đơn giản, nhưng nó
có nhiều nét tinh tế từ thiết kế, đến phân tích và giải thích dữ liệu được tạo ra. Tuy nhiên,
đó là một nhiệm vụ đơn giản đối với người đánh giá và có thể được áp dụng trong cả cảm
quan phân tích (ví dụ, hội đồng chuyên gia / được đào tạo) và nghiên cứu người tiêu dùng
liên quan đến các đối tượng. Ngay cả khi không được sử dụng với người tiêu dùng, Anot-A có thể cung cấp thơng tin chi tiết hữu ích cho những người tiêu dùng trung thành
với một loại sản phẩm hoặc của một thương hiệu cụ thể vì về bản chất, nó dựa trên tài
liệu tham khảo nội bộ của người đánh giá. Phương pháp này ít được khuyến nghị hơn khi
người đánh giá chưa được đào tạo và / hoặc không có kinh nghiệm về sản phẩm, và các
phép thử như phép thử 2-AFC hoặc phép thử tam giác có thể phù hợp hơn.
6. Bài tập

Tình huống 1: Sử dụng R-Index
Là một phần của việc mở rộng địa điểm sản xuất chính, một cơng ty đang cố gắng
đánh giá xem dây chuyền sản xuất mới được thêm vào có ảnh hưởng đến các đặc tính

cảm quan của sản phẩm hay khơng. Nhà khoa học cảm quan được yêu cầu kiểm tra xem
có sự khác biệt dễ nhận thấy giữa sản phẩm được sản xuất trên dây chuyền mới và sản
phẩm được sản xuất trên dây chuyền hiện tại hay không.
Một phép thử A-not-A được thiết lập với 50 người đánh giá; tất cả nhân viên công
ty quen thuộc với mẫu sản xuất trên dây chuyền hiện tại. Một buổi nếm thử sơ bộ đã được
tổ chức để người đánh giá có thể làm quen lại với các mẫu được sản xuất trên dây chuyền
hiện tại.
Một thiết kế đơn nguyên đã được sử dụng, do đó 25 người đánh giá nhận được
mẫu “A” trong khi 25 người đánh giá nhận được mẫu “không phải A”. Người đánh giá
cũng được hỏi về độ chắc chắn của họ khi quyết định xem mẫu nếm là “A” hay “không
phải-A”.


Bảng kết quả

Từ 25 người đánh giá nhận được mẫu “A”, 15 người trong số họ xác định nó là
“A” với 10 người chắc chắn, 5 người không chắc chắn và 10 người xác định nó là
“khơng-A” với 2 người chắc chắn, 8 người không chắc chắn.
Từ 25 người đánh giá nhận được mẫu “không phải A”, 12 người trong số họ xác
định đó là A với 6 người chắc chắn, 6 người không chắc chắn và 13 người xác định nó là
“khơng-A” với 10 người chắc chắn, 3 người không chắc chắn.
Để truyền đạt kết quả, nhà đánh giá cảm quan chọn tính tốn giá trị Rindex vì nó
tương đối dễ hiểu.
Giá trị chỉ số R được định nghĩa là:

Vì chỉ số R được tính là 0,64, nhà khoa học cảm quan kết luận rằng nếu đặt cạnh
nhau, 64% người đánh giá có thể phân biệt giữa "A" và "khơng phải A".
Tuy nhiên, nếu thực sự khơng có sự khác biệt giữa hai mẫu đó, tỷ lệ câu trả lời
đúng sẽ là gần 50%. Dựa trên bảng để kiểm tra mức độ ý nghĩa của chỉ số R, Bảng A2.3
trong Phụ lục 2 (Bi và O'Mahony, 2007), đối với n = 50 và α= 0,05 (kiểm định một đầu),

R- chỉ số phải cao hơn 59,33% (50 cộng với giá trị bảng là 9,33) để khẳng định rằng có
sự khác biệt có thể cảm nhận được giữa hai mẫu.
Nhà khoa học cảm quan có thể khẳng định rằng có sự khác biệt có thể cảm nhận
được giữa các mẫu được sản xuất trên dây chuyền hiện tại và các mẫu được sản xuất trên
dây chuyền mới tại độ tin cậy 95%.


Tình huống 2: Kiểm tra sự giống nhau dựa trên Bi (2006)
Lưu ý về phép thử độ tương đồng: Việc nói rằng khơng có sự khác biệt có ý nghĩa
thống kê giữa hai mẫu khơng tương đương với việc nói rằng hai mẫu tương tự nhau.
Trường hợp này xảy ra nếu việc thay thế thành phần đang diễn ra (ví dụ: thay đổi nhà
cung cấp) và các mẫu phải được hốn đổi cho nhau mà người tiêu dùng khơng nhận thấy
sự khác biệt. Bi (2006) đề xuất một χ2 cho sự tương tự dựa trên Dunnett và Gent (1977).
Trong cách tiếp cận tương tự này, tỷ lệ dự kiến phải được tính đến giới hạn mà
“A” và “khơng-A” có thể được khẳng định là tương tự.
Các tỷ lệ mong đợi đó xem xét một giá trị được gọi là Δ 0, thể hiện sự khác biệt cho
phép tối đa có thể quan sát giữa hai tỷ lệ PA và PnA để khẳng định sự tương đồng. PA và
PnA lần lượt là tỷ lệ câu trả lời “A” khi mẫu A được trình bày và tỷ lệ câu trả lời “A” khi
“khơng phải A” được trình bày.
Một cơng ty đang thay đổi nhà cung cấp cho một thành phần quan trọng trong
công thức của họ. Họ muốn biết liệu sự thay đổi nhà cung cấp này có ảnh hưởng đến các
đặc tính cảm quan của sản phẩm của họ hay khơng và liệu người tiêu dùng có nhận thấy
sự khác biệt so với sản phẩm hiện có hay khơng.
Một thử nghiệm đơn lẻ A-không-A về sự giống nhau đã được thiết lập với 200
người tiêu dùng (100 người nhận “A” và 100 người nhận “không-A”.A là sản phẩm gốc
và không phải-A là mẫu với thành phần từ nhà cung cấp mới ). Sự khác biệt tối đa cho
phép có thể quan sát được giữa hai tỷ lệ PA và PnA để khẳng định sự tương đồng được
thiết lập lên đến 0,2. Vào cuối bài kiểm tra, từ 100 người đánh giá nhận được mẫu A, 50
người trong số họ xác định là A và từ 100 người đánh giá nhận mẫu khơng phải A, 42
người trong số họ xác định đó là A. Theo Bi (2006), dự kiến Tỷ lệ mẫu A được tính như

sau:

với nA và nN lần lượt là số lượng người đánh giá nhận được A và nhận được
“không phải A” và x và y là số phản hồi quan sát được “A” khi được trình bày với “A” và
“không phải A” tương ứng.
χ2 cho sự tương đồng sau đó được tính như sau:


với m =x + y và số lượng người đánh giá dự kiến tìm thấy A (ghi chú x’) được tính
là 100*0.56 = 56.
Đối với một bậc tự do, giá trị p (một phía) liên quan đến phép thử χ2 bằng 0,039.
Giá trị p này có thể dễ dàng được tính bằng phần mềm R bằng cách sử dụng cơng thức:
(1-pchisq (3.10,1)) / 2
Vì giá trị p được tính tốn thấp hơn 0,05, nhà khoa học cảm quan có thể khẳng
định rằng sản phẩm được cải tiến với thành phần từ nhà cung cấp mới được người tiêu
dùng cảm nhận tương tự so với sản phẩm ban đầu.


7. Phụ lục






×