Tải bản đầy đủ (.pdf) (65 trang)

Tư vấn trong thương mại điện tử dựa trên phân tích mẫu phổ biến từ dữ liệu nhật ký truy cập của khách hàng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.82 MB, 65 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

TRƢƠNG THỊ MINH NGỌC

TƢ VẤN TRONG THƢƠNG MẠI ĐIỆN TỬ DỰA TRÊN PHÂN
TÍCH MẪU PHỔ BIẾN TỪ DỮ LIỆU NHẬT KÝ TRUY CẬP
CỦA KHÁCH HÀNG

LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN

Hà Nội – 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

TRƢƠNG THỊ MINH NGỌC

TƢ VẤN TRONG THƢƠNG MẠI ĐIỆN TỬ DỰA TRÊN PHÂN
TÍCH MẪU PHỔ BIẾN TỪ DỮ LIỆU NHẬT KÝ TRUY CẬP
CỦA KHÁCH HÀNG

Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60 48 01 04
LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN
NGƢỜI HƢỚNG DẪN KHOA HỌC:
TS. PHAN XUÂN HIẾU

Hà Nội – 2015




LỜI CẢM ƠN
Để đi cả quãng đường này, lời đầu tiên tôi xin được gửi lời biết ơn chân thành
và sâu sắc tới thầy Ts. Phan Xuân Hiếu, một người thầy, người anh cả vô cùng nhiệt
thành đã dẫn dắt, truyền nhiệt huyết cho tôi trong toàn bộ quá trình, giúp tôi vững
vàng và trưởng thành trong con đường nghiên cứu và học tập.
Thời gian qua là một khoảng kỷ niệm cực kỳ sâu sắc với tôi, khi được học tập
tham gia nghiên cứu tại trường, phòng thí nghiệm công nghệ tri thức (KT Lab) và Trung
tâm Công nghệ tích hợp liên ngành Giám sát hiện trường (FIMO). Xin được gửi lời cảm
ơn tới tất cả các thầy cô và các bạn học đã luôn sẵn sàng hỗ trợ và giúp đỡ tôi.
Tôi xin bày tỏ lòng biết ơn chân thành tới Thầy, Cô giáo các anh chị và các bạn
trong bộ môn Hệ thống thông tin, Khoa Công nghệ thông tin, những người đã nhiệt
tình giúp tôi mở rộng kiến thức về Công nghệ thông tin nói chung và Hệ thống thông
tin nói riêng, đó là những kiến thức quý báu và sẽ rất có ích với tôi trong giai đoạn
hiện tại và tương lai.
Tôi xin gửi lời cảm ơn chân thành tới Ban Giám hiệu Nhà trường, Phòng Đào
tạo sau đại học, Đại học Công nghệ - Đại học Quốc gia Hà Nội đã tạo điều kiện tốt
nhất giúp tôi trong suốt quá trình học tập.
Qua tất cả tôi gửi đến gia đình thân yêu mọi tình cảm của mình, cảm ơn bố mẹ
đã luôn luôn tin tưởng, luôn luôn là chỗ dựa vững chắc, cảm ơn các anh chị em đã
dành mọi điều kiện để giúp tôi tập trung vào nghiên cứu.
Hà Nội, ngày 30 tháng 10 năm 2015
Học viên

Trƣơng Thị Minh Ngọc

1



LỜI CAM ĐOAN
Tôi xin cam đoan nội dung trình bày trong luận văn này là do tôi tự nghiên cứu
tìm hiểu dựa trên các tài liệu và tôi trình bày theo ý hiểu của bản thân dƣới sự hƣớng
dẫn trực tiếp của Thầy TS. Phan Xuân Hiếu. Các nội dung nghiên cứu, tìm hiểu và kết
quả thực nghiệm là hoàn toàn trung thực.
Luận văn này của tôi chƣa từng đƣợc ai công bố trong bất cứ công trình nào.
Trong quá trình thực hiện luận văn này tôi đã tham khảo đến các tài liệu của
một số tác giả, tôi đã ghi rõ tên tài liệu, nguồn gốc tài liệu, tên tác giả và tôi đã liệt kê
trong mục “DANH MỤC TÀI LIỆU THAM KHẢO” ở cuối luận văn.
Học viên

Trƣơng Thị Minh Ngọc

2


MỤC LỤC
CHƢƠNG 1. KHÁI QUÁT BÀI TOÁN TƢ VẤN SẢN PHẨM THƢƠNG MẠI ......9
1.1. Tổng quan bài toán tƣ vấn trong thƣơng mại điện tử ...........................................9
1.2. Các hƣớng tiếp cận và các mô hình trong hệ gợi ý ............................................12
1.3. Thách thức của hệ gợi ý ......................................................................................13
1.4. Đánh giá và ứng dụng hệ gợi ý ...........................................................................14
1.4.1. Đánh giá một hệ gợi ý ..................................................................................14
1.4.2. Thiết kế ứng dụng cho một hệ thống gợi ý thực ..........................................15
CHƢƠNG 2. LÝ THUYẾT KHAI PHÁ MẪU PHỔ BIẾN VÀ LUẬT KẾT HỢP ...16
2.1. Những định nghĩa chung trong bài toán tìm mẫu phổ biến và luật kết hợp .......16
2.2. Những hƣớng tiếp cận trong khai phá mẫu phổ biến, luật kết hợp ....................17
2.2.1. Những hƣớng tiếp cận luật kết hợp ..............................................................17
2.2.2. Những thuật toán cơ bản ..............................................................................21
2.3. Luật kết hợp trong hệ gợi ý ................................................................................23

2.4. Thuật toán tìm kiếm tập phổ biến và luật kết hợp ..............................................24
2.4.1. Thuật toán FP-Growth .................................................................................24
2.4.2. Thuật toán FPClose ......................................................................................28
2.4.3. Thuật toán FIN .............................................................................................29
CHƢƠNG 3. ỨNG DỤNG MẪU PHỔ BIẾN VÀ LUẬT KẾT HỢP ĐỂ GỢI Ý SẢN
PHẨM TRONG THƢƠNG MẠI ĐIỆN TỬ Ở VIỆT NAM ........................................34
3.1. Bài toán gợi ý sản phẩm bằng tìm kiếm mẫu phổ biến và luật kết hợp .............34
3.2. Gợi ý sản phẩm dựa trên mẫu phổ biến ..............................................................36
3.3. Gợi ý sản phẩm dựa trên luật kết hợp .................................................................37
3.4. Mô tả dữ liệu .......................................................................................................38
3.5. Mô tả hệ thống gợi ý cho ngƣời dùng ................................................................40
CHƢƠNG 4. THỰC NGHIỆM, PHÂN TÍCH VÀ ĐÁNH GIÁ ................................46
4.1. Kết quả chạy các thuật toán tìm kiếm tập phổ biến. ...........................................46
4.2. Kết quả của gợi ý sản phẩm cho từng ngƣời dùng .............................................51
CHƢƠNG 5. KẾT LUẬN ...........................................................................................57
5.1. Những vấn đề đƣợc giải quyết trong luận văn này. ............................................57
5.2. Hƣớng đi hay hƣớng áp dụng cho đề tài luận văn. .............................................58
CÁC CÔNG TRÌNH KHOA HỌC VÀ SẢN PHẨM ĐÃ CÔNG BỐ .....................59
TÀI LIỆU THAM KHẢO .............................................................................................60

3


DANH MỤC HÌNH VẼ
Hình 3.1 Gợi ý tại Amazon ...........................................................................................34
Hình 3.2 Phân bố dữ liệu sản phẩm thu thập đƣợc........................................................39
Hình 3.3 Ví dụ về thông tin sản phẩm item ...................................................................39
Hình 3.4 Ví dụ về các transaction – các lƣợt truy cập từng ngƣời dùng .....................40
Hình 3.5 Quy trình giải quyết bài toán ..........................................................................41
Hình 3.6 Mô hình bƣớc tiền xử lý .................................................................................41

Hình 3.7 Mô hình bƣớc tìm mẫu phổ biến và luật kết hợp ...........................................42
Hình 3.8 Định dạng những tập phổ biến tìm đƣợc ........................................................43
Hình 3.9 Định dạng luật kết hợp tìm đƣợc ....................................................................43
Hình 3.10 Định dạng đầu ra các tập phổ biến đƣợc đánh chỉ mục ................................43
Hình 3.11 Định dạng đầu ra phần Y của luật đƣợc đánh chỉ mục .................................44
Hình 3.12 Mô hình bƣớc gợi ý cho ngƣời dùng ............................................................44
Hình 4.1 So sánh thời gian chạy các thuật toán ............................................................46
Hình 4.2 Thống kê thời gian trung bình chạy các thuật toán ........................................46
Hình 4.3 So sánh bộ nhớ tối đa sử dụng ........................................................................47
Hình 4.4 Thống kê bộ nhớ tối đa sử dụng của các thuật toán .......................................47
Hình 4.5 Thống kê số tập phổ biến tìm đƣợc ................................................................47
Hình 4.6 Giao diện gợi ý cho ngƣời dùng .....................................................................53
Hình 4.7 Gợi ý cho ngƣời dùng theo một sản phẩm mẹ và bé ......................................54
Hình 4.8 Gợi ý cho mặt hàng phụ kiện công nghệ ........................................................55
Hình 4.9 Gợi ý cho mặt hàng đồ gia dụng.....................................................................55
Hình 4.10 Gợi ý cho mặt hàng đồng hồ ........................................................................56

4


DANH MỤC TỪ VIẾT TẮT
Từ viết tắt
CSDL (DB)
RS
AR
FP

Giải nghĩa
Cơ sở dữ liệu (database)
Recommender system

Association rule
Frequent pattern

DANH MỤC TỪ KHÓA
Từ khóa
Recommender system
Association rule
Frequent pattern

Ngữ nghĩa
Hệ gợi ý
Luật kết hợp
Mẫu phổ biến

5


MỞ ĐẦU
Những tác giả đầu ngành mở đầu cho bài toán tìm mẫu phổ biến [1] từ năm
1993 là Jiawei Han và Charu C. Aggarwal đã tổng hợp những vấn đề về các hƣớng
tiếp cận, phƣơng pháp các thuật toán, dành cho nhiều loại dữ liệu của rất nhiều công
trình nghiên cứu tại “Frequent pattern mining” [2] xuất bản năm 2014. Cho thấy sức
hấp dẫn của đề tài này xong suốt hơn 20 năm qua.
Ứng dụng cho bài toán maketing tìm kiếm mẫu phổ biến trên tập dữ liệu mua
hàng của khách, tìm ra những sản phẩm hay đƣợc mua cùng nhau nhất, hay gợi ý nếu
xem sản phẩm này sẽ xem sản phẩm nào tiếp theo. Thử đặt ra giả thiết nếu nhƣ khi
một ngƣời xem đang nhấp chuột tìm kiếm hoặc xem một sản phẩm về thời trang nhƣ
„đầm xòe nơ‟ mà họ đang quan tâm trên một website, thì website đó sẽ gợi ý „đầm kim
sa nhũ‟ hoặc/và „đầm dự tiệc sang trọng‟ hoặc/và „giầy cao gót dây thanh lịch‟
hoặc/và „ví xách trang nhã‟ với giải thích là những sản phẩm này thƣờng đƣợc nhiều

ngƣời dùng khác xem với nhau rất nhiều lần, có thể nhận thấy ngữ cảnh xem hàng này
ngƣời dùng đang muốn tìm kiếm trang phục dự tiệc, những gợi ý về sản phẩm đồng bộ
theo loại sản phẩm này rất phù hợp, và gợi ra đƣợc nhiều liên quan giữa các sản phẩm
này không chỉ tính đến chúng thuộc cùng chủng loại, cùng nội dung.
Đặc biệt khi gợi ý trong thƣơng mại điện tử tại Việt Nam, lý do để chọn hƣớng
tiếp cận tìm tập phổ biến là vì phụ thuộc vào tập dữ liệu thu thập đƣợc từ khách hàng.
Dữ liệu mà luận văn thu thập đƣợc từ một website thƣơng mại tại Việt Nam, với số
lƣợng các mặt hàng lên tới hơn 238.000 sản phẩm chủ yếu về các mặt hàng thời trang,
gia dụng, thực phẩm, phụ kiện công nghệ …
Hƣớng tiếp cận cũ nhƣ hƣớng lọc nội dung (content-based) dù cũng có kết quả
tốt nhƣng không đủ tinh tế để hiểu ngƣời dùng, thƣờng gợi ý ra đƣợc rất nhiều sản
phẩm nếu số lƣợng sản phẩm liên quan với nhau lớn, mà theo tâm lý ngƣời dùng việc
gợi ý ra nhiều sẽ không gây đƣợc kết quả tốt [3], xem xét những gợi ý phù hợp và thú
vị cho ngƣời dùng mới là vấn đề cần nghiên cứu. Những công trình đƣợc nghiên cứu
cho thế hệ gợi ý mới đã có nhiều bƣớc tiến vƣợt trội, nhiều phƣơng pháp mang lại hiệu
quả cao và đang là xu hƣớng hiện nay nhƣ là hƣớng lọc cộng tác (collaborative
filtering) dựa vào cộng đồng ngƣời dùng sử dụng dữ liệu đánh giá (rating) của họ về
sản phẩm. Nhƣng quay trở về áp dụng cho ngƣời dùng tại Việt Nam với sản phẩm
thƣơng mại thì rất khó khăn trong việc thu thập dữ liệu, lý do là ngƣời dùng tại Việt
Nam thƣờng rất ít có thói quen đánh giá (rating) hay bình luận (comment) về sản
phẩm, đây là kết quả thực tế khi thu thập dữ liệu đƣợc từ website thƣơng mại mà luận
văn làm thực nghiệm. Hơn nữa hành vi chủ yếu của ngƣời dùng là tìm kiếm thông tin
của sản phẩm, hành vi mua trực tuyến là khá ít dẫn đến khó khăn khi thu thập và khai
phá trên dữ liệu của kiểu hành vi này, theo khảo sát của Google vào năm 2015 [4]
trong số 73% ngƣời dùng xem hàng chỉ có 17% quyết định mua hàng trực tuyến còn
6


lại là thực hiện mua bán ngoại tuyến. Ngoài ra theo trang alexa.com1 trang chuyên
thống kê các website khắp thế giới về các mức độ ngƣời truy cập, số lƣợng tìm kiếm,

đánh giá... năm 2015 đã thống kê những website thƣơng mại điện tử đứng đầu ở Việt
Nam nhƣ vatgia.com, 5giay.vn, lazada.vn, chotot.vn…có rất ít đánh giá rating cho
những sản phẩm đƣợc mua và dùng bởi ngƣời dùng. Với hƣớng tìm kiếm tập phổ biến
để gợi ý, luận văn có tham khảo một trong những trang web về thƣơng mại điện tử
thành công nhất trên thế giới là Amazon2 (theo alexa3), dựa trên tìm những luật kết
hợp và xếp chúng theo độ tin cậy, tìm những biến thể khác nhƣ đo độ không thích
hoặc quan hệ của ngƣời dùng. Điều này tùy thuộc vào các dữ liệu lấy đƣợc, có thể hay
không thu đƣợc mức độ xem hoặc quan tâm từ những rating, hành vi hoặc những phản
hồi ẩn của khách hàng, những dữ liệu này đều thu thập đƣợc tại website làm thực
nghiệm.
Với hƣớng đi ứng dụng tập phổ biến và luật kết hợp vào trong bài toán gợi ý
sản phẩm thƣơng mại, luận văn đã tìm hiểu và nghiên cứu những vấn đề liên quan đến
khâu xây dựng và ứng dụng nhƣ là xác định đối tƣợng gợi ý, đối tƣợng dữ liệu có thể
thu thập đƣợc từ nhật ký phiên truy cập ngƣời dùng trong một trang thƣơng mại điện
tử ở Việt Nam; khảo sát các phƣơng pháp để khai phá mẫu phổ biến và luật kết hợp,
tìm hiểu vấn đề độ đo, chọn ngƣỡng, những khó khăn thách thức khi triển khai; đến
vấn đề đánh giá dữ liệu, chất lƣợng tập phổ biến và luật kết hợp, và hiển thị ra gợi ý,…
Luận văn cũng tập trung giải quyết các khâu trong thực nghiệm, nhận định vấn đề và
những khó khăn gặp phải nhƣ vấn đề bộ nhớ sử dụng, thời gian chạy, phân hoạch bộ
dữ liệu gốc, đánh chỉ mục ngƣợc cho tập phổ biến và tập luật tìm đƣợc, đƣa ra gợi ý
cho từng cá nhân ngƣời dùng, đƣa ra giải thích cho các gợi ý đó. Sau đó là tìm ra các
phƣơng hƣớng giải quyết, rút ra những bài học kinh nghiệm có đƣợc.
Hy vọng từ việc khai thác những dữ liệu thực tế và áp dụng các phƣơng pháp
kỹ thuật đƣợc công bố bởi những nhà nghiên cứu uy tín trên toàn thế giới sẽ đƣa lại kết
quả có ý nghĩa, có thể đóng góp một phần nào đó để triển khai ứng dụng thƣơng mại
điện tử Việt Nam nói riêng và ứng dụng công nghệ thông tin vào đời sống nói chung.
Luận văn sẽ chia nội dung ra làm năm chƣơng chính:
Chƣơng 1: Khái quát bài toán tƣ vấn sản phẩm thƣơng mại. Ở chƣơng đầu tiên
mở đầu này sẽ nêu tổng quan về bài toán gợi ý, những hƣớng tiếp cận, phƣơng pháp
giải quyết, thách thức và cả những đánh giá ứng dụng, đặc biệt là cho thƣơng mại điện

tử.
Chƣơng 2: Lý thuyết mẫu phổ biến và luật kết hợp. Có nội dung chính là nêu
những định nghĩa chung của bài toán tìm kiếm tập phổ biến, những hƣớng tiếp cận,

1

/>www.amazon.com
3
/>2

7


những ứng dụng phƣơng pháp khai phá tập phổ biến và luật kết hợp vào bài toán gợi ý
thƣơng mại. Trong đó còn nêu chi tiết 3 thuật toán sẽ đƣợc áp dụng trong luận văn.
Chƣơng 3: Ứng dụng khai phá mẫu phổ biến để gợi ý những sản phẩm đƣợc
xem cùng nhau trong thƣơng mại điện tử ở Việt Nam. Chƣơng này là chƣơng chính
của luận văn phát biểu bài toán cụ thể mà luận văn cần giải quyết, sau đó là đƣa ra mô
hình giải quyết bài toán.
Chƣơng 4: Thực nghiệm đánh giá. Đây là phần nêu lên kết quả đạt đƣợc trong
suốt quá trình thực hiện, ngoài ra còn đề cập đến những khó khăn vấn đề vƣớng mắc
phát sinh. Sau đó là đánh giá những kết quả đạt đƣợc chi tiết ở từng bƣớc thực hiện.
Chƣơng 5: Kết luận. Tổng kết lại những nội dung chính của luận văn, đƣa ra
hƣớng đi và hƣớng áp dụng thực tế.

8


CHƢƠNG 1. KHÁI QUÁT BÀI TOÁN TƢ VẤN SẢN PHẨM THƢƠNG MẠI
Chƣơng đầu tiên của luận văn sẽ nêu tổng quan về bài toán tƣ vấn trong thƣơng

mại điện tử, những vấn đề từ cũ đến mới đƣợc cập nhật theo những hội nghị và những
công bố nổi tiếng trong lĩnh vực này.
1.1. Tổng quan bài toán tƣ vấn trong thƣơng mại điện tử
Ngƣời dùng (user) internet hiện nay mỗi ngày có thể cần tìm hiểu vô số thông tin
về các loại sản phẩm nhƣ các bài báo, những bản tin đa phƣơng tiện, cuộc khảo sát,
hƣớng dẫn du lịch, sách, sản phẩm thƣơng mại… từ nhiều ngƣời, nhiều dịch vụ,
website hay hệ thống khác nhau. Hệ gợi ý (RS - Recommendation System) chính là sử
dụng nhiều hƣớng tiếp cận nhƣ dựa vào nội dung, dựa vào cộng đồng ngƣời dùng, sở
thích của ngƣời dùng… để giúp ngƣời dùng đƣa ra quyết định và lọc ra những sản
phẩm (item) nhƣ là cuốn sách, bài báo, trang web, bộ phim, âm nhạc…mà họ có thể
đang quan tâm. Những sản phẩm này nằm trong danh sách rất dài và càng ngày càng
đƣợc cập nhật thêm mới, dẫn đến hiện tƣợng „long tail‟[5] thƣờng thấy.
Một vài lý do khác để sử dụng hệ gợi ý [6] cho nhà kinh doanh là tăng lƣợng hàng
bán; bán nhiều loại sản phẩm khác kèm theo; làm tăng mức độ hài lòng, trung thành của
ngƣời dùng; hiểu rõ hơn về xu hƣớng sở thích ngƣời dùng. Bên cạnh đó những nhiệm
vụ quan trọng chính của một hệ gợi ý đƣợc Herlocker và cộng sự [7] định nghĩa bao
gồm: tìm một vài hay toàn bộ sản phẩm tốt; chú thích đƣợc trong ngữ cảnh đó; gợi ý
một chuỗi, hay trọn gói; duyệt qua (bằng cách đƣa ra danh mục cho ngƣời dùng lựa
chọn, đặc biệt cho những ngƣời dùng mới, hay không có nhiều ý định hiện tại); tìm gợi
ý đáng tin; mở rộng thông tin ngƣời dùng (profile); đƣa ra nhận xét từ ngƣời dùng khác.
Những hệ thống thƣơng mại lớn đều ứng dụng các công nghệ kỹ thuật để gợi ý sản
phẩm cho ngƣời dùng. Nổi bật về gợi ý hàng hóa có thể kể đến Amazon, gợi ý phim
ảnh là Netflix [8], về tin tức có BBC news, Youtube. Đều là những ví dụ thành công
khi có chiến lƣợc sử dụng tốt hệ gợi ý phù hợp với miền sản phẩm của mình giúp tăng
doanh thu và khách hàng. Thƣờng có ba cách để tăng doanh thu, thứ nhất là gợi ý đúng
theo nhu cầu cần của khách sẽ giúp họ ra quyết định mua sản phẩm; thứ hai là gợi ý
sản phẩm hay dịch vụ kèm theo; thứ ba là xây dựng thói quen “trung thành” của khách
hàng, khi khách hàng đƣợc website “phục vụ” theo đúng nhu cầu, sở thích, họ sẽ
thƣờng xuyên quay trở lại, [9] Pine và đồng sự có nhiều bài nghiên cứu về thị trƣờng
và tâm lý hành vi của ngƣời dùng chỉ ra những chức năng hệ gợi ý cho lĩnh vực

thƣơng mại nên có.
Một ví dụ điển hình cho gợi ý thƣơng mại điện tử thành công trên thế giới là
website thƣơng mại amazon4, đây là website đứng đầu về lƣợng ngƣời truy cập và mua
hàng theo alexa5 chiến lƣợc gợi ý là sử dụng lai (hybrid) các phƣơng pháp nhƣ lọc
cộng tác bằng đánh giá rating, tìm mẫu phổ biến, hay nội dung. Đặc biệt sử dụng là gợi
4
5

/> />
9


ý những mẫu sản phẩm cùng đƣợc xem nhiều bởi những ngƣời dùng khác – các mẫu
phổ biến.
Tình hình sử dụng hệ gợi ý trong thƣơng mại điện tử ở Việt Nam. Cũng theo báo
cáo thƣơng mại điện tử 2014 ở Việt Nam của Cục thƣơng mại và công nghệ thông tin
–Bộ Công thƣơng [10] đã đƣa ra các số liệu thống kê đáng chú ý về các sàn giao dịch
thƣơng mại điện tử: các loại sản phẩm đƣợc quan tâm nhiều nhất của ngƣời dùng trực
tuyến là thời trang, công nghệ; hơn 81 % website trong số gần 300 là có hỗ trợ lọc và
tìm kiếm sản phẩm cho ngƣời dùng; lý do để ngƣời dùng chƣa mua trực tuyến có tới
46% số ngƣời đƣợc khảo sát cho rằng chƣa đủ thông tin để ra quyết định, đây là yếu tố
đƣợc quan tâm khi xây dựng hệ gợi ý cho ngƣời dùng hiện nay, cũng là động lực thực
hiện đề tài. Một số con số thông kê khác đáng chú ý đƣợc công bố trong “Consumer
barometer in Vietnam 2015” của Google [4] là trong số 73% ngƣời dùng tìm hiểu
thông tin sản phẩm sẽ quyết định mua hàng ngoại tuyến là 56% và 17% là mua hàng
trực tuyến, con số thống kê này cho thấy số lƣợng dữ liệu về mua hàng có thể thu thập
đƣợc tƣơng đối ít.
Những đối tƣợng đƣợc nghiên cứu kỹ trong hệ gợi ý cho thƣơng mại là sản phẩm
và đối tƣợng ngƣời dùng và những giao dịch (những bản ghi sự tƣơng tác của ngƣời
dùng với hệ gợi ý, website), [5] hoặc là đƣợc cung cấp bởi những chuyên gia hoặc là

đƣợc khai phá khi học từ những hành vi của ngƣời dùng, đây cũng là yếu tố đƣợc quan
tâm học hỏi để có hƣớng phƣơng pháp và kỹ thuật gợi ý phù hợp. Với cách thứ hai
ngƣời bán có thể thu thập hành vi của khách hàng qua lƣợng click (nhấp chuột) hay đặt
hàng/mua; phản hồi, nhận xét ẩn hoặc rõ của ngƣời dùng. Và đặc biệt với lƣợng dữ
liệu thu đƣợc từ dữ liệu giao dịch, hệ gợi ý có thể sử dụng khai phá dữ liệu (data
mining) – là sử dụng những kỹ thuật phân tích suy ra những quy luật, hay mô hình từ
tập dữ liệu lớn. Từ đó tìm ra những luật kết hợp – chính là những quan hệ giữa các sản
phẩm (item) đƣợc mua trong cùng một đơn hàng. Lấy ví dụ tiêu biểu khai phá tốt
những tập luật theo thời gian có thể dự đoán ra hành vi mua sắm tƣơng lai của khách
hàng, ví dụ nhƣ khi khách vừa mua sản phẩm điện thoại thì có thể dự đoán khách sẽ
cần tìm hiểu và mua những sản phẩm phụ kiện nhƣ vỏ ốp, tai nghe…Và ngoài ra còn
rất nhiều kỹ thuật phƣơng pháp khai phá khác đƣợc đề xuất sẽ đƣợc đề cập cụ thể
trong phần 2.2.
Một cách tổng quát quá trình khai phá dữ liệu gồm hai pha, trong pha học sẽ phân
tích dữ liệu và xây dựng mô hình hành vi ngƣời dùng (nhƣ luật kết hợp) pha này thƣờng
tốn thời gian và cần yêu cầu sự giúp đỡ của chuyên gia. Sau khi mô hình đƣợc xây
dựng, chuyển sang pha thứ hai ứng dụng mô hình cho từng khách hàng một cách nhanh
chóng dễ dàng. Một thách thức khi thực hiện khai phá dữ liệu trong tổ chức là tạo quy
trình để chuyển thành công kiến thức từ pha học vào thực hiện trong pha ứng dụng.
Điểm qua về hệ gợi ý tự động, là hệ thống học máy đặc biệt. Một số mô đun gợi ý
có pha ngoại tuyến (offline) trong quá trình học mô hình hành vi ngƣời dùng, sau đó là
pha trực tuyến (online) khi ứng dụng mô hình trong thời gian thực. Còn lại rất nhiều
10


mô đun gợi ý sử dụng hƣớng học lƣời (lazy learning) nghĩa là xây dựng và cập nhật
mô hình ngay trong khi tạo gợi ý ở thời gian thực.
Do số lƣợng các chủng loại mặt hàng trên trang thƣơng mại điện tử là cực lớn,
khách hàng có thể lựa chọn trong số hàng triệu sản phẩm từ cũ đến mới, vô cùng đa
dạng về chủng loại, hình thức. Những sản phẩm đƣợc gợi ý có thể dựa trên việc chọn

ra sản phẩm đƣợc mua nhiều nhất, mới nhất, hay sở thích riêng biệt của từng ngƣời
dùng đƣợc phân tích từ hành vi quá khứ của ngƣời dùng để dự đoán hành vi trong
tƣơng lai. Quy trình gợi ý thƣờng bao gồm đề xuất sản phẩm cho ngƣời dùng, cung
cấp các thông tin sản phẩm theo từng cá nhân, tổng kết ý kiến đánh giá của cộng đồng.
Nhìn chung thì những kỹ thuật gợi ý theo hƣớng cá nhân riêng lẻ đang là xu hƣớng,
đƣợc phát triển mạnh, giúp trang thƣơng mại phục vụ từng khách hàng tốt hơn. Do đó
thao tác tùy biến để phù hợp với từng ngƣời dùng rất rất lớn, đây cũng là một vấn đề
cần đƣợc nghiên cứu khi xây dựng hệ thống.
Bên cạnh đó có những khía cạnh cần quan tâm khi xây dựng hệ gợi ý nhƣ cách
thức trình bày cho ngƣời dùng, giải thích lý do đƣa ra gợi ý, đánh giá độ hiệu quả của
phƣơng pháp gợi ý… Không thể không kể đến những thách thức, nổi trội nhƣ vấn đề
về dữ liệu lớn, thƣa, nhập nhằng và phạm vi rộng, hay vấn đề về cá nhân riêng tƣ của
ngƣời dùng…
Khía cạnh bảo mật và mức độ dữ liệu khách hàng có thể khai thác: những dữ liệu
có thể thu thập đƣợc từ khách hàng qua trang web là thông tin sở thích đƣợc cung cấp
rõ, và để ở chế độ public (công cộng), hay những dữ liệu ở web server của công ty
thƣơng mại, có sử dụng những không đƣợc phép để lộ thông tin…
Với tƣ duy khách hàng là trung tâm, từ việc hiểu họ, đƣa ra những gợi ý và giải
thích cho lý do đƣa ra gợi ý đó [11], nhằm đáp ứng đƣợc độ trong suốt minh bạch của
hệ thống, cho phép ngƣời dùng nhận xét đƣợc nếu hệ thống không đúng, dẫn đến tăng
độ tin cậy của hệ thống, ngƣời dùng có thể đƣa ra quyết định hiệu quả và nhanh dựa
trên nhiều loại gợi ý tùy theo thời điểm, tính cách, và thứ họ tin tƣởng,…sự thuyết
phục sẽ lớn hơn để khách mua hoặc thử nó, cuối cùng là có thể tăng sự hài lòng của
khách hàng với hệ gợi ý.
Yếu tố ngƣời dùng cũng là một vấn đề quan trọng và khó, hành vi, sở thích của họ
có thể thay đổi, các đối tƣợng ngƣời dùng cũng không giống nhau ở các khu vực, tùy
thuộc vào cá nhân, xã hội hay tâm lý của ngƣời dùng [13].
Để đánh giá hệ gợi ý, những tiêu chí đƣợc quan tâm là 1) sự gợi ý có hiệu quả hay
không? 2) Chiến lƣợc gợi ý có tốt hay không? 3) Hay chiến lƣợc gợi ý có tốt cho việc
kinh doanh của ngƣời bán hay không? Có rất nhiều độ đo để đánh giá khi thực hiện hệ

gợi ý trong thực tế nhƣ: tổng số hàng bán, đẩy mạnh đƣợc tiêu thụ mặt hàng chính,
đánh giá qua lƣợt nhấp chuột (click-though-rate), tƣơng tác với hệ thống, lƣợng trở lại
của khách hàng, lƣợng khách trung thành, hài lòng…Với việc đánh giá hệ gợi ý hoạt
động nào khi còn đang nghiên cứu chƣa sử dụng thực tế thì không thể áp dụng với
ngƣời dùng thực, thay vào đó là sử dụng những độ đo khác nhƣ sử dụng các thí
11


nghiệm đánh giá các thông số hệ thống (xem hệ thống có khả năng chạy tốt hay
không: thời gian, bộ nhớ,…); tạo bảng hỏi; dựa trên những dữ liệu lịch sử, đo độ chính
xác, bao quát,…
1.2. Các hƣớng tiếp cận và các mô hình trong hệ gợi ý
Để thực hiện những chức năng chính là xác định những item hữu dụng cho ngƣời
dùng, hệ gợi ý cần „dự đoán‟ những item tốt nhất, những hƣớng tiếp cận để đƣa ra dự
đoán này đƣợc đề cập từ trƣớc tới nay [6] bao gồm:
 Lọc cộng tác (CF- collaborative filtering) [14] là phƣơng pháp có ý tƣởng gợi ý
những sản phẩm cho một ngƣời dùng dựa vào những sản phẩm đƣợc đánh giá
trong quá khứ của một ngƣời hay một nhóm ngƣời có cùng sở thích tƣơng tự với
ngƣời nọ. Có ý nghĩa tƣơng tự với tập những sản phẩm item đƣợc thích tƣơng tự
nhau. Phƣơng pháp CF đƣợc phân chia thành hai hƣớng là dựa theo láng giềng gần
nhất (neighborhood-based) và dựa vào mô hình (model-based).
 Lọc nội dung (Content-based filtering) [14] là phƣơng pháp nổi bật trong truy hồi
thông tin (information retrieval), những nội dung văn bản hoặc đa phƣơng tiện
đƣợc dùng để chọn ra những văn bản liên quan với truy vấn của ngƣời dùng. Ứng
dụng trong hệ gợi ý, lọc dựa trên nội dung là cung cấp những gợi ý có nội dung
đƣợc so sánh tƣơng tự với những nội dung đƣợc ngƣời dùng quan tâm trƣớc đó. Sử
dụng các nội dung trong trƣờng tính năng hay mô tả của sản phẩm, để tìm kiếm
những sản phẩm tƣơng tự. Hiện nay rất nhiều công trình nghiên cứu với các bộ dữ
liệu khác nhau đã cho thấy xu hƣớng lọc nội dung này vẫn mang lại kết quả tốt, xu
hƣớng là áp dụng dữ liệu liên kết mở dựa trên ngữ nghĩa (linked open data)[15].

 Dựa trên nhân khẩu học (demographic): tùy biến dựa trên những đặc điểm về nhân
khẩu học của ngƣời dùng, đƣa ra những gợi ý phù hợp với đối tƣợng này. Ví dụ
nhƣ dựa vào ngôn ngữ hoặc quốc gia, áp dụng riêng hƣớng gợi ý đƣợc thiết kế cho
nhóm này.
 Dựa trên tri thức (knowledge-based): yêu cầu những kiến thức chuyên gia đặc biệt
hiểu biết về loại sản phẩm, đặc tính ngƣời dùng sử dụng sản phẩm này, để đƣa ra
những luật ràng buộc, những yêu cầu riêng biệt. Việc gợi ý sẽ hiệu quả hơn ở bƣớc
đầu so với các hƣớng khác, nhƣng nếu không hiểu rõ, xây dựng hết đƣợc các luật
ràng buộc, hoặc khi có sự thay đổi sẽ không còn hiệu quả.
 Dựa trên cộng đồng: một hƣớng tiềm năng đang đƣợc bắt đầu nghiên cứu khi sử
dụng những loại dữ liệu có thể thu thập đƣợc từ mạng xã hội, giống ý tƣởng từ lọc
cộng tác truyền thống, những có sự khác biệt đôi chút về nhóm bạn bè đƣợc so
sánh và dữ liệu thu thập đƣợc.
 Tƣơng tự với hƣớng tiếp cận dựa trên nhóm cộng đồng ngƣời dùng, sử dụng luật
kết hợp để đƣa ra các gợi ý cho ngƣời dùng. Một hƣớng tiếp cận khá cổ điển, đƣợc
ứng dụng rất nhiều; và sử dụng các kỹ thuật thống kê để mô tả đƣợc dữ liệu.

12


 Phƣơng pháp lai (Hybrid filtering) là phƣơng pháp kết hợp những ƣu điểm của các
phƣơng pháp trên, đƣa ra những giải pháp cho những vấn đề riêng biệt, hoặc xây
dựng đƣợc hệ thống gợi ý vƣợt trội hơn. Ví dụ có thể kết hợp lọc nội dung trong
lọc kết hợp tìm kiếm những sản phẩm thú vị để gợi ý cho ngƣời dùng
1.3. Thách thức của hệ gợi ý
Những thách thức từ khi hệ gợi ý đƣợc quan tâm phát triển đến nay có thể kế đến
nhƣ dữ liệu thƣa, khả năng mở rộng phạm vi, biến thể từ (nhóm từ đồng nghĩa), nhập
nhằng nghĩa, quyền riêng tƣ… Đặc tính những thách thức này cụ thể nhƣ sau:
Dữ liệu thưa. Trƣờng hợp thƣờng thấy khi tập sản phẩm item thƣờng lớn và ngày
càng đƣợc mở rộng thêm, lƣợng ngƣời dùng mới cũng tăng theo thời gian, cộng thêm

ngƣời dùng chỉ xem một phần rất nhỏ trong danh sách sản phẩm đó, dẫn đến ma trận
user – item cực kỳ thƣa. Ngƣời dùng đặc biệt là ngƣời dùng tại Việt Nam cũng không
có thói quen đƣa ra đánh giá hay nhận xét cho sản phẩm họ xem hoặc mua, rất khó để
nhận định họ thích hay không. Một khởi đầu khó cho nhóm ngƣời dùng mới và sản
phẩm mới, hay còn đƣợc biết đến là vấn đề cold start[16]
Khả năng mở rộng phạm vi. Khi số ngƣời dùng và sản phẩm ngày càng mở rộng,
phạm vi xử lý sẽ trở thành một vấn đề lớn.
Sản phẩm mới, người dùng mới (cold-start) Những đối tƣợng này rất khó gợi ý nếu
chƣa hề hoặc rất ít thông tin lịch sử trƣớc đó. Không chỉ những sản phẩm mới ngay cả
những sản phẩm mô tả cụ thể, chung chung sẽ gây nhầm. Với ngƣời dùng mới hệ
thống cần học để hiểu về sở thích của họ, có một vài phƣơng pháp đã đƣợc đề xuất để
giải quyết vấn đề này, là theo hƣớng lai, kết hợp các phƣơng pháp, có thể là lọc cộng
tác và nội dung, ngoài ra còn có một kỹ thuật để xác định những sản phẩm tốt nhất cho
ngƣời dùng mới đƣợc đề cập trong [17], đây là những kỹ thuật áp dụng cho chiến lƣợc
lọc cộng tác.
Gian lận là khi những nhà cung cấp sản phẩm, hay dịch vụ có những thủ thuật giả
thông tin khách hàng, giúp họ tăng lợi ích.
Dễ bị tấn công là vấn đề thƣởng xảy ra nhƣ kiểu tấn công dịch vụ, làm trì trệ khả
năng cung cấp dịch vụ tới ngƣời dùng thực
Bảo mật riêng tư: xu hƣớng cá nhân hóa là khi hệ gợi ý cần hiểu rõ về từng ngƣời dùng.
Một số thách thức về môi trƣờng nhƣ: Lƣợng bán lẻ, khách hàng và sản phẩm có
thể rất lớn (lên tới hàng triệu); các ứng dụng thƣờng yêu cầu kết quả trả về trong thời
gian thực (không quá nửa giây) trong khi vẫn phải đáp ứng gợi ý chất lƣợng tốt; khách
hàng cũ có rất nhiều thông tin thừa, ngƣời mới lại thiếu thông tin và dữ liệu khách
hàng thì dễ bị trôi mất.
Ngoài ra còn rất nhiều vấn đề khác cần quan tâm nhƣ: sự đa dạng và chính xác, dễ
dàng bị tấn công, giá trị thời gian, đánh giá độ hiệu quả, giao diện ngƣời dùng,…

13



1.4. Đánh giá và ứng dụng hệ gợi ý
1.4.1. Đánh giá một hệ gợi ý
Ở phần tổng quát trên có nêu qua một vài hƣớng để đánh giá một hệ gợi ý là dựa
trên tầm nhìn của một nhà quản lý doanh nghiệp, ở phần này sẽ nêu một cách tổng quát
hơn dựa trên nhiều cách nhìn của nhà nghiên cứu, ngƣời dùng, và cả nhà doanh nghiệp.
Theo cuốn sách „Recommender Systems Handbook‟, chƣơng 8 [6], việc đánh
giá trong nhiều trƣờng hợp thì đó là việc so sánh những hƣớng tiếp cận nào tốt phù
hợp để thiết kế quy trình hay hệ thống. Từ bƣớc đầu tiên là chọn ra thuật toán phù hợp
để quyết định những thuộc tính nào của ứng dụng đƣợc dùng để đƣa ra quyết định, cụ
thể là một hệ thống RS có rất nhiều thuộc tính khác nhau có thể ảnh hƣởng đến trải
nghiệm ngƣời dùng nhƣ độ chính xác, chắc chắn, khả năng mở rộng… Các thuật toán
có thể so sánh bằng những hệ số (metric).
Nhìn chung thì quy trình đánh giá một hệ gợi ý thƣờng có ba loại khác nhau
theo thực nghiệm đó là 1) thực nghiệm ngoại tuyến (offline), 2) khảo sát ngƣời dùng,
và 3) trực tuyến (online). Loại thứ nhất đánh giá so sánh không có sự tham gia tƣơng tác
của ngƣời dùng, tiếp loại hai là có sự tham gia đánh giá của nhóm nhỏ các đối tƣợng,
đến loại cuối cùng là đƣa ra khảo sát diện rộng, nơi những ngƣời dùng thực tƣơng tác
trực tiếp đánh giá. Với mỗi loại có những vấn đề câu hỏi riêng cần trả lời. Những vấn đề
đƣợc quan tâm là xét một tập rất lớn các thuộc tính, giải thích việc đánh giá hệ thống
qua những thuộc tính liên quan, chọn ra những độ đo đánh giá theo ngữ cảnh.
Dù với thực nghiệm nào cũng thông qua vài nguyên tắc cơ bản là 1) đƣa ra giả
thiết (hypothesis), việc đƣa ra các giả thuyết có thể giúp thiết kế thực nghiệm phù hợp
để kiểm tra đƣợc các giả thuyết đó; 2) kiểm soát các biến, đó là tất cả các biến không
đƣợc kiểm tra sẽ chƣa đƣợc chấp nhận, ví dụ nhƣ khi so sánh các thuật toán phải cùng
chung bộ dữ liệu, hay xét một thuật toán trên các bộ dữ liệu khác nhau để thấy đƣợc
kết quả hiệu suất tổng thể; 3) sức mạnh tổng quát, đƣa ra đƣợc những kết quả tổng thể.
Trong luận văn sẽ chỉ có điều kiện quan tâm đến đánh giá thực nghiệm ngoại
tuyến offline, do đó sẽ trình bầy rõ hơn về phần này trong phần thực nghiệm. Để rõ
hơn việc đánh giá khi tiến hành thực nghiệm offline là nhằm mục đích so sánh giữa

các ứng viên hƣớng tiếp cận hay thuật toán, thông qua đó trả lời đƣợc vài giả thuyết
câu hỏi hẹp đƣợc đặt ra, lọc ra những ứng viên không thích hợp. Tuy nhiên ở bƣớc này
không thể đo trực tiếp sự ảnh hƣởng của hệ gợi ý đối với hành vi của ngƣời dùng.
Những đối tƣợng đƣợc đánh giá ở thực nghiệm ngoại tuyến đầu tiên phải kể đến
tập dữ liệu, những đặc tính cần xem xét là tập dữ liệu này thuộc miền nào (giải trí hay
thƣơng mại hay giáo dục…), thông tin chứa bên trong, số lƣợng, phân bố của mẫu…
yêu cầu phải là dữ liệu mô tả hành vi thực của ngƣời dùng, đƣợc tinh chỉnh loại bỏ
những dữ liệu thừa, nếu lấy mẫu phải theo phân bố gần với dữ liệu thực, nếu lấy thực
tế cần mô tả, quan sát kỹ đặc tính về thời gian, chủng loại để đƣa ra các thống kê.
Một cách tổng quát hơn trong bài báo công bố của Hijikata năm 2014 [18] có
đƣa ra tổng hợp về đánh giá ngoại tuyến. Tác giả đã thống kê lại những đặc tính của bộ
14


dữ liệu bao gồm tính hiện/ẩn; chia cấp độ (đơn phân, nhị phân, đa phân); xu hƣớng
đánh giá (hƣớng tới cao hơn hay thấp hơn); tem thời gian; đa tiêu chí đánh giá; kích
thƣớc dữ liệu; mật độ; mức tăng trƣởng của dữ liệu. Trong bài phần lớn các phƣơng
pháp và độ đo để phục vụ định dạng dữ liệu theo hƣớng lọc nội dung và cộng tác; đƣa
ra các kết quả về độ chính xác dựa trên tập dữ liệu huấn luyện. Thêm nữa khi đánh giá
hiệu suất sử dụng thuật toán, cũng có rất nhiều các công trình nghiên cứu đƣa ra so
sánh kết quả thực nghiệm với một hay nhiều bộ dữ liệu trên nhiều thuật toán có cùng
đầu vào và đầu ra tƣơng đƣơng dựa trên thông số về thời gian và bộ nhớ để xác định
hiệu suất [19][20]. Luận văn cũng sẽ áp dụng cách thức này để đƣa ra minh chứng kết
quả của thực nghiệm.
Cuối cùng là khi đã có kết quả đầu ra là các gợi ý, sẽ đƣa ra những nhận định
đánh giá cá nhân về những sản phẩm gợi ý, xem xét tổng hợp và đƣa ra một vài nhận
định về xu hƣớng hành vi ngƣời dùng.
1.4.2. Thiết kế ứng dụng cho một hệ thống gợi ý thực
Một trong những yếu tố quan trọng khác là xem xét đến vấn đề tổng quan khi
ứng dụng một hệ gợi ý vào thực tế, từ đó đƣa ra những vấn đề cần đặt ra cho riêng bài

toán của luận văn.
Hệ thống cá nhân hóa là một hệ thống phức tạp gồm nhiều phần đƣợc tƣơng tác
với nhau, từ việc cho dữ liệu vào đến việc biểu diễn kết quả cho ngƣời dùng. Từ trƣớc
đến nay có cực nhiều và phong phú các phƣơng pháp, công cụ, thuật toán và các
hƣớng tiếp cận giải quyết cho từng phần trong hệ thống nhƣ là xử lý dữ liệu và siêu dữ
liệu, mô hình ngƣời dùng, kỹ thuật lọc, độ đo độ chính xác, các cấp độ cá nhân hóa.
Hệ gợi ý thực lại có thể là một phần trong hệ thống cá nhân hóa này do đó thƣờng phụ
thuộc vào thiết kế chung của hệ thống lớn đó, nhiều ràng buộc và vấn đề có thể phát
sinh nhƣ là dữ liệu có thể không có định dạng phù hợp, phụ thuộc kiến trúc hệ thống
hay quyền riêng tƣ…

15


CHƢƠNG 2. LÝ THUYẾT KHAI PHÁ MẪU PHỔ BIẾN VÀ LUẬT KẾT HỢP
2.1. Những định nghĩa chung trong bài toán tìm mẫu phổ biến và luật kết hợp
Trƣớc hết cần định nghĩa một số khái niệm cơ bản trong khai phá mẫu phổ biến
(FPM – Frequent pattern mining) và khai phá luật kết hợp (ARM – Association rule
mining).
Cơ sở dữ liệu giao dịch thƣờng thấy là những giao dịch mua gồm các thông tin về
sản phẩm, số lƣợng, thời gian, những thông tin cá nhân của khách. Thông tin có thể
đƣợc lƣu trữ từ khi mua, xem sản phẩm đầu tiên đến sản phẩm hay bình luận gần nhất.
Đây là một lƣợng thông tin lớn, những website thƣơng mại điện tử thành công có thể
lên tới hàng ngàn giao dịch phát sinh hàng ngày, hàng triệu lƣợt truy cập [10].
Bộ dữ liệu đƣợc dùng trong thực nghiệm của luận văn có cấu trúc là các giao dịch
(transaction) (còn gọi là phiên truy cập) T = {𝑡1 , 𝑡2 ,…, 𝑡𝑛 }, mỗi 𝑡𝑘 ∈T, ∀𝑘 = {1 … 𝑛}
chứa một tập các mã sản phẩm 𝑡𝑘 = {𝑖𝑙 ,…} là một giao dịch thể hiện bằng một tập các
mã hàng (item) sản phẩm thuộc tập I = {𝑖1 , 𝑖2 ,…, 𝑖𝑚 } mà ngƣời dùng đã xem cùng
nhau trong một phiên (section) tƣơng tác với một trang thƣơng mại điện tử, với n là số
lƣợng transaction, m là số lƣợng item.

Tập mục (itemset) 𝑋 ⊆ 𝑡𝑖 . Kích thƣớc của tập mục là số item nó chứa, ở đây ký
hiệu l-itemset (hoặc l-pattern) nghĩa là tập mục có kích cỡ l.
Luật kết hợp đƣợc biểu diễn bằng công thức: X  Y; X, Y ⊂I;
Một giao dịch 𝑡𝑖 ∈ T chứa tập mục X, nghĩa là X ∈ 𝑡𝑖 .
Luật kết hợp cần tìm sẽ phải là những tập kết hợp mạnh có độ hỗ trợ và độ tin cậy
vƣợt qua ngƣỡng định trƣớc. Khái niệm cơ bản trong luật kết hợp là độ hỗ trợ
(support) và độ tin cậy (confidence), ngoài ra còn có các độ đo khác sẽ đƣợc sử dụng
để đánh giá và xếp hạng luật [21] nhƣ là độ hài hòa HM, độ đo conviction, độ thú vị
interest hoặc đƣợc gọi là lift, và độ đo nâng cao của lift là cosine,
Độ hỗ trợ của X trong T là số giao dịch chứa X trong T, viết tắt số giao dịch là
X.count; hoặc support(X)
Độ hỗ trợ của một luật X Y là tỉ lệ % các giao dịch trong T mà chứa cả X, Y cũng
chính là xác định mức độ phổ biến của các giao dịch chứa tập mục (X ∪ Y) trong tổng
số tất cả các giao dịch. Công thức tính: 𝑆𝑢𝑝𝑝𝑜𝑟𝑡(𝑋𝑌) =

𝑆𝑢𝑝𝑝𝑜𝑟𝑡 𝑐𝑜𝑢𝑛𝑡 𝑜𝑓 𝑋𝑌
𝑇𝑜𝑡𝑎𝑙 𝑛𝑢𝑚𝑏𝑒𝑟 𝑜𝑓 𝑡𝑟𝑎𝑛𝑠𝑎𝑐𝑡𝑖𝑜𝑛

. Độ

đo này có giá trị nằm trong đoạn [0,1] (hoặc từ 0% đến 100%). Độ đo này càng cao tức
là tần suất càng cao, càng thể hiện đƣợc sự phổ biến và đƣợc quan tâm của item.
Độ tin cậy của luật XY là tỉ lệ % các giao dịch trong T chứa cả X và Y trên tổng
số các giao dịch trong T chứa X. Độ đo này xác định khả năng dự đoán của luật đƣợc
tính theo công thức: 𝐶𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒 (𝑋|𝑌) =

𝑆𝑢𝑝𝑝𝑜𝑟𝑡 (𝑋𝑌)
𝑆𝑢𝑝𝑝𝑜𝑟𝑡 (𝑋)

. Độ đo có giá trị thuộc [0,1]


(hoặc từ 0% đến 100%). Độ tin cậy thể hiện cho mức độ tƣơng quan giữa X và (XY),
ví dụ với độ tin cậy là 80% thì có nghĩa là với 80% transaction chứa X là chứa X và
16


Y. Độ đo này là không đối xứng tức là XY và YX là không giống nhau. Phù hợp
dùng khi phân tích đƣa ra luật kết hợp.
HM (Harmonic mean - độ đo hài hòa giữa hai độ đo hỗ trợ support (%) và tin cậy
confidence (%)). Với 𝐻𝑀 =

2 𝑠𝑢𝑝𝑝𝑜𝑟𝑡 ∗𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒
𝑠𝑢𝑝𝑝𝑜𝑟𝑡 +𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒

. Độ đo này sẽ giúp xếp hạng luật, có

giá trị trong khoảng [0,1]. Có ý nghĩa thể hiện việc ƣu tiên chọn luật có độ tƣơng quan
giữa độ hỗ trợ và tin cậy cao hơn.
Đƣợc đề cập tại [22] là độ đo Lift
Lift (XY) = Lift (YX) =

𝑠𝑢𝑝𝑝𝑜𝑟𝑡 𝑋𝑌
𝑠𝑢𝑝𝑝𝑜𝑟𝑡 𝑋 𝑠𝑢𝑝𝑝𝑜𝑟𝑡 𝑌

=

𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒 (𝑌→𝑋)
𝑠𝑢𝑝𝑝𝑜𝑟𝑡 (𝑋)

=


𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒 (𝑋→𝑌)
𝑠𝑢𝑝𝑝𝑜𝑟𝑡 (𝑌)

thể hiện độ lệch giữa hai tập itemset X và Y. Độ đo có giá trị trong khoảng (0, +∞). Độ
đo này thể hiện yếu tố „thú vị‟ (interest) dùng để xếp hạng luật thay cho độ confidence
bởi vì độ tin cậy đã bỏ qua độ hỗ trợ của tập mục Y, luật sinh ra có thể chƣa thuyết
phục nếu độ hỗ trợ của tập mục Y lớn hơn nhiều so với độ hỗ trợ của (XY). Nếu lift
nhỏ hơn 1 thì sự xuất hiện của X là tƣơng quan nghịch so với sự xuất hiện của Y,
ngƣợc lại lớn hơn 1 thì có sự tƣơng quan thuận, nếu bằng 1 thì X và Y độc lập với
nhau, độ đo này lớn hay nhỏ còn phụ thuộc vào tổng số transaction.
Một độ đo nâng cao của độ đo lift là cosine, đƣợc tính bằng công thức:
cosine(X,Y)=

𝑠𝑢𝑝𝑝𝑜𝑟𝑡 (𝑋𝑌)
𝑠𝑢𝑝𝑝𝑜𝑟𝑡 (𝑋)𝑠𝑢𝑝𝑝𝑜𝑟𝑡 (𝑌)

đƣợc dùng để đo độ tƣơng quan giữa hai tiền đề

X, Y khi xem chúng nhƣ những vecto nhị phân. Giá trị của cosine nằm trong đoạn [0, 1],
bằng 1 cho thấy các vecto trùng nhau, bằng 0 khi không có sự trùng lặp. độ đo này chỉ bị
ảnh hƣởng bởi các độ hỗ trợ của X, Y và XY mà không bị ảnh hƣởng bởi tổng số giao
dịch.
1−𝑠𝑢𝑝𝑝𝑜𝑟𝑡 (𝑌)

Độ đo thuyết phục conviction =1−𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒

(𝑋→𝑌)

Cho biết tần xuất mong muốn X


xảy ra mà không cần Y (có thể xem độ đo conviction cho biết tần suất của luật sinh ra
các dự đoán không chính xác). Độ đo này nằm trong khoảng [0.5, +∞), bằng 1 nếu X
và Y độc lập với nhau, giống nhƣ độ đo lift giá trị độ đo conviction của một luật càng
xa giá trị 1 thì càng thể hiện đƣợc độ thú vị của luật đó.
Một số khái niệm nữa về tập phổ biến cần làm rõ là:
Tập phổ biến X là tập mục có độ hỗ trợ lớn hơn độ hỗ trợ tối thiểu minsup, minsup
này đƣợc đặt bởi ngƣời dùng và theo từng bộ dữ liệu [1]. Tập phổ biến có tính chất là
„tất cả các tập con của tập phổ biến đều là tập phổ biến‟.
Tập phổ biến đóng (closed frequent pattern) [23] là tập phổ biến và không tồn tại
tập nào bao nó có cùng độ phổ biến nhƣ nó.
Tập phổ biến cực đại (maximal frequent pattern) [24] là tập phổ biến và không có tồn
tại tập nào bao nó là tập phổ biến. Là trƣờng hợp nén có mất thông tin các tập phổ biến.
2.2. Những hƣớng tiếp cận trong khai phá mẫu phổ biến, luật kết hợp
2.2.1. Những hướng tiếp cận luật kết hợp
Đƣợc đề xuất vào năm 1993 bởi R. Agrawal [1] đến nay hơn 20 năm qua, lĩnh vực
khai phá luật kết hợp đƣợc nghiên cứu và phát triển theo nhiều hƣớng khác nhau, nhƣ
17


theo hƣớng cải thiện tốc độ thuật toán, hay tìm kiếm luật có ý nghĩa hơn,... dƣới đây
liệt kê những hƣớng chính sau:
 Luật kết hợp nhị phân (binary association rule hay boolean association rule) [1]:
là hƣớng đƣợc phát triển đầu tiên. Ở dạng kết hợp này, các tập mục đƣợc xem xét có
xuất hiện trong giao dịch ở CSDL (Cơ sở dữ liệu) và không quan tâm nhiều đến „số
lƣợng‟ xuất hiện.
 Luật kết hợp có thuộc tính số và hạng mục (quantitative and categorical
association rule) các thuộc tính của các CSDL thực tế có kiểu rất đa dạng (nhị phân binary, số - quantitative, hạng mục, - categorical…) Để phát hiện luật kết hợp với các
thuộc tính này có thể dùng phƣơng pháp rời rạc hóa nhằm chuyển sang dạng nhị phân
để có thể áp dụng các thuật toán nhị phân đã có.

 Luật kết hợp mờ (fuzzy association rule): khắc phục những hạn chế trong quá
trình rời rạc hóa các thuộc tính số, chuyển luật về dạng tự nhiên và dễ dàng hơn với
ngƣời dùng.
 Luật kết hợp nhiều mức (multi-level association rule) [25], là một hƣớng nghiên
cứu nữa đƣợc đề xuất. Dựa vào cách thức tổ chức dữ liệu item và transaction thành đa
cấp và/hoặc không gian đa chiều, dẫn đến những luật kết hợp tƣơng ứng. Luật kết hợp
đa cấp có khái niệm khó và trừu tƣợng hơn so với luật kết hợp đa chiều đơn giản là có
sự tham gia nhiều hơn một chiều.
Trong nhiều ứng dụng, rất khó để tìm một kết hợp mạnh giữa item ở cấp thấp hoặc
cấp khởi đầu, do một phần là dữ liệu thƣa tại những cấp trừu tƣợng này. Một mặt khác
những kết hợp mạnh đƣợc tìm ra ở các cấp trừu tƣợng cao hơn có thể biểu diễn kiến
thức chung. Do đó luật kết hợp đa cấp cung cấp đầy đủ linh hoạt cho khai phá và duyệt
đa cấp trừu tƣợng. Luật này sử dụng những khái niệm phân cấp dƣới nền hỗ trợ - tin
cậy (support-confidence). Ví dụ nếu ngƣỡng minsup đồng bộ trong suốt các cấp, nó thể
khai phá trƣớc những tập phổ biến ở cấp cao và chỉ khai phá những tập mục cấp cao
phổ biến tƣơng ứng. Hơn nữa những tập dƣ thừa đƣợc lọc ra khỏi nếu những luật cấp
thấp hơn về cơ bản đƣợc dẫn ra từ những luật cấp cao và các phân phối item tƣơng ứng
[1]. Dựa vào sử dụng những minsup khác nhau tại các cấp khác nhau cũng có thể đem
lại hiệu quả khai phá tốt [26]. Những phƣơng pháp đƣợc mở rộng để khai phá các luật
kết hợp đa chiều trong dữ liệu hoặc giao dịch transaction đƣợc lƣu trữ trong không gian
đa chiều nhƣ trong bảng dữ liệu quan hệ hoặc dữ liệu lớn (data warehouse).
Những phƣơng pháp tiếp cận trên khai thác những item riêng biệt, theo tên, loại
mục sản phẩm, vị trí. Ngoài ra yêu cầu có thể là tìm tập phổ biến hoặc luật kết hợp
khai thác từ những thuộc tính số nhƣ lƣợng, tuổi, điểm số,…Những thuộc tính số,
những luật kết hợp định lƣợng cũng có thể khai thác bằng vài phƣơng pháp [27] bao
gồm xét toàn vẹn cục bộ; khai phá không gian riêng biệt, phân cụm; dựa trên miền
phẳng và đơn điệu, hoặc sử dụng khoảng cách để phân cụm dữ liệu phân theo khoảng;
thêm nữa là dựa trên thống kê để biểu diễn những độ lệch căn bản từ dữ liệu đƣợc học,
18



từ đó khai phá các luật định lƣợng thống kê. Luật này là luật định lƣợng vế bên phải
của luật đƣợc thống kê tính toán khi phân đoạn phù hợp vế bên trái của luật.
 Luật kết hợp với thuộc tính đƣợc đánh trọng số (association rule with weighted
items)[28]: thực tế các thuộc tính trong CSDL thƣờng có vai trò khác nhau, một số
thuộc tính có tính quan trọng hơn một số khác. Ví dụ khi quan sát sở thích váy thời
trang, thuộc tính giới tính quan trọng hơn thuộc tính ngành nghề. Trong quá trình tìm
kiếm luật, ta sẽ gán trọng số cao hơn cho thuộc tính giới tính. Ý nghĩa của việc đánh
trọng số cho thuộc tính có thể khai phá những luật mang nhiều ý nghĩa, thậm chí là
những luật „hiếm‟ (những luật có độ hỗ trợ thấp, mang ý nghĩa đặc biệt).
 Ngoài những nghiên cứu về biến thể của luật kết hợp, các nhà nghiên cứu còn
đề xuất đến những thuật toán nhằm tăng tốc quá trình tìm kiếm tập phổ biến từ CSDL.
Có một nghiên cứu chỉ ra những tập phổ biến cực đại (maximal frequent itemset) [24],
hoặc chỉ cần tìm tập phổ biến đóng (closed frequent itemset) [23] là đủ, những thuật
toán này cải thiện đáng kể tốc độ do áp dụng những chiến lƣợc cắt tỉa (pruning
method). Thách thức chính của khai phá mẫu phổ biến từ dữ liệu lớn là thƣờng sinh ra
rất nhiều mẫu thỏa mãn ngƣỡng minsup, nhất là khi chọn mẫu minsup thấp. Theo định
lý Apriori mẫu (tập mục) là phổ biến thì các mẫu con của nó cũng phổ biến, dẫn đến
một mẫu lớn có thể chứa cơ số mũ các tập mẫu con nhỏ hơn. Hai ý tƣởng khai phá tập
phổ biến đóng và tập phổ biến cực đại đƣợc đề xuất để giải quyết vấn đề này.
Tại cùng ngƣỡng minsup, những tập mẫu phổ biến đóng chứa đầy đủ thông tin cần
thiết cho những mẫu phổ biến tƣơng ứng của nó. Trong khi tập mẫu cực đại thì không,
nó đƣợc nén nhỏ gọn hơn.
Những phƣơng pháp thuật toán để khai phá tập đóng [27]: A-Close, CLOSET,
CHARM [23], CLOSET+, FPClose [29], AFOPT [30]. Vấn đề chính là phải kiểm tra
xem tập phổ biến đó có phải là tập phổ biến đóng hay không. Có hai chiến lƣợc: thứ
nhất là giữ dấu vết của danh sách TID mẫu và chỉ số bằng cách băm giá trị TID của
nó. Phƣơng pháp này đƣợc mô tả trong CHARM [23] là nén danh sách TID gọi là
diffset; Thứ hai là duy trì các mẫu đã tìm thấy, trong mẫu cây tƣơng tự nhƣ cây FPTree, đã đƣợc đề cập trong CLOSET+, AFOPT và FPClose. Hội nghị FIMI (Frequent
Itemset Mining Implementattion) là một hội nghị chuyên ngành có uy tín về lĩnh vực

nghiên cứu khai phá tập phổ biến, ở đó có bài tổng hợp các phƣơng pháp của Goethals
và Zaki [31].
Khai phá các mẫu cực đại đƣợc nghiên cứu trong thuật toán MaxMiner của
Bayardo, dựa trên ý tƣởng Apriori, phƣơng pháp tìm kiếm theo chiều ngang tìm tập
mục cực đại (max-itemset) bằng việc cắt tỉa tập cực lớn (superset) phổ biến và tập con
(subset) không phổ biến để giảm không gian tìm kiếm. MAFIA [24] của Burdick dùng
bản đồ bit (bitmap) theo chiều dọc để nén danh sách ID, làm tăng hiệu quả tính toán.
Yang đã phân tích lý thuyết về những trƣờng hợp xấu phức tạp là những tập mục cực
đại đƣợc đánh số thuộc lớp bài toán NP-hard. Về đặc tính khoảng cách phân bố những
19


tập hợp của tập mục phổ biến cực đại và phổ biến đƣợc Ramesh đặc tả. Những điều
kiện đƣợc đặc tả này có thể đƣợc gán, nhƣ là phân bố trong CSDL.
 Khai phá các luật kết hợp song song (parallel mining of association rule). Theo
cùng với sự phát triển của dữ liệu, công nghệ xử lý, bên cạnh những thuật toán tuần tự,
là những giải thuật song song, sẽ giải quyết các vấn đề về kích thƣớc dữ liệu lớn, tốc
độ xử lý và dung lƣợng bộ nhớ.
 CSDL tuần tự chứa những phần tử / sự kiện / bản ghi đƣợc sắp xếp mà có /
không ghi chú về thời gian. Một số loại dữ liệu tuần tự này là dữ liệu về lịch sử mua
hàng của khách, lƣợt nhấp chuột trên trang web, chuỗi sinh trƣởng sinh vật…
Những khái niệm trong bài toán khai phá mẫu dữ liệu tuần tự này tƣơng tự với
những định nghĩa đƣợc mô tả trong phần 2.1 trên, chỉ thêm ràng buộc xếp item theo
thứ tự tăng dần về thời gian trong định nghĩa về transaction.
 Khai phá mẫu cấu trúc nhƣ đồ thị, cây, lƣới [27]. Những mẫu cần đƣợc khai
phá trong thực tế ứng dụng và nghiên cứu thƣờng rất phức tạp, hƣớng tới những dạng
cây, đồ thị, lƣới. Với dạng cấu trúc chung là đồ thị đƣợc tăng dần theo từng lần lặp, có
nhiều loại mẫu và đặc biệt là dàn con phổ biến (frequent substructure) đƣợc khai phá
bằng các thuật toán khai phá dựa đồ thị. Thƣờng thấy nhất có hai hƣớng cơ bản là dựa
trên lý thuyết Apriori và mẫu sinh trƣởng (pattern-growth).

Các thuật toán khai phá dàn con phổ biến dựa trên Apriori có đặc tính tƣơng tự với
các thuật toán khai phá tập mục phổ biến dựa theo Apriori: những đồ thị phổ biến bắt
đầu với kích thƣớc nhỏ, bằng phƣơng thức từ dƣới lên (bottom-up), tại mỗi vòng lặp,
kích thƣớc của dàn con phổ biến tăng lên một, cấu trúc mới đƣợc tạo bằng cách nối hai
đồ thị con phổ biến khác nhau có tƣơng tự và chỉ khác biệt rất nhỏ, sau đó kiểm tra lại
độ phổ biến của đồ thị mới tạo đó.
Với hƣớng mẫu sinh trƣởng thƣờng có cấu trúc cây và tuần tự tƣơng ứng. Có thể
coi thuật toán theo hƣớng này mở rộng đồ thị phổ biến bằng cách thêm vào cạnh mới
theo một hƣớng nhất định sau mỗi vòng lặp.
Ngoài những thuật toán khai phá dàn con (substructure) phổ biến, hay ràng buộc
còn hƣớng khai phá những mẫu đồ thị đóng, đồ thị quan hệ, đồ thị lớn.
Việc cấu trúc dữ liệu sẽ giúp duyệt nhanh và hiệu quả, bên cạnh việc cấu trúc theo
cây và cấu trúc theo mảng, một số thuật toán và thực nghiệm [20] đã chứng minh với
dữ liệu dày việc khai phá khi tổ chức thành cây sẽ hiệu quả hơn rất nhiều, ngƣợc lại
với loại dữ liệu thƣa thì hợp với cấu trúc theo mảng.
 Khai phá những mẫu phổ biến thú vị
Trƣớc đến giờ đã có rất nhiều thuật toán để khai phá những tập phổ biến, cực đại,
đóng, và đều sinh ra rất nhiều mẫu phù hợp, tuy nhiên ngƣời dùng chỉ thƣờng quan tâm
đến một vài mẫu đƣợc cho là thú vị nhất. Từ thực tế đó, câu hỏi đƣợc đặt ra là nhƣ thế
nào là mẫu phổ biến thú vị, làm thế nào để để khai phá chúng? Cũng đã có nhiều nghiên
cứu tìm hiểu để trả lời các câu hỏi trên nhƣ khai phá dựa trên ràng buộc, khai phá những
mẫu không hoàn thiện, hoặc đƣợc nén, độ đo độ thú vị, phân tích độ tƣơng quan.
20


Trong khai phá dựa trên ràng buộc (constraint-based) [27], một cách hiệu quả là
dựa trên từng ngƣời dùng cụ thể, phân tích tìm ra những ràng buộc của ngƣời dùng đó
bằng việc liệt kê phân loại những tƣơng tác của ngƣời dùng trong quá trình khai phá.
Ví dụ nhƣ sau: những ràng buộc cơ bản, cô đọng nhất đƣợc thêm vào quá trình chọn
dữ liệu khởi tạo khi bắt đầu quá trình khai phá, những ràng buộc phản đơn điệu (antimonotonic) sẽ tiếp tục đẩy vào để hạn chế tăng mẫu trong suốt quá trình tăng mẫu,

những ràng buộc đơn điệu (monotonic) đƣợc kiểm tra, khi thỏa mãn sẽ không phải
kiểm tra trong những mẫu tăng trƣởng của chúng. Việc thêm vào các ràng buộc đơn
điệu đƣợc xem xét theo ngữ cảnh. Những ràng buộc biến đổi (convertible constraint)
nhƣ giá trị trung bình có thể thực hiện sắp xếp theo thứ tự cho mỗi transaction,…
Ngoài việc sử dụng những ràng buộc chung chung nhƣ trên, còn có thể kể một vài
ràng buộc khác nhƣ ràng buộc khối (block) để xác định những tập mục ý nghĩa chứa
trong block dầy (là những block có mẫu định dạng theo item, transaction có số lƣợng
lớn, dầy đặc); những ràng buộc cho mẫu đóng; những ràng buộc trọng số cho tập mục
phổ biến đƣợc xác định trọng số trong ngữ cảnh của khai phá mẫu tuần tự.
Một loại mẫu nữa đƣợc nghiên cứu là mẫu xấp xỉ hoặc đƣợc nén. Để giảm một tập
rất lớn những mẫu phổ biến đƣợc sinh trong quá trình khai phá, khi quá trình bảo trì.
Khai phá những luật đứng dầu (top rule), luật không tin cậy (zero-confidence) và
luật tin cậy ở các cấp độ. Trong bài báo của Zhang và cộng sự [32] đƣa ra ý tƣởng khai
phá những luật đứng đầu không sử dụng ngƣỡng hỗ trợ minsup, chỉ quan tâm đến sử
dụng độ tin cậy cao, đặc biệt phù hợp với các tập dữ liệu đa chiều.
 Luật kết hợp tiếp cận theo hƣớng tập thô (mining association rules based on
rough set) [33]
 Hiện nay, một số hƣớng nghiên cứu khác về khai phá luật kết hợp trực tuyến,
luật kết hợp đƣợc nối trực tuyến đến các kho dữ liệu đa chiều (multi-dimensional data,
data warehouse).
2.2.2. Những thuật toán cơ bản
Quá trình khai phá luật kết hợp gồm hai phần, trƣớc là khai phá tất cả các mẫu phổ
biến mà thỏa mãn ngƣỡng hỗ trợ đƣợc đặt trƣớc, sau đó là khai phá các luật kết hợp,
những luật này phải thỏa mãn độ hỗ trợ và độ tin cậy tối thiểu.
Những thuật toán đƣợc đƣa ra từ trƣớc đến nay dùng để khai phá tập phổ biến
đƣợc chia một cách hình thức thành ba nhóm [27]: thuật toán Apriori [34], thuật toán
FPGrowth [1], thuật toán Eclat [35] và các biến thể cải tiến của chúng.
a) Nguyên lý, thuật toán và những mở rộng của Apriori
Ý tƣởng của Agrawal và Srikant [34] khai phá những tập phổ biến trong một tập
dữ liệu giao dịch với số lƣợng rất lớn các tập mục đƣợc nảy sinh khi quan sát một tập

dữ liệu có thuộc tính đóng kín. Tác giả đã đƣa ra một nguyên lý gọi Apriori: Một tập
mục k-itemset là phổ biến khi và chỉ khi tất cả các tập mục con của nó là phổ biến.
Việc tìm kiếm các tập phổ biến sẽ bắt đầu bằng việc duyệt tập dữ liệu giao dịch tìm ra
những tập 1-itemset, sử dụng những tập mục này là ứng cử viên cho tìm tập mục 221


itemset, sau đó tiếp tục lặp để tìm tập k-itemset, tiếp tục cho đến khi không tìm đƣợc
tập phổ biến nào nữa. Vấn đề phát sinh khi thực hiện thuật toán là phát sinh một tập rất
lớn các ứng viên, số lần duyệt dữ liệu lớn, thực hiện chậm trong trƣờng hợp độ hỗ trợ
thấp, khi sinh một tập lớn ứng viên sẽ dẫn đến vấn đề về bộ nhớ sử dụng, không gian
tìm kiếm cực lớn, đầu vào ra lớn.
Sau khi thuật toán đƣợc đề xuất có rất nhiều nghiên cứu để cải thiện mở rộng hiệu
quả của thuật toán [27]: kỹ thuật băm; kỹ thuật phân chia; hƣớng lấy mẫu, đếm tập
mục động; khai phá gia tăng; khai phá dựa vào phân tán và song song; và còn khai phá
tích hợp với hệ quản trị cơ sở dữ liệu quan hệ.
b) Khai phá tập phổ biến không dựa trên việc sinh các tập ứng viên, họ thuật toán
FPGrowth
Một nhƣợc điểm của Apriori là phải sinh một tập lớn các tập ứng viên, và phải
duyệt CSDL nhiều lần để kiểm tra lại các ứng viên này. Phƣơng pháp FPGrowth đƣợc
đƣa ra không dựa trên việc sinh ứng viên để tìm một tập phổ biến đầy đủ. Phƣơng
pháp này dựa trên chia để trị (divide-and-conquer). Lần duyệt CSDL đầu tiên để liệt kê
ra danh sách những item phổ biến và đƣợc xếp theo thứ tự giảm dần. Sau đó dựa vào
danh sách này tạo cây lƣu trữ gọi là FP-Tree (Frequent pattern tree) giữ lại thông tin
quan hệ giữa các tập mục. Việc tìm các tập mục phổ biến sẽ dựa vào khai phá cây FPTree này, cây đƣợc khởi tạo từ mỗi mẫu có độ dài 1 item, đƣợc hiểu là mẫu hậu tố khởi
tạo (initial suffix pattern) và xây dựng dựa trên mẫu điều kiện (conditional pattern base)
chính là một tập CSDL con gồm tập các đƣờng tiền tố (prefix path). Tiếp theo thực hiện
việc khai phá đệ quy trên cây, những mẫu gia tăng bằng cách ghép những mẫu hậu tố
trên cây FP-Tree điều kiện. Chi tiết của thuật toán sẽ nêu rõ trong phần tiếp theo.
Thuật toán FPGrowth đã biến vấn đề tìm kiếm các tập phổ biến dài thành tìm
những tập phổ biến ngắn hơn bằng đệ quy và ghép hậu tố. Việc sử dụng những tập phổ

biến bé nhƣ hậu tố đã làm giảm thiểu về thời gian tìm kiếm rất nhiều. Do vậy thuật
toán khai phá rất hiệu quả cả những mẫu phổ biến dài và ngắn.
Tiếp nối ý tƣởng rất hay này, có rất nhiều những cải tiến cho nó có thể kể đến
[27]: sinh cây theo kiểu sâu trƣớc (depth-first); H-Mine với ý tƣởng khai phá siêu cấu
trúc (hyper-structure); xây dựng cây thay thế; duyệt từ trên xuống (top-down) và dƣới
lên (bottom-up) hoặc thực hiện lƣu trữ cấu trúc cây tiền tố dƣới dạng mảng (array).
c) Khai phá tập kết hợp dựa trên định dạng dữ liệu theo chiều ngang
Cả hai họ thuật toán kể trên đều là theo hƣớng định dạng theo chiều ngang; có
nghĩa là {TID:itemset} định danh ID của transaction và itemset,là tập các item trong
transaction TID. Thay thế cho kiểu biểu diễn dữ liệu này theo chiều dọc là
{item:TID_set}
Zaki đã đề xuất thuật toán Eclat [35] (Equivalence CLASS transformation), lần duyệt
CSDL đầu tiên để xây dựng TID_set cho từng item riêng. Bắt đầu với một item (k=1),
tập mục phổ biến k+1-itemset lớn dần từ k-itemset có thể dùng theo ý tƣởng Apriori, tính
toán theo chiều sâu trƣớc với sắp xếp tƣơng tự FPGrowth. Việc tính toán tập phổ biến
22


k+1-itemset sẽ là tính phép giao của tập mục phổ biến k-itemset. Quá trình sẽ lặp đến khi
không còn tập mục phổ biến nào hoặc không có tập ứng viên nào đƣợc tìm thấy.
Ngoài những ƣu điểm về đặc tính của Apriori trong việc sinh các ứng viên k+1itemset từ k-itemset, giá trị khác của phƣơng pháp này là không cần thiết phải duyệt
CSDL để tìm độ hỗ trợ cho k+1-itemset(k>=1). Bởi vì TID_set của mỗi k-itemset
mang đủ thông tin đƣợc yêu cầu để tính độ hỗ trợ.
Những công việc khác liên quan đến khai phá tập mục với định dạng theo chiều
dọc dữ liệu còn có công trình của Holsheimer và đồng sự [36] cũng đã cho thấy đƣợc
kết quả ấn tƣợng đạt đƣợc bằng cách xây dựng những cấu trúc dữ liệu khôn khéo và
đặc biệt, có thể áp dụng một cách thông minh khi giải quyết những vấn đề của khai
phá dữ liệu.
Phần tiếp theo đề cập đến việc áp dụng hƣớng tìm luật kết hợp cho hệ gợi ý.
2.3. Luật kết hợp trong hệ gợi ý

Trƣớc hết điểm qua những nghiên cứu về hƣớng khai phá luật kết hợp áp dụng cho
lĩnh vực gợi ý. Hƣớng tiếp cận khai phá luật kết hợp khá tƣơng đồng với hƣớng lọc
cộng tác dựa trên item [6], tuy nhiên ít linh hoạt hơn khi cần đến những dữ liệu rõ ràng
nhƣ là transaction - những sự kiện trong một phiên giao dịch của ngƣời dùng. Nhƣng
hiệu quả của nó có thể áp dụng ở nhiều trƣờng hợp nhƣ khi thể hiện ở trang web cá
nhân, giúp thiết kế giao diện dựa trên những mẫu chuyển hƣớng, tốt hơn nhiều khi sử
dụng hệ gợi ý dựa trên kNN (ngƣời láng giềng gần nhất) về cả độ chính xác và phạm
vi; áp dụng ARM tìm kiếm từ thông tin ngƣời dùng sự tƣơng quan giữa các item, còn
tốt hơn cả những độ đo tƣơng đồng item-item; áp dụng cho hệ gợi ý hội thoại; điều
chỉnh minsup cho các luật trong suốt quá trình khai phá, từ cả user và item để tìm ra
những luật thích hợp hơn. Cuối cùng, đáng chú ý là Cho và cộng sự [37] đã đƣa ra một
kết hợp giữa cây quyết định và ARM cho RS của một trang web bán hàng, họ đã sử
dụng ARM để liên kết các sản phẩm liên quan, đƣa ra gợi ý sau khi đã tính toán các
luật kết hợp giao nhau dựa theo sở thích của ngƣời dùng. Từ những giao dịch nhƣ lƣợt
mua, lƣợt bỏ vào giỏ hàng, lƣợt click liên tiếp họ tìm kiếm những luật khác nhau, chọn
theo kinh nghiệm trọng số cho các luật với mỗi loại giao dịch, ví dụ nhƣ đánh trọng số
cho mua hàng cao hơn là nhấp chuột để xem.
Xem xét một khía cạnh là đánh giá khi sử dụng luật kết hợp cho bài toán gợi ý.
Geyer-schuls và cộng sự [22] trong bài báo đánh giá các thuật toán gợi ý dựa trên các
luật kết hợp đơn giản và lý thuyết mua lại, tác giả có đƣa ra một thống kê về vài cách
đánh giá tƣơng ứng với 5 bƣớc của quy trình khai phá tri thức (KDD – Knowledge
Discovery in Databases) (5 bƣớc bao gồm: chọn dữ liệu; tiền xử lý; khai phá dữ liệu;
giải thích và đánh giá; biểu diễn) nhƣ là: 1) đánh giá tính có ích của hệ gợi ý phục vụ
cho những bên liên quan nhƣ ngƣời dùng, ngƣời cung cấp dịch vụ, bên bán hàng…
đƣợc triển khai ở cả 5 bƣớc trong quy trình; 2) đánh giá việc khai phá sử dụng web ở
ba bƣớc đầu có thể là: chọn đúng hành vi của ngƣời dùng khi thu thập nhƣ là lọc hành
vi do robot web tự động, dò các phiên truy cập,… thông qua các thống kê khi tiền xử
23



×