Tải bản đầy đủ (.docx) (205 trang)

LUẬN án TIẾN sĩ kỹ THUẬT hệ tư vấn dựa TRÊN mức độ QUAN TRỌNG hàm ý THỐNG kê

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.36 MB, 205 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

PHAN PHƯƠNG LAN

HỆ TƯ VẤN DỰA TRÊN
MỨC ĐỘ QUAN TRỌNG HÀM Ý THỐNG KÊ

LUẬN ÁN TIẾN SĨ KỸ THUẬT

Đà Nẵng - Năm 2019


PHAN PHƯƠNG LAN

HỆ TƯ VẤN DỰA TRÊN
MỨC ĐỘ QUAN TRỌNG HÀM Ý THỐNG KÊ

Chuyên ngành: Khoa học máy
tính Mã số: 9480101

LUẬN ÁN TIẾN SĨ KỸ THUẬT

Người hướng dẫn khoa học:
1. PGS. TS. Huỳnh Xuân Hiệp
2. TS. Huỳnh Hữu
Hưng Đà Nẵng - Năm 2019


LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu do tôi thực hiện, dưới sự


hướng dẫn của PGS.TS. Huỳnh Xuân Hiệp và TS. Huỳnh Hữu Hưng.
Tôi cam đoan các kết quả nghiên cứu được trình bày trong luận án là trung
thực và không sao chép từ bất kỳ cơng trình nghiên cứu nào khác. Một số kết quả
nghiên cứu là thành quả tập thể và đã được các đồng tác giả đồng ý cho sử dụng
trong luận án. Mọi trích dẫn trong luận án đều có ghi nguồn gốc xuất xứ rõ ràng và
đầy đủ.
Tác giả

NCS. Phan Phương Lan


LỜI CẢM ƠN
Trước tiên, tơi xin bày tỏ lịng biết ơn sâu sắc và gửi lời tri ân đến PGS. TS.
Huỳnh Xuân Hiệp và TS. Huỳnh Hữu Hưng đã tận tình hướng dẫn, truyền đạt kiến
thức và kinh nghiệm nghiên cứu khoa học cho tơi trong suốt q trình học tập,
nghiên cứu và hồn thành luận án.
Tơi xin chân thành cảm ơn Phịng Đào tạo và Khoa Cơng nghệ thơng tin Trường Đại học Bách khoa đã luôn tạo điều kiện thuận lợi cho tôi trong thời gian
làm nghiên cứu sinh tại đây. Xin cảm ơn Ban Lãnh đạo trường Đại học Cần Thơ,
Khoa Công nghệ thông tin và Truyền thông, Bộ môn Công nghệ phần mềm đã luôn
hỗ trợ và tạo điều kiện tốt nhất để tơi có thể tập trung nghiên cứu.
Tơi xin được bày tỏ lịng biết ơn chân thành đến GS. TS. Régis Gras đã cung
cấp cho tơi nhiều tài liệu về lý thuyết phân tích hàm ý thống kê và có những góp ý
sâu sắc cho nghiên cứu của tôi. Xin chân thành cảm ơn các nhà khoa học đã dành
thời gian và công sức đọc và đưa ra các góp ý quý báu để luận án được hồn chỉnh
hơn.
Cuối cùng, tơi xin được gửi lời cảm ơn sâu sắc đến gia đình và bạn thân
- những người luôn bên cạnh, giúp đỡ và động viên tôi trong suốt thời gian học tập,
nghiên cứu và hoàn thành luận án.
Đà Nẵng, ngày 09 tháng 11 năm 2019
NCS. Phan Phương Lan



i

MỤC LỤC
MỤC LỤC................................................................................................................ I
DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT................................................ VI
DANH MỤC BẢNG........................................................................................... VIII
DANH MỤC HÌNH............................................................................................... IX
MỞ ĐẦU.................................................................................................................. 1
CHƯƠNG 1. TỔNG QUAN................................................................................... 7
1.1. Mức độ quan trọng hàm ý thống kê...............................................................................7
1.1.1. Định nghĩa mức độ quan trọng hàm ý thống kê.......................................................7
1.1.2. Mức độ quan trọng hàm ý thống kê cho dữ liệu nhị phân.......................................8
1.1.2.1. Mối quan hệ hàm ý thống kê trên dữ liệu nhị phân..........................................8
1.1.2.2. Chỉ số hàm ý và cường độ hàm ý...................................................................10
1.1.2.3. Cường độ hàm ý có entropy............................................................................12
1.1.2.4. Chỉ số gắn kết..................................................................................................13
1.1.2.5. Chỉ số đóng góp..............................................................................................13
1.1.2.6. Chỉ số tiêu biểu...............................................................................................14
1.1.3. Mức độ quan trọng hàm ý thống kê cho dữ liệu phi nhị phân...............................14
1.1.3.1. Mối quan hệ hàm ý thống kê trên dữ liệu phi nhị phân..................................15
1.1.3.2. Mức độ quan trọng hàm ý thống kê cho dữ liệu phi nhị phân........................15
1.2. Mức độ quan trọng xếp hạng hàm ý thống kê............................................................17
1.3. Hệ tư vấn và các hướng nghiên cứu.............................................................................18
1.3.1. Hệ tư vấn................................................................................................................18
1.3.2. Phân loại hệ tư vấn.................................................................................................21
1.3.2.1. Hệ tư vấn thuộc nhóm cá thể..........................................................................22
1.3.2.2. Hệ tư vấn thuộc nhóm cộng tác/cộng đồng....................................................22
1.3.2.3. Hệ tư vấn thuộc nhóm chuyên gia..................................................................23

1.3.2.4. Hệ tư vấn thuộc nhóm lai ghép.......................................................................24


ii

1.3.2.5. Hệ tư vấn thuộc nhóm theo ngữ cảnh.............................................................25
1.3.3. Các hướng nghiên cứu về hệ tư vấn.......................................................................26
1.3.3.1. Nghiên cứu về dữ liệu.....................................................................................26
1.3.3.2. Nghiên cứu đề xuất và cải tiến các phương pháp tư vấn................................27
1.3.3.3. Nghiên cứu đánh giá hệ tư vấn.......................................................................29
1.4. Kỹ thuật tư vấn lọc cộng tác.........................................................................................29
1.4.1. Kỹ thuật lọc cộng tác dựa trên bộ nhớ (láng giềng)...............................................29
1.4.2. Kỹ thuật lọc cộng tác dựa trên mơ hình.................................................................30
1.4.2.1. Tư vấn lọc cộng tác dựa trên luật kết hợp.......................................................30
1.4.2.2. Mơ hình nhân tố tiềm ẩn.................................................................................31
1.5. Đánh giá hiệu quả tư vấn...............................................................................................32
1.5.1. Phương pháp đánh giá chéo k tập con...................................................................35
1.5.2. Tính chính xác của gợi ý........................................................................................36
1.5.3. Tính chính xác của xếp hạng được dự đốn..........................................................37
1.5.4. Tính chính xác của gợi ý được sắp thứ tự..............................................................38
1.6. Phương pháp tư vấn theo mức độ quan trọng hàm ý thống kê...............................39
1.6.1. Tư vấn dựa trên phân tích hàm ý thống kê hiện có................................................40
1.6.2. Tư vấn dựa trên mức độ quan trọng hàm ý thống kê.............................................41
1.7. Kết luận chương 1...........................................................................................................43

CHƯƠNG 2. TƯ VẤN THEO MỨC ĐỘ QUAN TRỌNG HÀM Ý THỐNG KÊ
TRÊN LUẬT KẾT HỢP............................................................................................ 44
2.1. Mơ hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật SIR................44
2.1.1. Mơ hình tư vấn SIR................................................................................................44
2.1.2. Mơ hình tư vấn SIR được cải tiến..........................................................................48

2.2. Hoạt động của mơ hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật .
......................................................................................................................................

49

2.2.1. Hoạt động của mơ hình tư vấn SIR........................................................................49
2.2.2. Hoạt động của mơ hình tư vấn SIR được cải tiến..................................................53
2.3. Đánh giá hiệu quả tư vấn của mơ hình SIR................................................................54
2.3.1. Dữ liệu thực nghiệm của mơ hình SIR.................................................................. 54
2.3.2. Cơng cụ thực nghiệm của mơ hình SIR................................................................. 56


iii

2.3.3. Hiệu quả tư vấn của mơ hình SIR trên dữ liệu nhị phân........................................57
2.3.3.1. Các giá trị tham số phù hợp............................................................................58
2.3.3.2. Thời gian xây dựng mơ hình tư vấn trước và sau cải tiến..............................60
2.3.3.3. Tính chính xác của gợi ý qua so sánh nội trên dữ liệu nhị phân.....................62
2.3.3.4. Tính chính xác của gợi ý qua so sánh ngoại trên dữ liệu nhị phân.................66
2.3.3.5. Mơ hình tư vấn SIR trong gợi ý đăng ký học phần........................................69
2.3.4. Hiệu quả tư vấn của mơ hình SIR trên dữ liệu phi nhị phân..................................69
2.3.4.1. Tính chính xác của gợi ý qua so sánh nội trên dữ liệu phi nhị phân..............70
2.3.4.2. Tính chính xác của gợi ý qua so sánh ngoại trên dữ liệu phi nhị phân...........73
2.4. Kết luận chương 2...........................................................................................................75

CHƯƠNG 3. TƯ VẤN THEO MỨC ĐỘ QUAN TRỌNG XẾP HẠNG HÀM Ý
THỐNG KÊ TRÊN NGƯỜI DÙNG......................................................................... 77
3.1. Định nghĩa mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng..........78
3.2. Mơ hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên người
dùng UIR.................................................................................................................................79

3.3. Hoạt động của mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê
trên người dùng......................................................................................................................81
3.4. Đánh giá hiệu quả tư vấn của mơ hình UIR...............................................................85
3.4.1. Dữ liệu thực nghiệm của mơ hình UIR..................................................................85
3.4.2. Cơng cụ thực nghiệm của mơ hình UIR................................................................ 86
3.4.3. Đánh giá mơ hình UIR qua tính chính xác của gợi ý.............................................86
3.4.3.1. Tính chính xác của mơ hình UIR qua so sánh ngoại......................................87
3.4.3.2. Tính chính xác của mơ hình UIR qua so sánh nội..........................................92
3.4.4. Đánh giá mơ hình UIR qua tính chính xác của xếp hạng được dự đốn...............95
3.4.4.1. Sai số của mơ hình UIR qua so sánh ngoại.....................................................95
3.4.4.2. Sai số của mơ hình UIR qua so sánh nội........................................................98
3.4.5. Đánh giá mơ hình UIR qua tính chính xác của gợi ý được sắp thứ tự...................99
3.4.5.1. Độ lợi tích lũy giảm dần của mơ hình UIR trên dữ liệu nhị phân................100
3.4.5.2. Độ lợi tích lũy giảm dần của mơ hình UIR trên dữ liệu phi nhị phân..........101
3.5. Kết luận chương 3.........................................................................................................103


iv

CHƯƠNG 4. TƯ VẤN THEO MỨC ĐỘ QUAN TRỌNG XẾP HẠNG HÀM Ý
THỐNG KÊ TRÊN MỤC........................................................................................ 104
4.1. Định nghĩa mức độ quan trọng xếp hạng hàm ý thống kê trên mục dữ liệu.......105
4.2. Mơ hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên mục IIR ..
....................................................................................................................................

106

4.3. Hoạt động của mơ hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê
trên mục.................................................................................................................................109
4.4. Đánh giá hiệu quả tư vấn của mơ hình IIR..............................................................111

4.4.1. Dữ liệu và công cụ thực nghiệm của mô hình IIR...............................................111
4.4.2. Thời gian xây dựng ma trận mục trực tiếp và gián tiếp.......................................112
4.4.3. Đánh giá mơ hình IIR qua tính chính xác của gợi ý............................................113
4.4.3.1. Tính chính xác của mơ hình IIR qua so sánh nội..........................................114
4.4.3.2. Tính chính xác của mơ hình IIR qua so sánh ngoại......................................116
4.4.3.3. Tính ổn định của mơ hình IIR.......................................................................118
4.4.4. Đánh giá mơ hình IIR qua tính chính xác của xếp hạng được dự đốn...............121
4.4.4.1. Sai số của mơ hình IIR qua so sánh nội........................................................122
4.4.4.2. Sai số của mơ hình IIR qua so sánh ngoại....................................................126
4.4.5. Đánh giá mơ hình IIR qua tính chính xác của gợi ý được sắp thứ tự..................128
4.5. So sánh hiệu quả tư vấn của các mơ hình đề xuất...................................................130
4.5.1. So sánh thời gian tư vấn.......................................................................................130
4.5.2. So sánh tính chính xác của các mơ hình.............................................................. 132
4.5.3. Đánh giá chung về các mơ hình đề xuất.............................................................. 136
4.6. Kết luận chương 4.........................................................................................................138

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN.......................................................... 139
Kết luận.................................................................................................................................139
Hướng phát triển..................................................................................................................140

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ...................141
TÀI LIỆU THAM KHẢO................................................................................... 143
PHỤ LỤC................................................................................................................. 1
Phụ lục 1: Công cụ Interestingnesslab và tập dữ liệu DKHP............................................1


Công cụ Interestingnesslab.................................................................................................1
Tập dữ liệu DKHP..............................................................................................................2
Phụ lục 2: Giải thuật tư vấn theo mức độ quan trọng hàm ý thống kê trên luật kết
hợp..............................................................................................................................................4

Sinh tập luật dựa trên ngưỡng hỗ trợ, ngưỡng tin cậy và độ dài tối đa của một luật.........4
Biểu diễn tập luật theo phân tích hàm ý thống kê..............................................................4
Tính cường độ hàm ý, chỉ số gắn kết của luật....................................................................6
Lọc tập luật theo ngưỡng cường độ hàm ý hoặc chỉ số gắn kết.........................................8
Phụ lục 3: Giải thuật tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên
người dùng..............................................................................................................................10
Biểu diễn mối quan hệ giữa hai người dùng theo phân tích hàm ý thống kê...................10
Tính cường độ hàm ý giữa hai người dùng......................................................................11
Tìm các láng giềng gần nhất của người cần được tư vấn.................................................12
Xác định chỉ số tiêu biểu của một mục đối với mối quan hệ hàm ý giữa hai người dùng...
...............................................................................................................................

12

Dự đoán xếp hạng của người dùng cho các mục dữ liệu..................................................14
Phụ lục 4: Giải thuật tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên
mục dữ liệu..............................................................................................................................15
Xây dựng ma trận mục dữ liệu - gián tiếp........................................................................15
Xây dựng ma trận mục dữ liệu - trực tiếp........................................................................16
Dự đoán xếp hạng của người dùng cho các mục dữ liệu..................................................17
Phụ lục 5: Giải thuật đánh giá hệ tư vấn............................................................................18
Phụ lục 6: Xác định giá trị tham số phù hợp của mơ hình SIR, AR và IBCF..............21
Ngưỡng tin cậy và hỗ trợ trong các mơ hình SIR, AR.....................................................21
Độ dài tối đa của một luật trong các mơ hình SIR, AR....................................................22
Số láng giềng gần nhất của mơ hình IBCF.......................................................................25


DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT
Thuật ngữ
Cường độ hàm ý


Tiếng Anh
Implication/Implicative intensity
Propension intensity

Cường độ hàm ý có entropy

Entropic version of implicative intensity

Chỉ số gắn kết

Cohesion measure

Chỉ số hàm ý

Implication/Implicative index
Propesion index

Chỉ số tiêu biểu

Typicality measure

Chỉ số đóng góp

Contribution measure

Độ đo hấp dẫn khách quan

Objective interestingness measure


Độ lợi tích lũy giảm dần

Normalized discounted cumulative gain

Hệ tư vấn

Viết tắt

Recommender/Recommendation
systems

nDCG
RS

Mơ hình tư vấn theo mức độ quan
trọng hàm ý thống kê trên luật

Statistical implicative rules based model

SIR

Mơ hình tư vấn theo mức độ quan
trọng xếp hạng hàm ý thống kê trên
mục

Item implicative rating based model

IIR

Mơ hình tư vấn theo mức độ quan

trọng xếp hạng hàm ý thống kê trên
người dùng

User implicative rating based model

UIR

Mục/Mục dữ liệu

Item

Phân tích hàm ý thống kê

Statistical implicative analysis

Phản ví dụ

Counter-example

Sai số bình phương trung bình

Root of mean squared error

RMSE

Sai số tuyệt đối trung bình

Mean absolute error

MAE


SIA


Tư vấn dựa trên luật kết hợp

Association rule based recommendation

Tư vấn dựa trên nội dung

Content-based recommendation

Tư vấn dựa trên tri thức

Knowledge-based recommendation

Tư vấn lai ghép

Hybrid recommendation

Tư vấn lọc cộng tác dựa trên mục

Item-based collaborative filtering
recommendation

Tư vấn lọc cộng tác dựa trên
người dùng

User-based collaborative filtering
recommendation


Xếp hạng/đánh giá

Rating


DANH MỤC BẢNG
Bảng 1.1: Các mức độ quan trọng hàm ý thống kê................................................................8
Bảng 1.2: Một ví dụ về dữ liệu đầu vào ở dạng nhị phân của phân tích hàm ý thống kê...10
Bảng 1.3: Một ví dụ về dữ liệu đầu vào ở dạng phi nhị phân của phân tích hàm ý thống kê.
....................................................................................................................................

15

Bảng 1.4: Cơng thức tính của từng mức độ quan trọng hàm ý thống kê.............................16
Bảng 1.5: Các mức độ quan trọng xếp hạng hàm ý thống kê..............................................18
Bảng 1.6: Một ví dụ về phân chia tập dữ liệu đầu vào với k-fold=4...................................35
Bảng 1.7: Ma trận nhầm lẫn.................................................................................................36
Bảng 2.1: Thông tin chung về các tập dữ liệu mẫu dùng trong thực nghiệm......................55
Bảng 2.2: Dãy phân vị của tập MSWeb(875x135)..............................................................56
Bảng 2.3: Dãy phân vị của tập MovieLens(565x336).........................................................56
Bảng 2.4: Dãy phân vị của tập DKHP(1.130x57)................................................................56
Bảng 2.5: Các hệ tư vấn dùng cho việc xác định giá trị s và c của các mơ hình SIR, AR trên
tập MSWeb(875x135) và DKHP(1.130x57)..............................................................59
Bảng 2.6: Giá trị tham số phù hợp của các mơ hình SIR, AR trên tập MSWeb(875x135) và
DKHP(1.130x57)........................................................................................................59
Bảng 2.7: Giá trị tham số phù hợp của mơ hình IBCF trên tập MSWeb(875x135) và
DKHP(1.130x57)........................................................................................................60
Bảng 3.1: Thông tin chung về tập dữ liệu mẫu MovieLens(943x1.144).............................85
Bảng 4.1: Thông tin chung về các tập dữ liệu mẫu được trích xuất từ MSWeb................118

Bảng 4.2: Các giá trị tham số phù hợp trên những tập dữ liệu mẫu của MSWeb.............119
Bảng 4.3: Bảng tổng hợp đặc điểm của các mơ hình tư vấn đề xuất.................................136


DANH MỤC HÌNH
Hình 0.1: Mối quan hệ giữa các chương của luận án.............................................................5
Hình 1.1: Biểu diễn của mối quan hệ a  b theo phân tích hàm ý thống kê.........................9
Hình 1.2: Mơ hình biểu diễn phương pháp phân tích hàm ý thống kê.................................10
Hình 1.3: Dữ liệu đầu vào và đầu ra của hệ tư vấn..............................................................19
Hình 1.4: Phân loại hệ tư vấn theo đối tượng chính cung cấp thơng tin..............................21
Hình 1.5: Các hướng nghiên cứu về hệ tư vấn.....................................................................26
Hình 1.6: Sơ đồ đánh giá hiệu quả tư vấn (tính chính xác của kết quả tư vấn)...................34
Hình 1.7: Mối liên kết giữa những định hướng của luận án và các hướng nghiên cứu về hệ
tư vấn..........................................................................................................................42
Hình 1.8: Mối liên kết giữa kỹ thuật lọc cộng tác, các mức độ quan trọng hàm ý thống kê
và đề xuất nghiên cứu của luận án..............................................................................42
Hình 2.1: Mơ hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật SIR.............46
Hình 2.2: Minh họa của mơ hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật
SIR..............................................................................................................................47
Hình 2.3: Mơ hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật SIR được cải
tiến..............................................................................................................................48
Hình 2.4: Hoạt động của mơ hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật
SIR..............................................................................................................................49
Hình 2.5: Hoạt động của mơ hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật
SIR được cải tiến........................................................................................................54
Hình 2.6: Tỷ lệ thời gian xây dựng mơ hình của SIR sau và trước khi cải tiến trên tập
MSWeb(875x135) với times=2...................................................................................61
Hình 2.7: Tỷ lệ thời gian xây dựng mơ hình của SIR sau và trước khi cải tiến trên tập
DKHP(1.130x57) với times=2....................................................................................61
Hình 2.8: Đường cong ROC và đường cong Precision - Recall của bốn hệ tư vấn trên tập

MSWeb(875x135) khi times=2, given=2...................................................................63
Hình 2.9: Đường cong ROC và đường cong Precision - Recall của bốn hệ tư vấn trên tập
MSWeb(875x135) khi times=2, given=6...................................................................63


Hình 2.10: Giá trị F1 của bốn hệ tư vấn trên tập MSWeb(875x135) khi times=2..............64
Hình 2.11: Đường cong ROC của bốn hệ tư vấn trên tập DKHP(1.130x57) khi times=2 và
given=1, 3, 5...............................................................................................................65
Hình 2.12: Đường cong Precision - Recall của bốn hệ tư vấn trên tập DKHP(1.130x57)
khi times=4, given=2, 4..............................................................................................65
Hình 2.13: Đường cong Precision - Recall và đường cong ROC của bốn hệ tư vấn trên tập
MSWeb(875x135) khi times=6, given=7...................................................................67
Hình 2.14: Đường cong Precision - Recall của bốn hệ tư vấn trên tập MSWeb(875x135)
khi (times, given) là (4, 3) và (2, 2)............................................................................68
Hình 2.15: Đường cong Precision - Recall và đường cong ROC của bốn hệ tư vấn trên tập
MSWeb(875x135) khi times=2, given=1...................................................................68
Hình 2.16: Đường cong Precision - Recall của bốn hệ tư vấn trên tập
MovieLens(565x336) khi (times, given) là (2, 1) và (1, 6)........................................70
Hình 2.17: Đường cong Precision - Recall của bốn hệ tư vấn trên tập
MovieLens(565x336) khi (times, given) là (5, 12) và (3, 17)....................................71
Hình 2.18: Đường cong ROC của bốn hệ tư vấn trên tập MovieLens(565x336) khi (times,
given) là (2, 2) và (4, 17)............................................................................................71
Hình 2.19: Sự chênh lệch giá trị Accuracy của ba hệ tư vấn trên tập MovieLens(565x336)
khi times=2.................................................................................................................72
Hình 2.20: Sự chênh lệch giá trị F1 của ba hệ tư vấn trên tập MovieLens(565x336) khi
times=2.......................................................................................................................72
Hình 2.21: Đường cong ROC và Precision - Recall của

hai hệ tư vấn trên tập


MovieLens(565x336) khi times=3 và given=6...........................................................74
Hình 2.22: Sự chênh lệch giá trị F1 của hai hệ tư vấn trên tập MovieLens(565x336) khi
times=1.......................................................................................................................74
Hình 3.1: Mơ hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên người
dùng UIR....................................................................................................................80
Hình 3.2: Minh họa của mơ hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê
trên người dùng UIR...................................................................................................81
Hình 3.3: Hoạt động của mơ hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê
trên người dùng UIR...................................................................................................82


Hình 3.4: Đường cong ROC của năm hệ tư vấn trên tập MSWeb(875x135) khi (times,
given, knn) là (4, 4, 50) và (4, 6, 60)..........................................................................88
Hình 3.5: Đường cong Precision - Recall và ROC của

năm hệ tư vấn trên tập

MSWeb(875x135) với times=6, given=3, knn=30.....................................................88
Hình 3.6: Biểu đồ chênh lệch giá trị F1 của hai hệ tư vấn trên tập MSWeb(875x135) khi
times=6 và knn=80.....................................................................................................89
Hình 3.7: Sự chênh lệch giá trị F1của hai hệ tư vấn trên tập MSWeb(875x135) khi given=5.
....................................................................................................................................

90

Hình 3.8: Thời gian tư vấn trên tập MSWeb(875x135) khi times=3...................................90
Hình 3.9: Sự chênh lệch giá trị F1, Accuracy của hai hệ tư vấn trên tập DKHP(1.130x57)
khi times=3 và given=2..............................................................................................91
Hình 3.10: Sự chênh lệch giá trị Accuracy của hai hệ tư vấn trên tập DKHP(1.130x57) khi
times=2 và given=3, 4................................................................................................91

Hình 3.11: Thời gian tư vấn trên tập DKHP(1.130x57) khi times=3...................................92
Hình 3.12: Đường cong ROC của hai hệ tư vấn trên tập DKHP(1.130x57) khi (times, knn)
là (5, 40) và given=1, 2, 3...........................................................................................93
Hình 3.13: Sự chênh lệch giá trị F1 của hai hệ tư vấn trên tập MSWeb(875x135) khi
given=1 và knn=50 tương ứng....................................................................................94
Hình 3.14: Sự chênh lệch giá trị F1 của hai hệ tư vấn trên tập MSWeb(875x135) khi
knn=50, 30..................................................................................................................94
Hình 3.15: Giá trị MAE của ba hệ tư vấn trên tập MovieLens(943x1.144) khi (times, knn)
là (2, 30) và (2, 50).....................................................................................................96
Hình 3.16: Giá trị MSE của ba hệ tư vấn trên tập MovieLens(943x1.144) khi (times, knn)
là (2, 40) và (2, 60).....................................................................................................96
Hình 3.17: Giá trị MAE của ba hệ tư vấn trên tập MovieLens(943x1.144) khi times=2 và
knn=10, 30, 50, 60, 80................................................................................................97
Hình 3.18: Giá trị RMSE của ba hệ tư vấn trên tập MovieLens(943x1.144) khi times=3. 98
Hình 3.19: Giá trị MAE của ba hệ tư vấn trên tập MovieLens(943x1.144) khi times=2...99
Hình 3.20: Giá trị nDCG của ba hệ tư vấn trên tập MSWeb(875x135) khi times=10......100
Hình 3.21: Sự chênh lệch giá trị nDCG của UIRTypicality RS và UBCFJaccard RS trên
tập MSWeb(875x135) khi times=10.........................................................................101


Hình 3.22: Giá trị nDCG của bốn hệ tư vấn trên tập MovieLens(943x1.144) khi times=5.
..................................................................................................................................

102

Hình 3.23: Sự chênh lệch giá trị nDCG của UIRTypicality RS và UBCFCosine RS trên tập
MovieLens(943x1.144) khi times=5........................................................................102
Hình 4.1: Mơ hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên mục IIR.
..................................................................................................................................


107

Hình 4.2: Minh họa của mơ hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê
trên mục IIR..............................................................................................................108
Hình 4.3: Hoạt động của mơ hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê
trên mục IIR..............................................................................................................109
Hình 4.4: Tỷ lệ thời gian xây dựng ma trận mục trực tiếp và gián tiếp trên tập
MSWeb(875x135) khi times=2.................................................................................112
Hình 4.5: Tỷ lệ thời gian xây dựng ma trận mục trực tiếp và gián tiếp trên tập
DKHP(1.130x57) khi times=2..................................................................................113
Hình 4.6: Đường cong ROC của bốn hệ tư vấn trên tập MSWeb(875x135) khi times=4 và
given=(2, 3, 4)...........................................................................................................114
Hình 4.7: Đường cong ROC của bốn hệ tư vấn trên tập DKHP(1.130x57) khi times=2 và
given=(2, 3, 4)...........................................................................................................115
Hình 4.8: Đường cong Precision - Recall và ROC của

bốn hệ tư vấn trên tập

MSWeb(875x135) khi (times, given)=(2, 3)............................................................116
Hình 4.9: Đường cong ROC của bốn hệ tư vấn trên tập MSWeb(875x135) khi (times,
given) là (2, 2) và (2, 1)............................................................................................117
Hình 4.10: Giá trị F1 của bốn hệ tư vấn trên ba tập dữ liệu mẫu của MSWeb khi given=4.
..................................................................................................................................

119

Hình 4.11: Giá trị F1 của từng hệ tư vấn trên tập MSWeb(875x135) và MSWeb(432x145)
khi recs=3..................................................................................................................120
Hình 4.12: Giá trị F1 của từng hệ tư vấn trên tập MSWeb(2.767x159).............................121
Hình 4.13: Giá trị RMSE của IIRIIntens. RS trên tập MovieLens(565x336) khi times=6.

..................................................................................................................................

122

Hình 4.14: Giá trị MAE của IIRIIntens. RS trên tập MovieLens(943x1.144) khi times=6.
..................................................................................................................................

123


Hình 4.15: Sự chênh lệch giá trị RMSE của từng hệ tư vấn với IIRIIntens. RS trên tập
MovieLens(565x336) khi times=3...........................................................................124
Hình 4.16: Sự chênh lệch giá trị MAE của từng hệ tư vấn với IIRIIntens. RS trên tập
MovieLens(565x336) khi times=3...........................................................................124
Hình 4.17: Sự chênh lệch giá trị RMSE của từng hệ tư vấn với IIRIIntens. RS trên tập
MovieLens(943x1.144) khi times=4........................................................................125
Hình 4.18: Sự chênh lệch giá trị MAE của từng hệ tư vấn với IIRIIntens. RS trên tập
MovieLens(943x1.144) khi times=2........................................................................125
Hình 4.19: Sự chênh lệch giá trị RMSE của từng hệ tư vấn với IBCFPearson RS trên tập
MovieLens(565x336) khi times=10.........................................................................127
Hình 4.20: Sự chênh lệch giá trị MAE của từng hệ tư vấn với IBCFPearson RS trên tập
MovieLens(565x336) khi times=10.........................................................................127
Hình 4.21: Giá trị nDCG của ba hệ tư vấn trên tập MSWeb(875x135) khi times=30......129
Hình 4.22: Giá trị nDCG của ba hệ tư vấn trên tập MSWeb(2.767x159) khi times=4.....129
Hình 4.23: Thời gian tư vấn của ba hệ thống trên tập MSWeb(875x135) khi times=4 và
DKHP(1.130x57) khi times=16................................................................................130
Hình 4.24: Tỷ lệ thời gian tư vấn của UIR RS và IIR RS trên tập MovieLens(943x1.144)
khi times=2...............................................................................................................131
Hình 4.25: Sự chênh lệch giá trị F1 của IIR RS và SIR RS trên tập MSWeb(875x135) khi
times=4.....................................................................................................................132

Hình 4.26: Sự chênh lệch giá trị F1 của UIR RS với IIR RS và SIR RS trên tập
MSWeb(875x135) khi times=4.................................................................................133
Hình 4.27: Sự chênh lệch giá trị nDCG của UIR RS và IIR RS trên tập MSWeb(875x135)
khi times=2...............................................................................................................134
Hình 4.28: Sự chênh lệch giá trị nDCG của UIR RS và IIR RS1 trên tập
MovieLens(565x336) khi times=2...........................................................................135
Hình 4.29: Sự chênh lệch giá trị nDCG của UIR RS và IIR RS2 trên tập
MovieLens(565x336) khi times=2...........................................................................135


1

MỞ ĐẦU
1. Tính cấp thiết của luận án
Sự phát triển của công nghệ web, internet và thiết bị điện tử làm cho các dịch
vụ thương mại điện tử, dịch vụ giải trí, v.v ngày càng phong phú cũng như các
thơng tin thu thập được ngày càng nhiều và đa dạng. Người dùng có thể bị q tải
thơng tin nên có thể đưa ra quyết định không đúng khi sử dụng những dịch vụ này.
Vì vậy, để đáp ứng nhu cầu tư vấn của người dùng và nhu cầu hỗ trợ kinh doanh của
các nhà cung cấp, hệ tư vấn được xem là một trong các giải pháp hiệu quả cho bài
tốn bùng nổ thơng tin. Hệ tư vấn (recommendation systems hoặc recommender
system) [5] là kỹ thuật hay công cụ phần mềm được nhúng trong các ứng dụng hoặc
trang web giúp làm giảm tình trạng q tải thơng tin bằng cách tự động truy tìm
thơng tin và dịch vụ có liên quan nhất từ một lượng lớn dữ liệu để dự đoán các giá
trị xếp hạng/đánh giá (rating) của người dùng cho một mục dữ liệu (sản phẩm, dịch
vụ, v.v) cụ thể và/hoặc gợi ý các mục có xếp hạng dự đốn cao nhất cho người đó.
Trải qua hơn hai mươi năm phát triển, hệ tư vấn được ứng dụng vào nhiều mặt của
cuộc sống như: Thương mại điện tử, du lịch điện tử, học tập điện tử, dịch vụ điện tử,
v.v [30]. Các hệ tư vấn có thể được phân loại theo kỹ thuật tư vấn [5][10][30], tính
chất của dữ liệu [27], lĩnh vực ứng dụng [30], hoặc đối tượng chính cung cấp thơng

tin. Hệ tư vấn được xây dựng theo một trong những kỹ thuật như: Dựa trên nội
dung, lọc cộng tác, dựa trên tri thức, lai ghép [5][10][30]. Trong đó, lọc cộng tác [1]
[13][15][34] là kỹ thuật quan trọng và được sử dụng phổ biến nhất. Kỹ thuật này
đưa ra các gợi ý cho người dùng dựa trên những mối quan hệ giữa các mục dữ liệu
hay giữa những người dùng. Các nghiên cứu về hệ tư vấn là khá đa dạng nhưng có
thể được nhóm thành các hướng sau: (1) nghiên cứu về dữ liệu dùng trong hệ tư
vấn; (2) đề xuất và cải tiến các phương pháp tư vấn; (3) đánh giá hệ tư vấn. Mặc dù
đã đạt được nhiều thành công song tất cả những hướng nghiên cứu này vẫn đang được
tiếp tục phát triển để đáp ứng sự đa dạng về lĩnh vực ứng dụng, sự khác nhau trong
nhu cầu người dùng và sự phát triển của công nghệ. Đặc biệt, hướng đề xuất và cải
tiến các phương pháp tư vấn giữ vai trò chủ đạo.


Phân tích hàm ý thống kê (Statistical Implicative Analysis - SIA) [61][62] là
phương pháp phân tích dữ liệu được khởi đầu bởi Gras nhằm nghiên cứu các
khuynh hướng giữa các thuộc tính (biến) dữ liệu. Phương pháp này xem mối quan
hệ giữa các thuộc tính là khơng đối xứng mà theo đó, giá trị hàm ý thống kê của mối
quan hệ giữa các thuộc tính a với các thuộc tính b (� → �) và của mối quan hệ giữa
b với a (� → �) là khác nhau nên phù hợp với mối quan hệ trong thực tế. Trong
phân tích hàm ý thống kê, mối quan hệ � → � được biểu diễn bằng bộ bốn giá trị
�, �a, �b và
�ab¯ ; việc phát hiện khuynh hướng dữ liệu được dựa trên giá trị của mối quan hệ theo
các mức độ quan trọng hàm ý thống kê như cường độ hàm ý, chỉ số gắn kết. Phương
pháp này quan tâm nhiều đến số phản ví dụ �ab¯ trong mối quan hệ mà theo đó,
mối quan hệ được quan sát thống kê chấp nhận càng ít số phản ví dụ thì nó càng có
hàm ý. Hiện nay, việc liên kết phương pháp phân tích hàm ý thống kê vào những
lĩnh vực nghiên cứu khác đang là một trong các chủ đề được quan tâm nhất. Độ đo
luôn là một thành phần quan trọng trong các hệ tư vấn vì nó được sử dụng vào
việc tìm ra sự tương tự giữa những người dùng hay sự tương tự giữa các mục hay
các mối quan hệ tin cậy mạnh giữa các mục, v.v. để từ đó xây dựng danh sách gợi ý.

Do đó, các mức độ quan trọng của phân tích hàm ý thống kê có thể được xem xét
cho việc phát triển hệ tư vấn.
Các nghiên cứu liên kết phân tích hàm ý thống kê vào hệ tư vấn cịn khá ít.
Những nghiên cứu [55][60] sử dụng luật kết hợp và một số mức độ quan trọng hàm
ý thống kê để xây dựng hệ tư vấn. Nhìn chung, các nghiên cứu vẫn còn một số vấn
đề chưa giải quyết: (1) chỉ mới tập trung xây dựng mơ hình tư vấn trên dữ liệu nhị
phân và chưa quan tâm đến dữ liệu phi nhị phân, đánh giá hiệu quả tư vấn của mơ
hình theo tính chính xác của gợi ý; (2) đều sử dụng luật kết hợp để thực hiện tư vấn
nên thời gian tư vấn trực tuyến có thể lâu và máy tính có thể bị q tải trong q
trình xử lý; (3) thiếu kết hợp đặc trưng của một số mức độ quan trọng hàm ý thống
kê để nâng cao hiệu quả gợi ý.
Vì vậy, đề tài “Hệ tư vấn dựa trên mức độ quan trọng hàm ý thống kê” được
thực hiện trong khuôn khổ luận án tiến sĩ chuyên ngành khoa học máy tính với
mong muốn được đóng góp một phần vào lĩnh vực nghiên cứu hệ tư vấn và phân
tích hàm ý thống kê.


2. Mục tiêu, đối tượng và phạm vi nghiên cứu của luận án
2.1. Mục tiêu nghiên cứu
Luận án tìm hiểu, vận dụng các mức độ quan trọng hàm ý thống kê và kỹ thuật
tư vấn lọc cộng tác để đề xuất và hiệu chỉnh các mơ hình tư vấn nhằm cải tiến hiệu
quả (mà cụ thể là độ chính xác) của mơ hình; qua đó, góp phần liên kết lý thuyết
phân tích hàm ý thống kê vào lĩnh vực hệ tư vấn.

2.2. Đối tượng nghiên cứu
Luận án tập trung vào các đối tượng nghiên cứu sau:
- Các mức độ quan trọng hàm ý thống kê.
- Các mơ hình tư vấn theo các mức độ quan trọng hàm ý thống kê sử dụng kỹ
thuật lọc cộng tác.


2.3. Phạm vi nghiên cứu
Luận án được giới hạn trong phạm vi sau: Tìm hiểu các mức độ quan trọng
hàm ý thống kê, kỹ thuật tư vấn lọc cộng tác, các nghiên cứu hiện có về hệ tư vấn
dựa trên phân tích hàm ý thống kê để:
- Đề xuất và mở rộng mơ hình tư vấn theo mức độ quan trọng hàm ý thống kê
trên luật kết hợp.
- Đề xuất một mức độ quan trọng mới ở góc độ người dùng (gọi là xếp hạng
hàm ý thống kê trên người dùng) và mơ hình tư vấn theo mức độ mới này.
- Đề xuất một mức độ quan trọng mới ở góc độ mục dữ liệu (gọi là xếp hạng
hàm ý thống kê trên mục) và mơ hình tư vấn theo mức độ mới này.
Tất cả các mơ hình đề xuất đều có thể áp dụng cho cả dữ liệu nhị phân và phi
nhị phân.

3. Các đóng góp của luận án
Luận án có những đóng góp sau:
- Các mức độ quan trọng hàm ý thống kê mới trên cả dữ liệu nhị phân và phi
nhị phân gồm: Xếp hạng hàm ý thống kê trên người dùng ������ (K nearest
neighbors/users based implicative rating) và xếp hạng hàm ý thống kê trên mục dữ
liệu ������ (K nearest neighbors/items based implicative rating). Hai mức độ
quan trọng này được dùng để dự đoán xếp hạng của một người dùng cho một mục
dữ liệu.
- Các mơ hình tư vấn mới có thể áp dụng trên dữ liệu nhị phân và phi nhị phân.


+ Mơ hình tư vấn theo mức độ quan trọng hàm ý thống kê sử dụng kỹ thuật
lọc cộng tác dựa trên luật kết hợp ���.
+ Mơ hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên
người dùng ��� (user implicative rating based model) sử dụng ������.
+ Mơ hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên mục
��� (item implicative rating based model) sử dụng ������.

- Công cụ phần mềm Interestingnesslab dùng cho thực nghiệm. Công cụ này
cài đặt các hàm tiện ích và các mơ hình tư vấn đề xuất bằng ngơn ngữ R; qua đó,
cho phép người dùng viết các kịch bản sử dụng hệ tư vấn và đánh giá hiệu quả tư
vấn.
- Tập dữ liệu nhị phân DKHP có thể dùng để đánh giá hiệu quả tư vấn. Tập
DKHP lưu thông tin đăng ký học phần của sinh viên các khóa 40, 41, 42 và 43
(tương ứng với các năm 2015, 2016, 2017 và 2018) thuộc Khoa Công nghệ thông
tin và Truyền thông, trường Đại học Cần Thơ.

4. Bố cục của luận án
Dựa trên mục tiêu, đối tượng và phạm vi nghiên cứu, luận án được cấu trúc
thành ba phần: Phần mở đầu, phần nội dung và kết quả nghiên cứu, phần kết luận và
hướng phát triển. Phần nội dung và kết quả nghiên cứu được cấu trúc thành bốn
chương và sáu phụ lục. Mối quan hệ về kiến thức giữa các chương trong luận án được
trình bày chi tiết trong Hình 0.1.
Chương 1 tìm hiểu về các mức độ quan trọng hàm ý thống kê, kỹ thuật tư vấn
và phương pháp đánh giá hệ tư vấn, các hướng nghiên cứu về hệ tư vấn cũng như
những nghiên cứu hiện có về hệ tư vấn dựa trên lý thuyết phân tích hàm ý thống kê
để xác định phạm vi nghiên cứu của luận án. Trên các cơ sở này, Chương 1 phác
thảo những đề xuất tư vấn sẽ được cụ thể hóa trong các chương sau.
Chương 2 trình bày một mơ hình tư vấn theo mức độ quan trọng hàm ý thống
kê sử dụng kỹ thuật lọc cộng tác dựa trên luật kết hợp cho cả dữ liệu nhị phân và phi
nhị phân. Mơ hình cho phép chọn một trong các mức độ quan trọng hàm ý thống kê
khác nhau (như cường độ hàm ý có hay khơng có entropy, chỉ số gắn kết) và kết
hợp với chỉ số đóng góp để gợi ý cho người cần tư vấn danh sách các mục dữ liệu
có chất lượng hàm ý cao. Mơ hình tư vấn đề xuất được so sánh với một số mơ hình
hiện có của gói recommenderlab [48]. Hiệu quả của mơ hình được đánh giá qua tính
chính xác của các gợi ý như đường cong ROC, đường cong Precision - Recall, giá
trị F1



điều hịa giữa hai giá trị chính xác (Precision) và bao phủ (Recall). Bên cạnh đó, mơ
hình đề xuất cịn được cải tiến để làm giảm thời gian tư vấn qua việc kết hợp đồng
thời các hoạt động biểu diễn tập luật theo quan điểm phân tích hàm ý thống kê và
tính giá trị của luật theo một mức độ quan trọng hàm ý thống kê ngay tại giai đoạn
sinh tập luật. Ngồi ra, mơ hình cũng được mở rộng để có thể tư vấn theo những
mối quan hệ hấp dẫn khách quan khác.
Chương 1: Tổng quan

Hệ tư vấn
-Phân tích hàm ý thống kê
-Kỹ thuật tư vấn

vấn
dựa
trên
phân
tích
hàm
ý
thống

-Các mức độ quan trọng hàm ý thống kê
-Đánh giá hiệu quả tư vấn

Chương 2: Tư vấn theo mức độ quan trọng hàm ý thống kê trên luật kết hợp

Mơ hình

Thực nghiệm


Chương 3: Tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng

KnnUIR

Mơ hình

Thực nghiệm

Chương 4: Tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên mục dữ liệu

KnnIIR

Mơ hình

Thực nghiệm

Hình 0.1: Mối quan hệ giữa các chương của luận án
Chương 3 giới thiệu một mức độ quan trọng hàm ý thống kê mới ������
để dự đốn xếp hạng của người dùng; một mơ hình tư vấn mới ��� sử dụng kỹ
thuật tư vấn lọc cộng tác dựa trên láng giềng và mức độ quan trọng ������.
������ kết hợp nhiều yếu tố có thể tác động đến việc dự đoán xếp hạng của
người dùng như: Ai là các láng giềng gần nhất của người cần tư vấn, giá trị xếp
hạng cho mục dữ liệu cần dự đoán xếp hạng của những láng giềng này và ảnh
hưởng của mục dữ liệu đang xét


đến sự hình thành mối quan hệ láng giềng. ������ được phát triển từ hai mức độ
quan trọng cơ sở: Cường độ hàm ý và chỉ số tiêu biểu. Khác với cách tiếp cận ở
Chương 2, cường độ hàm ý sẽ đo sức mạnh của mối quan hệ giữa hai người dùng

thay vì giữa các mục dữ liệu; chỉ số tiêu biểu sẽ đo sự ảnh hưởng của một mục dữ
liệu đối với sự hình thành mối quan hệ giữa hai người dùng thay vì của người dùng
đối sự hình thành mối quan hệ giữa các mục. Mơ hình tư vấn đề xuất ��� khơng
chỉ dự đốn xếp hạng mà còn gợi ý cho người cần tư vấn danh sách các mục có xếp
hạng dự đốn cao. Mơ hình ��� được so sánh với một số mơ hình hiện có của gói
recommenderlab qua việc đánh giá tính chính xác của: Các gợi ý như Chương 2,
xếp hạng dự đoán theo các sai số và gợi ý được sắp thứ tự theo nDCG. Dữ liệu dùng
trong thực nghiệm là dữ liệu nhị phân hoặc phi nhị phân.
Chương 4 mô tả một mức độ quan trọng hàm ý thống kê mới ������ để dự
đốn xếp hạng của người dùng và mơ hình tư vấn mới ��� theo mức độ quan trọng
này. ������ kết hợp giá trị bất ngờ khi quan sát một số lượng nhỏ các phản ví dụ,
giá trị tin cậy dựa trên số đồng thuận của các mối quan hệ giữa hai mục dữ liệu và
các xếp hạng đã có của người cần tư vấn để thực hiện dự đoán xếp hạng. Mục đích
của sự kết hợp này là để phân biệt rõ ảnh hưởng của từng mục dữ liệu lên mục dữ
liệu đang xét nhằm cải thiện hiệu quả tư vấn. Tương tự như các chương trước, mơ
hình tư vấn ��� được so sánh với một số mơ hình hiện có; được đánh giá qua tính
chính xác của: Gợi ý, xếp hạng dự đoán và gợi ý được sắp thứ tự; được áp dụng cho
cả dữ liệu nhị phân hoặc phi nhị phân. Bên cạnh đó, Chương 4 cịn cải thiện thời
gian tư vấn bằng cách xây dựng trực tiếp ma trận mối quan hệ giữa các mục dữ liệu.
Trong chương này, mức độ quan trọng hàm ý thống kê sẽ đo sức mạnh của mối
quan hệ giữa hai mục dữ liệu thay vì giữa hai người dùng như Chương 3 hay giữa
một tập mục dữ liệu với một mục như Chương 2.
Phần Phụ lục trình bày: Cơng cụ Interestingnesslab được phát triển và tập dữ
liệu DKHP được thu thập để chạy các kịch bản thực nghiệm (Phụ lục 1); các giải
thuật cài đặt các mơ hình tư vấn đề xuất (Phụ lục 2, 3, 4, 5) và một số kịch bản thực
nghiệm bổ sung khi đánh giá các mơ hình đề xuất (Phụ lục 6).


CHƯƠNG 1. TỔNG QUAN
Chương 1 tập trung nghiên cứu sự liên kết giữa lý thuyết phân tích hàm ý

thống kê và bài tốn hệ tư vấn thơng qua: (1) xác định các mức quan trọng hàm ý
thống kê trên cả dữ liệu nhị phân và phi nhị phân có thể hỗ trợ cho hoạt động tư
vấn; (2) tìm hiểu về hệ tư vấn và những nghiên cứu hiện có về hệ tư vấn dựa trên lý
thuyết phân tích hàm ý thống kê để định hướng nghiên cứu của luận án; (3) xác định
kỹ thuật tư vấn và phương pháp đánh giá hệ tư vấn được sử dụng trong luận án.
Trên cơ sở này, Chương 1 phác thảo các đề xuất tư vấn theo mức độ quan trọng hàm
ý thống kê mà chúng sẽ được trình bày chi tiết trong các chương còn lại.

1.1. Mức độ quan trọng hàm ý thống kê
1.1.1. Định nghĩa mức độ quan trọng hàm ý thống kê
Mức độ quan trọng hàm ý thống kê là một độ đo của lý thuyết phân tích hàm ý
thống kê - một lý thuyết phân tích dữ liệu được đề xuất bởi Gras và các cộng sự
[61]. Mức độ quan trọng hàm ý thống kê được sử dụng để đo giá trị của mối quan
hệ giữa các thuộc tính (biến) ở cả dạng nhị phân và phi nhị phân; qua đó, giúp phát
hiện các khuynh hướng trong một tập hợp các thuộc tính. Với dữ liệu nhị phân, mỗi
thuộc tính chỉ nhận một trong hai giá trị 0 hoặc 1. Với dữ liệu phi nhị phân, mỗi
thuộc tính nhận giá trị số thực và được quy đổi về đoạn [0,1].
Đặc điểm của mức độ quan trọng hàm ý thống kê là khơng đối xứng, dựa trên
xác suất và có sự kết hợp phi tuyến tính giữa các thuộc tính. Bảng 1.1 tổng hợp vai
trò của các mức độ quan trọng hàm ý thống kê. Chi tiết về từng mức độ quan trọng
được trình bày trong các Mục 1.1.2 và Mục 1.1.3. Các mức độ quan trọng hàm ý
thống kê trong Bảng 1.1 được sử dụng để xây dựng mơ hình tư vấn trên luật kết hợp
(Chương 2 của luận án) và là cơ sở để đề xuất hai mức độ quan trọng hàm ý thống
kê mới trong các mơ hình tư vấn trên người dùng và trên mục dữ liệu (Chương 3 và
Chương 4 của luận án).


Bảng 1.1: Các mức độ quan trọng hàm ý thống kê.
Mức độ quan trọng


Vai trò

hàm ý thống kê

Đo độ lệch giữa giá trị ngẫu nhiên và giá trị mong đợi của
Chỉ số hàm ý

một mối quan hệ � → � với � và � là tập các thuộc tính. Chỉ
số hàm ý được dùng để tính cường độ hàm ý. Chỉ số hàm ý
càng thấp thì cường độ hàm ý càng cao.
Đo tính bất ngờ (ngạc nhiên, surprisingness) của một mối
quan hệ � → � khi quan sát một số lượng nhỏ các phản ví

Cường độ hàm ý

dụ �ab¯ - số các đối tượng khơng có � khi có � ,
counter example number. Cường độ hàm ý là một độ đo
chất lượng
thông tin và quy nạp.
Điều chỉnh giá trị bất ngờ được lượng hóa bởi cường độ hàm

Cường độ hàm ý có

ý bằng việc quan tâm đến chiều ngược của mối quan hệ

entropy

(�¯ → �¯). Cường độ hàm ý có entropy củng cố sự chắc

Chỉ số gắn kết

Chỉ số đóng góp
Chỉ số tiêu biểu

chắn về chất lượng tốt của một mối quan hệ.
Phát hiện các mối quan hệ có chất lượng hàm ý tốt; được
xây dựng dựa trên cường độ hàm ý và entropy.
Đo sự góp phần của một đối tượng đối với sự hình thành
của một mối quan hệ.
Đo tính tiêu biểu của một đối tượng trong sự hình thành
một
mối quan hệ.

1.1.2. Mức độ quan trọng hàm ý thống kê cho dữ liệu nhị phân
1.1.2.1. Mối quan hệ hàm ý thống kê trên dữ liệu nhị phân
Mối quan hệ � → � (hay khuynh hướng các đối tượng có thuộc tính � khi chúng
có thuộc tính �) được chấp nhận khi nó đạt tới một mức tin cậy xác định. Khi đó, ta
có thể xem mối quan hệ � → � như một quy tắc hay một luật. Luật này khó bị thay
thế nếu có rất ít số đối tượng khơng có � khi có � (phản ví dụ) mới xuất hiện. Tuy
nhiên, nếu số phản ví dụ mới càng tăng, sự tin cậy của luật sẽ bị giảm và luật có thể


×