ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN DUY PHƢƠNG
Phát triển một số phƣơng pháp lọc thông tin
cho hệ tƣ vấn
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
HÀ NỘI, 2011
1
LỜI CAM ĐOAN
trong các công trình nào khác.
Tác giả
Nguyễn Duy Phương
2
Lời cảm ơn
,
Tôi
không
T
tiên, tôi xin giáo viên
y tôi
Tôi xin
thông tin,
Tôi xin L
, n
luôn
3
MỤC LỤC
11
12
13
15
. 16
CHUNG 16
17
18
19
21
1.2. 24
25
25
25
28
29
30
30
32
32
1.3.2.2 35
38
39
39
40
42
42
4
.
44
44
45
46
48
2.2.1. 48
51
G CHUNG 56
56
59
59
60
63
65
65
65
67
67
69
72
.
73
75
75
- 76
3.2.2.1.
- 78
3.2.2.2.
G
+
80
3.2.2.3.
G
-
83
5
3.2.2.4.
85
DUNG 88
88
91
95
95
3. 95
96
96
102
103
104
105
ecall và F-measure 105
107
110
111
113
116
117
117
127
6
DANH MỤC CÁC CHỮ VIẾT TẮT
KÝ HIỆU
DIỄN GIẢI
AM
AU
CBF
Content-
CF
DAC
DBC
Data-
DF
EM
FC
Fil
FMM
IBL
Instance-
IDF
IE
Information Extraction ( )
IF
Informa
IO
Information Overload (
)
IR
KNN
KPC
LC
LL
LSE
LSM
MAE
MBF
Memory-
MC
MDBF
Model-
ML
MM
7
MMM
Multinomial Mixtu
MTL
PCA
RS
SD
SDP
)
SE
STL
SVD
Singular Value Decomposition (
)
SVM
Support Vector Machine ( )
TF
Term Frequency ()
UMC
User-Model Com
URP
User Rating Profile (
)
8
DANH MỤC CÁC HÌNH
Hình 1.1. 17
Hình 1.2 31
Hình 2.1 52
Hình 2.2. 58
Hình 2.3. 58
Hình 2.4-
toán. 62
Hình 2.5. 64
Hình 3.1. - 76
Hình 3.2.
+
79
Hình 3.3.
-
80
Hình 3.4.
+
81
Hình 3.5.
-
84
Hình 3.6. 86
Hình 3.7. 90
Hình 3.8. 94
Hình 3.9. 99
Hình 3.10 103
Hình 3.11. - 111
9
DANH MỤC CÁC BẢNG
23
31
45
49
50
50
68
68
70
70
70
70
71
71
71
71
71
71
72
72
74
74
X - 76
X
+
79
X
-
80
89
- 89
10
- 90
, Recall, F-
MovieLens1 106
-
MovieLens2 107
-
108
-test v
109
-
109
-
109
-
110
-
110
11
PHẦN MỞ ĐẦU
1. Tính cấp thiết của luận án
Information Overload a
49
Information Filtering)
xây
nghi
12
Recommender System
Netflix.com, Procter & Gamble.
Content-Based FilteringCollaborative Filtering).
Trong quá trì,
Phát triển một số phương pháp lọc thông tin cho hệ tư vấn
2. Mục tiêu của luận án
a
13
3. Các đóng góp của luận án
Đóng góp thứ nhất của luận án là đề xuất áp dụng một kỹ thuật Boosting
cải tiến cho nhiều bài toán phân loại vào lọc cộng tác [3, 81
-
-
Decision Stump) cho
;
-
Single Task Learning
Multi-Task Learning
và
trong
14
Đóng góp thứ hai của luận án là đề xuất một phương pháp lọc kết hợp dựa
trên mô hình đồ thị [2, 80
-
-
-
-
-
-
15
4. Bố cục của luận án
Chƣơng 1.
và
trong [4].
Chƣơng 2.
trong
trong [3,
81].
Chƣơng 3.
trong [2, 80].
Phần phụ lục.
16
CHƢƠNG 1
TỔNG QUAN VỀ LỌC THÔNG TIN CHO HỆ TƢ VẤN
trong các
1.1. GIỚI THIỆU CHUNG
(IF) thông tin
[75, 99]
trang w
(Search Engine) -
RS
17
Data-Based)
Knowledge-Based) [99
thông tin (Information Retrieval), tách thông tin (Information Extraction), phân
Information Classificarion
- Khách hàng (Customer to Customer- Khách hàng (Business to
Customer- Business to Business) [75].
1.1.1. Kiến trúc tổng quát của hệ thống lọc thông tin
[99]: ThData Analyser Component
hình User Model Component), h Learning
ComponentlFiltering Component).
Hình 1.1. Kiến trúc tổng quát của hệ thống lọc thông tin.
Thành phần phân tích dữ liệu (DAC)
Hình 1.1.
Thông tin các
dùng
thông tin
18
Thành phần mô hình người dùng (UMC)
Thành phần học (LC)
thàn
Thành phần lọc (FC)
heo.
1.1.2. Lọc thông tin và truy vấn thông tin
Belkin và Croft [75] hai
IR). Tuy nhiên,
Kiểu người dùng
là ai. Trái
19
dùng
Biểu diễn nhu cầu thông tin.
dùng. cá nhân,
mà còn
Mục tiêu hệ thống.
Cơ sở dữ liệu.
trên trên
Phạm vi tương tác.
cho
1.1.3. Học máy và lọc thông tin
Học máy (Machine Learning)
1, 85, 97ví
20
v
(ML)
t
: lọc dựa trên tri
thức và lọc dựa trên dữ liệu.
Lọc dựa trên tri thức (KBC)
các l
trong
N
Lọc dựa trên dữ liệu (DBC)
và .
21
Chính vì vậy, luận
án sẽ tập trung nghiên cứu kỹ thuật lọc thông tin cho hệ tư vấn dựa trên cách
tiếp cận này.
1.1.4. Lọc thông tin và các hệ tƣ vấn
Hệ tƣ vấn (RS)
có 5, 26,
40, 51, 53, 54, 67, 70, 83].
Amazon.com, Netflix.com, CDNOW, J.C. Penney,
Procter & Gamble
7].
Tư vấn dựa vào phương pháp lọc theo nội dung (Content-Based Filtering
Recommendation), tư vấn dựa vào phương pháp lọc cộng tác (Collaborative
Filtering Recommendation) và tư vấn dựa vào phương pháp lọc kết hợp (Hybrid
Filtering Recommendation)[36, 107].
22
Phương pháp tư vấn dựa vào lọc nội dung
Phương pháp tư vấn dựa vào lọc cộng tác
Phương pháp tư vấn dựa vào lọc kết hợp
và
phân thành hai
[36, 107]Memory-Based Filtering
Model-Based Filtering).
Các phương pháp lọc dựa vào bộ nhớ (MBF) [21, 22, 29, 52, 57, 63, 64,
69]:
(KNN)
Phương pháp lọc dựa trên mô hình (MDBF) [27, 30, 32, 33, 34, 35, 37,
41, 43, 45, 90, 95, 96, 108, 109, 121
23
thông tin cho [36].
Bảng 1.1.
PHƢƠNG PHÁP TƢ VẤN DỰA VÀO LỌC NỘI DUNG
Lọc nội dung dựa vào bộ nhớ
Lọc nội dung dựa vào mô hình
Các kỹ thuật thông dụng:
Những nghiên cứu điển hình:
Balabanovic và Shoham [69]
Pazzani và Billsus [73]
Các kỹ thuật thông dụng:
Những nghiên cứu điển hình:
Pazzani [74]
Mooney và Roy [92]
Billsus và Pazzani [30]
Zhang [113]
PHƢƠNG PHÁP TƢ VẤN DỰA VÀO LỌC CỘNG TÁC
Lọc cộng tác dựa vào bộ nhớ
Lọc cộng tác dựa vào mô hình
Các kỹ thuật thông dụng:
K-
Nearest Neighbour
(Indirect Similarity)
Những nghiên cứu điển hình:
[83]
52]
Nakamura và Abe [11]
M. Deshpande and G. Karypis
[72]
21]
Yu [63, 64]
5]
7]
Bell và Koren [86]
Desrosiers và Karypis [24]
Các kỹ thuật thông dụng:
Những nghiên cứu điển hình:
Nakamura và Abe [11]
Umyarov và Alexander
Tuzhilin [15, 16, 17]
Ungar và Foster [68]
Chien và George [114]
Condliff 71]
Kumar 9]
Shani 41]
Hofmann [95, 96]
Marlin [18]
24
Goldberg và cá
Si và Jin [66]
Getoor và Sahami [65]
Huang và các 9]
DeCoste [31]
Nikovski và Kulev [33]
5, 106,
107]
PHƢƠNG PHÁP TƢ VẤN DỰA VÀO LỌC KẾT HỢP
Lọc kết hợp dựa vào bộ nhớ
Lọc kết hợp dựa vào mô hình
Các kỹ thuật thông dụng:
dung trong cùng mô hình.
Những nghiên cứu điển hình:
3]
[70]
Soboroff và Nicolas [46]
Billsus và Pazzani [30]
Tran và Cohen [98]
82]
[37, 38, 39]
Anand và Bharadwaj [28]
Các kỹ thuật thông dụng:
H
Những nghiên cứu điển hình:
Gunawardana và Meek [8]
Billsus và Pazzani [29]
Lazanas và Karacapilidis [10]
12]
Hofmann [96]
Huang 20,
121, 122]
4]
Balisico và Hofmann [47]
Good
1.2. PHƢƠNG PHÁP LỌC THEO NỘI DUNG
4, 6, 19, 69, 73, 84, 92
Formatted: Indent: Left: 0.25"