Phát triển một số phương pháp lọc thông tin cho hệ tư vấn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.96 MB, 136 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN DUY PHƢƠNG

Phát triển một số phƣơng pháp lọc thông tin
cho hệ tƣ vấn

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

HÀ NỘI, 2011

1
LỜI CAM ĐOAN



trong các công trình nào khác.

Tác giả

Nguyễn Duy Phương

2
Lời cảm ơn
 , 
Tôi 
không 

 T 
tiên, tôi xin  giáo viên 

y tôi  

Tôi xin 
thông tin,  


Tôi xin   L      
     

, n


luôn 

3
MỤC LỤC

 11
 12
 13
 15
.  16
CHUNG 16
 17
 18
 19
 21
1.2.  24
 25
 25
 25
 28
 29
 30
 30

 32
 32
1.3.2.2 35
 38
 39
 39
 40
 42
 42

4
. 
 44
 44
 45
 46
 48
2.2.1.  48
 51
G CHUNG 56
 56
 59
 59
 60
  63
 65
 65
 65
 67
 67

 69
 72
.  
 73
 75
 75
-  76
3.2.2.1.  



-  78
3.2.2.2. 







 G
+
80
3.2.2.3. 

 






G
-
83

5
3.2.2.4. 











85
DUNG 88
 88
 91
 95
 95
3. 95
 96
  96
 102
 103
 104

 105
ecall và F-measure 105
 107
 110
 111
 113
 116
 117
 117

 127

6
DANH MỤC CÁC CHỮ VIẾT TẮT
KÝ HIỆU
DIỄN GIẢI
AM

AU

CBF
Content-
CF

DAC

DBC
Data-

DF

EM

FC
Fil
FMM

IBL
Instance-
IDF

IE
Information Extraction ( )
IF
Informa
IO
Information Overload (

 )
IR

KNN

KPC


LC

LL


LSE

LSM

MAE

MBF
Memory-
MC

MDBF
Model-
ML

MM


7
MMM
Multinomial Mixtu
MTL

PCA

RS

SD

SDP

 )
SE

STL

SVD
Singular Value Decomposition (

 )
SVM
Support Vector Machine ( )
TF
Term Frequency ()
UMC
User-Model Com
URP
User Rating Profile (







 )

8
DANH MỤC CÁC HÌNH
Hình 1.1.  17
Hình 1.2 31
Hình 2.1 52
Hình 2.2.  58
Hình 2.3.  58
Hình 2.4-
toán. 62
Hình 2.5.  64
Hình 3.1. -  76
Hình 3.2. 
+
 79
Hình 3.3. 
-
 80
Hình 3.4. 


+
81
Hình 3.5. 


-
84
Hình 3.6.  86
Hình 3.7.  90

Hình 3.8.  94
Hình 3.9.   99
Hình 3.10 103
Hình 3.11. -  111

9

DANH MỤC CÁC BẢNG
  23
 31
 45
 49
 50
  50
 68
 68
 70
 70
 70
 70
 71
 71
  71
 71
 71
 71
 72
 72
 74

  74
X -  76
X
+


 79
X
-


 80
 89
-  89

10
-  90
, Recall, F-
MovieLens1 106
-
MovieLens2 107
-
 108
-test v
 109
-
 109
-
 109
-

 110
 -
 110

11
PHẦN MỞ ĐẦU
1. Tính cấp thiết của luận án
Information Overload a
     49     





 

Information Filtering) 
 




xây 









nghi 


12
Recommender System
 


             
Netflix.com, Procter & Gamble.

Content-Based FilteringCollaborative Filtering).




Trong quá trì, 



              


 Phát triển một số phương pháp lọc thông tin cho hệ tư vấn


2. Mục tiêu của luận án
 


          
 a


13
3. Các đóng góp của luận án
Đóng góp thứ nhất của luận án là đề xuất áp dụng một kỹ thuật Boosting
cải tiến cho nhiều bài toán phân loại vào lọc cộng tác [3, 81
-              


-      
Decision Stump) cho
 ;
- 
 

     Single Task Learning     

 






Multi-Task Learning


và 
 
trong 

14
Đóng góp thứ hai của luận án là đề xuất một phương pháp lọc kết hợp dựa
trên mô hình đồ thị [2, 80
-  

- 
- 

- 

- 

- 



 



 











15

 





4. Bố cục của luận án


 
Chƣơng 1. 
 và
              

trong [4].
Chƣơng 2. 
trong            











trong [3,
81].
Chƣơng 3. 



 trong [2, 80].  

Phần phụ lục. 


16
CHƢƠNG 1
TỔNG QUAN VỀ LỌC THÔNG TIN CHO HỆ TƢ VẤN
             
  

 
trong các 

                

1.1. GIỚI THIỆU CHUNG

 (IF)  thông tin

[75, 99] 
trang w
              


 (Search Engine)  -   



   


              
RS

 



17
Data-Based) 
Knowledge-Based) [99
            
 
thông tin (Information Retrieval), tách thông tin (Information Extraction), phân
Information Classificarion

- Khách hàng (Customer to Customer- Khách hàng (Business to

Customer- Business to Business) [75].
1.1.1. Kiến trúc tổng quát của hệ thống lọc thông tin
          
[99]: ThData Analyser Component
hình   User Model Component),   h Learning
ComponentlFiltering Component).

Hình 1.1. Kiến trúc tổng quát của hệ thống lọc thông tin.
 Thành phần phân tích dữ liệu (DAC)    


Hình 1.1.




Thông tin các

 



dùng


















thông tin

18
 Thành phần mô hình người dùng (UMC) 




 Thành phần học (LC) 

thàn

    

 Thành phần lọc (FC) 


     



     
heo.
1.1.2. Lọc thông tin và truy vấn thông tin
Belkin và Croft [75] hai

IR). Tuy nhiên, 


 Kiểu người dùng
là ai. Trái

19
dùng 
                

 Biểu diễn nhu cầu thông tin. 
  
              
dùng. cá nhân,
mà còn        

 Mục tiêu hệ thống. 

 

           

 Cơ sở dữ liệu. 
trên trên 


 Phạm vi tương tác.  
 

 
cho 
1.1.3. Học máy và lọc thông tin
Học máy (Machine Learning)

1, 85, 97ví

20
        v    

 (ML) 

t
 : lọc dựa trên tri
thức và lọc dựa trên dữ liệu.
Lọc dựa trên tri thức (KBC)  
các l

  trong  
N

             
  
 


       


Lọc dựa trên dữ liệu (DBC)





và .

21
              
Chính vì vậy, luận
án sẽ tập trung nghiên cứu kỹ thuật lọc thông tin cho hệ tư vấn dựa trên cách
tiếp cận này.
1.1.4. Lọc thông tin và các hệ tƣ vấn
Hệ tƣ vấn (RS) 

               
có 5, 26,
40, 51, 53, 54, 67, 70, 83].
               

   

Amazon.com, Netflix.com, CDNOW, J.C. Penney,
Procter & Gamble  
7].





Tư vấn dựa vào phương pháp lọc theo nội dung (Content-Based Filtering
Recommendation), tư vấn dựa vào phương pháp lọc cộng tác (Collaborative
Filtering Recommendation) và tư vấn dựa vào phương pháp lọc kết hợp (Hybrid
Filtering Recommendation)[36, 107].

22
 Phương pháp tư vấn dựa vào lọc nội dung
  
 
 Phương pháp tư vấn dựa vào lọc cộng tác


 Phương pháp tư vấn dựa vào lọc kết hợp    
 
và 

     phân thành hai
 [36, 107]Memory-Based Filtering
Model-Based Filtering).
 Các phương pháp lọc dựa vào bộ nhớ (MBF) [21, 22, 29, 52, 57, 63, 64,
69]: 
            

              
(KNN)


 Phương pháp lọc dựa trên mô hình (MDBF) [27, 30, 32, 33, 34, 35, 37,
41, 43, 45, 90, 95, 96, 108, 109, 121






23
            
thông tin cho  [36].
Bảng 1.1.


PHƢƠNG PHÁP TƢ VẤN DỰA VÀO LỌC NỘI DUNG
Lọc nội dung dựa vào bộ nhớ
Lọc nội dung dựa vào mô hình
Các kỹ thuật thông dụng:
 
 

Những nghiên cứu điển hình:
 Balabanovic và Shoham [69]
 Pazzani và Billsus [73]
Các kỹ thuật thông dụng:
 
 
 
 
Những nghiên cứu điển hình:
 Pazzani [74]
 Mooney và Roy [92]

 Billsus và Pazzani [30]
 Zhang  [113]
PHƢƠNG PHÁP TƢ VẤN DỰA VÀO LỌC CỘNG TÁC
Lọc cộng tác dựa vào bộ nhớ
Lọc cộng tác dựa vào mô hình
Các kỹ thuật thông dụng:
 K-
Nearest Neighbour   
     

 
     
(Indirect Similarity)

Những nghiên cứu điển hình:
  [83]
 52]
 Nakamura và Abe [11]
 M. Deshpande and G. Karypis
[72]
 21]
 Yu  [63, 64]
 5]
 7]
 Bell và Koren [86]
 Desrosiers và Karypis [24]
Các kỹ thuật thông dụng:
 
 
 

 
 
 
 

Những nghiên cứu điển hình:
 Nakamura và Abe [11]
 Umyarov và Alexander
Tuzhilin [15, 16, 17]
 Ungar và Foster [68]
 
 Chien và George [114]
 Condliff 71]
 Kumar 9]
 Shani 41]
 Hofmann [95, 96]
 Marlin [18]

24
 Goldberg và cá
 Si và Jin [66]
 Getoor và Sahami [65]
 Huang và các 9]
 DeCoste [31]
 Nikovski và Kulev [33]
 5, 106,
107]

PHƢƠNG PHÁP TƢ VẤN DỰA VÀO LỌC KẾT HỢP
Lọc kết hợp dựa vào bộ nhớ

Lọc kết hợp dựa vào mô hình
Các kỹ thuật thông dụng:
       

       

 

 
dung trong cùng mô hình.
Những nghiên cứu điển hình:
 3]
  [70]
 Soboroff và Nicolas [46]
 Billsus và Pazzani [30]
 Tran và Cohen [98]
 82]
     
[37, 38, 39]
 Anand và Bharadwaj [28]

Các kỹ thuật thông dụng:
 

 
 H


Những nghiên cứu điển hình:
 Gunawardana và Meek [8]
 Billsus và Pazzani [29]
 Lazanas và Karacapilidis [10]
 12]
 Hofmann [96]
 Huang 20,
121, 122]
 4]
 Balisico và Hofmann [47]
 Good 
1.2. PHƢƠNG PHÁP LỌC THEO NỘI DUNG


               
4, 6, 19, 69, 73, 84, 92


Formatted: Indent: Left: 0.25"

Phát triển một số phương pháp lọc thông tin cho hệ tư vấn

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về