LỜI CẢM ƠN
Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc nhất tới Thầy giáo,
PGS-TS Hà Quang Thụy đã tận tình chỉ bảo, hướng dẫn, động viên và giúp đỡ em trong
suốt quá trình thực hiện đề tài.
Em xin gửi lời cảm ơn sâu sắc tới quý Thầy Cô giáo trong Khoa Công nghệ thông
tin nói riêng và trong trường Đại học Công nghệ - Đại Học Quốc Gia Hà Nội nói chung,
đã truyền đạt kiến thức quý báu cho em trong những năm học qua.
Em cũng xin được gửi lời cảm ơn tới các anh chị, các bạn và các em sinh viên trong
nhóm “Tư vấn xã hội” Phòng thí nghiệm Công nghệ tri thức KT-Lab đã giúp em rất nhiều
trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt khóa luận.
Em cũng xin gửi lời cảm ơn sâu sắc tới công ty DataSection Việt Nam đã tạo mọi
điều kiện tốt nhất cho em thực hiện đề tài tại công ty. Đồng thời, em cũng xin gửi lời cảm
ơn tới các anh chị trong công ty đã giúp đỡ em trong suốt quá trình thực hiện đề tài.
Con xin nói lên lòng biết ơn vô hạn đến Bố Mẹ, Bố Mẹ luôn là nguồn chăm sóc,
động viên, khích lệ con trên con đường học vấn.
Cuối cùng, xin gửi lời cảm ơn tới các anh chị và các bạn, đặc biệt là thành viên lớp
K56CB đã ủng hộ, giúp đỡ trong suốt quá trình tôi học tập trên giảng đường đại học và
thực hiện đề tài.
Tôi xin chân thành cảm ơn!
Hà Nội, ngày 8 tháng 12 năm 2014
Sinh viên
Thái Thị Hoài
i
TÓM TẮT
Tóm tắt: Hệ tư vấn đóng vai trò quan trọng trong việc gợi ý các thông tin liên quan tới sở thích
của người dùng. Sự phát triển nhanh chóng của các phương tiện xã hội như Facebook1, Twitter2,
Google+3 … dẫn đến một lượng người dùng khổng lồ tạo ra các kết nối, các mối quan hệ tường
minh và tiềm ẩn cho nhiều tiềm năng khai thác để tư vấn. Tư vấn xã hội sử dụng các tài nguyên
từ phương tiện xã hội bổ sung vào tư vấn đã trở thành chủ đề nghiên cứu nhận được sự quan tâm
đặc biệt, đặc biệt các nhóm nghiên cứu của Huan Liu và Hao Ma. Nói riêng, khai thác ngữ cảnh
xã hội toàn cục và cục bộ vào hệ tư vấn là một đề tài nghiên cứu thời sự [4, 6, 13].
Khóa luận tập trung vào giải pháp khai thác ngữ cảnh xã hội vào hệ tư vấn dựa trên tiếp cận
của Jiliang Tang và cộng sự, 2014 [13]. Khóa luận đề nghị một mô hình tư vấn dựa trên khai thác
ngữ cảnh xã hội từ phương tiện xã hội Facebook, trong đó một phương án định lượng hạng của
người dùng và sản phẩm được lựa chọn. Khóa luận cũng xây dựng một phần mềm thi hành mô
hình đề xuất nói trên. Tiến hành thử nghiệm trên miền dữ liệu điện thoại di động thông minh của
Samsung trên page Facebook từ hệ thống cửa hàng bán điện thoại di động Cellphones
( với 870 người dùng và 1050 đánh giá cho
thấy tính khả quan với độ đo sai số NMAE khoảng 0.13 khi đánh giá mô hình tư vấn.
Từ khóa: hệ tư vấn, ngữ cảnh xã hội, tư vấn xã hội
1
3
2
ii
LỜI CAM ĐOAN
Tôi xin cam đoan các kỹ thuật sử dụng ngữ cảnh xã hội trong hệ tư vấn trên phương
tiện xã hội được trình bày trong khóa luận này do tôi thực hiện dưới sự hướng dẫn của
PGS.TS. Hà Quang Thụy.
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một
cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận, không có
việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu
tham khảo.
Hà Nội, ngày 8 tháng 12 năm 2014
Tác giả
Thái Thị Hoài
iii
Mục lục
LỜI CẢM ƠN ........................................................................................................................ i
TÓM TẮT.............................................................................................................................ii
LỜI CAM ĐOAN ............................................................................................................... iii
Danh sách thuật ngữ và từ viết tắt ....................................................................................... vi
Danh sách bảng ...................................................................................................................vii
Danh sách hình vẽ............................................................................................................. viii
Mở đầu .................................................................................................................................. 1
Chương 1. Giới thiệu chung về hệ tư vấn và tư vấn xã hội .................................................. 3
1.1.Hệ tư vấn truyền thống ............................................................................................... 3
1.1.1.Giới thiệu chung về hệ tư vấn.............................................................................. 3
1.1.2.Bài toán tư vấn truyền thống ............................................................................... 4
1.1.3.Phân loại hệ tư vấn .............................................................................................. 5
1.1.4. Các thách thức trong hệ tư vấn. ........................................................................ 12
1.2.Tư vấn xã hội ............................................................................................................ 14
1.2.1.Phương tiện xã hội ............................................................................................. 14
1.2.2.Khái niệm tư vấn xã hội .................................................................................... 15
1.2.3.Các bài toán chính trong tư vấn xã hội .............................................................. 16
Tóm tắt chương 1............................................................................................................ 17
Chương 2. Khai thác quan hệ xã hội trong tư vấn xã hội.................................................. 19
2.1. Ứng dụng lý thuyết xã hội trong khai phá phương tiện xã hội................................ 19
2.1.1. Lý thuyết xã hội trong vai trò liên quan đến người dùng ................................. 19
2.1.2. Lý thuyết xã hội trong vai trò liên quan đến các mối quan hệ ......................... 21
2.1.3. Lý thuyết xã hội trong nhiệm vụ liên quan về nội dung .................................. 23
2.2. Nhân tử ma trận xác suất trong tư vấn xã hội.......................................................... 24
2.2.1. Ý tưởng chính của phương pháp nhân tử ma trận ............................................ 25
2.2.2. Nội dung của phương pháp .............................................................................. 26
2.2.3. Học tư vấn với các yếu tố mối quan hệ xã hội tiềm ẩn, tường minh................ 27
iv
2.3.Khai thác ngữ cảnh xã hội toàn cục, cục bộ cho tư vấn xã hội ................................ 30
2.3.1. Khai thác ngữ cảnh xã hội cục bộ .................................................................... 30
2.3.2. Khai thác bối cảnh xã hội toàn cục................................................................... 32
2.3.3. Một số phương pháp trích chọn đặc trưng cục bộ, toàn cục ............................ 33
Tóm tắt chương 2............................................................................................................ 38
Chương 3. Một mô hình tư vấn xã hội dựa trên quan hệ xã hội trong Facebook. ............. 39
3.1. Giới thiệu sơ bộ ....................................................................................................... 39
3.1.1. Ngữ cảnh xã hội cục bộ .................................................................................... 39
3.1.2. Ngữ cảnh xã hội toàn cục ................................................................................. 39
3.2. Mô hình tổng quan................................................................................................... 40
3.2.1. Chi tiết các bước của các pha trong mô hình ................................................... 44
Tóm tắt chương 3............................................................................................................ 48
Chương 4. Thực nghiệm và đánh giá ................................................................................. 49
4.1. Giới thiệu chung ...................................................................................................... 49
4.2. Phần mềm thực nghiệm ........................................................................................... 50
4.3. Dữ liệu ..................................................................................................................... 51
4.4. Kết quả thực nghiệm và nhận xét ............................................................................ 52
Tóm tắt chương 4............................................................................................................ 55
Kết luận............................................................................................................................... 56
Kết quả đạt được của khóa luận ..................................................................................... 56
Định hướng tương lai: .................................................................................................... 56
Tài liệu tham khảo .............................................................................................................. 57
Tài liệu tiếng Việt ........................................................................................................... 57
Tài liệu tiếng Anh ........................................................................................................... 57
v
Danh sách thuật ngữ và từ viết tắt
Tiếng Anh/Từ viết tắt
Tiếng Việt/Cụm từ đầy đủ
Follower
Người theo dõi
GLSPFS
Global and local structure preservation
framework for feature selection
Item
mục (còn được dịch là "mặt hàng", "sản
phẩm", "dịch vụ" )
L21RFS
Robust Feature Selection via l2,1-norm
minimization
LLE
Local Linear Embedding
LLFS
Local-learning Based Feature Selection
LPP
Linear Preserve Projection
LTSA
Local Tangent Space Alignment
MF
Matrix Factorization
Recommender system | Recommendation Hệ tư vấn hoặc hệ gợi ý
system
Social media
Phương tiện xã hội
Social network
Mạng xã hội
Social recommendation system
Hệ tư vấn xã hội
SoRec
Social Recommend
SoReg
Social Regularization
Spammer
Kẻ gửi thư rác
SPFS
Similarity Preserving Feature Selection
TFIDF
Term Frequency
Frequency
vi
Inverse
Document
Danh sách bảng
Bảng 1. Ma trận user-item .................................................................................................... 7
Bảng 2. Ví dụ về ma trận user-item .................................................................................... 25
Bảng 3. Cấu hình hệ thống thực hiện thực nghiệm ............................................................ 50
Bảng 4. Các công cụ phần mềm được sử dụng .................................................................. 51
vii
Danh sách hình vẽ
Hình 1. 1. Tư vấn dựa trên nội dung .................................................................................... 6
Hình 1. 2. Tư vấn dựa trên lọc cộng tác ............................................................................... 8
Hình 1. 3. Tư vấn dựa trên phương pháp lai ...................................................................... 12
Hình 1. 4. Thống kê sự phát triển ngày càng tăng của Twitter và Facebook[6] ................ 15
Hình 1. 5. Thông tin xã hội được biểu diễn bằng ma trận user - user S[6] ........................ 16
Hình 1. 6. Dự đoán liên kết bằng cách sử dụng vector đặc trưng cho mỗi cặp người
dùng[6]................................................................................................................................ 17
Hình 2. 1. Đồ thị kết nối xã hội [11] .................................................................................. 28
Hình 2. 2. Ma trận user-item tương ứng[11] ...................................................................... 28
Hình 2. 3. Ma trận dự đoán đánh giá user-item[11] ........................................................... 28
Hình 2. 4. Ví dụ người dùng kết nối xã hội với sở thích tương tự. .................................... 31
Hình 3. 1. Một mô hình tư vấn trên phương tiện xã hội Facebook. ................................... 43
Hình 3. 2. Một đoạn dữ liệu mẫu........................................................................................ 45
Hình 3. 3. Một đoạn dữ liệu đã gán nhãn quan điểm của người dùng. .............................. 46
Hình 4. 1. Một đoạn dữ liệu về các comment của sản phẩm tách được ............................. 52
Hình 4. 2. Thông tin người dùng thu thập được ................................................................. 52
Hình 4. 3. Kết quả xếp hạng người dùng............................................................................ 53
Hình 4. 4. Kết quả thực nghiệm cho hạng của sản phẩm. .................................................. 54
viii
Mở đầu
Ngày nay, các phương tiện xã hội phát triển rất nhanh chóng, tăng theo cấp số
nhân. Với sự phát triển đó, phương tiện xã hội cũng đã góp phần làm giàu nguồn tài
nguyên thông tin cho khai phá dữ liệu, mở ra miền dữ liệu mới, đa dạng hơn cho khai phá
dữ liệu. Theo số liệu thống kê4, đến cuối tháng 9 năm 2014, số người dùng tích cực trên
trang mạng xã hội này là 1,35 tỷ người, tăng 14% so với cùng kỳ năm 2013. Với Twitter,
số lượng các Tweet sinh ra trong một ngày đạt mức 400 triệu (tính đến tháng 6 năm 2012,
theo Dave Feinlenib5). Số lượng người dùng trong mạng tăng, dẫn đến số lượng các kết
nối giữa các người dùng với nhau cũng tăng lên đáng kể. Điều này cho thấy tiềm năng
khai phá dữ liệu trên các phương tiện xã hội là rất lớn. Bên cạnh đó, nó kéo theo vấn đề
quá tải thông tin, gây khó khăn không nhỏ cho việc thực hiện khai phá dữ liệu cũng như
thực hiện các ứng dụng liên quan, trong đó có hệ tư vấn. Các hệ thống tư vấn truyền
thống thướng dựa vào đánh giá của các chuyên gia với các bộ tiêu chuẩn cụ thể, hoặc dựa
vào các đánh giá của người dùng. Tuy nhiên, với lượng dữ liệu khổng lồ và phong phú
như vậy thì số lượng chủng loại, lĩnh vực là rất lớn. Như vậy, hệ tư vấn chỉ dựa vào con
người không thể đảm đương nổi. Trong thực tế, khi cần tham khảo ý kiến của người khác,
chúng ta thường tìm đến bạn bè, người thân để nghe họ tư vấn. Phương pháp này tuy độ
chính xác có thể cao nhưng yêu cầu về tính nhanh chóng lại không thể đáp ứng ngay tức
thì.
Hệ tư vấn giúp cho người dùng hiểu hơn về các sản phẩm của doanh nghiệp, hay
giúp cho người dùng thao tác tốt hơn các dịch vụ trực tuyến. Từ đó giúp cho các doanh
nghiệp, các nhà cung cấp dịch vụ cải tiến tốt hơn hệ thống của mình để đảm bảo hài lòng
chủ quan của khách hàng, mở rộng số lượng người dùng quan tâm, quảng bá thương hiệu,
hình ảnh của doanh nghiệp, dịch vụ… Mục tiêu của bài toán tư vấn là đưa ra các gợi ý có
thể sát nhất với sở thích, sự quan tâm của người dùng.
Khóa luận này đề cập tới hệ tư vấn có sử dụng ngữ cảnh xã hội, bao gồm ngữ cảnh
xã hội toàn cục, cục bộ. Ngữ cảnh xã hội toàn cục xét đến danh tiếng của người dùng
trong toàn mạng xã hội. Ngữ cảnh xã hội cục bộ xét đến quan hệ bạn bè, hàng xóm, chỉ k
láng giếng gần nhất của người dùng. Hướng tiếp cận này được dựa trên những nghiên
cứu gần đây của Jiliang Tang và cộng sự [18].
Nội dung của khóa luận được chia thành các chương như sau:
Chương 1: Khóa luận giới thiệu khái quát về hệ tư vấn truyền thống cũng như hệ
tư vấn xã hội, đồng thời khóa luận cũng trình bày một số phương pháp để giải quyết bài
4
5
/>
1
toán tư vấn truyền thống và bài toán tư vấn xã hội. Ngoài ra, chương này cũng nêu lên cái
nhìn tổng quan về xu hướng phát triển của một số phương tiện xã hội phổ biến hiện nay
như Twitter, Facebook…Từ đó chúng ta có thể thấy được tiềm năng khai thác mạng xã
hội để sử dụng vào hệ tư vấn trên phương tiện xã hội.
Chương 2: Khóa luận trình bày chi tiết phương pháp ma trận nhân tử trong tư vấn
cũng như tiềm năng khai thác ngữ cảnh trên phương tiện xã hội trong tư vấn. Nổi bật nhất
là trong chương này là đề cập đến ý tưởng thực hiện việc khai thác ngữ cảnh vào hệ tư
vấn được áp dụng trong khóa luận.
Chương 3: Khóa luận trình bày về tư tưởng chính của phương pháp thực hiện bài
toán tư vấn trên phương tiện xã hội Facebook. Đồng thời, khóa luận giới thiệu chi tiết các
pha cũng như từng bước thực hiện trong mô hình giới thiệu với miền dữ liệu là tập các
đánh giá sản phẩm điện thoại thông minh của Samsung.
Chương 4: Khóa luận trình bày một số thực nghiệm việc đưa ra sản phẩm tư vấn
dưuạ trên các đánh giá của người dùng và một số đặc trưng với miền sản phẩm điện thoại
di động thông minh của Samsung. Kết quả thực nghiệm cho kết quả sai số trung bình
tuyệt đối chuẩn xấp xỉ 0.13, chứng tỏ mô hình thực nghiệm cho kết quả tốt.
Phần kết luận: Tóm lược kết quả đạt được của khóa luận và định hướng phát
triển tương lai.
2
Chương 1. Giới thiệu chung về hệ tư vấn và tư vấn xã hội
1.1.
Hệ tư vấn truyền thống
1.1.1.
Giới thiệu chung về hệ tư vấn
Hệ tư vấn (recommender system hay recommendation system, còn được gọi là hệ
gợi ý) là công cụ phần mềm và kỹ thuật cung cấp các tư vấn về các mục (item; mục có
thể là sản phẩm, dịch vụ...) được sử dụng cho một người dùng [12]. Các tư vấn liên quan
đến quá trình ra các quyết định khác nhau như nên mua sản phẩm nào, nên nghe loại nhạc
nào, hoặc nên đọc các tin tức trực tuyến (on-line) nào v.v.
Mục là tập nội dung đã được sử dụng để biểu thị những gì mà hệ thống tư vấn cung
cấp cho người dùng. Một hệ tư vấn truyền thống thường tập trung tư vấn một mục nhất
định (ví dụ, đĩa CD, tin tức) và có thiết kế phù hợp, giao diện đồ họa và các lõi kỹ thuật
tư vấn được sử dụng để cung cấp các tư vấn hữu ích và hiệu quả cho từng loại mục cụ thể.
Hệ tư vấn thường hướng tới tính cá nhân hóa. Một trường hợp điển hình là một
cuốn sách được hệ thống tư vấn cho người dùng lựa chọn để đọc. Một trong các trang
Web nổi tiếng là Amazon.com, các trang Web sử dụng một hệ thống tư vấn để cá nhân
hóa các cửa hàng trực tuyến cho mỗi khách hàng. Từ khi hệ thống tư vấn được cá nhân
hóa, những người dùng khác nhau hoặc các nhóm người dùng sẽ nhận được các tư vấn
khác nhau. Ngoài ra, cũng có những tư vấn không mang tính cá nhân. Đặc biệt là trong
tạp chí, báo.
Trong trường hợp đơn giản nhất, tư vấn cho người dùng thường dựa vào danh sách
xếp hạng của các tập mục (sản phẩm). Trong phương pháp xếp hạng này, hệ tư vấn cố
gắng dự đoán những mục hoặc dịch vụ phù hợp nhất, dựa trên sở thích của người dùng.
Để có thể gợi ý tốt nhất cho người dùng, hệ tư vấn thu thập sở thích của người dùng, ví
dụ như dựa vào bảng xếp hạng cho các mục hoặc được suy ra bằng cách phân tích lịch sử
hành vi mua, đánh giá mục của người dùng.
Hệ tư vấn được phát triển từ một quan sát khá đơn giản: chúng ta thường đưa ra các
lựa chọn dựa trên các tư vấn được cung cấp bởi những người xung quanh trong cuộc sống
thường ngày, các quyết định hàng ngày. Ví dụ, chúng ta thường dựa vào những gì mà
đồng nghiệp của mình khuyên khi lựa chọn một cuốn sách để đọc; người sử dụng lao
động thường dựa vào người viết thư giới thiệu của ứng viên để đưa ra quyết định tuyển
dụng; và khi lựa chọn một bộ phim để xem, người dùng có xu hướng tìm và dựa vào các
phim có nhận xét của một nhà phê bình phim và xuất hiện trong các trang báo mà họ đọc.
Như đã đề cập ở trên, nghiên cứu về hệ thống tư vấn xã hội là tương đối mới so với
nghiên cứu các công cụ, hệ thống tư vấn và kỹ thuật cổ điển khác (ví dụ, cơ sở dữ liệu
3
hoặc công cụ tìm kiếm). Hệ thống tư vấn phát triển lên như một lĩnh vực nghiên cứu độc
lập vào giữa thập niên 90.. Trong những năm gần đây, sự quan tâm về hệ tư vấn đã tăng
lên đáng kể, các sự kiện sau đây chứng minh điều đó [12]:
1. Hệ tư vấn đóng vai trò quan trọng trong các trang web như các trang internet được
đánh giá cao như: Amazon.com, Youtube, Netflix, Yahoo….Hơn nữa, nhiều công
ty truyền thông đang phát triển và triển khai các hệ tư vấn như là một phần của các
dịch vụ mà họ cung cấp cho các thuê bao của họ. Ví dụ Netflix, dịch vụ cho thuê
phim trực tuyến, trao tặng một giải thưởng 1.000.000 đô la cho đội đầu tiên thành
công trong việc cải tiến đáng kể hiệu suất của hệ thống tư vấn của họ.
2. Các hội nghị, hội thảo chuyên nghiên cứu về lĩnh vực này đã được tổ chức. Đặc
biệt là ACM Recommender Systems (RecSys), thành lập năm 2007 và hiện giờ
đây là sự kiện được tổ chức thường niên vào đầu mỗi năm trong nghiên cứu công
nghệ tư vấn và các ứng dụng liên quan. Ngoài ra, các buổi trao đổi dành riêng cho
hệ tư vấn thường được đề cập trong các hội nghị truyền thống hơn trong lĩnh vực
cơ sở dữ liệu, hệ thống thông tin và hệ thống thích nghi. Trong số các hội nghị,
đáng được nhắc đến nhất là ACM SIGIR Special Interest Group on Information
Retrieval, mô hình hóa người dùng, thích ứng và cá nhân (UMAP), và ACM’s
Special Interest Group on Management of Data (SIGMOD).
3. Tại các tổ chức giáo dục đại học trên khắp thế giới, đại học và sau đại học có các
khóa học được tập trung hoàn toàn vào hệ tư vấn; hướng dẫn về hệ tư vấn rất phổ
biến tại các hội nghị khoa học máy tính; và gần đây là một số cuốn sách giới thiệu
các kỹ thuật tư vấn đã được xuất bản, chẳng hạn [12, 18].
4. Đã có một số công bố đặc biệt trong tạp chí khoa học bao gồm các nghiên cứu và
phát triển trong lĩnh vực hệ tư vấn. Trong số các tạp chí có những công trình
chuyên về hệ tư vấn như: hệ truyền thông AI (2008), hệ thống thông minh
IEEE(2007), tạp chí quốc tế về thương mại điện tử (2006), tạp chí quốc tế về khoa
học và ứng dụng (2006), giao dịch trên máy tính ACM tương tác người – máy
(2005), và giao dịch ACM trên hệ thống thông tin.
Từ những dẫn chứng đã được nói ở trên, chúng ta đã có được một cái nhìn tổng
quan, toàn diện về hệ tư vấn. Trong mục tiếp theo, tôi xin trình bày nội dung bài toán
trong hệ tư vấn truyền thống.
1.1.2. Bài toán tư vấn truyền thống
Theo Adomavicius và Tuzhilin [4], trong hầu hết các trường hợp, bài toán tư vấn
được coi là bài toán ước lượng trước hạng (rating) của các mục (phim, đĩa CD, nhà hàng,
sách…) chưa được người dùng xem xét. Việc ước lượng này thường dựa trên những đánh
giá đã có của chính người dùng đó hoặc từ những người dùng khác. Những mục có hạng
cao sẽ được dùng để tư vấn.
4
Một cách hình thức, bài toán tư vấn được mô tả như sau [4]:
Cho tập người dùng U = {u1, u2, …, un} và tập mục V = {v1, v2, …, vm}, trong đó n
là số lượng người dùng, m là số lượng mục. Một người dùng ui đánh giá một tập mục với
một số điểm nào đó. Chúng ta sử dụng R nm là ma trận đánh giá, trong đó Rij là điểm
số được đánh giá nếu người dùng ui đánh giá mục vj, trong các trường hợp còn lại chúng
tôi sử dụng dấu “?” để biểu diễn điểm số của mục chưa được đánh giá. Thường thì ma
trận đánh giá rất thưa, điều đó cho thấy có rất nhiều đánh giá chưa biết trong R. ví dụ,
theo [4, Sarwar và cộng sự, 2001] nhận định rằng các mật độ của ma trận đánh giá trong
hệ thống tư vấn thường ít hơn 1% . Nếu mục vj có thuộc tính, chúng tôi sử dụng xj
là đại diện của vj trong đó là số thuộc tính. Nhiệm vụ của hệ thống tư vấn là dự
đoán hạng mà người dùng ui đánh giá một mục vj chưa được đánh giá hoặc giới thiệu một
số mục cho người dùng nhất định, ví dụ, để dự đoán hạng chưa biết trong R dựa trên
hạng nổi tiếng.
1.1.3. Phân loại hệ tư vấn
Có rất nhiều cách để dự đoán, ước lượng hạng/điểm cho các mục như sử dụng học
máy SVM, lý thuyết xấp xỉ, các thuật toán dựa trên kinh nghiệm… Theo [2], dựa trên
cách dùng để ước lượng hạng của mục, các hệ thống tư vấn thường được phân thành 3
loại chính:
o Dựa trên nội dung (Content-based): người dùng được tư vấn những mục
tương tự như các mục từng được họ đánh giá cao.
o Dựa trên lọc cộng tác(Collaborative filtering based): người dùng được tư
vấn những mục mà những người có cùng sở thích với họ đánh giá cao.
o Lai (Hybrid, hoặc kết hợp): Kết hợp cả hai phương pháp trên để tư vấn cho
người dùng.
5
1.1.3.1. Phương pháp dựa trên nội dung
Hình 1. 1. Tư vấn dựa trên nội dung
Hệ tư vấn dựa trên nội dung có nguồn gốc từ truy hồi thông tin(information
retrieval) nghiên cứu và lọc thông tin (information fitlering). Hệ tư vấn gợi ý các mục
tương tự như những thứ mà người dùng yêu thích trong quá khứ. Hầu hết các hệ thống tư
vấn dựa trên nội dung hiện nay tập trung vào tư vấn các mục là các văn bản thông tin như
tin tức, sách và tài liệu [2]. Nội dung trong các hệ thống thường được mô tả bằng các từ
khóa k và thông tin của mỗi từ khóa trong tài liệu thường được tính bởi trọng số TFIDF.
Trọng số TF của một từ khóa trong một tài liệu cho biết tần suất của từ khóa trong tài liệu,
trong khi trọng số IDF xác định nghịch đảo tần số của các từ khóa trong tài liệu.
Điểm tiến bộ so với phương pháp tiếp cận cũ là hiện nay, hệ tư vấn có sử dụng hồ
sơ về người dùng (thông tin về sở thích, nhu cầu, …). Hồ sơ này xây dựng được dựa trên
những thông tin được người dùng cung cấp thông qua đánh giá qua các khảo sát (cung
cấp trực tiếp) hoặc thông qua lịch sử giao dịch của người dùng (gián tiếp).
Theo [5], tập người dùng và mục được biểu diễn dưới dạng các vector. ij,k biểu diễn
trọng số của từ khóa k trong mục vj và nội dung của vj có thể được biểu diễn bởi Ij = (ij,1,
ij,2, …, ij,k); uj,k biểu diễn hồ sơ của người dùng với từ khóa k mà một người dùng ui sử
dụng khi đánh giá một mục nào đó trong quá khứ. Khi đó, tập người dùng ui sau khi gán
trọng số được biểu diễn bởi vector Ui = (ui,1, ui,2, …, ui,k). Để tính độ tương tự giữa người
dùng i và mục j, có thể sử dụng độ tương đồng cosin giữa hai vector Ui và Ij:
(1.1)
6
Trong hệ tư vấn dựa trên nội dung, chúng ta tính toán để lấy một danh sách các
mục có độ tương tự cao và sau đó tư vấn những mục này cho người dùng.
Ngoài ra, hệ tư vấn dựa trên nội dung còn sử dụng các phương pháp phân lớp,
phân cụm truyền thống khác như: phân lớp Bayes, cây quyết định, mạng nơron nhân
tạo…
1.1.3.2. Phương pháp lọc cộng tác
Giả định cơ bản của bộ lọc cộng tác là nếu người dùng đã đồng ý với nhau trong
quá khứ, thì họ có nhiều khả năng đồng ý với nhau trong tương lai hơn là đồng ý với
người dùng được lựa chọn ngẫu nhiên. Đồng ý với nhau ở đây có nghĩa là, người dùng đã
chấp nhận tư vấn từ người dùng khác, và dữ liệu này đã được lưu trong cơ sở dữ liệu của
hệ thống để phục vụ cho việc tư vấn sau này. Bằng phương pháp này, hệ thống cộng tác
dự đoán độ phù hợp của một mục v với người dùng u dựa trên độ tương đồng giữa người
dùng uj và v, trong đó, uj là người dùng có cùng sở thích với u. Ví dụ, để tư vấn một bộ
phim cho người dùng u, đầu tiên hệ thống sẽ tìm những người có cùng sở thích phim ảnh
với u. Sau đó, những bộ phim mà những người dùng này đánh giá cao sẽ được dùng để tư
vấn cho u.
Lọc cộng tác sử dụng một ma trận user-item, trong đó các phần tử của ma trận
biểu thị hạng mà người dùng đánh giá mục tương ứng hoặc có giá trị rỗng khi người dùng
chưa đánh giá. Ví dụ, ma trận user-item dưới đây cho biết hạng của một số phim hoạt
hình:
Lion King
Aladdin
Mulan
Anastasia
John
3
0
3
3
Joe
5
4
0
2
Jill
1
2
4
2
Jane
3
?
1
0
Jorge
2
2
0
1
Bảng 1. Ma trận user-item
Trong ví dụ trên, đánh giá theo thang điểm 5, trong đó 5 là tốt nhất, 0 là xấu nhất,
nếu một thực thể (i,j) trong ma trận user-item được đánh giá là 4 có nghĩa là người dùng i
thích mục j. Dấu “?” để chỉ vị trí mà hệ tư vấn dự đoán đánh giá mục.
Hiện nay, phương pháp lọc cộng tác được phân loại thành phương pháp dựa trên
kinh nghiệm (memory-based) và phương pháp dựa trên mô hình (model-based).
7
Hình 1. 2. Tư vấn dựa trên lọc cộng tác
a. Hệ thống cộng tác dựa trên kinh nghiệm
Lọc cộng tác dựa trên kinh nghiệm thường dựa vào lịch sử các giao dịch của người
dùng trong quá khứ. Lọc cộng tác dựa trên kinh nghiệm, có thể xảy ra một trong các
trường hợp sau (hoặc cả hai):
o Người dùng với xếp hạng tương tự trước cho mục có khả năng đánh giá các mục
tương tự trong tương lai.
o Mục đã được xếp hạng tương tự trước đó từ người dùng có khả năng nhận được
xếp hạng tương tự từ những người dùng trong tương lai.
Với giả định đầu tiên, các kỹ thuật dựa trên kinh nghiệm là một thuật toán lọc cộng
tác dựa trên người dùng, và với giả định thứ hai, đó là một thuật toán lọc cộng tác dựa
trên sản phẩm. Trong cả hai trường hợp, người dùng(hoặc mục) cộng tác với nhau giúp
lọc ra nội dung không liên quan(người dùng khác hoặc mục khác). Để xác định sự tương
đồng giữa người dùng hoặc các mục, trong lọc cộng tác, hai biện pháp tính toán thường
được sử dụng là độ tương đồng Cosine và độ tương quan Pearson. Tuy nhiên, phổ biến
hơn cả vẫn là độ tương đồng Cosin. Đặt ru,i là hạng mà người dùng u đánh giá mục i, ru
là trung bình các đánh giá của người dùng u.
tương đồng Cosine giữa người dủng u và v là:
là trung bình các đánh giá của mục i. Độ
(1.2)
8
Như đã đề cập ở trên, hệ thống lọc cộng tác dựa trên kinh nghiệm có thể được
phân thành hai loại:
o Lọc cộng tác dựa trên người dùng (user-based)
o Lọc cộng tác dựa trên mục (item-based)
i)
Lọc cộng tác dựa trên người dùng
Trong phương pháp này, chúng tôi dự đoán hạng của người dùng u cho mục i bằng
cách tìm những người dùng tương tự nhất với u và sử dụng kết hợp hạng của những
người dùng cho mục i như đánh giá dự đoán của người dùng u cho mục i. Bỏ qua nhiễu
và hiệu quả tính toán, chúng tôi giới hạn số lượng người tương đồng bởi một con số cụ
thể. Những người tương đồng nhất với người dùng u được gọi là hàng xóm của u, ký hiệu
là N(u). Trong lọc cộng tác dựa trên người dùng, hạng của người dùng u cho mục i được
tính bởi công thức:
(1.4)
Trong đó số người dùng là hàng xóm của u là N(u) được xác định trước. Ví dụ, N(u) là
top 10 người tương đồng nhất với u.
Ví dụ, với dữ liệu đã cho ở bảng 1, rJane, Aladdin là chưa được xác định. Trung bình các
đánh giá của người dùng được tính như sau:
John =
,
Jill =
,
Joe =
Jane =
,
Jorge =
Sử dụng độ tương đồng Cosin, ta tính toán được độ tương đồng của Jane và những
người khác như sau:
sim(Jane, John) =
sim(Jane, Joe) =
sim(Jane, Jill) =
= 0.48, sim(Jane, Jorge) =
Bây giờ, giả sử số hàng xóm của Jane là 2, thì Jorge và Joe là hai người có độ tương
đồng gần với Jane nhất. Vì vậy, đánh giá của Jane cho Aladdin được tính từ lọc cộng tác
dựa trên người dùng sẽ là:
rJane,Aladdin
=
Jane
9
+
+
= 1.33 +
ii)
Lọc cộng tác dựa trên nội dung
Với phương pháp này, chúng ta tính toán đánh giá trung bình của mỗi người dùng
khác nhau và tìm những người dùng tương đồng nhất cho người mà chúng ta đang tìm
kiếm các tư vấn. Tuy nhiên, hầu hết các hệ thống trực tuyến, người dùng không có quá
nhiều đánh giá, vì vậy, giá trị trung bình và độ tương tự có thể không đáng tin cậy. Điều
này thường có kết quả khác nhau về độ tương đồng người dùng khi có đánh giá mới được
thêm vào hệ thống. Nói cách khác, hệ thống thường có nhiều đánh giá và trung bình các
đánh giá và độ tương đồng giữa chúng có thể ổn định hơn. Trong lọc cộng tác dựa trên
nội dung, chúng ta thực hiện lọc cộng tác bằng cách tìm các sản phẩm tương tự nhất.
Đánh gảá của người dùng u cho mục i được tính bởi công thức:
(1.5)
Trong đó,
i
và
j tương
ứng là giá trị trung bình đánh giá của mục i, j.
Ví dụ trong bảng 1, đánh giá của Jane với Aladdin đang còn trống. Giá trị trung bình các
đánh giá của mỗi mục(bộ phim) là:
Lion King =
,
Mulan =
= 1.6,
Aladdin =
Anastasia =
= 1.6
Sử dụng độ tương đồng Cosin, độ tương tự giữa Aladdin với các mục khác được
tính như sau:
sim(Aladdin, Lion King) =
sim(Aladdin, Mulan) =
sim(Aladdin, Anastasia) =
Giả sử N(u) là 2, thì Lion King và Anastasia là hai hàng xóm có độ tương tự gần nhất với
Aladdin. Vì vậy, đánh giá của Jane với Aladdin được tính từ phương pháp lọc cộng tác
dựa trên mục là:
rJane,Aladdin =
Aladdin
+
10
+
=2+
b) Hệ thống cộng tác dựa trên mô hình
Phương pháp lọc cộng tác dựa trên mô hình giả sử có một mô hình để tạo ra các
đánh giá và áp dụng các kỹ thuật khai phá dữ liệu và học máy từ tập dữ liệu huấn luyện,
cái mà có thể được sử dụng để đưa ra dự đoán cho xếp hạng chưa biết. Trong phương
pháp dựa trên mô hình, mục đích chính là dự đoán hạng chưa biết dựa trên độ tương đồng
giữa các người dùng hoặc các mục. Trong phương pháp này, giả sử rằng có một mô hình
cơ bản điều chỉnh đánh giá của người dùng. Chúng tôi mong muốn nghiên cứu một mô
hình và sau đó sử dụng mô hình để dự đoán hạng chưa được đánh giá. Có rất nhiều
phương pháp lọc cộng tác dựa trên học máy như các kỹ thuật học máy(mạng nơtron nhân
tạo) và các kỹ thuật trích chọn đặc trưng (SVD – một kỹ thuật đại số nhằm làm giảm số
chiều của ma trận) có thể được sử dụng.
SVD là một kỹ thuật đại số tuyến tính, cho một ma trận thực X mn , m ≥ n, nhân
tử thành 3 ma trận, X=U VT . Trong đó, U mm và V mn là các ma trận trực giao
và ∑ mn là ma trận chéo. Các mục của những ma trận tương đương với ma trận ban
đầu, do đó, không có thông tin bị mất. Do đó, quá trình này gọi là lossless.
Hệ thống tư vấn dựa trên lọc cộng tác có thể vượt qua nhiều thiếu sót của hệ tư vấn
dựa trên nội dung. Ví dụ, hệ tư vấn dựa trên lọc cộng tác sử dụng thông tin đánh giá, do
vậy, chúng phụ thuộc vào tên miền, và có thể tư vấn cho bất kỳ mục nào. Tuy nhiên, hệ
tư vấn dựa trên lọc cộng tác có những hạn chế riêng như vấn đề bắt đầu nguội(cold-start)
(mục mới hoặc người dùng mới) và vấn đề dữ liệu thưa.
1.1.3.3. Phương pháp lai
Để tránh các hạn chế trong phương pháp lọc cộng tác và dựa vào nội dung, các tiếp
cận kết hợp cả hai phương pháp trên được sử dụng. Có thể được chia thành 3 loại kết hợp
như sau [4]:
o Cài đặt hai phương pháp riêng rẽ sau đó kết hợp dự đoán của chúng.
o Tích hợp các đặc trưng của phương pháp dựa trên nội dung vào phương
pháp lọc cộng tác dựa trên mô hình.
o Tích hợp các đặc trưng của phương pháp lọc cộng tác vào mô hình dựa vào
nội dung.
11
Hình 1. 3. Tư vấn dựa trên phương pháp lai
i)
Kết hợp hai phương pháp riêng rẽ
Theo chiến lược này, các phương pháp dựa vào nội dung và dựa trên lọc cộng tác
được thực hiện một cách riêng rẽ và sau đó, kết hợp các dự đoán của chúng lại để có
những tư vấn cuối cùng. Nhiều cách khác nhau được đề xuất; Jiliang Tang và cộng sự [4]
giới thiệu cách dựa trên một chương trình bỏ phiếu của Pazzani (1999) và cách kết hợp
tuyến tính các đánh giá của Claypool và cộng sự (1999), để kết hợp dự đoán từ phương
pháp dựa vào nội dung và dựa vào lọc cộng tác.
ii) Thêm đặc trưng của mô hình dựa trên nội dung vào mô hình cộng tác
Hệ thống sử dụng chiến lược dựa vào nội dung hồ sơ người dùng và các mục
thường được đánh giá để tính điểm tương đồng giữa các người dùng với nhau. Những hệ
thống này có thể khắc phục vấn đề dữ liệu thưa của phương pháp lọc cộng tác và tư vấn
các mục trực tiếp khi hạng của mục cao so với hồ sơ của người dùng.
iii) Thêm đặc trưng của mô hình cộng tác vào mô hình dựa trên nội dung
Phương pháp phổ biến nhất trong chiến lược này là sử dụng một kỹ thuật giảm số
chiều trên tập hồ sơ người dùng của phương pháp dựa trên nội dung. Ví dụ, theo Jiliang
Tang và cộng sự [4], Soboroff và Nicholas (1999) sử dụng phân tích ngữ nghĩa ẩn để tạo
ra cái nhìn cộng tác với tập hồ sơ người dùng (mỗi hồ sơ được biểu diễn bởi một từ khóa
vector), giúp tăng hiệu quả tư vấn so với phương pháp tiếp cận dựa trên nội dung thuần
túy.
1.1.4. Các thách thức trong hệ tư vấn.
Hệ tư vấn có nhiều thách thức, một trong số đó được đề cập ở dưới đây:
12
1.1.4.1. Vấn đề bắt đầu nguội
Nhiều hệ tư vấn sử dụng thông tin dữ liệu hoặc thông tin được cung cấp bởi người
dùng để tư vấn các mục, nhà sản xuất và những mục được yêu thích. Tuy nhiên, khi một
người dùng lần đầu truy cập vào trang web, họ chưa hề mua bất cứ một mục nào: họ chưa
có lịch sử truy cập. Điều này tạo ra khó khăn khi muốn cung cấp những thông tin mà
người dùng đó có thể sẽ thích khi họ bắt đầu truy cập vào một trang web. Vấn đề này
được gọi là vấn đề bắt đầu nguội (Cold-start Problem). Như ví dụ sau, người dùng truy
cập vào một cửa hàng cho thuê phim trực tuyến. Cửa hàng này không có ý tưởng gì để đề
xuất cho người dùng hơn là để họ tự xem và vì vậy không thể có bất kỳ tư vấn nào phù
hợp với sở thích của người dùng. Để địa chỉ này được lưu lại, trang mạng thường yêu cầu
người dùng đánh giá một vài bộ phim trước khi họ bắt đầu tư vấn những bộ phim khác
cho người dùng đó. Những trang mạng khác yêu cầu người dùng điền thông tin cá nhân
như sở thích. Thông tin này được máy chủ (server) xử lý và làm đầu vào cho thuật toán
tư vấn.
1.1.4.2. Dữ liệu thưa
Tương tự với vấn đề bắt đầu nguội, dữ liệu thưa (Data sparsity) xảy ra khi thông tin
đánh giá của người dùng chưa có. Khác với vấn đề bắt đầu nguội, dữ liệu thưa thường do
hệ thống. Không phải tất cả các người dùng đều tham gia đánh giá tất cả các sản phẩm.
Xảy ra dữ liệu thưa khi mà người dùng tham gia đánh giá ít sản phẩm. Nói cách khác, số
lượng sản phẩm được đánh giá bởi người dùng quá ít.
1.1.4.3. Các cuộc tấn công
Hệ tư vấn có thể bị tấn công (Attacks) để tư vấn mục khác không được đề nghị.
Trong trường hợp này, xem xét một hệ thống tư vấn mục dựa vào các đánh giá tương tự
(ví dụ ống kính A được tư vấn cho camera B bởi vì cả hai đều có đánh giá là 4). Bây giờ,
một kẻ tấn công có hiểu biết về thuật toán tư vấn có thể tạo một tài khoản người dùng ảo
và đánh giá ống kính C (mục này không tốt hơn ống kính A) cao và có thể được đánh giá
ở mức 4. Bằng cách này, hệ tư vấn sẽ đề xuất C với camera B cũng tốt như A. Đính kèm
này được gọi là “push attack” (đẩy tấn công), bời vì nó đẩy hạng cao lên để hệ thống bắt
đầu tư vấn mục khác và những mục khác thì không nên được đề xuất.
1.1.4.4. Quyền riêng tư
Có nhiều thông tin trong một hệ thống tư vấn có về người dùng, hệ tư vấn tốt hơn
cung cấp cho nhiều người dùng. Tuy nhiên, người dùng thường tránh tiết lộ thông tin của
mình. Do đó mà đây là một thách thức trong bảo vệ quyền riêng tư (Privacy) của người
dùng.
13
1.1.4.5. Giải thích
Hệ tư vấn thường đề nghị các mục mà bỏ qua giải thích (Explantion) tại sao chúng
làm vậy. Ví dụ, khi một vài mục được mua cùng nhau bởi nhiều người dùng, hệ thống sẽ
tư vấn cho những người dùng mới các sản phẩm nên mua cùng nhau. Tuy nhiên, hệ thống
không biết tại sao những sản phẩm ấy lại được mua cùng nhau. Người dùng có thể cho
nhiều lý do để mua các sản phẩm cùng nhau.
1.2.
Tư vấn xã hội
1.2.1. Phương tiện xã hội
Với sự gia tăng của phương tiện truyền thông xã hội, các trang web đã trở thành
một lĩnh vực truyền thông xã hội sôi động và linh hoạt, trong đó tỷ lệ các cá nhân trên
toàn thế giới tương tác, chia sẻ bài viết, và thực hiện nhiều hoạt động hàng ngày là rất lớn.
Phương tiện xã hội cho phép chúng ta được kết nối và tương tác với nhau ở bất cứ đâu và
bất cứ lúc nào; quan sát hành vi của mọi người một cách tổng thể với cách nhìn mới.
Cách nhìn mới của phương tiện xã hội này cho chúng ta cơ hội để hiểu các cá nhân ở một
mức độ nhất định và để cái tôi của con người thực hiện các hành vi nếu có thể. Phương
tiện xã hội có thể được coi là một thế giới của các nguyên tử xã hội(ví dụ, cá nhân), các
thực thể(ví dụ: nội dung, các trang web, trang mạng…) và tương tác giữa các cá nhân và
thực thể.
Phương tiện xã hội là sự tương tác xã hội giữa con người với nhau. Ở đó, chúng ta
có thể tạo, chia sẻ hoặc thay đổi thông tin, quan điểm, hình ảnh, video trong không gian
giao tiếp và mạng ảo. Việc sử dụng phổ biến của phương tiện xã hội tạo ra thông tin xã
hội với một tốc độ chưa từng có.Ví dụ, Facebook, mạng xã hội tạo ra 35,000,000 mối
quan hệ bạn bè trực tuyến, số người dùng phổ biến trên Twitter lên đến 37,974,138 người
theo dõi(follower)[4]. Ngoài ra, hiện nay còn có các trang mạng xã hội phổ biến, được
nhiều người dùng quan tâm như Youtube, Google+…
14
Hình 1. 4. Thống kê sự phát triển ngày càng tăng của Twitter và Facebook[6]
Sự phát triển nhanh chóng của các phương tiện xã hội cung cấp một lượng dữ liệu
khổng lồ cho bài toán khai phá dữ liệu. Từ đó, ta có thể thu thập dữ liệu để bổ sung vào
kho dữ liệu đã có, làm giàu thông tin, cung cấp nhiều tiềm năng cho hệ tư vấn.
1.2.2. Khái niệm tư vấn xã hội
Định nghĩa về tư vấn xã hội
Theo Jiliang Tang và cộng sự [4], tư vấn xã hội được Kautz và cộng sự nghiên cứu
lần đầu tiên vào năm 1997 và đã thu hút được sự chú ý ngày càng tăng với sự phổ biến
ngày càng lớn của phương tiện xã hội. Tuy nhiên, chưa có một khái niệm nào được tuyên
bố chính thức. Tư vấn xã hội được định nghĩa trên hai khía cạnh: theo định nghĩa hẹp và
theo định nghĩa rộng [4].
Theo nghĩa hẹp, tư vấn xã hội là hệ tư vấn truyền thống có sử dụng các quan hệ xã
hội trực tuyến như là một đầu vào bổ sung (chẳng hạn, tăng cường một tư vấn hiện có
nhờ các dấu hiệu xã hội bổ sung). Tư vấn xã hội có thể là quan hệ niềm tin, quan hệ bạn
bè, quan hệ thành viên hoặc quan hệ theo dõi. Trong định nghĩa này, hệ thống tư vấn xã
hội giả định rằng người dùng có liên quan với nhau khi họ thiết lập một mối quan hệ xã
hội [11]. Ví dụ, sở thích của người dùng có thể sẽ tương đương hoặc bị ảnh hưởng bởi kết
nối bạn bè của họ. Theo giả thiết này, tư vấn xã hội thúc đẩy mối tương quan sử dụng
hàm ẩn bởi mối quan hệ xã hội để cải thiện hiệu suất của tư vấn.
Theo định nghĩa rộng, tư vấn xã hội là hệ tư vấn bất kỳ hướng tới lĩnh vực phương
tiện xã hội. Định nghĩa rộng đề cập tới: (1) tư vấn về đối tượng bất kỳ trong phương tiện
xã hội: mục(như định nghĩa hẹp), thẻ(tag), người, cộng đồng; (2) sử dụng không chỉ quan
hệ xã hội mà mọi dữ liệu phương tiện sẵn có như gán thẻ xã hội, tương tác người dùng,
hành vi kích chuột...
15
1.2.3. Các bài toán chính trong tư vấn xã hội
Người dùng trên phương tiện xã hội được mô tả bằng 3 loại thông tin: thông tin xã
hội, thông tin nội dung, thông tin địa điểm. Trong đó, loại thông tin xã hội bao gồm các
thông tin như: bạn bè, người theo dõi, “người bị theo dõi”…Loại thông tin nội dung bao
gồm các thông tin như: tin tức, thẻ, nhạc…mà người đó quan tâm, yêu thích. Thông tin
địa điểm gồm: địa điểm địa lý, POIs – Point(s) Of Interest (địa điểm tham quan). Từ 3
loại thông tin trên mà tư vấn xã hội đặt ra 3 nhiệm vụ (bài toán) chính: tư vấn bạn bè
(Friend recommendation), tư vấn nội dung (Content recommendation), tư vấn địa điểm
(Location recommendation). Với mỗi loại tư vấn sẽ có những nhiệm vụ, giải pháp và
cách tiếp cận khác nhau để giải quyết chúng.
Do hạn chế về thời gian và không gian, trong khóa luận tôi xin tập trung trình bày
cụ thể về bài toán tư vấn bạn bè.
1.2.3.1.
Các giải pháp tư vấn áp dụng với tư vấn bạn bè
Hình 1. 5. Thông tin xã hội được biểu diễn bằng ma trận user - user S[6]
Thông tin xã hội thường được biểu diễn bằng một ma trận người dùng – người dùng
S. Với các ô tại hàng i, cột j (i # j) có giá trị là 1 nếu người dùng i có quan hệ với người
dùng j, và bằng 0 trong các trường hợp còn lại.
Tư vấn bạn bè về cơ bản chính là việc dự đoán các liên kết còn thiếu trong mạng xã
hội. Người ta áp dụng hai phương pháp học máy giám sát và không giám sát để giải
quyết vấn đề này.
1.2.3.2.
Các phương pháp học máy giám sát
Các phương pháp giám sát xem xét việc dự đoán các liên kết như là một bài toán
phân lớp. Người ta lấy nhãn chính là các liên kết. Sau đó, đối với công việc trích chọn
đặc trưng, người ta trích chọn một tập các đặc trưng từ các nguồn có sẵn để đại diện cho
các cặp người dùng. Một cặp người dùng thông qua một vector đặc trưng (sử dụng phân
lớp nhị phân: SVM) để gán nhãn cho chúng là 1 nếu cặp người dùng có cùng đặc trưng
được xét đến, và bằng 0 trong trường hợp ngược lại.
16
Hình 1. 6. Dự đoán liên kết bằng cách sử dụng vector đặc trưng cho mỗi cặp người
dùng[6]
1.2.3.3. Các phương pháp không giám sát
Các phương pháp không giám sát thường dựa trên đặc điểm của các mạng được lấy.
Có hai loại phương pháp được đề cập đến. Đó là các phương pháp dựa trên khả năng kết
nối (Láng giềng chung, hệ số Jaccard, và Adamic/Adar) và các phương pháp dựa trên ma
trận nhân tử.
Việc xuất hiện ngày càng nhiều và phổ biến của các trang mạng xã hội lớn trên các
phương tiện xã hội đã cho thấy cơ chế hình thành động của mối quan hệ bạn bè. Có một
số loại tư vấn liên quan đến cơ chế hoạt động của mạng xã hội được đề cập như: tư vấn
tương hỗ, tư vấn đóng bộ ba và tư vấn liên cộng đồng. Các cơ chế này đã được trình bày
chi tiết trong [6].
Tóm tắt chương 1
Trong chương này, khóa luận giới thiệu khái quát về hệ tư vấn truyền thống cũng
như hệ tư vấn xã hội. Khóa luận cũng trình bày một số phương pháp để giải quyết bài
toán tư vấn truyền thống và bài toán tư vấn xã hội.
17