Tải bản đầy đủ (.pdf) (46 trang)

Phát hiện thói quen của con người nhóm người từ phương tiện xã hội dựa theo mô hình chủ đề xác suất

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.51 MB, 46 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

Uông Huy Long

PHÁT HIỆN THÓI QUEN CỦA CON NGƢỜI/
NHÓM NGƢỜI TỪ PHƢƠNG TIỆN XÃ HỘI
DỰA THEO MÔ HÌNH CHỦ ĐỀ XÁC SUẤT

LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN

HÀ NỘI - 2015


Lời cảm ơn

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ
Uông Huy Long
Hà Quang Thụy và Thạc sĩ Trần Mai Vũ, người đã tận tình chỉ bảo và hướng dẫn tôi
trong suốt quá trình thực hiện khoá luận tốt nghiệp.
Tôi chân thành cảm ơn các thầy, cô đã tạo những điều kiện thuận lợi cho tôi học tập và
nghiên cứu tại trường Đại Học Công Nghệ.
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm “Khai phá
PHÁT HIỆN THÓI QUEN CỦA CON NGƢỜI/
dữ liệu” đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt

NHÓM NGƢỜI TỪ PHƢƠNG TIỆN XÃ HỘI
DỰA THEO MÔ HÌNH CHỦ ĐỀ XÁC SUẤT



khoá luận.

Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân yêu
luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp.
Côngcảm
nghệ
Tôi xinNgành:
chân thành
ơn!thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104

LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN
Sinh viên
Uông Huy Long

NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. Nguyễn Việt Cƣờng

HÀ NỘI - 2015


Lời cam đoan
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi, được thực hiện dưới sự
hướng dẫn khoa học của Tiến sĩ Nguyễn Việt Cường.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được công bố
trong bất kỳ công trình nào khác.
Tôi xin chịu trách nhiệm về nghiên cứu của mình.
Học viên
Uông Huy Long


i


Mục lục

Lời cam đoan ......................................................................................................................i
Mục lục ............................................................................................................................. ii
Danh sách hình..................................................................................................................iv
Danh sách các bảng............................................................................................................v
Mở đầu ...............................................................................................................................1
Chương 1.

Giới thiệu .....................................................................................................2

1.1.

Những thách thức của các trang báo điện tử ......................................................2

1.2.

Bài toán tư vấn trên các trang báo điện tử xã hội. .............................................3

1.3.

Cấu trúc của luận văn .........................................................................................5

Chương 2.

Một số nghiên cứu liên quan về mô hình hóa người dùng ..........................6


2.1.

Mô hình hóa người dùng ....................................................................................6

2.2.

Phương pháp mô hình hóa người dùng ..............................................................6

2.2.1.

Phương pháp dựa trên từ khóa có trọng số .................................................6

2.2.2.

Phương pháp dựa trên mạng ngữ nghĩa ......................................................7

2.2.3.

Phương pháp dựa trên cây phân cấp khái niệm ..........................................8

2.3.

Thu thập thông tin về người dùng ......................................................................9

2.3.1.

Phương pháp định danh người dùng ...........................................................9

2.3.2.


Các phương pháp thu thập thông tin truyền thống ....................................11

2.4.

Thu thập thông tin từ Web truyền thông xã hội ...............................................13

2.4.1.

Sử dụng các thông tin thẻ (Tag) ................................................................ 13

2.4.2.

Nguồn dữ liệu từ blog và microblog .........................................................14

Chương 3.

Mô hình đề xuất ........................................................................................17

3.1.

Phân tích thông tin chủ đề dựa trên mô hình chủ đề LDA ..............................17

3.2.

Phân tích thói quen đọc, bình luận tin tức của người dùng .............................20

3.2.1.

Thông tin trong lịch sử bình luận của người dùng ....................................20


3.2.2.

Mô hình người dùng ..................................................................................22

3.3.

Áp dụng mô hình người dùng vào tư vấn tin tức .............................................23

3.3.1.

Pha phân tích dữ liệu .................................................................................23

3.3.2.

Pha xây dựng mô hình người dùng ...........................................................24

3.3.3.

Pha tư vấn ..................................................................................................25

ii


Chương 4.

Thực nghiệm và đánh giá ..........................................................................26

4.1.


Môi trường thực nghiệm ..................................................................................26

4.2.

Dữ liệu và công cụ ...........................................................................................26

4.2.1.

Dữ liệu .......................................................................................................26

4.2.2.

Công cụ .....................................................................................................26

4.3.

Luồng phân tích dữ liệu trong thực nghiệm.....................................................29

4.3.1.

Huấn luyện mô hình phân tích chủ đề .......................................................29

4.3.2.

Phân tích dữ liệu tin tức ............................................................................30

4.3.3.

Mô hình người dùng và đánh giá kết quả..................................................32


Tài liệu tham khảo ...........................................................................................................36
Tiếng Việt .....................................................................................................................36
Tiếng Anh .....................................................................................................................36

iii


Danh sách hình
Hình 1. Chức năng tìm kiếm trên trang vnexpress.net. .....................................................2
Hình 2. Ví dụ về các tin tức nảy sinh xung quanh một sự kiện. ........................................4
Hình 3. Tiến trình mô hình hóa người dùng. .....................................................................6
Hình 4. Mô hình mối quan tâm người dùng dựa trên từ khóa. ..........................................7
Hình 5. Mô hình mối quan tâm người dùng dựa trên mạng ngữ nghĩa[9]. .......................8
Hình 6. Mô hình mối quan tâm người dùng dựa trên mạng khái niệm [24]. ....................9
Hình 7. Các hệ thống tư vấn dựa trên thông tin người dùng hiện ...................................11
Hình 8. Tài liệu với K chủ đề ẩn......................................................................................18
Hình 9. Biểu diễn đồ họa LDA[6]. ..................................................................................19
Hình 10. Ước lượng tham số tập dữ liệu văn bản. ...........................................................19
Hình 11. Suy diễn chủ đề sử dụng tập dữ liệu VNExpress[29]. ......................................20
Hình 12. Mục ý kiến bạn đọc trên VNExpress ................................................................ 21
Hình 13. Trang hoạt động bình luận của người dùng ......................................................21
Hình 14. Luồng phân tích dữ liệu ....................................................................................23
Hình 15. Luồng xây dựng mô hình người dùng ..............................................................25
Hình 16. Luồng tư vấn .....................................................................................................25
Hình 17. Luồng phân tích dữ liệu trong thực nghiệm .....................................................28
Hình 18. Nội dung chính của trang tin ............................................................................29
Hình 19. Tin tức sau khi tiền xử lý ..................................................................................30
Hình 20. Truy vấn tìm kiếm người dùng và các trang bình luận .....................................31
Hình 21. Tập hợp các đường dẫn và bình luận của người dùng ......................................31
Hình 22. Biểu đồ độ chính xác của mô hình ...................................................................34


iv


Danh sách các bảng
Bảng 1. Các kỹ thuật thu thập thông tin ẩn [8] ................................................................ 12
Bảng 2. Thông tin lịch sử hoạt động bình luận của người dùng .....................................22
Bảng 3. Môi trường thực nghiệm. ...................................................................................26
Bảng 4. Công cụ...............................................................................................................26
Bảng 5. Một số chủ đề ẩn ................................................................................................ 30
Bảng 6. Mô hình người dùng ...........................................................................................32
Bảng 7. Top các chủ đề của tin tức được bình luận gần nhất ..........................................33
Bảng 8. Độ chính xác của mô hình ..................................................................................33

v


Mở đầu
Thuật ngữ Web 2.0 lần đầu xuất hiện vào tháng 10/2004 khi Tim OReily – Chủ tịch
và Dale Dougherty – Phó Chủ tịch của OReily Media đưa ra tại một cuộc hội thảo về sự
phát triển tiếp theo của Web. Có rất nhiều quan điểm khác nhau về Web 2.0, tuy nhiên đa
số vẫn mô tả Web 2.0 ở một số tính năng như khả năng giao tiếp, tính tương tác giữa các
người dùng với nhau hay là những yếu tố cho phép người dùng có thể tạo ra thông tin.
Các trang Web truyền thông xã hội (social media websites) dựa trên Web 2.0 như các
trang báo điện tử xã hội, mạng xã hội, blog, các từ điển mở wiki,… đang có một sự phát
triển như vũ bão và thực sự đang làm biến đổi thế giới Internet từng ngày, từng giờ. Cùng
nhìn vào một đại diện tiêu biểu của Web truyền thông xã hội, các trang báo điện tử xã hội
(social news sites), khái niệm “báo điện tử” cũng như việc đọc tin tức điện tử đã không
còn xa lạ với đa số người dân Việt Nam. Những thống kê gần đây trên alexa1 về số lượng
các trang báo điện tử nằm trong top các trang Web phổ biến nhất tại Việt Nam hiện nay

đang cho thấy nhu cầu cao của xã hội trong lĩnh vực truyền thông này. Tuy nhiên, một
vấn đề còn tồn tại hiện nay đó là trong khi có quá nhiều tin tức mỗi ngày được cập nhật,
người dùng dường như bị chìm ngập trong biển thông tin mà vẫn không tìm ra được các
thông tin phù hợp. Web 2.0 có thể là lời giải cho vấn đề này, những trang báo điện tử xã
hội cho phép người dùng tạo ra nội dung như những bình luận, chia sẻ,…Đây có thể là
một nguồn dữ liệu quan trọng cho lĩnh vực nghiên cứu liên quan tới mô hình hóa người
dùng. Từ nắm bắt thói quen đọc, bình luận tin tức của người dùng theo lĩnh vực gì (như
thể thao, giải trí, công nghệ,…), nhiều dịch vụ tiềm năng (như tin tức mới, quảng cáo,
game,…) có thể được suy diễn và tư vấn chính xác, kịp thời. Luận văn đề xuất một
phương pháp dựa trên mô hình chủ đề xác suất có thể giúp các trang báo điện tử xã hội
nhận diện thói quen, mối quan tâm của người dùng một cách tự động trên lịch sử các hoạt
động bình luận của họ (Người dùng xây dựng thói quen đọc, bình luận tin tức trên cơ sở
các mối quan tâm, vì vậy, trong luận văn, các khái niệm mô hình hóa người dùng, phân
tích mối quan tâm người dùng hay phân tích thói quen đọc, bình luận của người dùng có
thể được sử dụng thay thế cho nhau). Tính chính xác và khả năng ứng dụng thực tế của
mô hình này đã được chứng minh bằng một số kết quả thực nghiệm ban đầu.

1 />
1


Chƣơng 1. Giới thiệu
1.1.

Những thách thức của các trang báo điện tử
Ngày nay, thông tin trên những trang báo điện tử (như VNExpress1) hầu như bao

phủ mọi khía cạnh của đời sống xã hội, từ những tin tức về kinh tế, chính trị tới những sự
kiện thể thao, giải trí của cả trong nước và quốc tế. Cùng với thực tế đó là hiện tượng có
một lượng lớn các tin tức phát sinh thêm mỗi ngày (như trên trang VNExpress, tại thời

điểm khảo sát có hơn 135 tin tức mới trong ngày), người đọc cũng có thể quan tâm tới các
tin tức về một sự kiện/ chuỗi các sự kiện diễn ra trong nhiều ngày hoặc muốn xem lại các
thông tin từ những ngày trước, vì vậy mà lượng tin tức cần đọc có thể lên tới hàng nghìn
bài. Vấn đề đặt ra là làm cách nào những người đọc có thể vừa tiết kiệm được thời gian
truy cập vừa không bỏ sót những nội dung mà họ quan tâm. Những nghiên cứu trước đây
gọi đó là vấn đề của sự tràn ngập thông tin. Một giải pháp phổ biến đó là cung cấp cho
người dùng công cụ tìm kiếm. Tuy nhiên, những công cụ tìm kiếm đôi khi vẫn không đem
lại hiệu quả, điều này thường do nghĩa của từ khoá không rõ ràng hoặc ý nghĩa chính xác
của chúng phụ thuộc vào ngữ cảnh của người dùng. Ví dụ như khi một lập trình viên tìm
kiếm với từ khóa “apache”, có thể người đó không muốn nhìn thấy hình ảnh của một loại
máy bay trực thăng. Hay nếu người dùng muốn tìm kiếm về lịch sử của tộc người da đỏ
(cũng có tên là apache), nội dung người đó quan tâm không phải là máy bay trực thăng
hay máy chủ web. Một hướng tiếp cận khác được nghiên cứu là tìm cách xây dựng các hệ
thống cá nhân hóa, những hệ thống này cung cấp các kết quả tư vấn hoặc tìm kiếm khác
nhau và được cho là phù hợp với những người dùng khác nhau.

Hình 1. Chức năng tìm kiếm trên trang vnexpress.net.
1 />
2


Một hệ thống được cá nhân hóa giải quyết vấn đề có quá nhiều lựa chọn bằng cách
xây dựng và quản lý các thông tin về người dùng, đặt trong hồ sơ người dùng. Toàn bộ
quá trình này gọi là mô hình hóa người dùng sẽ được trình bày chi tiết hơn trong chương
2. Hệ thống này thực thi các hình thức như là lọc ra những thông tin không liên quan hoặc
xác định thêm thông tin có thể hấp dẫn người dùng. Hồ sơ người dùng có thể bao gồm
thông tin cá nhân, ví dụ như tên, tuổi, quốc gia, mức độ giáo dục,…và cũng có thể đại
diện cho các sở thích, mối quan tâm của một cá nhân hoặc một nhóm người dùng như là
sự ưa thích với các chủ đề thể thao hay du lịch. Các thông tin này có thể được phân tích
dựa vào dữ liệu do người dùng cung cấp, suy diễn từ dữ liệu log trên hệ thống hoặc một

nguồn dữ liệu mới là từ các phương tiện xã hội, nội dung này sẽ được luận văn trình bày
chi tiết hơn trong chương 2.
1.2.

Bài toán tƣ vấn trên các trang báo điện tử xã hội.

Tư vấn tin tức là một lĩnh vực giàu tiềm năng bởi số lượng các sản phẩm tư vấn, số
lượng người dùng và số lượt sử dụng cao hơn nhiều so với các đối tượng tư vấn khác, vì
vậy luận văn đề xuất một mô hình người dùng và ứng dụng vào hệ thống tư vấn tin tức
trong chương 3. Một vài đặc trưng riêng có của miền đối tượng tin tức cũng như các đặc
trưng chung của người sử dụng tư vấn, có thể được mô tả như sau:
Đầu tiên, tin tức là một đối tượng tư vấn đặc biệt, các đặc trưng sau của tin tức giúp
đưa ra các giải pháp hữu hiệu hơn trong xây dựng giải pháp tư vấn:
 Tính không đồng nhất giá trị: Giá trị của tin tức chỉ có thể được xác định bằng
cách kết hợp các yếu tố: nội dung thông tin, nguồn tin, thời điểm xuất bản, nhà
xuất bản, tác giả,…
 Tính dễ sinh ra: một số lượng lớn tin tức có thể nảy sinh xung quanh một sự
kiện, hiện tượng.
 Tính dễ tàn lụi: hiện tượng tin tức đánh mất giá trị khi vấn đề nó đề cập không
còn tính thời sự.

3


Hình 2. Ví dụ về các tin tức nảy sinh xung quanh một sự kiện.
Khi xem xét đến yếu tố phù hợp giữa đối tượng tư vấn và mối quan tâm người dùng,
một đặc trưng về mối quan tâm của người dùng cần được xem xét, đó là tính đa quan tâm:
Tại một thời điểm, người dùng có thể có nhiều mối quan tâm khác nhau, ví dụ: người
dùng có thể quan tâm đến các thông tin về cả thể thao và chính trị.
Qua phân tích, luận văn lựa chọn cách tiếp cận lọc dựa trên nội dung, trong đó thói

quen/ mối quan tâm người dùng được nhận diện qua các chủ đề ẩn của các tin tức mà
người dùng đã từng bình luận. Các lý do có thể được nêu ra là:
 Thứ nhất: Biểu diễn mức chủ đề cho phép mô tả những mối quan tâm của người
dùng ở mức trừu tượng cao hơn mà không bị ảnh hưởng bởi thói quen dùng từ
của các tác giả hoặc của những từ khóa nổi lên chỉ trong một giai đoạn nhất
định. Sử dụng phương pháp này cũng khắc phục được vấn đề tư vấn trùng lặp
do mô hình dựa trên các từ khóa thường tìm ra các tin tức có cùng nội dung với
các tin tức người dùng đã đọc.
 Thứ hai: Tính đa quan tâm của người dùng có thể được thể hiện thông qua tập
hợp các cặp chủ đề và xác suất liên quan.
 Thứ ba: Những tin tức người dùng đã từng bình luận đem tới thông tin tốt hơn
do có thể nhận xét rằng người dùng quan tâm thực sự tới nội dung các tin tức đã
bình luận chứ không phải là do chọn nhầm.
Theo đó, luận văn đề xuất giải quyết hai vấn đề cơ bản của tiến trình tư vấn:

4


 Đầu tiên là dựa trên khảo sát về các phương pháp xây dựng mô hình hóa người
dùng, đề xuất giải pháp mô hình người dùng dựa trên phân tích chủ đề các tin
tức người dùng đã từng bình luận.
 Sau đó, những tin tức liên quan được phát hiện thông qua đối chiếu chủ đề của
chúng với những chủ đề trong mô hình người dùng vừa được xây dựng.
Cấu trúc của luận văn

1.3.

Nội dung chính của luận văn được chia làm 4 chương:



Chương 1. Giới thiệu.



Chương 2. Một số nghiên cứu liên quan về mô hình hóa người dùng.



Chương 3. Mô hình đề xuất.



Chương 4: Thực nghiệm và đánh giá.

5


Chƣơng 2. Một số nghiên cứu liên quan về mô hình hóa ngƣời dùng
2.1.

Mô hình hóa ngƣời dùng
Theo Gauch và các cộng sự [8], một tiến trình mô hình hóa người dùng cho các ứng

dụng hướng cá nhân bao gồm 2 pha cơ bản như minh họa sau:

Hình 3. Tiến trình mô hình hóa ngƣời dùng.
Trong đó, những phương pháp xây dựng mô hình người dùng được mô tả kỹ hơn
trong mục 2.2, các khái niệm và kỹ thuật liên quan đến quá trình chuẩn bị dữ liệu cho mô
hình hóa người dùng được mô tả trong mục 2.3.
2.2.


Phƣơng pháp mô hình hóa ngƣời dùng
Thông thường dựa trên các đặc trưng của dữ liệu thu thập được, có những cách tiếp

cận khác nhau để xây dựng mô hình người dùng. Dữ liệu thu thập từ người dùng có thể
được chia làm hai loại chính là dữ liệu có cấu trúc và không cấu trúc. Các dữ liệu có cấu
trúc như các đánh giá theo điểm, nghề nghiệp, tuổi tác, … Các dữ liệu không cấu trúc là
các dữ liệu dạng văn bản như nội dung của các tin tức đã xem, mô tả của các bộ phim đã
xem, hay các lời nhận xét dưới dạng ngôn ngữ tự nhiên …
Gauch và cộng sự trong [8] mô tả khá chi tiết ba phương pháp xây dựng mô hình
người dùng dựa trên các dữ liệu dạng văn bản là phương pháp dựa trên từ khóa có trọng
số, phương pháp dựa trên các mạng ngữ nghĩa và phương pháp dựa trên cây phân cấp
khái niệm. Đây là các giải pháp mô hình sở thích người dùng thường được sử dụng cho
các hệ thống tư vấn dựa trên nội dung.
2.2.1. Phƣơng pháp dựa trên từ khóa có trọng số
Mối quan tâm được mô tả bằng tập các từ khóa có trọng số. Trong đó, từ khóa được
trích xuất từ tập các dữ liệu người dùng với trọng số thường được đánh giá thông qua mô
hình trọng số tf*idf. Đây là giải pháp được đưa ra sớm nhất và dễ dàng cài đặt nhất, tuy
nhiên vấp phải các trở ngại về vấn đề nhập nhằng ngữ nghĩa và kích thước không gian từ
khóa. Ví dụ điển hình của phương pháp tiếp cận này là WebMate [5], hồ sơ người dùng
chứa một vector từ khóa cho mỗi lĩnh vực quan tâm của người dùng, và một ý tưởng mở

6


rộng của WebMate[5], Alipes [32] sử dụng ba vector từ khóa cho mỗi mối quan tâm
người sử dụng bao gồm: một vector mô tả tính dài hạn, hai vector mô tả tính ngắn hạn:
một tích cực và một tiêu cực.

Hình 4. Mô hình mối quan tâm ngƣời dùng dựa trên từ khóa.

2.2.2. Phƣơng pháp dựa trên mạng ngữ nghĩa
Mối quan tâm được mô tả bằng tập các node (từ khóa hoặc khái niệm) và các cạnh
liên kết. Đầu tiên, các từ khóa cũng được trích xuất từ dữ liệu người dùng. Khái niệm có
thể bao gồm một hoặc nhiều từ khóa liên kết với nhau (ví dụ như: quan hệ đồng nghĩa suy
diễn từ WordNet). Trọng số giữa cạnh được xác định dựa trên sự xuất hiện đồng thời của
hai node hoặc các từ khóa thuộc vào hai node trong cùng một văn bản. Điển hình cho mô
hình này là hệ thống InfoWeb [9], mỗi hồ sơ người dùng được biểu diễn bởi một mạng
ngữ nghĩa các khái niệm. Ban đầu, mạng ngữ nghĩa chứa một tập các node khái niệm
không liên kết gọi là các node hành tinh với một trọng số. Càng nhiều thông tin thu thập
được, hồ sơ về người dùng càng được làm giàu thông qua các từ khóa có trọng số liên kết
với các khái niệm. Các từ khóa được biểu diễn như các node vệ tinh xung quanh các khái
niệm chính, trọng số liên kết giữa các khái niệm tương ứng cũng được thêm vào.

7


Hình 5. Mô hình mối quan tâm ngƣời dùng dựa trên mạng ngữ nghĩa[9].
2.2.3. Phƣơng pháp dựa trên cây phân cấp khái niệm
Mối quan tâm người dùng được mô tả thông qua tập các khái niệm có trọng số. Ban
đầu, các khái niệm không trích ra từ văn bản mà được định nghĩa trước từ cây phân cấp
các mục mở ODP (The Open Directory Project1). Dữ liệu người dùng được phân lớp vào
một trong các nhánh của cấu trúc phân cấp này. Vấn đề của phương pháp này là mức độ
chi tiết của mục có thể làm mất thông tin về các mối quan tâm chung và sự phụ thuộc vào
độ chính xác của các cây phân cấp khái niệm. Một trong các dự án đầu tiên sử dụng
phương pháp này là OBIWAN [24]. Ban đầu, họ dùng cấu trúc phân cấp khái niệm từ 3
mức đầu tiên của ODP. Dữ liệu người dùng được tự động phân lớp để tìm ra các các khái
niệm phù hợp nhất, các trọng số khái niệm tương ứng được tăng lên.

1


8


Hình 6. Mô hình mối quan tâm ngƣời dùng dựa trên mạng khái niệm [24].
2.3.

Thu thập thông tin về ngƣời dùng

Bước đầu tiên trong kỹ thuật mô hình hóa người dùng là thu thập các thông tin về
người dùng cá nhân. Trong đó, một yêu cầu cơ bản là hệ thống cần phải xác định duy nhất
người dùng. Nhiệm vụ này sẽ được trình bày trong phần 2.3.1. Các thông tin người dùng
được có thể được thu thập hiện qua việc nhập trực tiếp bởi người dùng, thu thập ẩn thông
qua một các tử phần mềm hoặc thu thập tự động từ các phương tiện truyền thông xã hội.
Phụ thuộc vào cách thức thu thập dữ liệu này mà những dạng dữ liệu khác nhau về người
dùng có thể được thu thập. Một số lựa chọn và ảnh hưởng của các lựa chọn trên được
trình bày ở mục 2.3.2 và 2.4. Nhìn chung, phương pháp thu thập tự động từ các phuwong
tiện truyền thông xã hội đang trở thành một hướng tiếp cận mới, tiềm năng bởi khả năng
tiếp cận dễ dàng, giàu thông tin và không đặt gánh nặng cung cấp thông tin lên người
dùng.
2.3.1. Phƣơng pháp định danh ngƣời dùng
Định danh người dùng là tiêu chí quan trọng giúp hệ thống phân biệt, và xây dựng
hồ sơ khác nhau cho những người dùng khác nhau. Gauch và cộng sự [8] liệt kê ra 5 cách
tiếp cận cơ bản trong định danh người dùng: các tử phần mềm (software agent), đăng
nhập (login), proxy server, cookie và phiên duyệt Web(session). Mỗi phương pháp đều có
những ưu, nhược điểm riêng.

9


Ba phương pháp đầu tiên chính xác hơn, nhưng chúng yêu cầu sự tham gia của

người dùng. Các tử phần mềm là một phần mềm nhỏ được đặt trên máy người dùng, thu
thập thông tin về họ và chia sẻ chúng với máy chủ thông qua một vài giao thức. Giải pháp
này có độ tin cậy cao nhất vì có nhiều hơn sự điều khiển khi triển khai ứng dụng và các
giao thức. Nó cũng có khả năng thu thập được nhiều thông tin nhất vì có quyền truy cập
tới nhiều hơn các nguồn thông tin người dùng. Tuy nhiên, nó yêu cầu sự tham gia của
người dùng để cài đặt phần mềm, đó là một cản trở không dễ chịu. Giải pháp có độ tin cậy
thứ hai là dựa trên việc đăng nhập. Bởi vì người dùng định danh chính họ thông qua đăng
nhập, cách định danh này thường chính xác và có thể sử dụng để xác định người dùng
dùng nhiều máy khách khác nhau. Mặt trở ngại của phương pháp này là người dùng cần
thực hiện một tiến trình đăng kí và thực hiện đăng nhập và đăng xuất cho mỗi lần sử dụng.
Ở giải pháp thứ ba, một proxy server sẽ làm nhiệm vụ thu thập thông tin người dùng,
phương pháp này hữu ích khi cần thu thập thông tin về một nhóm người dùng hoặc một
người dùng sử dụng nhiều máy tính, tương tự như hai giải pháp trên, nó yêu cầu người
dùng tham gia bằng cách đăng kí cùng một điạ chỉ proxy cho tất cả các máy họ sử dụng.
Hai phương pháp sau, cookie và phiên duyệt Web không yêu cầu bất cứ sự tham gia
nào từ phía người dùng. Trong lần đầu tiên trình duyệt máy khách truy cập vào hệ thống,
một userid được tạo ra, id này sẽ được lưu trong cookie máy người dùng. Một người dùng
truy cập vào cùng một trang Web được xác định là duy nhất nếu cùng một userid được sử
dụng. Tuy nhiên, nếu người dùng sử dụng nhiều hơn một máy tính, hay một loại trình
duyệt, sẽ có những cookie khác nhau, và tương ứng là những hồ sơ người dùng khác
nhau. Hơn nữa, giải pháp này cũng gặp vấn đề khi có nhiều hơn một người dùng cho một
máy, hoặc trường hợp người dùng xóa, hay tắt cookie. Đối với phiên duyệt Web, trở ngại
cũng tương tự khi có nhiều hơn một người dùng cho một máy hay có sử dụng nhiều hơn
một máy, một trình duyệt, nhưng nó không lưu trữ userid giữa những lần duyệt. Một
người dùng bắt đầu với một phiên duyệt Web mới, thông tin trong phiên duyệt Web lưu
lại vết các hành vi người dùng tương tác với hệ thống trong một lần duyệt Web của họ ví
dụ danh sách các pageview, thời gian dành cho mỗi pageview, địa chỉ IP,…
Ưu điểm quan trọng của giải pháp định danh dựa trên phiên duyệt Web là nó không
đặt bất cứ gánh nặng nào về phía người dùng, không gặp những nghi ngại về tính riêng tư
(tức là không lưu lại bất cứ thông tin nào về người dùng) và cũng không yêu cầu bật

cookie ở trình duyệt.

10


2.3.2. Các phƣơng pháp thu thập thông tin truyền thống
Thông thường, các kỹ thuật thu thập thông tin được phân theo tính chất của dữ liệu
thu thập được. Theo đó, tương ứng với hai kiểu thông tin người dùng ẩn và hiện, có hai
phương pháp thu thập thông tin người dùng.
2.3.2.1.

Phƣơng pháp thu thập thông tin ngƣời dùng hiện

Phương pháp thu thập thông tin người dùng hiện (hay thông tin phản hồi hiện) thu
thập những thông tin được nhập trực tiếp bởi người dùng, thông thường qua các form
nhập liệu. Dữ liệu thu thập có thể là các thông tin như ngày sinh, tình trạng hôn nhân,
nghề nghiệp, sở thích,…
Một trong các hệ tư vấn sớm nhất Syskill & Webert [22] tư vấn các trang Web dựa
vào các phản hồi hiện. Nếu người dùng đánh giá cao một vài liên kết từ một trang, Syskill
& Webert sẽ tư vấn các trang liên kết khác. Thêm vào đó, hệ thống còn có thể tạo một
truy vấn tới máy tìm kiếm Lycos1 để trích xuất các trang Web có thể người dùng sẽ ưa
thích.
Một vấn đề với các thông tin phản hồi hiện đó là nó đặt gánh nặng cung cấp thông
tin về phía người dùng. Vì vậy, nếu người dùng không muốn phải cung cấp các thông tin
riêng tư, họ sẽ không tham gia hoặc không cung cấp thông tin chính xác. Hơn nữa, vì các
hồ sơ được duy trì tĩnh trong khi tồn tại các đặc điểm có thể thay đổi như sở thích, thói
quen,… khiến cho những hồ sơ này có thể trở nên không chính xác nữa theo thời gian.

Hình 7. Các hệ thống tƣ vấn dựa trên thông tin ngƣời dùng hiện


1 />
11


2.3.2.2.

Phƣơng pháp thu thập thông tin ngƣời dùng ẩn

Hồ sơ người dùng trong phương pháp này được xây dựng dựa trên các thông tin
phản hồi ẩn. Ưu điểm của phương pháp này là không yêu cầu bất cứ sự xen vào nào của
người dùng trong suốt tiến trình xây dựng và duy trì các hồ sơ người dùng. Công trình của
Gauch và các cộng sự [8] thống kê tóm tắt các cách tiếp cận của kỹ thuật thu thập thông
tin phản hồi ẩn.
Bảng 1. Các kỹ thuật thu thập thông tin ẩn [8]
Kỹ thuật

Thông tin
thu thập

Browser
Cache

Lịch sử
duyệt Web

Proxy
Servers

Hành vi
duyệt Web


Browser
Agents

Hành vi
duyệt Web

Desktop
Agents

Tất cả hành
vi người
dùng

Web
Logs

Hành vi
duyệt Web

Search
Logs

Truy vấn
và Url
được click

Bề rộng
thông tin


Ưu và Nhược

Ƣu: Người dùng không cần cài đặt bất cứ
Bất cứ
thứ gì.
trang
Nhƣợc: Người dùng phải upload cache
Web nào
định kì.
Ƣu: Người dùng sử dụng các trình duyệt
Bất cứ chính qui.
trang
Nhƣợc: Người dùng phải sử dụng proxy
Web nào server.
Bất cứ
ứng
dụng
hướng
cá nhân
nào
Bất cứ
ứng
dụng
hướng
cá nhân
nào
Các
trang
Web có
log


Ƣu: Các tử có thể thu thập tất cả các hành
vi Web.
Nhƣợc: Cài đặt và sử dụng ứng dụng mới
khi đang duyệt Web.

Ƣu: Tất cả các tập tin và hành vi của
người dùng.
Nhƣợc: Yêu cầu cài đặt phần mềm.
Ƣu: Thông tin về nhiều người dùng.
Nhƣợc: Có thể có ít thông tin vì chỉ từ một
trang Web.

Ƣu: Thu thập và sử dụng thông tin từ
Các
nhiều trang
trang tìm Nhƣợc: Cookies phải được bật và/hoặc
kiếm
yêu cầu đăng nhập.
Nhƣợc: Có thể có rất ít thông tin.

Ví dụ

OBIWAN
[24]

OBIWAN
[24]

WebMate

[5]

Google
Desktop

Mobasher
[3]

Misearch

Dựa trên nguồn gốc các thông tin ẩn này, có thể chia các thông tin phản hồi ẩn thành
hai loại: thông tin ẩn phía máy khách (client log) thu được từ bốn cách tiếp cận đầu và
thông tin ẩn phía máy chủ (server log) thu được từ hai cách tiếp cận còn lại.
12


Trong khi các kỹ thuật thu thập thông tin phía máy khách đặt gánh nặng về phía
người dùng để thu thập và chia sẻ log các hành vi của họ. Các kỹ thuật thu thập thông tin
phía máy chủ (như search log và Web log) thu thập chỉ những thông tin trong quá trình
tương tác của người dùng và hệ thống. Điều này làm cho các thông tin có thể thu thập từ
máy chủ ít hơn nhưng có ưu thế hơn về độ phức tạp của dữ liệu thu thập được cũng như
tránh được các nghi ngại về tính riêng tư của người dùng.
2.4.

Thu thập thông tin từ Web truyền thông xã hội
Các Web truyền thông xã hội ngày nay giúp con người dễ dàng chia sẻ nội dung,

cộng tác với những người khác, kết nối với nhau để tạo ra một cộng đồng nhanh hơn và
dễ tiếp cận hơn. Ở đó, cộng đồng người dùng định hướng và tạo ra nội dung. Người dùng
tham gia vào Web truyền thông xã hội bằng những hoạt động như chia sẻ bookmark, viết

blog, chú thích và bình luận về các thông tin được cung cấp bởi những người khác. Họ tạo
ra thông tin, xây dựng nội dung và thiết lập các cộng đồng trực tuyến (những nội dung do
người dùng tạo ra được viết tắt là UGC - User generated content).
Thu thập thông tin người dùng trên Web truyền thông xã hội là một hướng mới so
với những phương pháp thu thập thông tin truyền thống như đã đề cập ở mục trước, thông
tin thu được do người dùng tạo ra, công khai vì vậy các hệ thống máy tính có thể dễ dàng
tự động thu thập và phân tích. Các UGC có thể bao gồm nhiều loại hình dữ liệu đa
phương tiện như văn bản, âm thanh, hình ảnh,… UGC chứa các thông tin giàu ý nghĩa, vì
vậy có tiềm năng trong phân tích, nắm bắt những kiến thức về người sử dụng, về các mục
và về các mối quan hệ giữa người sử dụng và các mục. Từ những thông tin UGC, chúng
ta có thể nắm bắt ý kiến của người sử dụng, những quan điểm hoặc thị hiếu về các loại
mặt hàng hoặc về người dùng khác. Các nội dung do người dùng tạo ngày càng tăng và có
sẵn giúp cho việc xây dựng mô hình người dùng chính xác hơn so với các kỹ thuật hiện
có. Trong phần này, luận văn xem xét một số hướng tiếp cận cho việc thu thập thông tin
từ các Web truyền thông xã hội cho mô hình người dùng.
2.4.1. Sử dụng các thông tin thẻ (Tag)
Giống như các thông tin do người dùng tạo ra khác, tag đang trở thành một nguồn
thông tin quan trọng để mô hình người dùng cũng như để mô tả nội dung hoặc phân loại
mặt hàng. Tag là một từ khóa được thêm vào một đối tượng số (ví dụ như một trang Web,
hình ảnh hoặc video clip) để mô tả nó, nhưng không phải là một phần của một hệ thống
phân loại chính thức. Các tag là các từ khóa được tự do lựa chọn và chúng là một công cụ
đơn giản mà mạnh mẽ để tổ chức, tìm kiếm và khai thác các nguồn tài nguyên. So với

13


thông tin người dùng ẩn truyền thống khác như dòng nhấp chuột và đăng nhập Web,
thông tin tag có một số lợi thế khác biệt. Một lợi thế quan trọng đó là tag là những từ khóa
ngắn gọn nhưng chứa các thông tin giàu ý nghĩa và được đưa ra bởi người sử dụng một
cách rõ ràng. Lợi thế quan trọng khác đó là các tag độc lập với các nội dung của các mục,

và vì vậy mà chúng có thể được dùng để lọc nội dung cho bất kỳ đối tượng tư vấn nào
như các bộ phim, bài hát,... Thêm vào đó, hành vi gắn tag hình thành một mối quan hệ ba
chiều giữa người sử dụng, các mục và các tag, tạo ra các quan hệ mới giữa người dùng và
tag, tag và mục bên cạnh những mối quan hệ với người sử dụng và mục truyền thống.
Tuy nhiên, vì không có những hạn chế hay ranh giới về lựa chọn những từ khóa cho
các mục được gắn thẻ, các thẻ được gắn tự do bởi người dùng và vì vậy có thể tồn tại
những nhập nhằng về ngữ nghĩa như cùng một thẻ lại có những ý nghĩa khác nhau với
những người dùng khác nhau hay các thẻ khác nhau là những từ đồng nghĩa cần được
phải được hiểu là có ý nghĩa tương tự. Một vấn đề nghêm trọng khác là có tới gần 60%
thẻ là thẻ cá nhân mà chỉ được sử dụng bởi một người dùng [25]. Tất cả những nhược
điểm này tạo ra thách thức về việc làm cách nào để sử dụng thẻ trong mô hình mối quan
tâm của người sử dụng một cách chính xác hoặc mô tả các chủ đề của các mục một cách
chính xác.
Công trình của Tso-Sutter và cộng sự [30] mở rộng ma trận người dùng - mục bằng
ma trận người dùng – mục – thẻ nhằm tạo ra các tư vấn dựa trên phương pháp lọc cộng
tác. Tuy nhiên, công trình này đã không xem xét tới nhiễu của các thẻ. Trong các nghiên
cứu của Sen và cộng sự [25], một hàm đánh giá thẻ được sử dụng để xác định sở thích của
người sử dụng dựa trên các thẻ. Các dòng nhấp chuột, lịch sử các từ khóa tìm kiếm của
mỗi người dùng được sử dụng để xác định sở thích của người dùng đối với các mặt hàng
thông qua hình thức suy diễn các thẻ sở thích. Tuy nhiên, nghiên cứu của Sen cần rất
nhiều loại thông tin bổ sung và các hàm đặc biệt, điều này làm cho kết quả khó so sánh
được với các nghiên cứu khác và tạo ra các hạn chế về khả năng ứng dụng của công trình
nghiên cứu.
2.4.2. Nguồn dữ liệu từ blog và microblog
Blog là một trang Web đơn giản bao gồm các đoạn văn ngắn gọn về các ý kiến, các
thông tin, các nhật ký cá nhân, hoặc các liên kết. Mọi người tự do bày tỏ ý kiến, ý tưởng,
kinh nghiệm, mong muốn, suy nghĩ của mình. Một bài blog điển hình có thể kết hợp văn
bản, hình ảnh, và các liên kết đến các blog khác, các trang Web và phương tiện truyền
thông khác liên quan đến chủ đề của nó. Người dùng thể hiện suy nghĩ của họ trong các ý
kiến tích cực hay tiêu cực trên mạng về các sản phẩm hay dịch vụ, cũng như chia sẻ kinh

14


nghiệm tiêu dùng, thương hiệu. Những doanh nghiệp đang ngày càng nhận ra rằng những
ý kiến này có thể gây ảnh hưởng rất lớn trong việc hình thành ý kiến của người tiêu dùng
khác và đầu tư cho lĩnh vực nghiên cứu liên quan [13].
Đã có nhiều công trình phân tích tâm lý tập trung vào đánh giá sản phẩm [33], [34],
[23] trên các blog, các trang Web đánh giá của người dùng (customer review sites), và các
trang Web khác trên internet. Việc khai thác ý kiến và phân tích tâm lý chẳng hạn như
tóm tắt ý kiến của khách hàng [35] và phân tích tâm lý người sử dụng trong các đánh giá
[7] có thể dùng như những mở rộng cho các hệ thống tư vấn [26], như để đưa ra một tư
vấn rằng không nên mua các mặt hàng nhận được nhiều phản hồi tiêu cực. Các nhà
nghiên cứu Joshi và Belsare [16] đã phát triển một chương trình khai thác blog gọi là
BlogHarvest, giúp tìm kiếm và trích xuất những mối quan tâm của một blogger để giới
thiệu blog với chủ đề tương tự. Chương trình sử dụng các kỹ thuật khai phá quan điểm
như phân lớp, phân cụm chủ đề tương tự, gắn thẻ. Ý tưởng cơ bản của nghiên cứu dựa
trên giả thuyết rằng các cộng đồng blog không định hình ngẫu nhiên mà là kết quả của
những chia sẻ về mối quan tâm.
Twitter là một dịch vụ microblog cho phép người dùng gửi tin nhắn (gọi là các
tweet) đến một mạng xã hội từ mọi loại thiết bị. Một tweet là một đoạn thông điệp ngắn
140 ký tự, xấp xỉ chiều dài của một tiêu đề báo điển hình [20]. Các thông điệp ngắn được
cho là rất dễ dàng và thuận tiện cho cả người gửi và người đọc chia sẻ những điều quan
tâm và giao tiếp suy nghĩ của họ bất cứ lúc nào và bất cứ nơi nào trên thế giới. Hiện tại,
Twitter đã trở nên phổ biến bao gồm người sử dụng từ nhiều lĩnh vực khác nhau như
những người nổi tiếng (Lady Gaga, Justin Bieber), các nhà lãnh đạo quốc gia (Barack
Obama, Kevin Rudd), các nhà xuất bản tin tức (CNN, AP) cho công chúng nói chung. Số
lượng người dùng của Twitter đã phát triển nhanh chóng và số lượng tin nhắn được sinh
ra trên Twitter hàng ngày là rất lớn. Theo statisticbrain1, tới tháng Chín năm 2015, Twitter
đã có 645 triệu người dùng đăng ký, 289 triệu người dùng thường xuyên, 58 triệu tweet
mỗi ngày.

Trong khi các microblog không được coi như một nguồn thông tin đáng tin cậy so
với phương tiện truyền thông truyền thống, một số nghiên cứu về microblog hướng tới
phát hiện các chủ đề đang nổi lên. Điều này có thể đạt được bằng cách thực hiện phân tích
xu hướng và phát hiện chủ đề. Naaman và cộng sự [21] phân tích các đặc điểm của các xu
hướng đang nổi lên trên Twitter và xác định hai loại xu hướng gồm: ngoại sinh (các sự
kiện, tin tức, ngày quan trọng) và nội sinh (các ý tưởng được lan truyền trên mạng, các
1 />
15


retweet, các hoạt động). Nghiên cứu này cũng trình bày năm tính năng chính: nội dung,
tương tác, tham gia, thời gian và xã hội để thu thập số liệu thống kê tổng hợp nội dung để
phân tích xu hướng.
Ngoài xác định xu hướng, mô hình chủ đề cũng có thể được sử dụng để hiểu nội
dung tweet. Phân bổ Dirichlet tiềm ẩn (LDA) là một trong những kỹ thuật phổ biến do
hiệu năng và tính linh hoạt của nó [6]. Mỗi tài liệu được coi là một phân bố xác suất của
các chủ đề và sau đó xác suất của chúng có thể ước tính thông qua các phương pháp lấy
mẫu.
Tuy nhiên, các nghiên cứu khác nhau cho thấy LDA có thể không hoạt động tốt trên
Twitter do chiều dài ngắn của tweet [14][31].

16


Chƣơng 3. Mô hình đề xuất
Trong khi các kỹ thuật thu thập dữ liệu và biểu diễn mối quan tâm người dùng hiện
còn tồn tại các trở ngại như trình bày trong chương 2 và 3, có thể có một cách tiếp cận
khác cho các vấn đề này, đó là dựa trên phỏng đoán rằng một người dùng A có thể ưa
thích một tin tức X nếu như A đã xem các tin tức cùng chủ đề với X. Hồ sơ người dùng có
thể được biểu diễn dưới dạng một danh sách các chủ đề và mức độ quan tâm của người

dùng với chủ đề. Giả thiết này giải quyết được một trong các vấn đề lớn đối với tư vấn
dựa trên nội dung, đó là việc tư vấn các nội dung quá giống với những nội dung trước đây
người dùng đã thích, trong một số lĩnh vực ứng dụng như với tư vấn tin tức, có thể những
tin tức mới đem lại nhiều giá trị hơn.
Ý tưởng sử dụng mô hình người dùng bằng các chủ đề đã từng được chúng tôi đề
cập tới trong [15] và trong các nghiên cứu khác như của Bo Hu và cộng sự [4]. Trong
nghiên cứu trước đây, chúng tôi sử dụng danh sách các tin tức được người dùng đọc trên
một phiên truy cập làm dữ liệu đầu vào cho phân tích. Tuy nhiên, kết quả của phân tích
mối quan tâm người dùng theo phương pháp này chưa chính xác nếu như những tin tức
người dùng chọn nhầm hoặc đã chọn nhưng sau khi đọc thì thấy rằng nội dung tin tức
không đáng quan tâm. Mô hình đề xuất sử dụng nguồn dữ liệu phản ánh tốt hơn mối quan
tâm của người dùng bằng cách phân tích chủ đề của các tin tức người dùng đã từng bình
luận trong quá khứ.
Các tin tức có thể được gán nhãn chủ đề bằng tay, tuy nhiên đó là một giải pháp
không khả thi do đòi hỏi chi phí lớn, đặc biệt khi có quá nhiều tin tức nảy sinh hay trong
các hệ thống tự động thu thập tin tức như RSSReader. Một hướng tiếp cận tiềm năng là sử
dụng phân tích chủ đề ẩn. Trong đó, ý tưởng cơ bản là xem các văn bản là một phân phối
xác suất theo chủ đề và mỗi chủ đề lại có phân phối xác suất trên các từ. Đã có nhiều
nghiên cứu khẳng định được tính ứng dụng của phân tích chủ đề ẩn như mô hình phân
lớp, phân cụm dữ liệu [29], bài toán xác định độ phù hợp giữa nội dung một trang Web và
các thông điệp quảng cáo [28],…
Trong các mục sau, luận văn trình bày một giải pháp xác định các mô hình người
dùng theo cách tiếp cận mới này.
3.1.

Phân tích thông tin chủ đề dựa trên mô hình chủ đề LDA

Phân tích chủ đề cho văn bản nói chung và cho dữ liệu Web nói riêng có vai trò
quan trọng trong việc “hiểu” và định hướng thông tin trên Web. Khi ta hiểu một trang


17


Web có chứa những chủ đề hay thông tin gì thì dễ dàng hơn cho việc xếp loại, sắp xếp, và
tóm tắt nội dung của trang Web đó. Trong phân lớp văn bản, mỗi văn bản thường được
xếp vào một lớp cụ thể nào đó. Trong phân tích chủ đề, chúng ta giả sử mỗi văn bản đề
cập đến nhiều hơn một chủ đề (K chủ đề) và mức độ liên quan đến chủ đề được biểu diễn
bằng phân phối xác suất của của tài liệu đó trên các chủ đề.

Hình 8. Tài liệu với K chủ đề ẩn.
Có rất nhiều phương pháp phân tích thông tin chủ đề từ văn bản, điển hình là mô
hình LDA [6]. LDA là một mô hình sinh (generative model) và thực hiện phân tích chủ đề
từ các tập dữ liệu văn bản hoàn toàn phi giám sát (fully unsupervised). Về mục tiêu, tương
tự với LSA, LDA đưa ra một kỹ thuật mô tả thu gọn các tập dữ liệu rời rạc (như tập văn
bản). Về mặt trực quan, LDA tìm những cấu trúc chủ đề (topics) và khái niệm (concepts)
trong tập văn bản dựa trên thông tin về đồng xuất hiện (co-occurrence) của các từ khóa
trong văn bản, và cho phép mô hình hóa các khái niệm đồng nghĩa (synonymy) và đa
nghĩa (polysemy). Về mặt mô hình hóa, LDA hoạt động tương đối giống với pLSA
(probabilistic LSA) [27]. Tuy vậy, LDA ưu việt hơn pLSA ở một vài điểm như tính đầy
đủ và tính khái quát cao hơn [6][11].

18


×