Tính hạng đố tượng trong mạng xã hội Twitter

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.59 MB, 46 trang )

1

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ NGỌC LAN

TÍNH HẠNG ĐỐI TƢỢNG
TRONG MẠNG XÃ HỘI TWITTER

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội – 2013

2

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ NGỌC LAN

TÍNH HẠNG ĐỐI TƢỢNG
TRONG MẠNG XÃ HỘI TWITTER

Ngành: Công nghệ thông tin

Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.05

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS. TS. HÀ QUANG THỤY

Hà Nội – 2013

3

Mục lục
Chƣơng 1. 7
GIỚI THIỆU CHUNG VỀ MẠNG XÃ HỘI VÀ TWITTER 7
1.1. Mạng xã hội 7
1.1.1. Định nghĩa 7
1.1.2. Một số tác động của mạng xã hội 9
1.1.3. Phân tích mạng xã hội 9
1.1.4. Mô hình biểu diễn mạng xã hội 10
1.2. Mạng xã hội Twitter 12

1.2.1. Đặc điểm 12
1.2.2. Đối tƣợng trong mạng xã hội Twitter 13
1.2.3. Tính hạng trên mạng xã hội Twitter 14
1.3. Tóm tắt chƣơng 1 16
Chƣơng 2. 17
TÍNH HẠNG TWEET BẰNG PHƢƠNG PHÁP XÉT ĐỘ TIN CẬY VÀ ĐỘ LIÊN
QUAN 17
2.1. Mô hình hóa hệ thống Twitter 17
2.2. Tính toán sự tƣơng đồng 18
2.3. Đánh giá 20
2.3.1. Ƣu điểm 20
2.3.2. Nhƣợc điểm 21
2.4. Tóm tắt chƣơng 2 21
Chƣơng 3. 22
TÍNH HẠNG TWEET DỰA TRÊN MẠNG KHÔNG ĐỒNG NHẤT 22
3.1. Thuật toán Co – HITS 22
3.2. Mạng thông tin 26
3.3. TextRank: Phƣơng pháp tiếp cận cơ bản 27
4

3.4. Loại bỏ dƣ thừa 27
3.5. Các giả thuyết 28
3.6. Mô hình xếp hạng các Tweet: Tri - HITS 28
3.6.1. Giới thiệu chung 28
3.6.2. Lọc ra các Tweet nhiễu hoặc không chứa thông tin 30
3.6.3. Khởi tạo các điểm xếp hạng 30
3.6.4. Xây dựng mạng không đồng nhất 31
3.6.5. Lặp lan truyền 32
3.7. Tóm tắt chƣơng 3 34
Chƣơng 4. 35

THỰC NGHIỆM 35
4.1. Mô hình thực nghiệm 35
4.2 Môi trƣờng thực nghiệm 36
4.3 Dữ liệu 37
4.3.1 Thu thập dữ liệu 37
4.3.2 Lọc dữ liệu 39
4.4. Độ đo đánh giá 39
4.5. Các tham số 42
4.6. Kết quả đánh giá 42
KẾT LUẬN 43

5

DANH SÁCH HÌNH VẼ
Hình 1.1: Mô hình một mạng xã hội giữa các cá nhân 7
Hình 1.2: Sự phát triển của mạng xã hội trực tuyến Facebook và Twitter 8
Hình 1.3: Biểu diễn một mạng xã hội 11
Hình 2.1: Mô hình ba lớp của hệ thống Twitter gồm lớp user, lớp tweet và lớp web. 18
Hình 2.2. Mô hình giải thích trực giác sự tƣơng đồng bao gồm độ liên quan và độ tin cậy 19
Hình 3.1: Ví dụ một đồ thị hai phía. 23
Hình 3.2: Lan truyền điểm trên đồ thị hai phía: 25
Hình 3.3: Mạng không đồng nhất Web – Tweet – User 27
Hình 3.4 : Mô hình Tri - HITS 29
Hình 4.1: Mô hình thực nghiệm tính hạng Tweet dựa vào mạng không đồng nhất 35

DANH SÁCH BẢNG BIỂU
Bảng 4.1. Môi trƣờng thực nghiệm.…………………………………………………… 36
Bảng 4.2. Công cụ phần mềm.……………………………………………………………36

Bảng 4.3. Các slang-words.………………………………………………………………39
Bảng 4.4. Kết quả đánh giá thực nghiệm……………………………………………… 42

6

MỞ ĐẦU
Tính hạng đối tƣợng là một trong một số các bài toán quan trọng điển hình trong các
hệ thống ứng dụng trên Internet, đặc biệt trong các hệ thống tìm kiếm, từ tính hạng trang
Web trong tìm kiếm web đến tính hạng thực thể trong tìm kiếm thực thể, tính hạng ảnh
trong tìm kiếm ảnh Một số thuật toán xếp hạng trang web đã trở nên rất nổi tiếng nhƣ
PageRank [23], HITS [17] Tính hạng trang đã và đang là nội dung nghiên cứu và triển
khai thời sự. Chẳng hạn, theo Google Scholar, có khoảng 1100 bài báo có chứa cụm
"PageRank" ở tiêu đề, trong đó có trên 230 bài báo công bố sau năm năm 2009.
Trong một vài năm gần đây, khai phá dữ liệu mạng xã hội trực tuyến đã trở thành
một chủ đề khoa học và công nghệ nổi bật [15, 14, 16] bởi mạng xã hội trực tuyến là
nguồn tài nguyên dữ liệu do ngƣời sử dụng sinh ra (GUC), phản ánh ngày càng phong
phú đời sống xã hội và tinh thần trong xã hội loài ngƣời. Mạng xã hội trực tuyến Twitter
cho thấy khả năng phục vụ điều tra xã hội [4] vì vậy thu hút sự quan tâm đặc biệt của
nhiều tổ chức, nhiều nhóm nghiên cứu trên thế giới, chẳng hạn dãy hội nghị hàng năm
TREC tại Viện chuẩn và khoa học Mỹ [microblog-track].
Luận văn “Tính hạng đối tƣợng trên mạng xã hội Twitter” tập trung nghiên cứu
đặc trƣng của mạng xã hội – tập trung vào mạng Twitter, các thuật toán tính hạng Twitter
đã đƣợc công bố và đề nghị một mô hình thực nghiệm tính hạng các Tweet sử dụng mạng
không đồng nhất.
Luận văn gồm 4 chƣơng đƣợc mô tả nhƣ sau:
Chƣơng 1. Giới thiệu chung về mạng xã hội và Twitter: những nội dung liên quan
để phân tích mạng xã hội, phát biểu bài toán tính hạng đối tƣợng trên mạng xã hội
Twitter, một số nghiên cứu liên quan và các phƣơng pháp giải quyết bài toán.

Chƣơng 2. Phƣơng pháp tính hạng dựa vào độ tin cậy và độ liên quan, đƣa ra mô
hình ba lớp của hệ thống tính hạng Twitter gồm lớp user, lớp tweet, lớp web và đánh giá
ƣu, nhƣợc điểm của phƣơng pháp này.
Chƣơng 3. Trình bày phƣơng pháp tính hạng dựa vào mạng không đồng nhất. Giới
thiệu mô hình Tri – HITS, cách xây dựng mạng không đồng nhất trong hệ thống Twitter
và phƣơng pháp lan truyền điểm xếp hạng trong mạng này.
Chƣơng 4. Mô hình thực nghiệm tiến hành quyết bài toán tính hạng đối tƣợng trong
mạng xã hội Twitter, thực nghiệm và đánh giá kết quả thu đƣợc.
Tính hạng đối tượng trong mạng xã hội Twitter 7

Nguyễn Thị Ngọc Lan
Chƣơng 1.
GIỚI THIỆU CHUNG
VỀ MẠNG XÃ HỘI VÀ TWITTER
Trong chƣơng này chúng tôi trình bày một cách chi tiết về mạng xã hội, mạng xã hội
Twitter và bài toán tính hạng đối tƣợng trên mạng xã hội Twitter.
1.1. Mạng xã hội
1.1.1. Định nghĩa
Một mạng xã hội là một cấu trúc đƣợc tạo nên bởi một tập các tác nhân (nhƣ các cá
nhân hoặc các tổ chức) và các liên kết thể hiện mối quan hệ giữa các tác nhân [30].
Mạng xã hội xuất hiện lần đầu tiên năm 1995 với sự ra đời của trang Classmate với
mục đích kết nối bạn học, tiếp theo là sự xuất hiện của SixDegrees vào năm 1997 với mục
đích giao lƣu kết bạn theo sở thích.

Hình 1.1: Mô hình một mạng xã hội giữa các cá nhân
Thời gian gần đây, sự xuất hiện của một loạt các cộng đồng ảo (Virtual Community)
đã làm xuất hiện một ngành nghiên cứu mới liên quan đến mạng xã hội trực tuyến. Năm
2004, MySpace ra đời với các tính năng nhƣ phim ảnh (embedded video) nhanh chóng thu
hút hàng chục ngàn thành viên mới mỗi ngày. MySpace trở thành mạng xã hội đầu tiên có
Tính hạng đối tượng trong mạng xã hội Twitter 8

Nguyễn Thị Ngọc Lan
nhiều lƣợt xem hơn cả Google và đƣợc tập đoàn News Corporation mua lại với giá 580
triệu USD. Năm 2006, sự ra đời của Facebook đánh dấu bƣớc ngoặt mới cho hệ thống
mạng xã hội trực tuyến với nền tảng lập trình "Facebook Platform" cho phép thành viên
tạo ra những công cụ (apps) mới cho cá nhân mình cũng nhƣ các thành viên khác dùng.
Sự phát triển của các mạng xã hội trực tuyến, đặc biệt là Facebook và Twitter đƣợc
minh họa trong biểu đồ hình 1.2 [4].

Hình 1.2: Sự phát triển của mạng xã hội trực tuyến Facebook và Twitter
Tính hạng đối tượng trong mạng xã hội Twitter 9

Nguyễn Thị Ngọc Lan
1.1.2. Một số tác động của mạng xã hội
Mạng xã hội ra đời đã thúc đẩy sự phát triển của xã hội, nhiều ngành kinh doanh
mới ra đời, có thể kể đến trong số đó là kinh doanh qua mạng xã hội. Thành viên tham gia
mạng xã hội sử dụng các liên kết bạn bè trong mạng xã hội để quảng bá, tiếp thị và kinh
doanh sản phẩm. Rõ ràng, mạng xã hội đã thúc đẩy sự phát triển của nền kinh tế với
phƣơng thức tiếp cận mới, làm tăng lợi nhuận trong kinh doanh. Theo Homero Gil de
Zúnĩga và cộng sự [13], mạng xã hội góp phần tăng cƣờng nguồn vốn xã hội cho quốc
gia, tuy nhiên đôi khi cũng cản trở sự phát triển của xã hội.
Nhƣ đã đề cập ở trên, mạng xã hội hiện nay có ảnh hƣởng rất lớn đến vấn đề kinh tế,
văn hóa, chính trị. Con ngƣời có thể dùng mạng xã hội nhƣ một công cụ hữu ích để tiếp
thị, tuyên truyền, quảng bá thông tin. Ví dụ, Facebook đã góp phần rất lớn trong phong
trào “Mùa xuân Ả rập” [22, 9]. Trong phong trào này, những ngƣời tổ chức đã sử dụng
Facebook nhƣ một công cụ để kêu gọi, tuyên truyền, cổ động cho ngƣời dân ủng hộ
phong trào “Mùa xuân Ả rập”.
Bên cạnh đó, các mạng xã hội còn tham gia vào rất nhiều các hoạt động khác nhƣ:
Facebook với cuộc bạo loạn tại Anh năm 2011[5]. Mạng xã hội với chống quyền lợi Mỹ

9/2012. Twitter với sự kiện thảm họa kép “Động đất – Sóng thần” ở Nhật Bản 3/2011.
Lúc này ngƣời dân đƣợc coi nhƣ “Phóng viên nhân dân” [2] và họ đƣa thông tin về thảm
họa sóng thần, các khu trại tị nạn, các trung tâm khẩn cấp…lên Twiter để thông báo cho
các thành viên trong mạng. Theo nghiên cứu của Sakaki và các cộng sự, mô hình xác suất
dự báo và lan truyền thông tin động đất thông qua Twitter nhanh hơn cơ quan khí tƣợng
thủy văn Nhật Bản [26]. Cuối cùng, mạng xã hội có thể đƣợc sử dụng là công cụ tƣ vấn
sau thảm họa [21].
Với các ngành khoa học nhƣ xã hội học hay khoa học máy tính, mạng xã hội trở
thành một lĩnh vực nghiên cứu mới. Theo Wilson và cộng sự [27], cùng với sự phát triển
của mạng xã hội thì ngành xã hôi học đã ra đời năm nhóm chủ đề nghiên cứu dựa trên
Facebook: phân tích mô tả ngƣời sử dụng, động lực sử dụng Facebook, trình bày danh
tính, vai trò của Facebook trong tƣơng tác xã hội, tính riêng tƣ và việc tiết lộ thông tin.
Hơn nữa, mạng xã hội cung cấp những nguồn tài nguyên lý tƣởng cho ngành khoa học
máy tính và khai phá dữ liệu do có nguồn tài nguyên phong phú và miền ứng dụng rộng
lớn.
1.1.3. Phân tích mạng xã hội
Phân tích mạng xã hội xem xét các liên kết bên trong, bao gồm các nút (nodes) biểu
diễn các tác nhân (có thể là con ngƣời, các tổ chức,…) và các liên kết biểu diễn mối quan
Tính hạng đối tượng trong mạng xã hội Twitter 10

Nguyễn Thị Ngọc Lan
hệ giữa các tác nhân, nhƣ liên kết bạn bè, mối quan hệ họ hàng, vị trí các tổ chức, các liên
kết giới tính,…[6, 24]. Các mạng này thƣờng đƣợc miêu tả trong một biểu đồ mạng xã
hội, nơi mà các nút đƣợc biểu diễn nhƣ các điểm và các liên kết đƣợc biểu diễn bởi các
đƣờng nối các điểm.
Theo M. Jamali và cộng sự [11], phân tích mạng xã hội là ánh xạ và đo các quan hệ
và các luồng giữa con ngƣời, các nhóm, các tổ chức, động vật, các máy tính hoặc các thực
thể xử lý thông tin khác. Số lƣợng, kích thƣớc, và các quan hệ giữa các nhóm nhỏ trong
mạng có thể nói cho chúng ta biết nhiều thông tin về hành vi các thực thể tham gia mạng.
Theo P. Zaphiris và cộng sự [31], phân tích mạng xã hội tập trung trên các mẫu của

các liên kết giữa các tác nhân. Nó xem xét mô tả về liên kết mạng một cách đầy đủ nhất
có thể. Nó bao gồm nghiên cứu về các mẫu nổi bật trong mạng, theo dấu các luồng thông
tin, và khám phá những tác động của liên kết và mạng trên các thực thể tham gia mạng.
Do đó, nó có thể đƣợc sử dụng để nghiên cứu các mô hình mạng của các thực thể đƣợc
kết nối thông qua môi trƣờng trực tuyến.
Nhƣ vậy, phân tích mạng xã hội đa phần tập trung vào nghiên cứu các cấu trúc bên
trong của mạng xã hội (các liên kết, luồng thông tin,…) để khám phá ra những tri thức có
ý nghĩa.
1.1.4. Mô hình biểu diễn mạng xã hội
Mạng xã hội thƣờng đƣợc biểu diễn bởi các đồ thị xã hội, ở đó các thực thể đƣợc
biểu diễn nhƣ là một nút (điểm) và các quan hệ đƣợc biểu diễn là các đƣờng nối hai nút.
Do đó, mô hình mạng xã hội có mối quan hệ chặt chẽ với lý thuyết đồ thị. Khi xem xét
một mạng xã hội thì coi nó tƣơng đƣơng với một đồ thị (có hƣớng/vô hƣớng) G = <V, E>,
trong đó:
V: là tập các đỉnh, tương ứng với các nút tham gia mạng
E: tập các cạnh (cung) liên kết các đỉnh
Hai đỉnh u, v được gọi là có liên kết (láng giềng) nếu có đường đi trực tiếp từ đỉnh
u tới đỉnh v.
Mô hình mạng xã hội có thể hình dung bằng hình ảnh minh họa 1.3 [12]
Tính hạng đối tượng trong mạng xã hội Twitter 11

Nguyễn Thị Ngọc Lan

Hình 1.3: Biểu diễn một mạng xã hội
Trong phân tích mạng xã hội, nghiên cứu về liên kết giữa hai thực thể thƣờng tập
trung vào ba loại chính: liên kết đôi (dyads) – là kiểu liên kết giữa hai thực thể, liên kết ba
(triads) – là kiểu liên kết giữa ba thực thể và các hệ thống lớn (large systems) – là liên kết
giữa các nhóm nhỏ hoặc toàn bộ mạng.

Hình 1.4: Liên kết dyads, triads và nhóm
Trong các nghiên cứu về phân tích mạng xã hội, đôi khi các nhà nghiên cứu vẫn
dùng biểu diễn đồ thị mạng dƣới dạng ma trận kề. Giả sử đồ thị G = <V, E> có n đỉnh, khi
đó chúng ta sẽ tạo ra một ma trận A kích thƣớc n*n để biểu diễn đồ thị G trên. Khi đó, hai
đỉnh u, v có liên kết thì giá trị tại vị trí A[u, v] = 1, ngƣợc lại bằng 0. Tùy trƣờng hợp có
thể thay 1 bằng trọng số liên kết giữa hai đỉnh u, v. Minh họa việc biểu diễn mạng xã hội
bằng ma trận kề đƣợc trong hình 1.5.
Tính hạng đối tượng trong mạng xã hội Twitter 12

Nguyễn Thị Ngọc Lan
Hình 1.5: Biểu diễn đồ thị mạng bằng ma trận kề
Rõ ràng, trong phân tích mạng xã hội, lý thuyết đồ thị giữ một vai trò quan trọng.
Đặc biệt là một số khái niệm nhƣ đồ thị liên thông, các thành phần liên thông, đƣờng đi
giữa hai đỉnh bất kỳ, các phƣơng pháp duyệt đồ thị Breath-first-Search (BFE) và Deep-
first-Search (DFS) đƣợc áp dụng rộng rãi. Bên cạnh đó, sự kết hợp của một số ngành khoa
học nhƣ xã hội học, nhân chủng học, toán học,…đã tạo nên sức mạnh cho lĩnh vực phân
tích mạng xã hội.
1.2. Mạng xã hội Twitter
Twitter là dịch vụ mạng xã hội ra đời năm 2006, một dạng micro-blog đƣợc phát
triển bởi Twitter Inc cung cấp một dịch vụ mạng miễn phí cho phép ngƣời dùng sử dụng
gửi và nhận các tin nhắn, gọi là các tweet. Sau đó Twitter đã trở thành một hiện tƣợng phổ
biến toàn cầu. Nó đã thể hiện ƣu điểm so với các dịch vụ truyền thông truyền thống trong
việc cập nhật tin tức kịp thời hơn, ví dụ trong việc đƣa tin về trận động đất ở Chile [18].
Tính đến tháng 12 năm 2012, số lƣợng thànbh viên của Twitter lên tới gần 500 triệu
ngƣời dùng [4], đứng sau Facebook. Twitter chứa lƣợng thông tin rất lớn và thông tin lan
rộng khá nhanh. Ngày 14/8/2012, khi Olympic London kết thúc, đã có hơn 150 triệu

tweet đƣợc chia sẻ về các môn thi đấu cũng nhƣ những sự kiện, nhân vật trong kì thế vận
hội này. Ngày 1/8/2012, theo CNNMoney, Twitter đã trở thành nhân vật đóng vai trò
quan trọng nhất trong việc truyền thông của Olympic London 2012. Đây là lần đầu tiên
nhiều kết quả thi đấu của các môn thi xuất hiện trên mạng xã hội trƣớc cả TV.
1.2.1. Đặc điểm
Cơ chế kết nối của Twitter là cơ chế một chiều. Khi muốn nhận các thông tin của
các thành viên khác, mỗi thành viên (user) chỉ cần thực hiện following thành viên đó mà
không cần sự đồng ý của ngƣời đƣợc follow. Các user follow một user khác đƣợc gọi là
follower, hai user follow với nhau đƣợc gọi là friend. Điểm mạnh của Twitter là số ngƣời
1 2 3 4 5 6
1 0 1 1 0 0 0
2 1 0 0 1 0 0
3 1 0 1 0 1 0
4 0 1 0 1 0 1
5 0 0 1 0 0 0
6 0 0 0 1 0 0
Tính hạng đối tượng trong mạng xã hội Twitter 13

Nguyễn Thị Ngọc Lan
follow không giới hạn, còn số lƣợng ngƣời kết nối bạn bè trong Facebook thì giới hạn với
con số 5000. Do đó, Twitter thƣờng đƣợc ƣa thích sử dụng bởi các doanh nghiệp, thƣơng
hiệu, hay những ngôi sao nổi tiếng nhằm cập nhật những thông tin về mình cho những
ngƣời quan tâm.
Các tweet có độ dài 144 kí tự, nhƣ tin nhắn SMS, hiển thị trên trang cá nhân của mỗi
ngƣời. Số lƣợng kí tự hạn hẹp là một trong các yếu tố làm cho tweet lan nhanh hơn trên
mạng xã hội. Một số hoạt động trên Twitter:
 Reply: trả lời cho một tweet.
 Retweet: tweet lại. Nếu một tweet đƣợc một ngƣời sử dụng retweet thì nó sẽ đƣợc
xuất hiện trên trang của tất cả follower của ngƣời sử dụng đó. Một tweet có thể
đƣợc retweet nhiều lần bởi nhiều ngƣời sử dụng.

 Mention: Tên một user có thể đƣợc nhắc đến trong một tweet. Hành động này
đƣợc gọi là mention. Một mention thƣờng đƣợc bắt đầu bằng kí tự “@”
 Hashtag: Thƣờng đƣợc bắt đầu bằng ký tự “#”. Các dịch vụ tìm kiếm trên Twitter
thƣờng sử dụng đặc trƣng này để xác định chủ đề và độ quan trọng cho truy vấn
tìm kiếm.
Hơn nữa, Twitter hỗ trợ API đầy đủ cho mọi thành viên có thể sử dụng để lập trình
ứng dụng. Cung cấp một API giúp ngƣời sử dụng có thể lấy đƣợc các thông tin về các
ngƣời dùng trong mạng xã hội nhƣ tên truy cập, ID, số lƣợng bạn bè, số lƣợng tweet mỗi
ngày…
1.2.2. Đối tƣợng trong mạng xã hội Twitter
Twitter có nhiều đối tƣợng, trong đó nổi bật là ngƣời (thành viên), tài liệu, tổ chức,
quốc gia. Đối tƣợng ngƣời và tài liệu là những đối tƣợng cá thể, trong khi đối tƣợng tổ
chức, quốc gia là đối tƣợng tập hợp.
Mỗi đối tƣợng đều có những đặc điểm khác nhau, nhƣ sau:
 Ngƣời: Đối tƣợng chỉ thành viên tham gia Twitter. Họ có các thông tin thể
hiện trong trang cá nhân của mình: tên, tuổi, địa chỉ, nơi công tác, bạn bè,…
Đối tƣợng này thực hiện tất cả các hoạt động trên Twitter: following, đăng
tweet, retweet,… Các tweet sẽ đƣợc gửi tới những ngƣời thực hiện following
ngƣời đăng tweet.
 Tài liệu: Đối tƣợng này chứa đựng các thông tin, kể cả thông tin chính xác
hay không chính xác; thông tin phê bình hay khen ngợi,… Đối tƣợng tài liệu
trên Twitter chính là tweet.
Tính hạng đối tượng trong mạng xã hội Twitter 14

Nguyễn Thị Ngọc Lan
 Tổ chức: Đối tƣợng tập hợp của các đối tƣợng ngƣời trong cùng một lớp, một
trƣờng hay một khu tập thể, một cơ quan,… Trong cùng một tổ chức, mọi
ngƣời thƣờng có chung quan điểm và các tweet đƣợc biết đến khá nhanh.
 Quốc gia: Đối tƣợng tập hợp tất cả các đối tƣợng ngƣời có cùng quốc tịch.
Đối tƣợng này thƣờng thể hiện tiếng nói dân tộc nhƣ văn hóa, tôn giáo,… và

cả những tƣ tƣởng, quan điểm của quốc gia đó.
Với mục tiêu xếp hạng các đối tƣợng chứa thông tin về tin tức, sự kiện,… luận văn
nghiên cứu thực hiện xếp hạng các đối tƣợng tài liệu (tweet).
1.2.3. Tính hạng trên mạng xã hội Twitter
Ngày càng nhiều các dữ liệu do ngƣời sử dụng tạo ra trên các blog cá nhân, dịch vụ
microblogging, các website xã hội và thƣơng mại. Tuy nhiên, các nội dung đƣợc tạo ra có
thể là nội dung có chất lƣợng, chứa những thông tin hữu ích nhƣng cũng có rất nhiều các
nội dung spam nhƣ quảng cáo, tự quảng bá bản thân, những điều vô nghĩa, hoặc thông tin
sai lệch. Vì vậy, việc đánh giá chất lƣợng của thông tin đã trở thành một thách thức cho
các hệ thống truy hồi thông tin và trả lời câu hỏi [10].
Vì một số lƣợng lớn các tweet đƣợc đăng mỗi ngày, các chiến lƣợc xếp hạng ngày
càng quan trọng với ngƣời sử dụng để tìm kiếm thông tin nhanh và hiệu quả hơn. Chiến
lƣợc xếp hạng hiện tại của Twitter xem xét sự liên quan với câu truy vấn đầu vào, thông
tin gần nhất (các tweet cuối cùng), và sự phổ biến (số lần retweet bởi ngƣời sử dụng
khác). [1].
Một trong những bài toán điển hình của khai phá dữ liệu trên mạng Twitter là bài
toán tính hạng các tweet. Các phƣơng pháp nghiên cứu xếp hạng lại các tweet đƣợc trả về
bởi một chủ đề đã cho nhằm tăng hiệu quả của phƣơng pháp xếp hạng hiện thời.
Input: Tập các Tweet (T), user (U) và tài liệu web (D) của một chủ đề đã cho.
Output: Danh sách các Tweet theo thứ tự giảm dần.
Có nhiều phƣơng pháp xếp hạng các tweet đƣợc đƣa ra nhằm làm tăng hiệu quả của
phƣơng pháp xếp hạng hiện thời với hai hƣớng chủ yếu. Hƣớng thứ nhất tập trung vào
việc tìm ra, phân tích và kết hợp các đặc trƣng của Twitter nhằm rút ra những đặc trƣng
quan trọng góp phần nâng hiệu quả xếp hạng. Hƣớng thứ hai ngoài kết hợp các đặc trƣng
còn tập trung vào việc khai thác các mối quan hệ và các liên kết tiềm ẩn giữa các đối
tƣợng trên toàn mạng Twitter.
Tính hạng đối tượng trong mạng xã hội Twitter 15

Nguyễn Thị Ngọc Lan
Duan và cộng sự tại Hội nghị quốc tế lần thứ 23 về Ngôn ngữ học tính toán năm

2010 [7] đề xuất phƣơng pháp xếp hạng bằng cách phân tích các đặc trƣng nội dung và
các đặc trƣng độ tin cậy của tweet và tìm ra các đặc trƣng hiệu quả. Các đặc trƣng dùng
để xếp hạng gồm điểm số BM25, độ tƣơng tự cosine giữa các cặp tweet, số các từ trong
một tweet. Nhóm thứ hai là các đặc trƣng đặc biệt của Twitter: URL, số lần retweet,
reply, hashtag Nhóm thứ ba là các đặc trƣng độ tin cậy tài khoản gồm: điểm PageRank,
điểm Follower, điểm Mention, Kỹ thuật RankSVM đƣợc sử dụng để kết hợp các đặc
trƣng để xếp hạng. Thực nghiệm cũng tìm ra đƣợc một tập các đặc trƣng quan trọng đối
với việc xếp hạng là: tổng số mention, ngƣời follower quan trọng, chiều dài của tweet và
tweet có chứa URL. Đặc biệt tweet có chứa URL có ý nghĩa quan trọng trong việc làm
tăng hiệu quả xếp hạng.
Huang và cộng sự tại Hội nghị quốc tế lần thứ 5 về xử lý ngôn ngữ tự nhiên năm
2011 [14] đề xuất phƣơng pháp xếp hạng thiên về chất lƣợng các tweet bằng cách đƣa ra
một mô hình hồi quy để kết hợp các đặc trƣng khác nhau của Twitter nhƣ đặc trƣng về nội
dung tweet, độ tin cậy của user, đặc trƣng tình cảm trong tweet, các đặc trƣng đặc biệt của
Twitter. Ngoài ra, nhóm tác giả còn đƣa ra giả thuyết phù hợp về nội dung (các tài liệu có
nội dung tƣơng tự với càng nhiều tài liệu khác thì càng có chất lƣợng cao) và xây dựng nó
thành một yếu tố chính quy của mô hình hồi quy tuyến tính.
Gupta và cộng sự tại Hội thảo lần thứ nhất về Bảo mật và an ninh trong mạng truyền
thông xã hội năm 2012 [10] áp dụng phân tích hồi quy tuyến tính để xác định các đặc
trƣng nổi bật (dựa trên nội dung và user) có thể giúp đánh giá độ tin cậy các tweet. Các
đặc trƣng dựa trên nội dung nhƣ độ dài của tweet, số từ, số ký tự đặc biệt, số hashtag, số
retweet, số mention, các đại từ, các biểu tƣợng cảm xúc trong một tweet,…. Các đặc trƣng
dựa trên user nhƣ số follower, số friend, thời gian đã đăng kí của user, độ dài mô tả user,
độ dài của username… Kỹ thuật RankSVM đƣợc sử dụng để xếp hạng các tweet và xếp
hạng lại kết quả bằng phƣơng pháp xét độ liên quan (sử dụng điểm số BM25) giữa các
tweet để đánh giá độ tin cậy của thông tin chứa trong tweet. Kết quả thực tế cho thấy
không chỉ “bạn là ai” khi bạn tweet mới quan trọng mà chất lƣợng “bạn post gì” cũng rất
quan trọng. Kết quả cũng cho thấy việc kết hợp cả các đặc trƣng về nội dung và các đặc
trƣng về user góp phần làm tăng đáng kể hiệu quả xếp hạng so với phƣơng pháp xếp hạng
hiện thời.

Năm 2012, tại Hội nghị quốc tế lần thứ IX về tích hợp thông tin trên Web,
Ravikumar và cộng sự [25] đã đề xuất mô hình tính hạng Tweet theo phƣơng pháp xét độ
tin cậy và độ liên quan bằng cách đƣa ra mô hình 3 lớp thể hiện mối quan hệ giữa ngƣời
Tính hạng đối tượng trong mạng xã hội Twitter 16

Nguyễn Thị Ngọc Lan
sử dụng Twitter, các tweet và các tài liệu Web. Tuy nhiên nhóm tác giả chỉ mới khai thác
mối quan hệ giữa các Tweet. Tại hội nghị Coling 2012, Huang và cộng sự đã đƣa ra
phƣơng pháp tính hạng Tweet dựa trên mạng không đồng nhất [15]. Trong luận văn,
chúng tôi nghiên cứu và áp dụng phƣơng pháp của Huang và cộng sự vào bài toán trên.
1.3. Tóm tắt chƣơng 1
Trong chƣơng 1, luận văn đã giới thiệu chung về mạng xã hội, mạng xã hội Twitter,
những nội dung liên quan để phân tích mạng xã hội. Luận văn cũng phát biểu đƣợc bài
toán tính hạng đối tƣợng trên mạng xã hội Twitter, một số nghiên cứu liên quan và
phƣơng pháp giải quyết bài toán này.
Chƣơng tiếp theo chúng tôi trình bày phƣơng pháp tính hạng đối tƣợng trên mạng xã
hội Twitter bằng xét độ tin cậy và độ liên quan giữa các tweet.

Tính hạng đối tượng trong mạng xã hội Twitter 17

Nguyễn Thị Ngọc Lan
Chƣơng 2.
TÍNH HẠNG TWEET BẰNG PHƢƠNG PHÁP
XÉT ĐỘ TIN CẬY VÀ ĐỘ LIÊN QUAN
Twitter đang ngày càng đƣợc sử dụng nhƣ một nguồn tin tức và xu hƣớng mới nhất.
Vì tính mở của nó, Twitter đã trở thành một phƣơng tiện tuyệt vời để phổ biến thông tin
cho cộng đồng ngƣời sử dụng lớn trong thời gian ngắn nhất. Tuy nhiên, tính mở này làm
cho các thông tin trên Twitter không thể kiểm soát và có nhiều thông tin sai lệch. Do vậy
việc chọn và đƣa ra các tweet có độ tin cậy và độ liên quan với truy vấn cao là rất quan

trọng. Tính hạng Tweet bằng phƣơng pháp xét độ tin cậy và độ liên quan đƣợc Ravikumar
và cộng sự đƣa ra năm 2012 [25].
Trong phƣơng pháp này, nhóm tác giả đề xuất mô hình hóa hệ thống Twitter nhƣ
một đồ thị ba lớp bao gồm: (i) users (ii) tweets và (iii) web pages.
2.1. Mô hình hóa hệ thống Twitter
Hệ thống Twitter đƣợc mô hình hóa nhƣ một đồ thị ba lớp đƣợc chỉ ra ở hình 2.1.
Mô hình ba lớp bao gồm: lớp Twitter user (ngƣời sử dụng Twitter), lớp tweet và lớp web.
Ngoài các liên kết rõ ràng, các liên kết tiềm ẩn trong một lớp và giữa các lớp cũng đƣợc
khai thác để xếp hạng. Trong lớp Twitter user, nếu user u
i
là follower của user u
j
thì sẽ có
một liên kết từ u
i
đến u
j
. Trong lớp tweet, ngoài các liên kết retweet ,các liên kết tiềm ẩn
đƣợc xây dựng dựa trên sự tƣơng đồng về nội dung. Tầng web khai thác các liên kết giữa
các trang web.
Tính hạng đối tượng trong mạng xã hội Twitter 18

Nguyễn Thị Ngọc Lan

Hình 2.1: Mô hình ba lớp của hệ thống Twitter gồm lớp user, lớp tweet và lớp web.
Các cạnh trong một lớp và giữa các lớp thể hiện mối quan hệ giữa các thành phần.
Phƣơng pháp này tập trung chủ yếu vào việc tăng hiệu quả xếp hạng các tweet bằng
cách xem xét sự tƣơng đồng về nội dung của các tweet trong lớp Tweet.
2.2. Tính toán sự tƣơng đồng
Balakrishnan và cộng sự với thuật toán SourceRank [3] đã chỉ ra rằng sự liên quan

và độ tin cậy của nguồn các trang web dựa trên sự tƣơng đồng về nội dung bên trong nó.
Cho một truy vấn ngƣời sử dụng, vấn đề đặt ra là phải chọn một tập các nguồn cung
cấp câu trả lời có độ liên quan với truy vấn cao và đáng tin cậy. Bằng quan sát ta thấy:
Nhiều nguồn cùng đƣợc trả về trong các truy vấn tƣơng tự nhau. Việc so sánh ngữ nghĩa
của các câu trả lời đƣợc hỗ trợ bởi cấu trúc của các bộ dữ liệu. Từ đó có thể đƣa ra ý
tƣởng tính toán độ liên quan và độ tin cậy của các nguồn dựa trên sự tƣơng đồng của các
câu trả lời đƣợc trả về.
Các kết quả quan trọng và có độ liên quan cao có xu hƣớng đƣợc trả về bởi một số
lƣợng lớn các nguồn. Ví dụ, đối với truy vấn Godfather thì bộ phim cổ điển The
Godfather đƣợc trả về bởi hàng trăm nguồn trong khi phim Little Godfather chỉ đƣợc trả
về bởi một vài nguồn. Hai nguồn độc lập có xu hƣớng không đồng ý với các câu trả lời
không đáng tin cậy. Ví dụ, một cuốn sách với tên tác giả sai ( ví dụ tác giả của Godfather
là “Nino Rota”) sẽ không tƣơng đồng với các nguồn khác.
Tính hạng đối tượng trong mạng xã hội Twitter 19

Nguyễn Thị Ngọc Lan

Hình 2.2. Mô hình giải thích trực giác sự tƣơng đồng bao gồm độ liên quan và độ tin cậy
Trong hình 2.2 đặt R
T
là tập các bộ dữ liệu có liên quan và đáng tin cậy của một
truy vấn, U là không gian tìm kiếm. Đặt P
A
(r
1
, r
2
) biểu thị xác suất mà hai bộ dữ liệu độc
lập đƣợc chọn từ R
T

12
1
( , )
A
T
P r r
R

(1)
P
A
(f
1
, f
2
) biểu thị xác suất tƣơng đồng của hai bộ dữ liệu không liên quan (hoặc
không đáng tin cậy) đƣợc chọn.

12
1
( , )
A
T
P f f
UR


(2)
Đối với bất kỳ cơ sở dữ liệu tìm kiếm web, không gian tìm kiếm lớn hơn nhiều so

với các bộ dữ liệu có liên quan. Áp dụng điều này ta có:
1 2 1 2
( , ) ( , )
AA
P r r P f f
(3)
Bây giờ chúng ta mở rộng lập luận này cho tập các câu trả lời. Trong hình 2.2, R
1
,
R
2
và R
3
là tập các kết quả đƣợc trả về bởi ba nguồn độc lập. Bộ kết quả từ các nguồn đơn
sẽ có chứa một phần nhỏ của bộ dữ liệu có liên quan và đáng tin cậy từ R
T
, và một phần
nhỏ của bộ dữ liệu liên quan từ U – R
T
. Từ trên ta thấy bộ dữ liệu từ R
T
có thể sẽ tƣơng
đồng với xác suất cao hơn nhiều so với bộ dữ liệu từ U – R
T
. Điều này cho thấy càng
Tính hạng đối tượng trong mạng xã hội Twitter 20

Nguyễn Thị Ngọc Lan
nhiều bộ dữ liệu có liên quan đƣợc trả về, thì càng nhiều nguồn khác đồng ý với kết quả
của nó.

Tƣơng tự đối với các tweet, một tweet có sự tƣơng đồng với một số lƣợng lớn các
tweet thì có khả năng là nổi tiếng và liên quan với truy vấn nhiều hơn. Nếu hai user độc
lập có chung quan điểm về một sự việc nào đó thì các tweet đó là đáng tin cậy.
Sự tƣơng đồng giữa các cặp tweet đƣợc tính bằng điểm số Soft-TFIDF [20] với độ
tƣơng tự Jaro-Winkler. Soft-TFIDF tƣơng tự nhƣ TFIDF nhƣng xem xét cả các token
tƣơng tự trong các véctơ tài liệu đƣợc so sánh ngoài các token giống hệt nhau.
Đặt
( , , )
ij
C v v

là tập các từ. Với
w
i
v
và
j
uv
và
( ,w)sim u


, đặt
(w, ) max ( , )
j
j u v
D v sim w u


. V(w,v

i
) là điểm số TF đƣợc xác định bởi log(IDF) đƣợc sử
dụng trong TF-IDF. SoftTFIDF đƣợc tính nhƣ sau:
( , , )
( , ) ( , ) ( , )
ij
i j j
w v v
w v u v D w v




C
SI M V V
(4)
Sau khi tính toán điểm tƣơng đồng giữa các cặp tweet, các tweet đƣợc biểu diễn nhƣ
một đồ thị có trọng số với các tweet là các đỉnh và các cung nối các tweet chứa điểm
tƣơng đồng. Trong đồ thị trọng số này, điểm số của một tweet đƣợc tính bằng tổng trọng
số các cung liên kết với nó.
2.3. Đánh giá
2.3.1. Ƣu điểm
Phƣơng pháp này đã đề xuất một mô hình ba lớp: User – Tweet – Web có ý nghĩa
lớn trong việc khai thác các mối quan hệ trong từng lớp và giữa các lớp nhằm làm tăng
chất lƣợng xếp hạng.
Theo Ravikumar S. và cộng sự [25], “Khai thác đƣợc mối quan hệ giữa các tweet
trong lớp Tweet dựa trên độ tƣơng đồng làm tăng hiệu quả xếp hạng do đã tính đến sự
liên quan và độ tin cậy của các tweet với câu truy vấn.
Kết quả thực nghiệm của các tác giả cho thấy, độ liên quan xếp hạng theo nDCG của
phƣơng pháp đề xuất đạt từ 0.8 trở lên, cải thiện đáng kể so với trƣờng hợp đối sánh sử

dụng TF-IDF thông thƣờng.”
Tính hạng đối tượng trong mạng xã hội Twitter 21

Nguyễn Thị Ngọc Lan
2.3.2. Nhƣợc điểm
Theo các tác giả, phƣơng pháp tính toán trên đây chỉ mới dừng lại ở việc khai thác
mối quan hệ hiện ở lớp Tweet trong mô hình ba lớp đã đề xuất. Các mối liên kết tiềm ẩn
giữa các lớp chƣa đƣợc khai thác và áp dụng trong việc xếp hạng và đây là một hạn chế
cần khắc phục.
2.4. Tóm tắt chƣơng 2
Trong chƣơng 2, luận văn đã trình bày phƣơng pháp xếp hạng Tweet dựa vào độ tin
cậy và độ liên quan, đƣa ra mô hình ba lớp của hệ thống Twitter gồm lớp user, lớp tweet
và lớp web. Độ tin cậy và độ liên quan giữa các Tweet đƣợc đánh giá dựa trên sự tƣơng
đồng về nội dung bên trong nó. Chƣơng này cũng đánh giá ƣu, nhƣợc điểm của phƣơng
pháp này.

Tính hạng đối tượng trong mạng xã hội Twitter 22

Nguyễn Thị Ngọc Lan
Chƣơng 3.
TÍNH HẠNG TWEET DỰA TRÊN
MẠNG KHÔNG ĐỒNG NHẤT
Đối với phƣơng pháp xếp hạng các Tweet trƣớc đây tồn tại các vấn đề: Không loại
bỏ đƣợc các tweet nhiễu, là các tweet rất ngắn, chỉ chứa URL, không chứa một nội dung
cụ thể hoặc các tweet thể hiện cảm xúc hay bình luận của ngƣời sử dụng về một vấn đề.
Vấn đề thứ hai là trƣờng hợp các user cùng nói về một vấn đề nhƣng không kết nối với
nhau. Ví dụ các sự kiện quan tâm chung nhƣ thiên tai hay bầu cử là các chủ đề đƣợc gửi
bởi rất nhiều user từ nhiều cộng đồng. Trong trƣờng hợp này, các user có thể sẽ không
biết gì về nhau. Hơn nữa, nhiều user có thể có các vấn đề cùng quan tâm chung nhƣng lại
không đƣợc kết nối với nhau. Hệ thống xếp hạng không khai thác đƣợc các liên kết tiềm

ẩn giữa các user, giữa các tweet và các user do đó hạn chế hiệu quả của việc triết xuất các
đặc trƣng trong việc xếp hạng. Hơn nữa, các tài liệu web liên quan đến truy vấn cũng là
một nguồn quan trọng để làm tăng hiệu quả xếp hạng các tweet.
Phƣơng pháp tính hạng Tweet dựa trên mạng không đồng nhất đƣợc Huang và cộng
sự – đƣa ra năm 2012. Phƣơng pháp này xây dựng một mạng không đồng nhất giữa các
User, các Tweet và các tài liệu web liên quan đến truy vấn nhằm khai thác toàn bộ các
mối liên kết tiềm ẩn giữa các User, các Tweet và các tài liệu web liên quan để xếp hạng
các tweet. Để lan truyền điểm xếp hạng trong mạng không đồng nhất này, một mô hình
đƣợc đề xuất gọi là Tri – HITS. Mô hình này cũng loại ra các tweet nhiễu, làm giàu mạng
bằng cách kết nối các user chia sẻ những nội dung tƣơng tự. Ba cấp độ giả thuyết đƣợc
đƣa ra để làm nền tảng xây dựng mô hình.
3.1. Thuật toán Co – HITS
Thuật toán Co-HITS đƣợc đề xuất để tính điểm xếp hạng cho các thực thể trong hai
tập thực thể của đồ thị hai phía bằng phƣơng pháp lặp lan truyền điểm giữa hai tập thực
thể.
Đồ thị hai phía (đồ thị lƣỡng phân hay đồ thị hai phần - bipartite graph) là một đồ thị
đặc biệt, trong đó tập các đỉnh có thể đƣợc chia thành hai tập không giao nhau thỏa mãn
điều kiện không có cạnh nối hai đỉnh bất kỳ thuộc cùng một tập.
Tính hạng đối tượng trong mạng xã hội Twitter 23

Nguyễn Thị Ngọc Lan
Một đồ thị đơn vô hƣớng G = (V, E) đƣợc gọi là hai phía nếu tồn tại một phân hoạch
của tập đỉnh
12
V V V
sao cho V
1
và V
2
là các tập độc lập (rời nhau) sao cho bất kì cạnh

nào của đồ thị cũng nối một đỉnh của V
1
với một đỉnh thuộc V
2
. Khi đó ngƣời ta còn kí
hiệu là:
12
( , )G V V E
và gọi một tập (chẳng hạn V
1
) là tập các đỉnh trái và tập còn lại
(chẳng hạn V
2
) là tập các đỉnh phải của đồ thị hai phía .
Đồ thị hai phía đƣợc sử dụng rộng rãi để biểu diễn mối quan hệ giữa hai tập thực thể
(hai loại dữ liệu) cho tìm kiếm Web và các ứng dụng khai phá dữ liệu. Web cung cấp
những quan hệ phong phú có thể đƣợc biểu diễn bởi đồ thị hai phía, nhƣ mối quan hệ giữa
các truy vấn và URL trong các bản ghi truy vấn, các tác giả và các bài báo trong các tạp
chí khoa học,…

Hình 3.1: Ví dụ một đồ thị hai phía.
Các cung giữa U và V đƣợc biểu diễn bằng ma trận chuyển W
uv
và W
vu
. Các đƣờng nét
đứt biểu diễn các liên kết ẩn giữa các đỉnh trong một phía, trong đó W
uu
và W
vv

biểu thị
ma trận chuyển ẩn trong U và V.
Xét đồ thị hai phía G = (
UV
, E). Đặt U = {u
1
, u
2
, …, u
m
} và V = {v
1
, v
2
, …, v
n
}
là hai tập của m và n các thực thể. Một đồ thị hai phía có thể đƣợc mô hình hóa nhƣ một
đồ thị trọng số có hƣớng. Cho
iU
và
jV
, nếu có một cung nối u
i
và v
j,
thì xác suất
chuyển dịch là
ij
w

uv
và
w
vu
ji
, trong đó
ij
w
uv
biểu thị xác suất dịch chuyển từ u
i
đến v
j
, và
w
vu
ji
biểu thị xác suất dịch chuyển từ v
j
đến u
i
; ngƣợc lại
ij
w
uv
=
w
vu
ji
= 0. Tổng xác suất

dịch chuyển từ trạng thái
iU
đến các trạng thái
jV
phải là 1 và ngƣợc lại, ta có
ij
w1
uv
jV


và
ji
w1
vu
iU


.
Tính hạng đối tượng trong mạng xã hội Twitter 24

Nguyễn Thị Ngọc Lan
Với một đồ thị hai phía, có một bƣớc dịch chuyển ngẫu nhiên trên đồ thị với xác
suất dịch chuyển đƣợc chỉ ra trong hình 3.1. Đặt W
uv


R
m x n
là ma trận chuyển dịch từ U

đến V, các thành phần (j, i) là một trọng số
w
uv
ji
từ u
i
đến v
j
. Đặt W
vu

R
n x m
là ma trận
chuyển từ V đến U, các thành phần (j, i) là một trọng số
w
vu
ji
từ v
j
đến u
i
. Để xem xét các
cung ở một bên, chẳng hạn nhƣ đồ thị query – query trong query log, một xác xuất dịch
chuyển ẩn
ij
w
uu
từ u
i

đến u
j
, tƣơng ứng với một đƣờng nét đứt trong hình 3.1, đƣợc mô tả
nhƣ sau:
ij
w w w
uu uv vu
ik kj
kV


(1)
Và
uu uv vu uv vu
ij ik kj ik kj
j U j U k V k V j U
w w w w w
    




   
(2)

1
uv
ik
kV
w





Tƣơng tự, với xác suất dịch chuyển từ v
i
đến v
j
, chúng ta có thể chỉ ra rằng
ij
w w w
uv vu uv
ik kj
kU


và
ij
w
vv
jV

. Chúng tôi sử dụng W
uu


R
m x m
và W
vv


R
n x n
để biểu
thị tra trận chuyển ẩn với U và V tƣơng ứng.
Ngoài các thông tin đồ thị, mỗi thực thể (một query hay một tài liệu) có thể đƣợc
biểu diễn nhƣ một véctơ với nội dung thông tin của nó.
Thuật toán Co – HITS
Ý tƣởng cơ bản của phƣơng pháp này là lan truyền điểm trên đồ thị hai bên thông
quá quá trình lặp. Nhƣ chỉ ra ở hình 3.2(a), điểm y
k
của v
k
đƣợc lan truyền đến u
i
theo xác
suất dịch chuyển. Tƣơng tự, điểm số đƣợc lan truyền từ các cung khác của V đến u
i
, sau
đó điểm của u
i
đƣợc cập nhật để đạt đƣợc một giá trị mới x
i
. Trong hình 3.2(b) chỉ ra rằng
giá trị mới x
i
đƣợc lan truyền đến v
k
. Một cách trực giác đằng sau sự lan truyền điểm là sự

tăng cƣờng lẫn nhau để thúc đẩy các thực thể liên kết trên đồ thị hai phía. Cuối cùng,
điểm liên quan khởi tạo dựa trên nội dung thông tin cung cấp các thông tin giá trị.
Tính hạng đối tượng trong mạng xã hội Twitter 25

Nguyễn Thị Ngọc Lan

Hình 3.2: Lan truyền điểm trên đồ thị hai phía:
Hình (a) điểm y
k
đƣợc lan truyền đến u
i
và u
j
,
hình (b) điểm x
i
đƣợc lan truyền đến v
k
.
Để kết hợp đồ thị hai phía với nội dung thông tin, công thức tổng quát Co – HITS có
thể đƣợc viết nhƣ sau:
0
(1 )
vu
i u i u ki k
kV
x x w y


  


(3)
0
(1 )
uv
k v k v jk j
jU
y y w x


  

(4)
Trong đó
[0,1]
u


và
[0,1]
v


là các tham số cá nhân,
0
i
x
và
0
k

y
là các điểm khởi tạo của
u
i
và v
k
. Trong mô hình, các điểm khởi tạo đƣợc chuẩn hóa
0
1
i
iU
x



và
0
1
k
kV
y



. Vì
vậy, sau khi cập nhật lan truyền, tổng điểm của x
i
và tổng điểm của y
k
luôn là 1. Nếu chỉ

xem xét các đỉnh ở một bên, bằng cách thay thế công thức (4) cho y
k
trong công thức (3),
công thức Co-HITS tổng quát trở thành nhƣ sau:
00
00
(1 ) (1 ) w ( w w ) ,
(1 ) (1 ) w w .
vu uv vu
i u i u v ki k u v jk ki j
k V j U k V
vu uu
u i u v ki k u v ji j
k V j U
x x y x
x y x
    
    
  

    
    
  

(5)
Điểm số cuối cùng của mỗi thực thể có thể thu đƣợc trong suốt quá trình cập nhật
vòng lặp. Bằng thực nghiệm, tác giả chỉ ra rằng trong hầu hết các trƣờng hợp công thức
hội tụ sau khoảng 10 vòng lặp.

Tính hạng đố tượng trong mạng xã hội Twitter

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về