Phân loại câu trả lời giả mạo trên các trang web hỏi đáp cộng đồng dựa vào quan hệ người dùng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (529.05 KB, 5 trang )

+ӝL7KҧR4XӕF*LDYӅĈLӋQ7ӱ7UX\ӅQ7K{QJYj&{QJ1JKӋ7K{QJ7LQ(&,7

Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

Phân Loại Câu Trả Lời Giả Mạo Trên Các Trang Web
Hỏi Đáp Cộng Đồng Dựa Vào Quan Hệ Người Dùng
Nông Thị Hoa, Quách Xuân Trưởng, Nguyễn Thùy Linh, Vũ Thị Thúy Thảo, Nguyễn Xuân Hưng
Trường Đại học Công nghệ thông tin & Truyền thông, Đại học Thái Nguyên
Email: , , ,,
Abstract – Việc xuất hiện các câu trả lời giả mạo (câu trả lời có
chứa thơng tin quảng cáo) trên các trang web hỏi đáp cộng đồng
sẽ làm giảm sự tin tưởng của người dùng đối với các tri thức của
trang. Vì vậy, nhu cầu loại bỏ các câu trả lời giả mạo này là hết
sức cần thiết. Hiện nay, các tiếp cận thường tập trung vào phân
loại dựa trên đặc điểm văn bản và ngữ cảnh. Dựa vào hoạt động
của các trang web hỏi đáp, các người dùng tốt thường thích hoặc
bầu chọn các câu trả lời xác thực. Ngược lại, người dùng chuyên
đăng quảng cáo thường thích hoặc bầu chọn các câu trả lời có
chứa quảng cáo. Vì vậy, việc dùng mối quan hệ này để phân loại
các câu trả lời sẽ tăng thêm khả năng tìm được các câu trả lời giả
mạo. Trong bài báo này, chúng tơi trình bày cách phân loại các
câu trả lời giả mạo trên các trang web hỏi đáp cộng đồng thông
qua mối quan hệ người dùng. Các thử nghiệm được làm với hai
bộ dữ liệu được thu thập từ trang Yahoo hỏi đáp và Facebook.
Kết quả cho thấy việc sử dụng quan hệ người dùng cho phép
phân loại tốt hơn các phương pháp phân loại dựa vào văn bản.

giúp được gì cho người hỏi. Nếu người hỏi bị lừa bởi các câu
trả lời giả mạo thì người hỏi sẽ khơng tin tưởng và ko ghé
thăm trang web nữa. Vì vậy, một nhiệm vụ cơ bản là phân

loại để lọc ra những câu trả lời giả mạo.
Trong bài báo này, chúng tơi trình bày cách phân loại các
câu trả lời giả mạo trên các trang web hỏi đáp cộng đồng
thông qua mối quan hệ người dùng. Dựa vào đặc điểm: các
người dùng tốt thường thích hoặc bầu chọn các câu trả lời xác
thực còn người dùng chuyên đăng quảng cáo thường thích
hoặc bầu chọn các câu trả lời có chứa quảng cáo. Việc phân
loại các câu trả lời được thực hiện qua hai bước: (i) Phân loại
dựa trên các thuộc tính về văn bản thu được tập các câu trả lời
giả mạo và tập các câu trả lời xác thực; (ii) Phân loại dựa trên
quan hệ người dùng đối với các câu được xếp loại là xác thực
ở bước trước.
Bài báo được tổ chức thành các phần sau: trong phần II,
chúng tôi tổng kết các nghiên cứu liên quan. Phần III trình bày
các đặc điểm của câu trả lời. Tiếp theo, quan hệ người trong
phân loại câu trả lời được mô tả chi tiết trong phần IV. Phần V
thể hiện các kết quả thực nghiệm. Cuối cùng, kết luận được
đưa ra trong Phần VI.

Keywords – Câu trả lời giả mạo, quan hệ người dùng, phân
loại câu trả lời, trang web hỏi đáp cộng đồng, phân loại .

I.

GIỚI THIỆU

Hiện nay, các trang web hỏi-đáp cộng đồng, chẳng hạn
như Yahoo! Hỏi & Đáp và WikiAnswers, đã trở thành một
trong những phương pháp thu thập thông tin quan trọng nhất.
Ngồi các cơng cụ tìm kiếm web có mục đích chung, các trang

web hỏi-đáp cộng đồng đã trở lên phổ biến, có hiệu quả và trở
thành phương tiện tìm kiếm thơng tin trên web. Hiện nay có
hàng trăm triệu câu trả lời và hàng triệu câu hỏi tích lũy trên
các trang web hỏi-đáp cộng đồng. Các nguồn tài nguyên của
câu hỏi và câu trả lời trước đây được chứng minh là một cơ sở
tri thức có giá trị. Từ các trang web hỏi-đáp cộng đồng, người
dùng có thể trực tiếp nhận được các câu trả lời để đáp ứng một
số nhu cầu thơng tin cụ thể. Do đó, trong những năm gần đây,
khai thác kiến thức trong các trang web hỏi-đáp cộng đồng đã
trở thành một chủ đề phổ biến trong lĩnh vực trí tuệ nhân tạo
Tuy nhiên, một số câu trả lời có thể là giả mạo. Các trang
web hỏi-đáp cộng đồng có hàng triệu người dùng mỗi ngày.
Do các câu trả lời có thể chỉ dẫn hành vi của người dùng nên
một số người dùng độc hại đã cố ý cung cấp câu trả lời giả
mạo để quảng cáo sản phẩm hoặc dịch vụ.
Câu trả lời giả mạo gây ra nhiều vấn đề đặc biệt là gây
hiểu lầm cho người dùng và làm người dùng đưa ra quyết định
sai. Về phía cộng đồng hỏi-đáp, các câu trả lời giả mạo sẽ làm
tổn hại sức mạnh của các trang web hỏi-đáp cộng đồng. Một
trang web hỏi-đáp cộng đồng mà khơng có kiểm sốt các câu
trả lời giả mạo thì chỉ có lợi nhưng kẻ gửi thư rác mà khơng

ISBN: 978-604-67-0635-9

II.

CÁC NGHIÊN CỨU LIÊN QUAN

Trong vài năm qua, tìm câu trả lời trên các trang web
đã trở thành một nhiệm vụ phổ biến để khai thác kiến thức từ

các trang web hỏi đáp cộng đồng. Các nghiên cứu gồm lấy các
cặp câu hỏi - câu trả lời đã tích lũy để tìm câu trả lời liên quan
cho một câu hỏi mới, tổng hợp các câu trả lời để cung cấp một
kết quả chính xác [1][2][3][4][5][6]. Tuy nhiên, việc phát hiện
các câu trả lời giả mạo chưa được quan tâm thực sự. Nếu thu
thập một tập hợp câu hỏi – câu trả lời có nhiều câu trả lời giả
mạo thì kiến thức thu được sẽ vơ nghĩa. Do đó, bước đầu tiên
là dự đoán để lọc ra những câu trả lời giả mạo. Một số nghiên
cứu khác tập trung vào dự đoán chất lượng câu trả lời [7] [8]
[9][10].
Tuy nhiên, có sự khác biệt đáng kể giữa dự đốn chất
lượng câu trả lời và dự đoán câu trả lời giả mạo. Dự đoán chất
lượng câu trả lời sẽ đo chất lượng tổng thể của câu trả lời,
thơng qua tính chính xác, tính dễ đọc và đầy đủ của các câu trả
lời. Trong khi dự đoán câu trả lời giả mạo dự đốn mục đích
của các câu trả lời có chứa quảng cáo hay không. Một số
nghiên cứu [7][10][11] xem việc chọn “câu trả lời tốt nhất”
như câu trả lời chất lượng cao mà được chọn bởi người hỏi
trong các trang web hỏi đáp cộng đồng. Tuy nhiên, câu trả lời
giả mạo có thể được lựa chọn là câu trả lời chất lượng cao bởi

288

Hội+ӝL7KҧR4XӕF*LDYӅĈLӋQ7ӱ7UX\ӅQ7K{QJYj&{QJ1JKӋ7K{QJ7LQ(&,7

Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
các người dùng độc hại, hoặc vì người dùng hiểu lầm. Trong
khi đó, một số câu trả lời từ những người không phải người

bản xứ có thể có lỗi ngơn ngữ mà làm cho câu trả lời có chất
lượng thấp nhưng vẫn là câu trả lời xác thực.
Một số nghiên cứu cũng dùng đồ thị người dùng để nghiên
cứu các mối quan hệ người dùng [12][13]. Các nghiên cứu chủ
yếu xây dựng các đồ thị người dùng với mối quan hệ người
hỏi-người trả lời để ước tính số điểm chun mơn với quan
điểm người trả lời có hiểu biết hơn người hỏi. Tuy nhiên, bài
tốn này khơng quan tâm người dùng nào có kiến thức hơn,
mà cho biết cả hai người dùng là hai kẻ gửi thư rác hoặc hai
người dùng xác thực. Vì vậy, mối quan hệ giữa các người
dùng mới được đưa vào để nâng cao chất lượng phân loại câu
trả lời giả mạo. Lý do là người gửi thư rác đưa ra câu trả giả
mạo và thăng cấp các câu trả giả mạo còn người dùng xác thực
thường gửi các câu trả lời xác thực và giáng cấp các câu trả lời
giả mạo. Quan hệ giữa người dùng được xây dựng dựa trên
đánh giá câu trả lời của người dùng khác là “hữu ích” hoặc lựa
chọn là “câu trả lời tốt nhất”.

Theo quan sát, các câu trả lời giả mạo thường dài hơn các
câu trả lời xác thực bởi vì câu trả lời giả mạo được chuẩn bị
tốt để quảng cáo các mục tiêu. Vì vậy, số từ và số câu trong
các câu trả lời được xét như một thuộc tính.
B. Các thuộc tính theo ngữ cảnh
Bên cạnh các thuộc tính theo văn bản, có thể xem xét đến
các thuộc tính khác từ ngữ cảnh của câu trả lời.
1) Sự liên quan giữa câu hỏi và câu trả lời
Đặc điểm chính của câu trả lời trong trang web hỏi-đáp
cộng đồng là câu trả lời được cung cấp để trả lời câu hỏi tương
ứng. Vì vậy, câu hỏi tương ứng được dùng như một thuộc tính
ngữ cảnh bằng cách đo sự liên quan giữa các câu trả lời và câu

hỏi. Ba mơ hình phổ biến được dùng để xác định sự liên quan
giữa câu hỏi và câu trả lời:
Mơ hình khơng gian vector
Mỗi câu trả lời hoặc câu hỏi được xem như là một vector
từ. Cho một câu hỏi q và câu trả lời a, mơ hình vector sử dụng
bộ đếm từ có trọng số và sự tương tự cosine của các vector từ
như là một hàm liên quan [15].
Tuy nhiên, mơ hình vector chỉ xem xét sự đối chiếu từ
chính xác trong khi các câu hỏi và câu trả lời thường là ngắn
hơn so với tài liệu. Ví dụ, Hà nội và thủ đô của Việt Nam là
cùng một thành phố. Nhưng mơ hình vector sẽ cho thấy chúng
phải khác nhau.
Mơ hình dịch
Một mơ hình dịch là một mơ hình tốn học mà việc dịch
ngơn ngữ được mơ hình hóa dựa trên các thống kê dữ liệu.
Khả năng dịch một câu nguồn (câu trả lời) sang câu mục tiêu
(câu hỏi) thu được bằng cách gióng các từ để cực đại tích xác
suất các từ. Với mơ hình dịch, có thể tính điểm dịch cho câu
hỏi và câu trả lời mới.
Mơ hình chủ đề
Để giảm lỗi đối chiếu từ trong mơ hình vector, dùng mơ
hình chủ đề để mở rộng việc đối chiếu ngữ nghĩa của chủ đề.
Mơ hình chủ đề xem xét một tập hợp các tài liệu với các chủ
đề [17]. Về bản chất, mơ hình ánh xạ thơng tin từ số chiều của
từ sang số chiều chủ đề ngữ nghĩa.
2) Các thuộc tính về hồ sơ của người dùng
Từ số liệu thống kê hoạt động của người dùng, các thuộc
tính về hồ sơ cá nhân được xây dựng bao gồm mức độ sử dụng
các trang web hỏi-đáp cộng đồng, số lượng câu hỏi, số lượng
câu trả lời, và tỷ lệ câu trả lời tốt nhất.

3) Điểm thẩm quyền của người dùng
Các chuyên gia tìm kiếm nhiệm vụ thực hiện chấm điểm
thẩm quyền cho mỗi người dùng [5][12][13]. Điểm này biểu
thị số điểm chun mơn của người dùng. Để tính điểm thẩm
quyền, đầu tiên cần xây dựng một đồ thị có hướng thể hiện sự
tương tác của người dùng trong cộng đồng. Mỗi nút của đồ thị
biểu diễn cho một người dùng. Một cạnh giữa hai người dùng
chỉ hình thành khi người dùng này trả lời câu hỏi của người
dùng kia. Trọng lượng của một cạnh cho biết số tương tác.
4) Các thuộc tính tự động
Loại thứ ba của thuộc tính liên quan đến tác giả được sử
dụng để phát hiện xem tác giả có là một robot được lập trình
để gửi câu trả lời tự động. Theo quan sát, sự phân phối thời
gian gửi bài trả lời rất khác nhau giữa người dùng và robot.

III. CÁC ĐẶC TRƯNG CỦA CÂU TRẢ LỜI
Đầu tiên, xem việc dự đoán câu trả lời giả mạo là một vấn
đề phân loại nhị phân. Hai loại thuộc tính của câu trả lời được
dùng trong phân loại gồm các thuộc tính theo văn bản và các
thuộc tính theo ngữ cảnh.
A.

Các thuộc tính theo văn bản
Đầu tiên, dự đoán câu trả lời giả mạo bằng cách phân tích
nội dung câu trả lời. Một số thuộc tính theo văn bản được lấy
ra từ nội dung câu trả lời.
1) Unigrams và Bigrams
Loại phổ biến nhất của thuộc tính để phân loại văn bản là
túi từ (bag of words). Sử dụng các phương pháp lựa chọn
thuộc tính để chọn 200 từ đơn và từ ghép như thuộc tính về từ.

Danh sách các từ này có liên quan đến mục đích quảng cáo
gồm: chuyên nghiệp, dịch vụ, khuyên dùng, địa chỉ, số điện
thoại, email, điều trị, giới thiệu, hoàn hảo, tốt nhất, tel, mobile,
address, phone, liên hệ, dt, điện thoại.
2) Các thuộc tính URL
Một số người dùng độc hại có thể quảng bá sản phẩm bằng
cách liên kết với một URL. Do đó, URL là thể hiện tốt cho câu
trả lời giả mạo. Tuy nhiên, một số URL có thể cung cấp các tài
liệu tham khảo cho câu trả lời xác thực. Ví dụ, nếu hỏi thời tiết
ở vùng núi, một người nào đó chỉ có thể gửi liên kết đến
“ Vì vậy, bên cạnh sự tồn tại của
URL, cần sử dụng thêm thuộc tính URL sau đây:
- Chiều dài của các URL: các URL dài có nhiều khả năng
là rác.
- Điểm xếp hạng trang: sử dụng số điểm xếp hạng trang
của mỗi URL như điểm phổ biến [14]. Trang có độ phổ
biến ít là trang có trong câu trả lời giả mạo.
3) Số điện thoại và email
Câu trả lời giả mạo thường có nhiều thơng tin liên lạc như
số điện thoại, địa chỉ và email. Câu trả lời xác thực ít tham
khảo đến số điện thoại hoặc địa chỉ email hơn. Số lần xuất
hiện của email và số điện thoại được coi như một thuộc tính.
4) Chiều dài

289

Hội+ӝL7KҧR4XӕF*LDYӅĈLӋQ7ӱ7UX\ӅQ7K{QJYj&{QJ1JKӋ7K{QJ7LQ(&,7

Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Cơng Nghệ Thơng Tin (ECIT 2015)
“khơng hữu ích”, và người dùng u6 bỏ phiếu câu trả lời thứ hai
là “hữu ích”. Cuối cùng, người hỏi u1 đã chọn câu trả lời đầu
tiên là “câu trả lời tốt nhất”. Do người dùng u4 và u5 cùng đưa
ra đánh giá “không hữu ích” đối với câu trả lời đầu tiên nên
hai người dùng này có quan hệ với nhau.
Về phía đánh giá “hữu ích” thực sự, giả sử tác giả của câu
trả lời cho đánh giá “hữu ích” đối với câu trả lời của mình.
Sau đó, nếu người dùng u6 đưa ra đánh giá “hữu ích” với câu
trả lời thứ hai của người dùng u3 thì người dùng u6 có quan hệ
với người dùng u3.
Tiếp tục xác định quan hệ người dùng với lựa chọn “câu
trả lời tốt nhất”. Nếu người hỏi đã chọn “câu trả lời tốt nhất”
trong tất cả các câu trả lời thì người hỏi có quan hệ với tác giả
của “câu trả lời tốt nhất”. Theo ví dụ, người dùng u1 có quan
hệ với người dùng u2.
Trong các trang web hỏi đáp cộng đồng, kẻ gửi thư rác chủ
yếu quảng cáo các sản phẩm mục tiêu bằng cách đưa ra các
câu trả lời giả mạo. Kẻ gửi thư rác có thể làm cho câu trả lời
giả mạo trơng có vẻ thật, bằng cách bầu chọn cho chúng là câu
trả lời chất lượng cao, hoặc lựa chọn chúng như là “câu trả lời
tốt nhất". Tuy nhiên, người dùng xác thực thường có đánh giá
riêng cho các câu trả lời xác thực và các câu trả lời giả mạo.
Vì vậy, việc đánh giá đối với các câu trả lời phản ánh mối
quan hệ người dùng. Tuy nhiên, vẫn có các quan hệ nhiễu khi
người dùng xác thực bị lừa và chọn câu trả lời giả mạo là “câu
trả lời tốt nhất".

Robot có thể gửi câu trả lời liên tục nên khoảng thời gian giữa
hai câu trả lời là nhỏ hơn người dùng thực bởi vì con người

cần thời gian để suy nghĩ và xử lý giữa hai bài viết.
5) Đánh giá từ người dùng khác
Trên các trang web hỏi-đáp cộng đồng, người dùng có thể
bày tỏ ý kiến hoặc đánh giá các câu trả lời. Ví dụ, người hỏi có
thể chọn câu trả lời tốt nhất. Ngoài ra, người dùng có thể dán
nhãn cho mỗi câu trả lời là “hữu ích” hoặc “không hữu ích”.
Đánh giá của người dùng khác được tính theo tỷ lệ giữa số
phiếu bầu “hữu ích” trên số tổng số phiếu bầu.
6) Sao chép các câu trả lời
Người dùng xấu có thể gửi các tài liệu quảng bá sản phẩm
được viết trước cho nhiều câu trả lời, hoặc chỉ thay đổi tên sản
phẩm. Xét sự tương đồng giữa các câu trả lời cho thấy nếu hai
câu trả lời là giống nhau nhưng câu hỏi là khác nhau thì các
câu trả lời đó là giả mạo
IV. DỰ ĐOÁN CÂU TRẢ LỜI GIẢ MẠO DỰA VÀO
MỐI QUAN HỆ NGƯỜI DÙNG
Bên cạnh các thuộc tính theo văn bản và các thuộc tính
theo ngữ cảnh, mối quan hệ của người dùng cũng được dùng
để dự đoán câu trả lời giả mạo. Giả sử, người dùng tương tự
có xu hướng thực hiện hành vi tương tự (cùng gửi câu trả lời
giả mạo hoặc cùng đăng câu trả lời xác thực). Đầu tiên, cần
xác định mối quan hệ của người dùng thông qua phiếu bầu của
các người dùng về câu trả lời. Sau đó, dùng mối quan hệ người
dùng để dự đốn câu trả lời giả mạo.

B. Kết hợp mối quan hệ người dùng và các thuộc tính về văn
bản để phân loại các câu trả lời giả mạo.
Ý tưởng dùng quan hệ người dùng để phân loại câu trả lời
giả mạo đã được trình bày chi tiết trong [18]. Trong nghiên
cứu này, đồ thị quan hệ người dùng được xây dựng với trọng

số cạnh thể hiện mức quan hệ giữa hai người dùng và dùng
hàm mục tiêu để cực tiểu sự khác biệt khi xác thực câu trả lời
của các người dùng có quan hệ. Do đó, kết quả phân loại sẽ có
độ chính xác cao nhưng địi hỏi tính tốn phức tạp hơn.
Chúng đề xuất thủ tục phân loại đơn giản hơn dựa trên ý
tưởng của nghiên cứu trên. Do việc xây dựng quan hệ người
dùng đơn giản hơn nên độ chính xác của kết quả phân loại sẽ
giảm so với phương pháp nêu trên.
1) Thủ tục phân loại câu trả lời
Trong thủ tục này, người dùng có quan hệ với người dùng
độc hại cũng xem như người dùng độc hại. Việc phân loại câu
trả lời giả mạo được thực hiện qua các bước sau:
Bước 1: Phân loại các câu hỏi dựa trên các thuộc tính về
văn bản để lọc ra các câu trả lời giả mạo. Với mỗi câu trả lời
giả mạo thu được, lấy tác giả của câu trả lời đưa vào danh sách
các người dùng độc hại.
Bước 2: Với các câu trả lời còn lại, làm hai bước sau:
Bước 2.1: Tìm ra các người dùng có quan hệ với người
dùng độc hại trong danh sách thu được ở Bước 1 theo cách
xác định trong phần 4 mục A nếu số lần có cùng quan
điểm vượt qua ngưỡng q với q nguyên dương. Điều này để
tránh khi người dùng xác thực bị lừa bởi người dùng độc
hại do chưa xem xét kỹ thông tin câu trả lời đã bình chọn.
Bước 2.2: Phân loại câu trả lời là giả mạo nếu người trả
lời là người dùng độc hại. Các câu trả còn lại là câu trả lời
xác thực.

A. Xác định mối quan hệ người dùng
Cho một câu hỏi Q1, sẽ có một số câu trả lời cho Q1 từ
những người dùng khác nhau. Hai người dùng U1 và U2 có

mối quan hệ nếu ở một trong các trường hợp sau:
(i) Người dùng U1 trả lời một câu hỏi Q1. Người dùng U2
bình chọn câu trả lời của người dùng U1 là “hữu ích” hoặc
“khơng hữu ích”;
(ii) Người dùng U2 trả lời một câu hỏi Q1. Người dùng U1
bình chọn câu trả lời của người dùng U2 là “hữu ích” hoặc
“khơng hữu ích”; và
(iii) Cả người dùng U1 và người dùng U2 cùng bình chọn
một câu trả lời A1 của một người dùng khác là “câu trả lời tốt
nhất”.

Hình 1: Ví dụ về quan hệ người dùng
Ví dụ: người hỏi, u1, hỏi một câu. Sau đó, người dùng u2
và u3 trả lời cho câu hỏi này. Sau khi câu trả lời được cung
cấp, người dùng u4 và u5 bầu chọn câu trả lời đầu tiên là

290

Hội+ӝL7KҧR4XӕF*LDYӅĈLӋQ7ӱ7UX\ӅQ7K{QJYj&{QJ1JKӋ7K{QJ7LQ(&,7

Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
2) Ưu điểm và nhược điểm
Thủ tục đề xuất có tốc độ xử lý nhanh do các phương thức
phát hiện câu trả lời giả mạo từ các thuộc tính về văn bản là
khá đơn giản. Hơn nữa, việc xác định mối quan hệ người dùng
cũng dễ thực hiện chỉ bởi các phép so sánh.
Do thủ tục đạt được tốc độ xử lý nhanh nên chất lượng
phân loại sẽ bị giảm vì một số câu trả lời giả mạo vẫn được coi

là các câu trả lời thật do chưa xét hết các thuộc tính liên quan
đến ngữ cảnh và mối quan hệ giữa người dùng chỉ ở mức đơn
giản. Nếu mối quan hệ người dùng được xây dựng tốt hơn
gồm các thông tin về trọng số của các mối quan hệ thì giải
quyết tốt hơn các mối quan hệ cịn nhập nhằng. Ví dụ một
người dùng có nhiều quan hệ với nhiều người dùng xác thực
hơn quan hệ với người dùng độc hại thì được coi là người
dùng xác thực. Với thủ tục trên, khi số lần người dùng xác
thực đồng ý với ý kiến của người dùng độc hại vượt qua một
ngưỡng nhất định thì vẫn bị coi là người dùng độc hại.
V.

Câu trả lời chứa các từ liên quan đến quảng cáo gồm
chuyên nghiệp, dịch vụ, khuyên dùng, địa chỉ, số điện
thoại, email, điều trị, giới thiệu, hoàn hảo, tốt nhất,
tel, mobile, address, phone, liên hệ, dt, điện thoại.
x Với địa chỉ URL, chỉ xét phần địa chỉ đầu tiên gắn
với tên miền. Các địa chỉ chia thành 3 nhóm: bắt đầu
bằng www thì độ dài lớn hơn 10 ký tự, bắt đầu bằng
http:// thì độ dài lớn hơn 17 ký tự, bắt đầu bằng
https:// thì độ dài lớn hơn 18 ký tự.
Kết quả thực nghiệm được trình bày trong Bảng 2. Số liệu
trong Bảng 2 cho thấy thủ tục đề xuất cải thiện đáng kể khả
năng phát hiện các câu trả giả mạo so với kết quả phân loại
theo các thuộc tính văn bản.
x

Bảng 2: Tỷ lệ % phân loại đúng với tập dữ liệu từ Yahoo
Số mẫu

KẾT QUẢ THỰC NGHIỆM

Độ dài

Trong bài báo này, các thực nghiệm được làm trên hai tập
dữ liệu được thu thập trừ trang Yahoo hỏi-đáp Việt Nam và
nhóm IELTS SHARE của Facebook. Với mỗi câu trả lời,
chúng tôi tiến hành gán nhãn là giả mạo hay xác thực dựa vào
nội dung câu hỏi và nội dung câu trả lời.
Với mỗi tập dữ liệu, thực hiện phân loại theo 5 cách sau:
độ dài câu trả lời, danh sách các từ thường dùng trong quảng
cáo, địa chỉ URL, tổng hợp cả ba thuộc tính văn bản và thủ tục
đề xuất. Để đánh giá hiệu quả phân loại, tỷ lệ phần trăm phân
loại đúng được dùng cho các câu trả lời giả mạo, các câu trả
lời xác thực, và trên toàn tập dữ liệu.

Viet Bup Be

Mat troi Xanh, KYNGVI

Lực

Nam, Trung

Hehe

Suri, Iu, Na

chung

doan, phuc, nguyen

ngocn nam

viet, thi, hung, uyên

Thoa

Mỹ Vy, Hien

Hưng Lê đức

huệ, Xuan Thien,

Smart Dev

Thành Mobile

Tổng thể

744

832

6.82

91.67

49.25

Danh sách từ

29.55

97.18

63.37

Địa chỉ URL

29.55

98.25

63.90

Tổng hợp

57.95

100.00

78.98

Quan hệ người dùng

85.23

100.00

92.62

Bảng 3: Các quan hệ người dùng trong tập dữ liệu từ Facebook
Người trả lời
Người thích câu trả lời

Bảng 1: Các quan hệ người dùng trong tập dữ liệu từ Yahoo
Người trả lời
Người thích/chọn là câu trả lời hay nhất
ShopOnline4Sure, Vip Ooz

Xác thực

88

B. Thực nghiệm với tập dữ liệu từ Facebook
Tập dữ liệu gồm 250 mẫu được thu thập từ nhóm IELTS
SHARE của Facebook – Nơi hỏi đáp về các tài liệu học tiếng
anh trình độ IELTS. Trong đó, có 31 mẫu là câu trả lời giả mạo
và 219 mẫu là câu trả lời xác thực. Bảng 3 thể hiện một số quan
hệ người dùng thu được từ tập số liệu.

A. Thực nghiệm với tập dữ liệu từ Yahoo hỏi-đáp
Tập dữ liệu gồm 832 mẫu được thu thập từ nhiều chủ đề
khác nhau trên trang Yahoo hỏi-đáp Việt Nam. Trong đó, có
88 mẫu là câu trả lời giả mạo và 744 mẫu là câu trả lời xác
thực. Bảng 1 thể hiện quan hệ người dùng thu được từ tập số
liệu.

SGC

Giả mạo

Các tham số chọn cho các thuộc tính về văn bản dùng
trong thực nghiệm gồm:
x Số từ trong câu trả lời quá 80 từ

291

Đỗ Trọng
Thiêm

Thanh Hồ, Phương Mai, Dung Trinh,Yoo
Su, Linh Chan, Len Pham, Nguyễn Đức
Nghĩa, Hằng Nga, Nguyễn Thảo, Dương
Trịnh

Hồ Trọng Đại

Tuyết Anh, Linh Sogogi, Phương Thảoo

Ngo Bla

Phuong Anh Bùi, Link Chee Twig, Trần
Thanh Phương, Trần Thảo Ngọc, Tuyết
Anh, Trâm Nguyễn, Nguyễn
Thảo,Phương Thảoo, Nguy Hiểm

Nguyễn Ngọc

Trung

Phạm Ngọc Diệp, Chi Phan, Phan Thị
Ngọc Phú, Hạ Nhật, Thân Hương, Mun
Mun, AnhThu Tran,Kỵ Sỹ Văn Trần, Mai
Anh BaeKarry

Hoàng Phúc

Mun Mun, Ha Cuong, Dương Trịnh,
Phạm Ngọc Diệp, Thân Hương

Hội+ӝL7KҧR4XӕF*LDYӅĈLӋQ7ӱ7UX\ӅQ7K{QJYj&{QJ1JKӋ7K{QJ7LQ(&,7

Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Kết quả thực nghiệm trong Bảng 4. cũng cho thấy thủ tục
cải tiến tăng mạnh khả năng phát hiện các câu trả giả mạo so
với kết quả phân loại theo các thuộc tính văn bản

[4]

Bảng 4: Tỷ lệ % phân loại đúng với tập dữ liệu từ Facebook
Giả mạo

Xác thực

Tổng thể

Số mẫu

31

219

250

Độ dài

19.35

99.54

59.45

Danh sách từ

6.45

99.54

53.00

Địa chỉ URL

48.39

98.17

73.28

Tổng hợp

74.19

100.00

87.10

Quan hệ người dùng

90.32

100.00

95.16

[5]
[6]
[7]
[8]

VI. KẾT LUẬN

[9]

Trong bài báo này, một thủ tục dự đoán các câu trả lời giả
mạo trong các trang web hỏi đáp cộng đồng đưoạc đưa ra. Với
hai tập dữ liệu đánh nhãn bằng tay, đầu tiên thực hiện dự đoán
các câu trả lời giả mạo dựa vào các thuộc tính về văn bản và

thành lập danh sách các người dùng độc hại dựa trên các đánh
giá của người dùng đối với các câu trả lời. Tiếp theo, xác định
các người dùng có với các người dùng độc hại trong danh
sách. Cuối cùng, áp dụng quan hệ người dùng để phân loại các
câu trả lời. Các thực nghiệm trên hai tập dữ liệu lấy từ Yahoo
và Facebook cho thấy việc sử dụng quan hệ người dùng cải
thiện đáng kể độ chính xác trong việc dự đốn câu trả lời giả
mạo.
Độ chính xác của dự đốn câu trả lời giả mạo cịn có thể
cải thiện khi kết hợp thêm nhiều thuộc tính trong khi phân
loại. Hơn nữa, việc dự đoán các chủ đề của hàng loạt câu hỏi
giả mạo và phát hiện nhóm người dùng độc hại cũng là các
nhiệm vụ quan trọng trong tương lai.

[10]
[11]

[12]
[13]

[14]
[15]

TÀI LIỆU THAM KHẢO

[16]

[1] Jiwoon Jeon, W. Bruce Croft, and Joon Ho Lee (2005), “Finding similar
questions in large question and answer archives” in Proceedings of the
14th ACM CIKM conference, 05, pages 84–90, NY, USA. ACM

[2] Lada A. Adamic, Jun Zhang, Eytan Bakshy, and Mark S. Ackerman
(2008), “Knowledge sharing and yahoo answers: everyone knows
something”, Proceedings of the 17th international conference on World
Wide Web, WWW ’08, pages 665–674, New York, NY, USA. ACM.
[3] Yuanjie Liu, Shasha Li, Yunbo Cao, Chin-Yew Lin, Dingyi Han, and
Yong Yu (2008), “Understanding and summarizing answers in
community-based question answering services”, Proceedings of the
22nd International Conference on Computational Linguistics - Volume

[17]
[18]

292

1, COLING ’08, pages 497– 504, Stroudsburg, PA, USA. Association
for Computational Linguistics
Young-In Song, Chin-Yew Lin, Yunbo Cao, and HaeChang Rim (2008),
“Question utility: a novel static ranking of question search”. Proceedings
of the 23rd national conference on Artificial intelligence - Volume 2,
AAAI’08, pages 1231–1236. AAAI Press.
X. Si, Z. Gyongyi, and E. Y. Chang (2010), “Scalable mining of topicdependent user reputation for improving user generated content search
quality”, In Google Technical Report.
A. Figueroa and J. Atkinson (2011), “Maximum entropy context models
for ranking biographical answers to open-domain definition questions”,
Twenty-Fifth AAAI Conference on Artificial Intelligence
Y.I. Song, J. Liu, T. Sakai, X.J. Wang, G. Feng, Y. Cao, H. Suzuki, and
C.Y. Lin (2010), “Microsoft research asia with redmond at the ntcir-8
community QA pilot task”, Proceedings of NTCIR.
F. Maxwell Harper, Daphne Raban, Sheizaf Rafaeli, and Joseph A.

Konstan (2008), “Predictors of answer quality in online q&a sites”,
Proceedings of the twenty-sixth annual SIGCHI conference on Human
factors in computing systems, CHI ’08, pages 865– 874, New York, NY,
USA. ACM.
Chirag Shah and Jefferey Pomerantz (2010), “Evaluating and predicting
answer quality in community QA”, Proceedings of the 33rd international
ACM SIGIR conference on Research and development in information
retrieval, SIGIR ’10, pages 411–418, New York, NY, USA. ACM.
Daisuke Ishikawa, Tetsuya Sakai, and Noriko Kando (2010), “Overview
of the NTCIR-8 Community QA”, Pilot Task (Part I): The Test
Collection and the Task, pages 421–432. Number Part I
Jiang Bian, Yandong Liu, Ding Zhou, Eugene Agichtein, and Hongyuan
Zha (2009), “Learning to recognize reliable users and content in social
media with coupled mutual reinforcement”, Proceedings of the 18th
international conference on World wide web, WWW ’09, pages 51–60,
NY, USA. ACM
P. Jurczyk and E. Agichtein (2007), “Discovering authorities in question
answer communities by using link analysis”, Proceedings of the
sixteenth ACM CIKM conference, pages 919–922. ACM.
Jing Liu, Young-In Song, and Chin-Yew Lin (2011), “Competitionbased user expertise score estimation”, Proceedings of the 34th
international ACM SIGIR conference on Research and development in
Information Retrieval, pages 425–434, ACM.
Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd.
(1999), “The pagerank citation ranking: Bringing order to the web”,
Technical Report 1999-66, Stanford InfoLab, SIDL-WP-1999-0120.
Gerard Salton and Michael J. McGill (1986), “Introduction to Modern
Information Retrieval”, McGraw-Hill, Inc., New York, NY, USA.
Franz Josef Och and Hermann Ney (2003), “A systematic comparison
of various statistical alignment models”, Comput. Linguist., 29:19–51,
March.

David M. Blei, Andrew Y. Ng, and Michael I. Jordan (2003), “Latent
dirichlet allocation”, J. Mach. Learn. Res., 3:993–1022, March.
Fangtao Li, Yang Gao, Shuchang Zhou, Xiance Si, and Decheng Dai
(2013), “Deceptive Answer Prediction with User Preference Graph”,
Proceedings of the 51st Annual Meeting of the Association for
Computational Linguistics, pages 1723–1732, ACL.

Phân loại câu trả lời giả mạo trên các trang web hỏi đáp cộng đồng dựa vào quan hệ người dùng

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về