MỘT SỐ PHƯƠNG PHÁP HỌC MÁY XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG TRÊN MẠNG INTERNET

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (21.85 MB, 153 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Dương Trần Đức

MỘT SỐ PHƯƠNG PHÁP HỌC MÁY XÁC ĐỊNH
ĐẶC ĐIỂM NGƯỜI DÙNG TRÊN MẠNG INTERNET

LUẬN ÁN TIẾN SĨ KỸ THUẬT

Hà Nội – Năm 2018

i

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Dương Trần Đức

MỘT SỐ PHƯƠNG PHÁP HỌC MÁY XÁC ĐỊNH
ĐẶC ĐIỂM NGƯỜI DÙNG TRÊN MẠNG INTERNET

Chuyên ngành: Kỹ thuật máy tính
Mã số: 9.48.01.06

LUẬN ÁN TIẾN SĨ KỸ THUẬT

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS PHẠM BẢO SƠN
2. TS. TÂN HẠNH

Hà Nội – Năm 2018

ii

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện. Các số liệu và
kết quả trình bày trong luận án là trung thực, chưa được công bố bởi bất kỳ tác giả
nào hay ở bất kỳ công trình nào khác.

Tác giả

Dương Trần Đức

iii

LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn chân thành tới Khoa Đào tạo Sau Đại học, Khoa Công
nghệ Thông tin, Ban Lãnh đạo Học viện Công nghệ Bưu chính Viễn thông, các Quý
Thầy Cô đã giúp tôi trang bị kiến thức, tạo điều kiện thuận lợi cho tôi trong suốt quá
trình thực hiện Luận án này.
Đồng thời, tôi xin bày tỏ lòng cảm ơn chân thành và sâu sắc tới PGS. TS.
Phạm Bảo Sơn và TS. Tân Hạnh, những người đã tận tình khuyến khích và hướng
dẫn trong quá trình thực hiện để tôi có thể hoàn thành Luận án.
Xin chân thành cảm ơn các đồng nghiệp, các nhà khoa học, các thầy cô giáo
công tác tại Khoa Công nghệ Thông tin, Học viện Công nghệ Bưu chính Viễn
thông, Đại học Công nghệ - Đại học Quốc gia Hà Nội đã động viên, hỗ trợ tôi trong
quá trình thực hiện Luận án.

Cuối cùng, xin gửi lời tri ân sâu sắc tới gia đình, bạn bè, những người đã luôn
động viên, khuyến khích, là chỗ dựa tinh thần cho tôi trong thời gian thực hiện Luận
án.

iv

MỤC LỤC
Trang
TRANG PHỤ BÌA ................................................................................................... i
LỜI CAM ĐOAN ................................................................................................... ii
LỜI CẢM ƠN ........................................................................................................ iii
MỤC LỤC ............................................................................................................. iv
DANH MỤC BẢNG BIỂU ................................................................................... vii
DANH MỤC HÌNH VẼ ....................................................................................... viii
DANH MỤC CÁC TỪ VIẾT TẮT ........................................................................ ix
MỞ ĐẦU ................................................................................................................ 1
1.

LÝ DO LỰA CHỌN ĐỀ TÀI ...................................................................... 1

2.

MỤC TIÊU CỦA LUẬN ÁN ...................................................................... 3

3.

PHẠM VI NGHIÊN CỨU ........................................................................... 4

4.

CÁC ĐÓNG GÓP CỦA LUẬN ÁN ............................................................ 4

5.

BỐ CỤC CỦA LUẬN ÁN ........................................................................... 5

CHƯƠNG 1: TỔNG QUAN VỀ XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG ............ 1
1.1

XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG THÔNG QUA PHÂN TÍCH

VĂN BẢN ........................................................................................................... 1
1.1.1

Giới thiệu............................................................................................. 1

1.1.2

Đặc điểm của văn bản trực tuyến ......................................................... 4

1.1.3

Các dạng thức trong phân tích tác giả văn bản ..................................... 5

1.1.4

Các kỹ thuật phân tích........................................................................ 11

1.1.5

Các đặc trưng nhận diện..................................................................... 15

1.2 NHẬN DIỆN ĐẶC ĐIỂM NGƯỜI DÙNG THÔNG QUA PHÂN TÍCH
HÀNH VI .......................................................................................................... 24
1.2.1

Giới thiệu........................................................................................... 24

1.2.2

Tập đặc trưng hành vi ........................................................................ 25

1.2.3

Các kỹ thuật phân tích........................................................................ 28

1.2.4

Nhận xét và đánh giá ......................................................................... 29

v

1.3

CÔNG CỤ THỰC NGHIỆM ................................................................... 30

1.4

KẾT LUẬN CHƯƠNG ............................................................................ 31

CHƯƠNG 2: XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ BÀI VIẾT DIỄN ĐÀN TIẾNG
VIỆT ..................................................................................................................... 33
2.1

XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ BÀI VIẾT DIỄN ĐÀN TIẾNG VIỆT

SỬ DỤNG CÁC ĐẶC TRƯNG CƠ BẢN ......................................................... 34
2.1.1

Giới thiệu........................................................................................... 34

2.1.2

Phương pháp ...................................................................................... 35

2.1.3

Thực nghiệm...................................................................................... 40

2.1.4

Kết luận ............................................................................................. 47

2.2

SỬ DỤNG CÁC ĐẶC TRƯNG NỘI DUNG ........................................... 47

2.2.1

Giới thiệu........................................................................................... 47

2.2.2

Phương pháp ...................................................................................... 48

2.2.3

Thực nghiệm...................................................................................... 49

2.2.4

Kết luận ............................................................................................. 61

2.3

SỬ DỤNG CÁC ĐẶC TRƯNG VẦN VÀ ÂM TIẾT TIẾNG VIỆT ........ 62

2.3.1

Giới thiệu........................................................................................... 62

2.3.2 Tổng quan về các nghiên cứu phân tích tác giả sử dụng các đặc trưng
dựa trên từ vựng............................................................................................. 63
2.3.3

Âm tiết và vần trong tiếng Việt .......................................................... 66

2.3.4

Phương pháp ...................................................................................... 68

2.3.5

Thực nghiệm...................................................................................... 70

2.3.6

Kết luận ............................................................................................. 78

2.4

KẾT LUẬN CHƯƠNG ............................................................................ 79

CHƯƠNG 3: XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG DỰA TRÊN DỮ LIỆU
LỊCH SỬ TRUY CẬP HỆ THỐNG THƯƠNG MẠI ĐIỆN TỬ ............................ 81
3.1

PHƯƠNG PHÁP TÁI CHỌN MẪU ........................................................ 82

3.1.1

Giới thiệu........................................................................................... 82

3.1.2

Phương pháp ...................................................................................... 82

3.1.3

Thực nghiệm...................................................................................... 87

vi

3.1.4

Kết luận ............................................................................................. 93

3.2 PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG DỰA TRÊN BIỂU DIỄN
CÂY ................................................................................................................. 94
3.2.1

Giới thiệu........................................................................................... 94

3.2.2

Phương pháp ...................................................................................... 95

3.2.3

Thực nghiệm ................................................................................... 101

3.3

KẾT LUẬN CHƯƠNG .......................................................................... 106

KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO ..................................... 107
1.

KẾT LUẬN ............................................................................................. 107

2.

HƯỚNG NGHIÊN CỨU TIẾP THEO..................................................... 109

DANH MỤC CÔNG TRÌNH CÔNG BỐ ............................................................ 110
TÀI LIỆU THAM KHẢO ................................................................................... 112
PHỤ LỤC 1: XÂY DỰNG ỨNG DỤNG THỬ NGHIỆM XÁC ĐỊNH ĐẶC ĐIỂM
TÁC GIẢ VĂN BẢN TIẾNG VIỆT.................................................................... 125
1.1

ĐẶT VẤN ĐỀ ....................................................................................... 125

1.2

MÔ TẢ HỆ THỐNG .............................................................................. 126

1.2.1

Sơ đồ hệ thống ................................................................................. 126

1.2.2

Chức năng Thu thập dữ liệu ............................................................. 126

1.2.3

Chức năng Xử lý dữ liệu .................................................................. 127

1.2.4

Chức năng Trích chọn đặc trưng ...................................................... 128

1.2.5

Chức năng Xây dựng mô hình nhận diện ......................................... 129

1.2.6

Chức năng Xây dựng dịch vụ nhận diện ........................................... 129

1.2.7

Chức năng Ứng dựng Web thử nghiệm sử dụng dịch vụ .................. 129

1.3

XÂY DỰNG HỆ THỐNG...................................................................... 130

1.3.1

Mô đun Thu thập dữ liệu.................................................................. 130

1.3.2

Mô đun Xử lý dữ liệu và trích chọn đặc trưng .................................. 130

1.3.4

Mô đun Xây dựng dịch vụ nhận diện ............................................... 133

1.3.5

Mô đun ứng dụng thử nghiệm sử dụng dịch vụ ................................ 133

1.4

KẾT LUẬN ............................................................................................ 135

vii

DANH MỤC BẢNG BIỂU

Bảng 1.1. Các đặc trưng dựa theo phong cách ....................................................... 19
Bảng 2.1 Các đặc trưng cơ bản.............................................................................. 39
Bảng 2.2. Thống kê về tập dữ liệu huấn luyện ....................................................... 41
Bảng 2.3. Kết quả xác định đặc điểm tác giả bài viết diễn đàn .............................. 44
Bảng 2.4. Kết quả thực nghiệm sử dụng các đặc trưng nâng cao ........................... 55
Bảng 2.5. Kết quả trên thuật toán SMO sau khi điều chỉnh tham số ...................... 58
Bảng 2.6. Những đặc trưng nội dung (từ nội dung) quan trọng nhất ...................... 60
Bảng 2.7. Cấu trúc âm tiết tiếng Việt .................................................................... 68
Bảng 2.9. Các đặc trưng ........................................................................................ 70
Bảng 2.10. Kết quả xác định đặc điểm tác giả sử dụng các đặc trưng vần và âm tiết
.............................................................................................................................. 71
Bảng 2.11. Các vần và âm tiết quan trọng trong nhận diện tác giả ......................... 73
Bảng 3.2. Các đặc trưng chung ............................................................................. 84
Bảng 3.3. Các đặc trưng dựa trên sản phẩm .......................................................... 85

Bảng 3.3. Các đặc trưng dựa trên sản phẩm chuyển tiếp........................................ 85
Bảng 3.4. Thống kê dữ liệu ................................................................................... 88
Bảng 3.5. Ma trận chi phí ...................................................................................... 90
Bảng 3.6. Kết quả của các thực nghiệm trên các thuật toán khác nhau (chưa áp dụng
kỹ thuật hỗ trợ) ...................................................................................................... 91
Bảng 3.8. Kết quả thực nghiệm khi áp dụng thêm các kỹ thuật hỗ trợ ................... 92
Bảng 3.9. Các đặc trưng về sản phẩm/loại sản phẩm riêng rẽ ................................ 95
Bảng 3.10. Các đặc trưng nâng cao ..................................................................... 100
Bảng 3.11. Kết quả thực nghiệm khi sử dụng ClassBalancer kết hợp
CosSensitiveClassifier với ma trận chi phí 1:3 ..................................................... 102
Bảng 3.12. Kết quả phân loại sau khi lựa chọn đặc trưng và tối ưu tham số ........ 105

viii

DANH MỤC HÌNH VẼ

Hình 2.2. Độ chính xác nhận diện trên các số lượng đặc trưng khác nhau ............. 59
Hình 3.1. Biểu diễn dạng cây của danh mục sản phẩm/loại sản phẩm được xem ... 96
Hình 3.2. Biểu diễn dạng cây của lượt xem có 1 loại sản phẩm mức A ................. 97
Hình 3.3. Biểu diễn dạng cây của lượt xem có nhiều loại sản phẩm mức A........... 97
Hình 1 Sơ đồ tổng quát của hệ thống .................................................................. 127
Hình 2 Giao diện mô đun xử lý dữ liệu và trích chọn đặc trưng ......................... 131
Hình 3 Giao diện mô đun Xây dựng mô hình nhận diện...................................... 132
Hình 4 Giao diện mô đu thử nghiệm nhận diện tác giả văn bản........................... 132
Hình 5 Mã nguồn dịch vụ Web xác định đặc điểm tác giả................................... 134
Hình 6 Giao diện ứng dụng Web sử dụng dịch vụ ............................................... 134
Hình 7 Mã nguồn mô đun ứng dụng Web sử dụng dịch vụ ................................. 135

ix

DANH MỤC CÁC TỪ VIẾT TẮT

Từ viết tắt

Thuật ngữ tiếng Anh

Thuật ngữ tiếng Việt

BAC

Balanced Accuracy

Độ đo chính xác cân bằng

BMR

Bayesian Multinomial
Regression

Hồi quy đa thức Bayes

BN

Bayesian Networks

Mạng Bayes

BNC

British National Corpus

Kho ngữ liệu quốc gia Anh

BPN

Back Propagation Network

Mạng truyền ngược

DT

Decision Tree

Cây quyết định

EG

Exponential Gradient

Gradient mũ

EM

Expectation Maximization

Cực đại hóa kỳ vọng

ID

Information Gain

Độ lợi thông tin

IRS

Information Retrieval
Similarity

Độ tương tự trích xuất thông
tin

JAX-RS

Java API for RESTful Web
Services

Giao diện lập trình ứng dụng
Java cho dịch vụ Web REST

JSON

Javascript Object Notion

KLS

Kullback–Leibler Similarity

Độ tương tự Kullback–Leibler

National Institute of Standards

Viện Tiêu chuẩn và Công nghệ

and Technology

Quốc gia (Hoa Kỳ)

– Pacific Asia Knowledge
Discovery and Data Mining

Hội nghị về Phát hiện tri thức
và Khai phá dữ liệu Châu Á TBD

NIST

PAKDD

x

POS

Part of Speech

Từ loại

RBF

Radias Basis Function

Hàm cơ sở bán kính

REST

Representational State Transfer
Sequential minimal

SMO

optimization

Tối ưu hóa tối thiểu tuần tự

SOAP

Simple Object Access Protocol

Giao thức truy cập đối tượng
đơn gian

SVM

Support Vector Machine

Máy véc tơ hỗ trợ

TMĐT

Thương mại điện tử

TREC

Text Retrieval Conference

Hội nghị về rút trích thông tin

XML

eXtensible Markup Language

Ngôn ngữ đánh dấu mở rộng

1

MỞ ĐẦU

Sự phát triển mạnh mẽ của Internet và các dịch vụ trên Internet có những tác
động lớn đến nhiều mặt trong xã hội. Chỉ với một thiết bị được kết nối đến mạng
Internet, người dùng có thể dễ dàng sử dụng các kênh trao đổi thông tin như
website, email, diễn đàn, mạng xã hội, hoặc các dịch vụ khác như tìm kiếm thông
tin, thương mại điện tử (TMĐT) v.v. Một đặc điểm chung của các hệ thống này là
không bắt buộc người dùng cung cấp chính xác thông tin cá nhân khi sử dụng. Việc
này nhằm khuyến khích và tạo thuận lợi cho người dùng trong quá trình sử dụng,
tuy nhiên cũng tạo ra một số vấn đề. Thứ nhất, người dùng có thể sử dụng các kênh
trao đổi thông tin một cách nặc danh hoặc giả mạo, với mục đích xấu. Thứ hai, việc
thiếu thông tin cá nhân người dùng làm cho các nhà cung cấp dịch vụ trên Internet
gặp khó khăn trong việc cá nhân hóa hệ thống nhằm tăng trải nghiệm cho người

dùng, thúc đẩy bán hàng, hoặc thực hiện các hoạt động quảng cáo trực tuyến hiệu
quả hơn.
Luận án này thực hiện nghiên cứu về vấn đề xác định các đặc điểm của người
dùng dựa trên phân tích văn bản do người dùng tạo ra hoặc dựa trên phân tích hành
vi người dùng thực hiện trên hệ thống bằng các phương pháp học máy.
Các nội dung tiếp theo của phần này bao gồm: Phần 1.1 trình bày lý do lựa
chọn đề tài. Phần 1.2 và 1.3 nêu các mục tiêu và đóng góp của luận án. Nội dung
của phần 1.4 là bố cục của toàn bộ luận án.
1.

LÝ DO LỰA CHỌN ĐỀ TÀI
Xác định đặc điểm người dùng là một trong những mối quan tâm hàng đầu của

các nhà cung cấp dịch vụ trên mạng Internet. Đặc biệt, trong bối cảnh xu hướng cá
nhân hóa các hệ thống cho phù hợp với từng cá nhân người dùng, việc có được các
thông tin về đặc điểm cá nhân của người dùng như giới tính, độ tuổi, nghề nghiệp,
v.v. giúp cho các hệ thống có thể được tối ưu hóa theo các đặc điểm tương ứng hoặc
hiển thị các thông tin quảng cáo, tiếp thị, giới thiệu sản phẩm phù hợp với người

2

dùng. Việc xác định được đặc điểm người dùng còn trợ giúp cho các nhà quản lý
trong việc hỗ trợ điều tra tội phạm trực tuyến. Trong các trường hợp tội phạm để lại
dấu vết trên hệ thống như các bản tin trực tuyến hoặc các hành vi khác trên hệ
thống, việc dựa vào các thông tin này để dự đoán các đặc điểm của tội phạm sẽ giúp
khoanh vùng, thu hẹp phạm vi xác định tội phạm, thậm chí trong nhiều trường hợp
có thể xác định đích danh tội phạm nếu danh sách nghi phạm là biết trước và có sự
phân biệt.
Khó khăn lớn nhất của các nhà cung cấp dịch vụ trên mạng Internet cũng như

các nhà quản lý là đa phần người dùng không cung cấp hoặc cung cấp không đầy đủ
và không chính xác các thông tin cá nhân khi sử dụng các hệ thống trực tuyến. Điều
này nhằm bảo vệ tính riêng tư và an toàn thông tin của người dùng trước các tấn
công mạng ngày càng phổ biến. Vì vậy, phương pháp khả dĩ nhất để có được thông
tin cá cá nhân người dùng là dự đoán từ các “dấu vết” người dùng để lại trên hệ
thống như các bản tin được tạo ra, hay các hành vi người dùng thực hiện trên hệ
thống.
Kỹ thuật phân tích tác giả văn bản đã được nghiên cứu từ cách đây hàng thập
kỷ, khởi đầu là trên các loại văn bản chính thống và có độ dài lớn như sách, tạp chí,
bài báo, v.v. và tập trung vào vấn đề xác minh đích danh tác giả văn bản trong một
danh sách tác giả đã được xác định trước (kỹ thuật này còn gọi là xác định tác giả
văn bản, authorship attribution, sẽ được trình bày kỹ hơn ở chương sau). Gần đây,
do sự phổ biến của các loại văn bản trực tuyến, vấn đề phân tích tác giả văn bản
được thực hiện nhiều hơn trên loại văn bản này và tập trung vào xác định các đặc
điểm của tác giả (author profiling) do các văn bản trực tuyến thường có độ mở cao
nên thường không có thông tin về tác giả của văn bản. Nhiều nghiên cứu đã được
thực hiện trên các loại văn bản trực tuyến khác nhau (email, blog, bài viết mạng xã
hội) và trên các ngôn ngữ khác nhau (tiếng Anh, tiếng Hà Lan, tiếng Trung Quốc,
tiếng Hy Lạp v.v.). Các nghiên cứu về xác định đặc điểm người dùng dựa trên phân
tích hành vi ra đời muộn hơn và trở nên phổ biến trong những năm gần đây do xu
hướng quảng cáo trực tuyến hướng đối tượng tăng mạnh trên các hệ thống như

3

website, máy tìm kiếm, thương mại điện tử v.v. Ưu điểm của kỹ thuật này là không
cần thu thập các bản tin do người dùng tạo ra, nhưng việc thu thập các hành vi của
người dùng trên hệ thống cũng không hề dễ dàng do chỉ các máy chủ mới có thể
làm công việc này. Các nghiên cứu phổ biến trong lĩnh vực này được thực hiện trên
các hệ thống như website thông tin, hệ thống mạng di động, v.v.

Luận án này thực hiện các nghiên cứu trên cả hai lĩnh vực: xác định đặc điểm
tác giả văn bản và xác định đặc điểm người dùng dựa trên hành vi. Các nghiên cứu
về xác định đặc điểm tác giả văn bản được thực hiện trên các văn bản tiếng Việt là
loại ngôn ngữ chưa được nghiên cứu nhiều. Các nghiên cứu về xác định đặc điểm
người dùng dựa trên hành vi được thực hiện trên dữ liệu của hệ thống thương mại
điện tử. Đây là hệ thống có khả năng áp dụng cao kết quả nghiên cứu do đặc thù bán
hàng trực tuyến và theo khảo sát của chúng tôi thì chưa có nghiên cứu nào trước đây
về xác định đặc điểm người dùng được thực hiện trên loại hệ thống này.
2.

MỤC TIÊU CỦA LUẬN ÁN
Dựa trên nhu cầu thực tiễn và các kết quả nghiên cứu trước đây ở trong nước

và quốc tế, luận án đặt ra các mục tiêu chính như sau:
-

Nghiên cứu vấn đề xác định đặc điểm tác giả văn bản trên loại văn bản
mới, chưa được nghiên cứu trước đây. Cụ thể là trên các bài viết diễn đàn
tiếng Việt. Thực nghiệm các loại đặc trưng và các phương pháp phân loại
để chọn ra các đặc trưng và phương pháp phân loại phù hợp.

-

Nghiên cứu các phương pháp trích chọn đặc trưng mới cho vấn đề xác
định đặc điểm tác giả văn bản, nhằm tăng độ chính xác hoặc tính độc lập
trong quá trình nhận diện. Các phương pháp trích chọn mới có thể tận
dụng các đặc điểm đặc thù của ngôn ngữ tiếng Việt để áp dụng trên các
văn bản đồng ngôn ngữ. Tuy nhiên, cũng có khả năng áp dụng sang các
loại ngôn ngữ khác.

-

Nghiên cứu vấn đề xác định đặc điểm người dùng dựa trên hành vi trong
các hệ thống có nhu cầu cá nhân hóa cao như hệ thống TMĐT. Nghiên

4

cứu, đề xuất các phương pháp trích chọn đặc trưng hiệu quả và các
phương pháp phân loại phù hợp.
3.

Xây dựng ứng dụng thử nghiệm kết quả nghiên cứu của luận án.

PHẠM VI NGHIÊN CỨU
Xác định đặc điểm người dùng là một lĩnh vực rộng, trên cả khía cạnh loại

người dùng và đặc điểm người dùng. Luận án xác định các đối tượng người dùng
trong các nghiên cứu là người dùng trên mạng Internet (là người dùng của các hệ
thống phổ biến trên Internet như website, email, diễn đàn, hệ thống TMĐT .v.v). Do
tính mở của mạng Internet và để bảo đảm tính riêng tư, người dùng thường ít tiết lộ
đặc điểm cá nhân khi sử dụng và việc xác định đặc điểm người dùng có ý nghĩa
quan trọng như đã trình bày ở trên.
Đối với nghiên cứu xác định đặc điểm người dùng dựa trên phân tích văn bản,
hiện có nhiều loại văn bản trên nhiều ngôn ngữ đã được các nhà khoa học trên thế
giới nghiên cứu, trong đó, các nghiên cứu mới nhất tập trung vào các loại văn bản
trực tuyến như thư điện tử (email), nhật ký trực tuyến (blog), bài viết mạng xã hội
(social network). Luận án này thực hiện các nghiên cứu về xác định đặc điểm tác
giả bài viết diễn đàn tiếng Việt. Đây là một loại văn bản chưa được nghiên cứu
nhiều, đặc biệt trong ngôn ngữ tiếng Việt. Các đặc điểm nhận diện bao gồm giới

tính, độ tuổi, nghề nghiệp, và vùng miền.
Xác định đặc điểm người dùng dựa trên phân tích hành vi cũng là một lĩnh vực
nghiên cứu được quan tâm những năm gần đây. Tuy nhiên, do có sự hạn chế trong
vấn đề thu thập dữ liệu mẫu (dữ liệu về hành vi người dùng thường lưu trữ trên máy
chủ của các hệ thống và không thể tự động thu thập được các dữ liệu này nếu không
có sự cho phép của đơn vị quản lý hệ thống), luận án này chỉ thực hiện nghiên cứu
về dự đoán đặc điểm giới tính của khách hàng dựa trên dữ liệu truy cập hệ thống
TMĐT.
4.

CÁC ĐÓNG GÓP CỦA LUẬN ÁN
Để thực hiện các mục tiêu trên, các nghiên cứu về mặt lý thuyết, đồng thời các

5

thực nghiệm thực tế đã được thực hiện để ra các kết quả định lượng. Các đóng góp
chính của luận án bao gồm:
Đóng góp trong lĩnh vực xác định đặc điểm tác giả văn bản:
-

Nghiên cứu việc ứng dụng các loại đặc trưng và phương pháp nhận diện
khác nhau, trong đó tập trung phân tích sâu về các đặc trưng dựa trên nội
dung, cho vấn đề xác định đặc điểm tác giải bài viễn diễn đàn tiếng Việt.
Trước đây, đã có một số công trình nghiên cứu việc sử dụng các từ nội
dung cho việc xác định đặc điểm tác giả văn bản, nhưng chưa có các phân
tích sâu. Đặc biệt, chưa có nghiên cứu nào thực hiện trên ngôn ngữ tiếng
Việt.

-

Đề xuất một loại đặc trưng mới cho việc xác định đặc điểm tác giả bài viết
diễn đàn tiếng Việt. Các đặc trưng mới giúp cho việc nhận diện có độ
chính xác cao hơn các đặc trưng cơ bản (dựa trên phong cách), có tính độc
lập hơn so với các đặc trưng nội dung, và khi kết hợp với các đặc trưng
phong cách hoặc nội dung thì cho kết quả cao hơn. Đây là các đặc trưng
dựa trên đặc thù tiếng Việt như vần và âm tiết, tuy nhiên cũng có thể mở
rộng áp dụng sang các ngôn ngữ khác và các loại văn bản khác.

Đóng góp trong lĩnh vực xác định đặc điểm người dùng dựa trên hành vi:
-

Nghiên cứu vấn đề dự đoán giới tính khách hàng dựa trên dữ liệu lịch sử
truy cập hệ TMĐT. Mặc dù các hệ thống TMĐT là các hệ thống được sử
dụng rộng rãi trên Internet và có khả năng ứng dụng cao nhưng hiện chưa
có nghiên cứu thực sự nào về dự đoán đặc điểm khách hàng dựa trên hành
vi trên loại hệ thống này. Luận án nghiên cứu các phương pháp trích chọn
đặc trưng và phân loại hiệu quả, trong đó đề xuất phương pháp trích chọn
đặc trưng sử dụng biểu diễn dạng cây của danh sách sản phẩm và phân
loại.

5.

BỐ CỤC CỦA LUẬN ÁN
Nội dung của luận án bao gồm 3 chương và một phụ lục, trong đó:

6

Chương 1 khảo sát và đánh giá các công trình đã thực hiện trong lĩnh vực

nghiên cứu của luận án. Chương này bao gồm hai phần, đó là khảo sát, đánh giá các
nghiên cứu trong lĩnh vực phân tích tác giả văn bản và lĩnh vực dự đoán đặc điểm
người dùng dựa trên hành vi.
Chương 2 trình bày về vấn đề xác định đặc điểm tác giả bài viết diễn đàn tiếng
Việt, bao gồm phương pháp tiếp cận và các kết quả thực nghiệm. Trong chương
này, các kết quả nghiên cứu chính trong lĩnh vực xác định đặc điểm tác giả văn bản
tiếng Việt sử dụng các kỹ thuật học máy được trình bày. Đó là các nghiên cứu về sử
dụng các đặc trưng cơ bản dựa trên phong cách, nghiên cứu và phân tích việc sử
dụng các đặc trưng dựa trên nội dung và nghiên cứu, đề xuất sử dụng các đặc trưng
dựa trên các âm tiết và vần trong tiếng Việt. Các kết quả trình bày trong chương
được thể hiện qua các công bố khoa học [1, 2, 4, 5, 7].
Chương 3 mô tả các kết quả nghiên cứu về dự đoán giới tính khách hàng dựa
trên dữ liệu lịch sử truy cập hệ TMĐT. Chương này đề xuất hai phương án tiếp cận
cho việc giải quyết vấn đề như đã nói ở trên. Hai phương pháp tiếp cận này đều có
ưu điểm là có tính tổng quát và có thể dễ dàng ứng dụng cho các hệ thống khác,
đồng thời có tốc độ thực hiện nhanh. Kết quả của các phương pháp này được thể
hiện qua các công bố khoa học [3, 6]. Phần cuối của luận án trình bày các kết luận
và hướng nghiên cứu tiếp theo.
Phần phụ lục trình bày về ứng dụng thử nghiệm dịch vụ xác định đặc điểm tác
giả văn bản tiếng Việt. Đây là ứng dụng được xây dựng dựa trên kết quả nghiên cứu
được trình bày trong chương 3 và được triển khai thử nghiệm trên mạng Internet.
Ứng dụng bao gồm hai phần, đó là phần ứng dụng cung cấp dịch vụ trên máy chủ
và ứng dụng thử nghiệm sử dụng dịch vụ trên máy khách.

1

CHƯƠNG 1
TỔNG QUAN VỀ XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG

Chương này trình bày nghiên cứu khảo sát về xác định đặc điểm người dùng,
bao gồm xác định đặc điểm người dùng dựa trên phân tích văn bản và dựa trên phân
tích hành vi. Các nghiên cứu mới nhất trong hai lĩnh vực trên sẽ được nghiên cứu và
đánh giá, trong đó tập trung vào hai vấn đề là các đặc trưng nhận diện và kỹ thuật
phân tích. Bố cục của chương như sau: Phần 1.1 trình bày các khảo sát và đánh giá
về các công trình nghiên cứu trong lĩnh vực phân tích tác giả văn bản. Phần 1.2
trình bày các khảo sát về lĩnh vực dự đoán đặc điểm người dùng dựa trên hành vi.
Phần 1.3 trình bày về công cụ thực nghiệm WEKA. Cuối cùng, phần 1.4 nêu các
vấn đề còn tồn tại và cần được nghiên cứu, giải quyết.
1.1

XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG THÔNG QUA PHÂN TÍCH VĂN
BẢN

1.1.1 Giới thiệu
Phân tích tác giả văn bản là quá trình phân tích một tài liệu để có thể đưa ra
các kết luận về tác giả của nó. Việc phân tích tác giả văn bản là cần thiết trong
trường hợp có các tài liệu không rõ tác giả và cần phải phân tích để chỉ ra tác giả
hoặc chỉ ra các đặc điểm của tác giả. Trước đây, việc phân tích tác giả được áp dụng
chủ yếu cho các tác phẩm văn học như sách báo. Tuy nhiên, trong những năm gần
đây, sự phát triển của Internet và các kênh trao đổi thông tin trực tuyến đã hình
thành nên nhiều loại văn bản điện tử với số lượng lớn như email, blogs, diễn dàn
v.v., trong đó có rất nhiều bài viết không rõ tác giả (do vô tình hoặc cố ý). Trong
nhiều trường hợp, việc xác định ra các đặc điểm hoặc phát hiện ra tác giả của các
bài viết, nhận xét, bình luận vô danh là rất cần thiết, phục vụ cho nhiều mục đích
khác nhau như:

2

 Lĩnh vực quảng cáo, bán hàng: Việc xác định các đặc điểm của người dùng
giúp cho các thông tin quảng cáo hoặc giới thiệu sản phẩm được hiển thị
đúng đối tượng, qua đó thúc đẩy hoạt động tiếp thị, bán hàng trực tuyến.
 Lĩnh vực phát triển sản phẩm: Hỗ trợ cho các tổ chức/doanh nghiệp trong
việc xác định đặc điểm của những người thích hoặc không thích sản
phẩm/dịch vụ của họ thông qua việc xác định tác giả của các bình luận/đánh
giá tích cực hoặc tiêu cực.
 Lĩnh vực tòa án, điều tra tội phạm: Hỗ trợ cho công tác phân xử hoặc phán
xét các tranh chấp thông qua việc chứng minh một văn bản nào đó là do một
người tạo ra hoặc không phải do một người tạo ra.
Ngoài ra, việc xác định được tác giả của các văn bản cũng giúp ích trong một
số lĩnh vực quan trọng khác như xác định những tội phạm gửi thông tin nặc danh
hoặc giúp phát hiện ra việc sao chép trái phép tài liệu hoặc văn bản.
Theo Zheng et al. [118], lĩnh vực nghiên cứu về phân tích tác giả văn bản có
thể chia làm các dạng thức như sau:
 Nhận diện tác giả: Là việc xác định xem một người có phải là tác giả của một
văn bản không thông qua việc phân tích các văn bản khác do người đó tạo ra.
 Xác định đặc điểm tác giả: Là việc chỉ ra các đặc điểm của người đã tạo ra
một văn bản cho trước. Các đặc điểm này có thể là về đặc điểm cá nhân, tính
cách, trình độ v.v.
 Phát hiện văn bản cùng tác giả (phát hiện sao chép): Là việc so sánh hai hoặc
nhiều văn bản xem có phải chúng được tạo ra bởi cùng một tác giả hay
không.
Quá trình phân tích tác giả văn bản liên quan đến hai vấn đề chính, đó là kỹ
thuật phân tích và tập đặc trưng phân biệt.
Có khá nhiều kỹ thuật được sử dụng trong phân tích tác giả văn bản. Koppel
[58] phân chia các kỹ thuật ra làm ba loại. Trong thời gian đầu, các kỹ thuật phân

3

tích chủ yếu sử dụng phương pháp bất biến đơn nhất (unitary invariant), trong đó
một hàm số học đơn nhất của văn bản được sử dụng để phân biệt các tác giả.
Phương pháp phân tích đa biến (multivariate analysis) được sử dụng sau đó cho
phép thực hiện phân tích đa biến theo thống kê dựa trên tần suất các từ và các đặc
trưng số khác. Mặc dù các phương pháp này đã đạt được những kết quả khá tốt
trong thời gian đầu, nhưng vẫn còn tồn tại những hạn chế, như khả năng xử lý số
lượng lớn các đặc điểm hay sự ổn định trên nhiều lĩnh vực. Để giải quyết các vấn đề
này, các kỹ thuật học máy đã được nghiên cứu áp dụng. Sự phát triển của các máy
tính tốc độ cao đã cho phép các nhà nghiên cứu thực hiện các thực nghiệm phân tích
trên các thuật toán học máy phức tạp trên các tập đặc trưng lớn. Nhiều nghiên cứu
về phân tích tác giả văn bản dựa trên các kỹ thuật học máy đã cho ra kết quả tốt,
điển hình là các thuật toán như máy véc tơ hỗ trợ (SVM - Support Vector Machine),
mạng Bayes (Bayesian Networks), hay cây quyết định (Decision Trees). Nhìn
chung, các phương pháp phân tích dựa trên học máy đã có những ưu điểm hơn so
với các phương pháp trước đây và các thực nghiệm đã cho thấy kết quả tốt hơn [58].
Tập đặc trưng có thể được xem như một phương pháp biểu diễn văn bản trên
khía cạnh phong cách viết hoặc cách sử dụng từ. Với một tập đặc trưng được lựa
chọn, một văn bản có thể được biểu diễn bởi một véc tơ đặc trưng, trong đó mỗi
thành phần biểu thị tần suất của mỗi đặc trưng trong văn bản hoặc một giá trị biểu
thị tính chất đặc thù của văn bản đó [55]. Đã có nhiều tập đặc trưng được thử
nghiệm, tuy nhiên không có tập đặc trưng nào là tốt nhất trong mọi trường hợp.
Theo Argamon et al. [11], có hai loại đặc trưng chính được sử dụng trong phân tích
tác giả văn bản: đặc trưng về phong cách và đặc trưng dựa trên nội dung. Đặc trưng
về phong cách bao gồm các đặc trưng liên quan đến cách dùng ký tự, các tính chất
từ (lexical), cách sử dụng các cấu trúc ngữ pháp (syntactic), và các đặc trưng về cấu
trúc văn bản. Đặc trưng dựa trên nội dung bao gồm các từ nhất định hoặc các nội
dung đặc biệt được sử dụng thường xuyên trong lĩnh vực đó hơn là các lĩnh vực
khác. Các từ này có thể được chọn theo phương pháp so sánh ngữ nghĩa hoặc trích
chọn dựa trên tần suất xuất hiện trong tập dữ liệu.

4

Các phần tiếp theo sẽ trình bày về đặc điểm của loại văn bản trực tuyến và các
khảo sát về các dạng thức, các kỹ thuật, và các tập đặc trưng được sử dụng trong
lĩnh vực phân tích tác giả văn bản.
1.1.2 Đặc điểm của văn bản trực tuyến
Văn bản trực tuyến (online documents) hay văn bản điện tử (electronic
documents) là các tài liệu viết được trao đổi giữa những người dùng trên mạng
Internet. Phương thức trao đổi các tài liệu này có thể là đồng bộ như chat hoặc bất
đồng bộ như thư điện tử, diễn đàn. Việc phân tích tác giả của các tài liệu trực tuyến
có nhiều thách thức hơn so với các loại văn bản truyền thống do đặc điểm về cấu
tạo và độ dài văn bản [106]. Theo Foertsch (như trích dẫn trong [47]), tài liệu trực
tuyến không phải tài liệu viết đơn thuần cũng không phải tài liệu nói đơn thuần mà
là một loại tài liệu nằm ở giữa hai loại tài liệu trên.
Các loại tài liệu truyền thống như sách, báo, bài luận v.v. là những loại tài liệu
chứa nhiều thông tin hữu ích để phân tích văn phong của tác giả do chúng có độ dài
lớn (vài trăm từ cho tới hàng trăm trang). Ngoài ra, các loại tài liệu này thường
được cấu trúc tốt và được viết theo đúng các quy tắc ngữ pháp và cú pháp. Đã có
nhiều nghiên cứu thành công trong việc phân tích tác giả của các loại tài liệu này.
Các tài liệu trực tuyến thường có độ dài ngắn (vài chục đến vài trăm từ), và
thường được viết theo phong cách tự do, ít theo các quy tắc ngữ pháp và cú pháp
chính thống. Do đó, việc phân tích các thói quen trong việc viết các tài liệu này của
các tác giả là khó khăn hơn nhiều. Ledger và Merriam (như trích dẫn trong [47])
cho rằng việc phân tích tác giả của các tài liệu có độ dài <500 trang là khó khả thi.
Ngoài ra, các tài liệu trực tuyến là các tài liệu tương tác, thường được viết nhằm
mục đích duy nhất là biểu thị suy nghĩ của người viết mà ít quan tâm đến các lỗi
ngữ pháp và chính tả. Do đó, các phương pháp phân tích dùng cho các loại văn bản
trước đây thường phải điều chỉnh cho phù hợp với loại văn bản này. Mặc dù vậy,

các loại văn bản trực tuyến cũng có một số ưu điểm trong việc phân tích tác giả. Đó
là số lượng mẫu có thể được thu thập nhiều và dễ dàng hơn do số lượng lớn các tài

5

liệu được trao đổi trên Internet và tính mở của các hệ thống quản lý các tài liệu này.
Ngoài ra, một số thông tin đặc trưng như cấu trúc của các tài liệu (lời chào, chữ ký)
hoặc các thông tin đi kèm khác (metadata) cũng có thể giúp ích cho việc nhận diện
đặc điểm tác giả [106].
1.1.3 Các dạng thức trong phân tích tác giả văn bản
1.1.3.1 Nhận diện tác giả
Nhận diện tác giả (authorship attribution) liên quan đến việc xác định một văn
bản có phải được tạo ra bởi một tác giả cụ thể hay không hoặc xác định ai trong số
một tập hữu hạn tác giả là người đã tạo ra một văn bản cho trước (do vậy, kỹ thuật
này còn được gọi là xác định tác giả). Nghiên cứu đầu tiên về nhận diện tác giả
được thực hiện từ thế kỷ thứ 19 khi Mendenhall [75] phân tích các vở kịch của
Shakespeare. Tuy nhiên, công trình nghiên cứu được xem là thấu đáo nhất trong
lĩnh vực này được thực hiện bởi Mosteller và Wallace [76], trong đó hai ông đã
phân tích và xác định tác giả của Luận cương Liên bang (Federalist Papers).
Cho đến nay, đã có thêm nhiều công trình nghiên cứu về lĩnh vực này, áp dụng
trên nhiều loại văn bản và ứng dụng trong nhiều lĩnh vực khác nhau. Đồng thời, có
nhiều loại đặc trưng và phương pháp đã được các nhà nghiên cứu thử nghiệm. De
Vel [107] đã nghiên cứu việc nhận diện tác giả của email, sử dụng các đặc trưng về
cấu trúc và ngôn ngữ, dùng thuật toán SVM. Dữ liệu sử dụng trong nghiên cứu là
274 email của năm tác giả. 38 đặc trưng được sử dụng, gồm các đặc trưng về cấu
trúc, đặc trưng về từ vựng, ngữ pháp, và việc sử dụng các từ chức năng (24 từ).
Thuật toán SVM được sử dụng để huấn luyện trên 192 email (70%) và kiểm tra trên
80 email còn lại. Kết quả đạt được có độ chính xác từ 71.7% đến 85.7%. Koppel et
al. [57] nghiên cứu một phương pháp nhận diện tác giả thông qua việc tìm ra một

phong cách riêng, mô phỏng theo cách các chuyên gia trên thực tế sử dụng (khác
với phương pháp dựa trên học máy mà nhiều nhà nghiên cứu đã áp dụng trong lĩnh
vực này). Tập dữ liệu sử dụng trong nghiên cứu là các email được trao đổi trong
nhóm, bao gồm 480 email từ 11 tác giả (độ dài trung bình của email là 200 từ). Tập

6

đặc trưng gồm các đặc trưng từ vựng (từ 480 từ chức năng rút gọn xuống 200 từ
thông qua kỹ thuật chọn lọc từ độ đo thông tin), đặc trưng từ loại (từ 59 từ loại,
chọn ra các cặp đôi từ loại có số lần xuất hiện từ ba lần trở lên, và dùng tần suất của
nó làm đặc trưng), đặc trưng về phong cách riêng (ngữ pháp, định dạng, lỗi …, tổng
cộng 99 đặc trưng phong cách riêng). Kỹ thuật phân loại sử dụng SVM với hàm
nhân tuyến tính và cây quyết định C4.5 với kết quả tương ứng có độ chính xác 60%
và 79%.
Zhao và Zhobel [116] nghiên cứu và thử nghiệm một số phương pháp nhận
diện tác giả để so sánh. bốn kỹ thuật được sử dụng là bộ phân loại Bayes đơn giản
(Naïve Bayes), mạng Bayes (Bayesian Networks), k láng giềng gần nhất (k-Nearest
Neighbours), và cây quyết định (Decision Trees). Các đặc trưng được sử dụng để
phân biệt là các từ chức năng như “the”, “once” .v.v (365 từ). Dữ liệu sử dụng trong
thực nghiệm là các bài báo từ kho ngữ liệu TREC (Text Retrieval Conference – Hội
nghị về rút trích thông tin). Kết quả cho thấy phương pháp Bayesian Networks hiệu
quả nhất với khoảng hơn 90% còn Decision Trees có kết quả kém nhất. Zheng et al
[117] đã thực hiện một nghiên cứu về việc nhận diện tác giả của các tin trực tuyến
(lấy từ các nhóm tin - newsgroup). Các đặc trưng mà Zheng sử dụng thuộc bốn loại
là từ vựng, ngữ pháp, cấu trúc và đặc trưng nội dung. Ba phương pháp nhận diện
được thực nghiệm là cây quyết định, mạng nơ ron truyền ngược (Back Propagation
Network), và SVM. Hệ thống đã được thực nghiệm trên các bản tin tiếng Anh và
tiếng Trung với kết quả nhận diện chính xác từ 70-95%, trong đó SVM là thuật toán
cho kết quả tốt nhất.

Stamatatos [99] nghiên cứu việc áp dụng kỹ thuật học máy để khai thác các
thông tin cấp thấp đa chiều và không phụ thuộc ngôn ngữ để cải tiến việc nhận diện
tác giả, qua đó có thể xử lý được cả các văn bản thực có độ dài ngắn và tạo bởi
nhiều tác giả. Để xử lý không gian đặc trưng đa chiều, Stamatatos sử dụng các thuật
toán học máy có khả năng giải quyết vấn đề này (SVM) và sử dụng phương pháp
xây dựng một cụm các bộ phân loại dựa trên việc phân chia nhỏ tập đặc trưng (tập
đặc trưng được chia thành các tập con nhỏ hơn và các bộ phân loại được xây dựng

7

trên các tập con này với cùng một thuật toán và cùng một tập dữ liệu huấn luyện rồi
tích hợp lại với nhau). Kết quả nhận diện trung bình hơn 90% cho thấy sự khả thi
của việc sử dụng các thông tin mức thấp (như tần suất các từ) để nhận diện văn
phong tác giả (đây cũng là những đặc trưng không phụ thuộc ngôn ngữ).
Luận án tiến sỹ của Iqbal [47] được thực hiện với các mục tiêu phân tích văn
bản để rút trích ra các mẫu đặc trưng của tác giả nhằm giải quyết các vấn đề nhận
diện, xác định đặc điểm, hay xác minh tác giả, nhờ đó có thể khai phá các dữ liệu về
tội phạm để rút ra các thông tin phục vụ việc điều tra tội phạm mạng. Để nhận diện
tác giả văn bản, Iqbal sử dụng kỹ thuật rút trích ra một loại “vân chữ viết”
(writeprint) của tác giả, dựa trên một khái niệm mẫu thường gặp (frequent patterns)
trong khai phá dữ liệu. Vân chữ viết này khi được rút trích có thể áp dụng trong hầu
hết các trường hợp phân tích tác giả văn bản (cả ba loại) và áp dụng trên nhiều loại
văn bản khác nhau (kể cả các loại văn bản điện tử ngắn như blogs, forum, emails
…). Vân này được Iqbal tạo ra bằng cách kết hợp nhiều đặc trưng của văn bản bao
gồm từ vựng, ngữ pháp, cấu trúc, và đặc trưng nội dung, dựa trên phương pháp rút
trích mẫu thường gặp như đã nói ở trên. Theo Iqbal, vân chữ viết này có thể chưa
phân biệt được tất cả các tác giả khác nhau, nhưng có thể nhận diện được tác giả
trong một tập đóng (hữu hạn) vì các mẫu chung giữa những tác giả này đã bị loại bỏ
trong quá trình rút trích. Kỹ thuật này đã được thực nghiệm trên tập dữ liệu gồm

hơn 200.000 email của 158 tác giả. Số đặc trưng được sử dụng để tạo vân là 285,
trong đó có 99 đặc trưng từ vựng, 158 đặc trưng ngữ pháp (150 từ chức năng và 8
dấu chấm câu), 15 đặc trưng cấu trúc và 13 đặc trưng nội dung. Kết quả nhận diện
có độ chính xác 67%-89% với loại vân 1 và 87%-89% với loại vân 2 cho thấy sự
thành công của kỹ thuật tạo vân.
Savoy [95] đề xuất một kỹ thuật tính Z-score dựa trên các từ vựng đặc thù của
văn bản. Từ các Z-score của mỗi từ này, một khoảng cách giữa văn bản cần phân
tích và mẫu văn bản đại diện của tác giả sẽ được tính toán. Kỹ thuật này được thử
nghiệm trên hai tập dữ liệu tiếng Anh và tiếng Italia cho kết quả tốt (độ chính xác
81%-89%).

8

1.1.3.2 Xác định đặc điểm tác giả
Xác định đặc điểm tác giả là kỹ thuật được dùng để phát hiện ra các đặc điểm
(giới tính, độ tuổi, tính cách v.v.) của một người chưa biết thông qua việc phân tích
các văn bản được tạo ra bởi người đó. Kỹ thuật này khác với nhận diện tác giả ở
trên đó là hoàn toàn không có thông tin về tác giả của văn bản, và việc phân tích sẽ
tạo ra một hồ sơ đặc điểm của người viết (profile). Do đó, kỹ thuật xác định đặc
điểm tác giả thường áp dụng trên các văn bản trong trao đổi trực tuyến hơn là các
văn bản truyền thống trong lĩnh vực văn học, báo chí. Vì lý do này, kỹ thuật này chỉ
nhận được sự quan tâm của các nhà nghiên cứu từ những năm 1990s, khi ngày càng
xuất hiện nhiều dạng thức văn bản trực tuyến trên các kênh trao đổi qua mạng
Internet. Courney et al. [23] thực hiện một nghiên cứu về việc xác định giới tính tác
giả email sử dụng thuật toán SVM để huấn luyện trên các đặc trưng về cấu trúc và
ngôn ngữ phân biệt giới tính. Tổng số đặc trưng sử dụng là 222, trong đó có 211 đặc
trưng cơ sở (là các đặc trưng từ, ký tự và cấu trúc), còn lại là các đặc trưng mang
tính phân biệt giới tính (chẳng hạn số các từ sorry, số các từ kết thúc bằng able …).
Kết quả thực nghiệm cho độ chính xác F1 gần 70%. Argamon et al. [10], [12] thực

hiện các nghiên cứu về phân biệt giới tính của tác giả các bài viết trong kho ngữ liệu
BNC (British National Corpus). Nghiên cứu này sử dụng các đặc trưng là các từ
chức năng, các từ loại, các cặp ghép từ loại và phương pháp nhận diện là một cải
tiến của phương pháp Gradient mũ (Exponential Gradient). Kết quả có độ chính xác
khoảng 80%. Koppel et al. [60] cũng thực hiện các nghiên cứu về phân biệt ngôn
ngữ gốc của người viết thông qua sử dụng các đặc trưng về cách dùng từ, cấu trúc
cú pháp, các lỗi ngữ pháp v.v. cho kết quả tốt nhất đạt 80% với thuật toán SVM.
Một số nghiên cứu được thực hiện trên một loại văn bản trực tuyến khá phổ
biến là các bài viết blogs. Điển hình là các nghiên cứu [33], [89], [97], [114]. Các
nghiên cứu này đều có những thử nghiệm và cải tiến về tập đặc trưng và cho các kết
quả khả quan với độ chính xác khoảng 80% cho nhận diện giới tính và 77% cho
nhận diện độ tuổi.

MỘT SỐ PHƯƠNG PHÁP HỌC MÁY XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG TRÊN MẠNG INTERNET

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về