MỘT số PHƯƠNG PHÁP HỌC MÁY XÁC ĐỊNH đặc điểm NGƯỜI DÙNG TRÊN MẠNG INTERNET tt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (608.77 KB, 28 trang )

BỘ THÔNG TIN VÀ TRUYỀN THÔNG
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG

Dương Trần Đức

MỘT SỐ PHƯƠNG PHÁP HỌC MÁY XÁC ĐỊNH
ĐẶC ĐIỂM NGƯỜI DÙNG TRÊN MẠNG INTERNET

Chuyên ngành: Kỹ thuật máy tính
Mã số: 9.48.01.06

TĨM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT

Hà Nội – Năm 2018

Cơng trình được hồn thành tại: Học viện Cơng nghệ Bưu chính
Viễn thơng

Người hướng dẫn khoa học:
PGS. TS. Phạm Bảo Sơn
TS. Tân Hạnh

Phản biện 1:……………………………………………
…………………………………………….
Phản biện 2:……………………………………………
…………………………………………….
Phản biện 3……………………………………………
…………………………………………….
Luận án được bảo vệ trước Hội đồng chấm luận cấp Học viện
họp tại: Học viện Cơng nghệ Bưu chính Viễn thơng

Vào hồi

giờ

ngày

tháng

năm

Có thể tìm hiểu luận án tại thư viện: Học viện Cơng nghệ Bưu
chính Viễn thơng

1

MỞ ĐẦU

Ngày nay, chỉ với một thiết bị được kết nối đến mạng Internet,
người dùng có thể dễ dàng sử dụng các kênh trao đổi thông tin như
website, email, diễn đàn, mạng xã hội, hoặc các dịch vụ khác như
tìm kiếm thông tin, thương mại điện tử (TMĐT) v.v. Một đặc điểm
chung của các hệ thống này là không bắt buộc người dùng cung cấp
chính xác thơng tin cá nhân khi sử dụng. Việc này nhằm khuyến
khích người dùng trong quá trình sử dụng, tuy nhiên cũng tạo ra một
số vấn đề như người dùng nặc danh hoặc giả mạo, hay việc cá nhân
hóa hệ thống nhằm tăng trải nghiệm cho người dùng, thúc đẩy bán
hàng, quảng cáo trực tuyến khó được thực hiện một cách hiệu quả.
Do đó, xác định đặc điểm người dùng là một trong những mối quan
tâm hàng đầu của các nhà cung cấp dịch vụ trên mạng Internet. Tuy

nhiên, có nhiều người dùng khơng tự tiết lộ các thông tin cá nhân do
các vấn đề về an tồn và riêng tư. Vì vậy, để có được thông tin cá cá
nhân người dùng, cần phải dự đoán từ các “dấu vết” người dùng để
lại trên hệ thống, có thể là các văn bản hoặc các hành vi ngườ dùng
đã thực hiện.
Luận án này thực hiện các nghiên cứu trên cả hai lĩnh vực: xác
định đặc điểm tác giả văn bản và xác định đặc điểm người dùng dựa
trên hành vi. Các nghiên cứu về xác định đặc điểm tác giả văn bản
được thực hiện trên các văn bản tiếng Việt là loại ngôn ngữ chưa
được nghiên cứu nhiều. Các nghiên cứu về xác định đặc điểm người
dùng dựa trên hành vi được thực hiện trên dữ liệu của hệ thống
thương mại điện tử, là loại hệ thống có nhu cầu cao trong việc cá
nhân hóa nhằm giới thiệu sản phẩm và quảng cáo đúng mục tiêu.

2
1.

MỤC TIÊU CỦA LUẬN ÁN
Dựa trên nhu cầu thực tiễn và các kết quả nghiên cứu trước

đây ở trong nước và quốc tế, luận án đặt ra các mục tiêu chính như
sau:
-

Nghiên cứu vấn đề xác định đặc điểm tác giả văn bản trên loại
văn bản mới, chưa được nghiên cứu trước đây. Nghiên cứu các
phương pháp trích chọn đặc trưng mới cho vấn đề xác định đặc
điểm tác giả văn bản, nhằm tăng độ chính xác hoặc tính độc lập
trong q trình nhận diện, có thể tận dụng các đặc điểm đặc thù

của ngôn ngữ tiếng Việt

-

Nghiên cứu vấn đề xác định đặc điểm người dùng dựa trên hành
vi trong các hệ thống có nhu cầu cá nhân hóa cao như hệ thống
TMĐT. Nghiên cứu, đề xuất các phương pháp trích chọn đặc
trưng hiệu quả và các phương pháp phân loại phù hợp.

2.

PHẠM VI NGHIÊN CỨU
Xác định đặc điểm người dùng là một lĩnh vực rộng, trên cả

khía cạnh loại người dùng và đặc điểm người dùng. Luận án xác định
các đối tượng người dùng trong các nghiên cứu là người dùng trên
mạng Internet.
Đối với nghiên cứu xác định đặc điểm người dùng dựa trên
phân tích văn bản, luận án này thực hiện các nghiên cứu về xác định
đặc điểm tác giả bài viết diễn đàn tiếng Việt với các đặc điểm nhận
diện bao gồm giới tính, độ tuổi, nghề nghiệp, và vùng miền. Xác
định đặc điểm người dùng dựa trên phân tích hành vi có sự hạn chế
trong vấn đề thu thập dữ liệu mẫu, luận án này chỉ thực hiện nghiên

3
cứu về dự đốn đặc điểm giới tính của khách hàng dựa trên dữ liệu
truy cập hệ thống TMĐT.
3.

CÁC ĐÓNG GĨP CỦA LUẬN ÁN
Đóng góp trong lĩnh vực xác định đặc điểm tác giả văn

bản:
- Nghiên cứu việc ứng dụng các loại đặc trưng và phương
pháp nhận diện khác nhau, trong đó tập trung phân tích sâu
về các đặc trưng dựa trên nội dung. Đề xuất một phương
pháp nhận diện dựa trên loại đặc trưng mới là theo âm tiết
và vần trong tiếng Việt. Loại đặc trưng này cho độ chính
xác cao hơn khi kết hợp và có tính độc lập dữ liệu hơn so
với các đặc trưng nội dung.
Đóng góp trong lĩnh vực xác định đặc điểm người dùng
dựa trên hành vi:
- Nghiên cứu vấn đề dự đoán giới tính khách hàng dựa trên
dữ liệu lịch sử truy cập hệ TMĐT. Luận án nghiên cứu các
phương pháp trích chọn đặc trưng và phân loại hiệu quả,
trong đó đề xuất phương pháp trích chọn đặc trưng sử dụng
biểu diễn dạng cây của danh sách sản phẩm và phân loại.
4.

BỐ CỤC CỦA LUẬN ÁN
Nội dung của luận án bao gồm 3 chương và một phụ lục.

Chương 1 khảo sát và đánh giá các cơng trình đã thực hiện trong lĩnh
vực nghiên cứu của luận án. Chương 2 trình bày về vấn đề xác định
đặc điểm tác giả bài viết diễn đàn tiếng Việt, bao gồm phương pháp
tiếp cận và các kết quả thực nghiệm. Chương 3 mô tả các kết quả

4

nghiên cứu về dự đốn giới tính khách hàng dựa trên dữ liệu lịch sử
truy cập hệ TMĐT. Phần cuối của luận án trình bày các kết luận và
hướng nghiên cứu tiếp theo. Phần phụ lục trình bày về ứng dụng thử
nghiệm dịch vụ xác định đặc điểm tác giả văn bản tiếng Việt.

CHƯƠNG 1
TỔNG QUAN VỀ XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG

1.1

XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG THÔNG QUA
PHÂN TÍCH VĂN BẢN
Phân tích tác giả văn bản là q trình phân tích một tài liệu để

có thể đưa ra các kết luận về tác giả của nó. Lĩnh vực nghiên cứu về
phân tích tác giả văn bản có thể chia làm các dạng thức như nhận
diện tác giả (xác định xem một người có phải là tác giả của một văn
bản không), xác định đặc điểm tác giả (chỉ ra các đặc điểm của người
đã tạo ra một văn bản cho trước), phát hiện văn bản cùng tác giả (so
sánh các văn bản xem có phải được tạo ra bởi một tác giả khơng).
Q trình phân tích tác giả văn bản liên quan đến hai vấn đề chính,
đó là kỹ thuật phân tích và tập đặc trưng phân biệt. Trong thời kỳ
đầu, các kỹ thuật phân tích chủ yếu sử dụng các phương pháp đơn
giản như bất biến đơn nhất (unitary invariant) và phân tích đa biến
(multivariate analysis). Các phương pháp này có những hạn chế như
khả năng xử lý số lượng lớn các đặc điểm hay sự ổn định trên nhiều
lĩnh vực. Để giải quyết các vấn đề này, các kỹ thuật học máy đã được
nghiên cứu áp dụng. Nhiều nghiên cứu về phân tích tác giả văn bản
dựa trên các kỹ thuật học máy đã cho ra kết quả tốt, điển hình là các

5
thuật toán như máy véc tơ hỗ trợ (SVM - Support Vector Machine),
mạng Bayes (Bayesian Networks), hay cây quyết định (Decision
Trees).
Tập đặc trưng có thể được xem như một phương pháp biểu
diễn văn bản trên khía cạnh phong cách viết hoặc cách sử dụng từ.
Đã có nhiều tập đặc trưng được thử nghiệm và được chia làm hai loại
chính: đặc đặc trưng về phong cách và đặc trưng dựa trên nội dung.
Đặc trưng về phong cách bao gồm các đặc điểm liên quan đến cách
dùng ký tự, các tính chất từ (lexical), cách sử dụng các cấu trúc ngữ
pháp (syntactic), hay về cấu trúc văn bản. Đặc trưng dựa trên nội
dung bao gồm các từ nhất định hoặc các nội dung đặc biệt được sử
dụng thường xuyên trong lĩnh vực đó hơn là các lĩnh vực khác. Các
đặc trưng cũng có thể được phân loại thành các đặc trưng độc lập dữ
liệu và phụ thuộc dữ liệu (liên quan đến q trình xây dựng tập đặc
trưng có cần tham chiếu đến tập dữ liệu hay không).
Mặc dù việc lựa chọn thuật toán học máy phù hợp là một vấn
đề quan trọng, các nghiên cứu trước đây cho thấy trong lĩnh vực
phân tích tác giả văn bản, việc lựa chọn tập đặc trưng lại có tầm quan
trọng cao hơn. Do vậy, các nghiên cứu gần đây tập trung khai thác,
tìm kiếm các loại đặc trưng mới cho vấn đề phân tích tác giả văn
bản.
1.2

NHẬN DIỆN ĐẶC ĐIỂM NGƯỜI DÙNG THÔNG QUA
PHÂN TÍCH HÀNH VI
Bên cạnh việc nhận diện người dùng thơng qua phân tích văn

bản, gần đây vấn đề nhận diện đặc điểm người dùng dựa trên phân

tích hành vi cũng được quan tâm nhiều. Việc nhận diện đặc điểm

6
người dùng qua hành vi đặc biệt hữu ích khi hệ thống khơng có các
mẫu văn bản của người dùng để có thể áp dụng các kỹ thuật phân
tích văn bản, chẳng hạn trên các hệ thống thiên về quản lý hành vi
như hệ thống thương mại điện tử, hệ thống mạng di động v.v.
Khác với vấn đề xác định đặc điểm tác giả văn bản, các đặc
trưng hành vi của người dùng trên các hệ thống là đa dạng hơn nhiều.
Do vậy, các nghiên cứu trong lĩnh vực này đã sử dụng các tập đặc
trưng khác nhau và phụ thuộc vào các hệ thống cụ thể. Phương pháp
nhận diện chủ yếu sử dụng kỹ thuật học máy. Các nghiên cứu cũng
tập trung vào việc tìm kiếm các phương pháp xây dựng tập đặc trưng
hiệu quả và thử nghiệm các kỹ thuật phân tích phù hợp.
1.3

KẾT LUẬN CHƯƠNG
Chương này đã trình bày các nghiên cứu, khảo sát, đánh giá về

các cơng trình trong lĩnh vực xác định đặc điểm người dùng dựa trên
phân tích văn bản và phân tích hành vi. Luận án thực hiện các nghiên
cứu trên cả hai lĩnh vực này, bao gồm xác định đặc điểm tác giả bài
viết diễn đàn tiếng Việt và xác định giới tính người dùng dựa trên dữ
liệu lịch sử truy cập hệ thống TMĐT.

CHƯƠNG 2
XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ BÀI VIẾT DIỄN ĐÀN
TIẾNG VIỆT

2.1

XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ BÀI VIẾT DIỄN ĐÀN
TIẾNG VIỆT SỬ DỤNG CÁC ĐẶC TRƯNG CƠ BẢN

7
Nghiên cứu này thực hiện xác định đặc điểm tác giả bài viết
diễn đàn tiếng Việt trên các đặc trưng cơ bản theo phong cách và một
số thuật toán học máy phổ biến. Các đặc điểm cá nhân của tác giả bài
viết được nhận diện bao gồm giới tính, độ tuổi, nghề nghiệp, và vùng
miền. Các loại đặc trưng cơ bản được khảo sát trong nghiên cứu này
gồm các đặc trưng dựa trên ký tự và tính chất từ, đặc trưng ngữ pháp,
đặc trưng cấu trúc. Các thực nghiệm được thực hiện trên các tập con
đặc trưng khác nhau để nghiên cứu sự phù hợp của từng loại đặc
trưng với loại văn bản được nghiên cứu là bài viết diễn đàn tiếng
Việt. Sau khi các đặc trưng được trích chọn từ tập dữ liệu đã xử lý,
các thuật toán học máy được áp dụng để xây dựng mơ hình phân
loại. Các bước thực hiện xây dựng mơ hình xác định đặc điểm tác giả
bài viết diễn đàn tiếng Việt sử dụng học máy được mơ tả như trong
hình 2.1. Theo đó, các bài viết diễn đàn tiếng Việt đã có thông tin về
đặc điểm người viết được thu thập từ Internet thông qua mô đun Thu
thập dữ liệu. Mô đun Xử lý dữ liệu tiến hành các thao tác tiền xử lý
trước khi thực hiện trích chọn đặc trưng và tạo các tập dữ liệu huấn
luyện tại mơ đun Trích chọn đặc trưng. Cuối cùng, các bộ phân loại
sẽ được xây dựng bằng các thuật toán học máy trên các tập dữ liệu
tạo được.
Các đặc trưng được sử dụng trong nghiên cứu này bao gồm
333 đặc trưng theo phong cách, được chia làm ba nhóm gồm các đặc
trưng dựa trên từ vựng, dựa trên ngữ pháp, và dựa trên cấu trúc như

đã nói ở phần trước. Các loại đặc trưng này lại được chia nhỏ hơn
thành các nhóm con như đặc trưng theo ký tự, theo tính chất từ
(thuộc nhóm từ vựng), đặc trưng theo loại từ, các từ chức năng
(thuộc nhóm ngữ pháp).

8
Internet

Thu thập dữ liệu
Dữ liệu thơ
Xử lý dữ liệu

Trích chọn đặc trưng

Lựa chọn
đặc trưng

Thuật toán
học máy

Véc tơ đặc trưng
Dữ liệu huấn
luyện

Xây dựng mơ hình

Bộ phân loại

Hình 2.1. Mơ hình tổng quát của phương pháp

Các nghiên cứu trong chương này được thực hiện trên cơ sở
tập dữ liệu các bài viết chủ yếu từ diễn đàn Otofun.net.vn và bổ sung
thêm các bài viết từ một số diễn đàn phổ biến khác như diễn đàn
Webtretho.com, diễn đàn Tinhte.vn để đa dạng hóa nguồn dữ liệu.
Sau các bước xử lý và làm sạch, tập dữ liệu thu thập được bao gồm
có 6.831 bài viết từ 104 người dùng với tổng cộng có 736.252 từ và
trung bình 107 từ/bài. Các bài viết được lựa chọn là các bài có ít nhất
một thơng tin về đặc điểm người viết, có thể dùng làm dữ liệu huấn
luyện cho hệ thống. Bảng 2.2 cho thấy các thông số thông kê về tập
dữ liệu huấn luyện theo diễn đàn và theo các lớp đặc điểm.

9
Bảng 2.2. Thống kê về tập dữ liệu huấn luyện
Đặc điểm

Số bài viết

Giới tính

4.474

Độ tuổi

Vùng

3.017

3.960

miền
Nghề
nghiệp

3.453

Lớp đặc điểm

Tỷ lệ

Nam

54%

Nữ

46%

Ít hơn 22

21%

Từ 24 đến 27

27%

Nhiều hơn 32

52%

Bắc

57%

Nam

43%

Kinh doanh, bán hàng

36%

Kỹ thuật, công nghệ

31%

Giáo dục, y tế

33%

Sau khi các đặc trưng được tính tốn giá trị, có thể chuyển qua
bước huấn luyện mơ hình bằng các thuật tốn học máy. Nhằm đánh
giá và lựa chọn được các thuật toán học máy phù hợp nhất, công cụ
Weka được sử dụng để tiến hành các thực nghiệm trên 10 thuật toán
học máy phổ biến. Các thực nghiệm được thực hiện trên các thuật
toán học máy và các tập con đặc trưng với độ đo chính xác
(accuracy). Kết quả nhận diện tốt nhất của đặc điểm giới tính
(82.94%), độ tuổi (62.14%), vùng miền (70.39%),

nghề nghiệp

(51.77%) cho thấy sự khả thi của việc áp dụng kỹ thuật học máy
trong xác định đặc điểm tác giả bài viết diễn đàn tiếng Việt. Nhóm
thuật tốn functions (bao gồm Logistic và SMO) đạt kết quả trung

10
bình tốt nhất trong hầu hết các trường hợp, trong đó SMO cho kết
quả tốt hơn Logistic. Ngồi ra, bên cạnh tập đặc trưng đầy đủ cho kết
quả tốt nhất (do khai thác được nhiều nhất các đặc trưng phân biệt
các tác giả), thì các đặc trưng dựa trên từ vựng cho thấy kết quả tốt
hơn các đặc trưng dựa trên ngữ pháp (kể cả các từ chức năng) trong
hầu hết các trường hợp, nhất là khi sử dụng các giải thuật có kết quả
tốt như SMO. Điều này có thể cho thấy đối với các loại văn bản ngắn
và tự do như bài viết diễn đàn, các cấu trúc ngữ pháp có khả năng
phân biệt tác giả hạn chế hơn là thói quen sử dụng từ vựng và các
thành phần liên quan đến từ vựng.
2.2

SỬ DỤNG CÁC ĐẶC TRƯNG NỘI DUNG
Trong phần này, các nghiên cứu về sử dụng các đặc trưng

nâng cao hơn được thực hiện, trong đó các đặc trưng liên quan đến từ
vựng như các từ nội dung được khai thác sâu hơn sau khi có kết quả
khả quan của các đặc trưng loại này trong nghiên cứu ở phần 2.1.
Bên cạnh đó, các đặc trưng sâu về ngữ pháp như các cặp ghép 2 và 3
của các từ loại cũng được khảo sát thêm nhằm đánh giá tính hiệu quả
của loại đặc trưng ngữ pháp trên các văn bản ngắn và phong cách tự
do như bài viết diễn đàn.
Các thuật toán học máy được sử dụng trong nghiên cứu này

được lựa chọn từ các thuật toán cho kết quả tốt trong bước trước và
thuộc các nhóm khác nhau (các thuật tốn nổi bật nhất của các
nhóm). Cụ thể, có ba thuật tốn tiếp tục được thực nghiệm gồm thuật
tốn SVM/SMO thuộc nhóm functions, thuật tốn Bayesian
Networks thuộc nhóm bayes, và thuật tốn Random Forest thuộc
nhóm trees.

11
Trong nghiên cứu này, các thực nghiệm được tiến hành trên
tập dữ liệu bài viết diễn đàn được sử dung trong nghiên cứu trước để
tiện so sánh và đánh giá kết quả. Do vậy, các bước thu thập, xử lý dữ
liệu được thực hiện tương tự như ở phần 2.1. Ngồi ra, phương pháp
xây dựng mơ hình phân loại cũng sử dụng học máy cùng với các kỹ
thuật hỗ trợ như lựa chọn đặc trưng. Do đó, phần này sẽ trình bày
chủ yếu về các đặc trưng được sử dụng trong nghiên cứu.
Các đặc trưng dựa trên nội dung (content-based features) trong
nghiên cứu này là các từ được lựa chọn từ chính tập dữ liệu huấn
luyện. Đó là các từ có thể phân biệt tốt nhất các lớp của mỗi đặc
điểm. Để chọn được các đặc trưng này, đầu tiên các từ có tần xuất sử
dụng cao nhất trong tập dữ liệu được lựa chọn (chọn riêng rẽ theo
từng lớp của mỗi đặc điểm tác giả). Sau đó, các thuật toán lựa chọn
đặc trưng được sử dụng để chọn lọc ra các đặc trưng có độ phân biệt
tốt nhất. Bên cạnh đó, khoảng 170 từ khơng có trong từ điển được sử
dụng trong các bài viết trong tập dữ liệu huấn luyện cũng được trích
chọn. Các đặc trưng là các cặp ghép n từ loại (POS n-grams) cũng
được trích chọn từ tập dữ liệu. Theo đó, các cặp ghép 2 và 3 của các
từ loại có tần suất xuất hiện cao nhất được chọn lựa.
Các thực nghiệm cũng được thực hiện trên các tập con đặc
trưng khác nhau như tập các từ nội dung, các từ ngoài từ điển, các

cặp ghép n từ loại, và kết hợp của các loại trên với các đặc trưng cơ
bản, nhằm mục đích đánh giá hiệu suất của từng loại. Các thuật toán
học máy được sử dụng trong nghiên cứu này là các thuật tốn đã cho
kết quả tốt nhất trong các nhóm ở nghiên cứu trước, bao gồm SVM,
Random Forest, và Bayesian Networks.

12
Các kết quả thực nghiệm cho thấy các đặc trưng dựa trên nội
dung có kết quả vượt trội hơn so với các đặc trưng cơ bản và các loại
đặc trưng khác khi sử dụng riêng rẽ. Mặc dù các đặc trưng dựa trên
nội dung thường được xem có tính phụ thuộc vào lĩnh vực ở một
mức độ nhất định và có thể làm giảm độ chính xác khi chuyển qua
ứng dụng trên lĩnh vực khác, với độ chính xác tăng trung bình từ 59% so với các đặc trưng cơ bản, các kết quả trên vẫn có nhiều triển
vọng khi được ứng dụng trong cùng lĩnh vực hoặc lĩnh vực tương tự.
Hơn nữa, với thời gian huấn luyện khoảng 3-5 giây (với thuật tốn
SMO và 600 đặc trưng), mơ hình phân loại hồn tồn có thể nhanh
chóng được xây dựng lại trên tập dữ liệu mới và đáp ứng được các
ứng dụng với thời gian thực. Các từ ngoài từ điển có kết quả chưa tốt
khi sử dụng riêng rẽ, tuy nhiên khi kết hợp với các đặc trưng cơ bản
cho kết quả tốt hơn so với việc sử dụng các đặc trưng cơ bản riêng
rẽ. Các đặc trưng cặp ghép 2 và 3 từ loại cho kết quả hạn chế, kể cả
khi sử dụng riêng rẽ hoặc kết hợp với các đặc trưng cơ bản. Kết quả
này củng cố thêm cho nhận định về việc các cấu trúc ngữ pháp khó
phát huy hiệu quả nhận diện trên các bải viết ngắn và có phong cách
tự do như bài viết diễn đàn. Cuối cùng, việc kết hợp tất cả các đặc
trưng cho kết quả cao hơn các tập con khác. Về các phương pháp
phân loại, thuật tốn SMO có kết quả tốt hơn hai thuật tốn cịn lại
trong đa số các trường hợp, trong đó thuật tốn Random Forest cho
kết quả tốt hơn Bayesian Networks nhưng có thời gian chạy lâu hơn

nhiều. Phân tích sâu hơn về các đặc trưng nội dung có thể phát hiện
ra một số xu hướng, chẳng hạn nam giới thường có xu hướng trao
đổi về các vấn đề công việc, thể thao, quy định, trong khi nữ giới
thường nói về cuộc sống, sức khỏe, áp lực. Những người có độ tuổi
dưới 22 (học sinh/sinh viên) thường thảo luận về học tập, hành động.

13
Người có độ tuổi 24-27 (những người mới đi làm) thường trao đổi về
nhu cầu, du lịch. Người trung niên thường trao đổi các quan điểm về
tiêu dùng, luật pháp v.v.
2.3

SỬ DỤNG CÁC ĐẶC TRƯNG VẦN VÀ ÂM TIẾT TIẾNG
VIỆT
Các đặc trưng dựa trên nội dung thường cho kết quả tốt hơn,

nhưng được xem là có tính đặc thù miền (domain-specific), do các từ
nội dung được chọn có thể là đặc thù trong lĩnh vực nghiên cứu. Để
làm giảm mức độ đặc thù miền của các đặc trưng nội dung, nghiên
cứu này đề xuất một phương pháp xác định đặc điểm tác giả văn bản
dựa trên loại đặc trưng mới chưa được nghiên cứu trước đây để xác
định đặc điểm tác giả văn bản tiếng Việt, đó là các đặc trưng theo âm
tiết và vần. Một từ tiếng Việt có thể chứa nhiều âm tiết, và một âm
tiết chỉ chứa một vần. Do đó, âm tiết và vần mang ít ngữ nghĩa hơn
nhiều so với các từ nội dung và khi sử dụng làm các đặc trưng phân
loại sẽ có thể xem như là các đặc trưng có tính độc lập lĩnh vực hơn
so với các từ nội dung. Ví dụ, từ ghép “đồng hồ” được tạo ra bởi 2
âm tiết là “đồng” và “hồ” và cả 2 âm tiết này đều cần thiết cho việc
xác định ngữ nghĩa của từ. Từ ngữ nghĩa riêng rẽ của một âm tiết,

trong nhiều trường hợp không thể xác định được nghĩa của từ. Ngoài
ra, do các âm tiết và vần được xây dựng theo quy tắc từ vựng và
ngôn ngữ mà không cần trích chọn từ tập dữ liệu, các đặc trưng này
cũng có thể coi là có tính độc lập dữ liệu. Về khía cạnh hiệu năng xử
lý, với khoảng 6.400 âm tiết và 450 vần được sử dụng làm đặc trưng
phân loại, các thuật toán học máy phổ biến hiện nay như SVM hồn
tồn có thể xử lý mà khơng gặp nhiều khó khăn.

14
Nhìn chung, hầu hết các nghiên cứu trước đây đều khai thác
các đặc trưng thuần phong cách hoặc các đặc trưng mang nhiều nội
dung. Nghiên cứu này đề xuất phương pháp sử dụng các âm tiết và
vần trong tiếng Việt làm đặc trưng nhận diện. Đây là các đặc trưng
có mức độ ngữ nghĩa cao hơn các ký tự hoặc cụm ký tự ghép ngẫu
nhiên, tuy nhiên mang ngữ nghĩa ít hơn nhiều so với các từ nội dung.
Các đặc trưng này có thể coi như các cụm ký tự n-grams nhưng được
kết hợp theo quy tắc từ vựng và ngơn ngữ thay vì kết hợp một cách
ngẫu nhiên. Đến nay, chưa có nghiên cứu nào trong lĩnh vực phân
tích tác giả văn bản được thực hiện trên loại đặc trưng này.
Kết quả thực nghiệm cho thấy, khi sử dụng đặc trưng vần làm
tăng độ chính xác lên khoảng 1-2%, trong khi sử dụng các đặc trưng
âm tiết làm tăng khoảng 7% so với các đặc trưng cơ bản. Việc kết
hợp đặc trưng theo phong cách và đặc trưng vần cũng như kết hợp
đặc trưng phong cách và đặc trưng âm tiết làm tăng hiệu quả nhận
diện lên 4%-8% tương ứng.
So sánh với các từ nội dung, các đặc trưng theo âm tiết mặc dù
mang ít ngữ nghĩa hơn và có tính độc lập dữ liệu hơn nhưng có kết
quả nhận diện gần tương đương với các từ nội dung (đặc biệt ở đặc
điểm giới tính và vùng miền).

Mặc dù vẫn còn một số ngoại lệ, như các đặc trưng vần cho
kết quả không tốt khi nhận diện các đặc điểm về độ tuổi và nghề
nghiệp so với đặc trưng phong cách, hoặc các đặc trưng âm tiết cho
kết quả kém khi nhận diện độ tuổi, có thể kết luận rằng các đặc trưng
âm tiết và vần mang lại kết quả khả quan và tốt hơn đặc trưng phong
cách. Hơn nữa, việc kết hợp tất cả các loại đặc trưng cho kết quả cao
nhất chứng tỏ việc sử dụng các âm tiết và vần đã có những ảnh

15
hưởng tích cực tới kết quả nhận diện kể cả khi các từ nội dung được
sử dụng.
Bảng 2.9. Kết quả xác định đặc điểm tác giả sử dụng các đặc trưng
vần và âm tiết
Tập đặc trưng

Giới
tính

Độ tuổi

Nghề
nghiệp

Vùng
miền

Theo phong cách

83.47

62.76

52.46

71.22

Các vần

84.13

58.26

50.22

72.80

Âm tiết

89.98

66.24

57.43

80.38

Từ nội dung

90.01

70.05

60.99

82.98

Kết hợp phong cách và
vần

86.56

60.90

54.30

75.70

Kết hợp phong cách và
âm tiết

91.33

69.23

58.70

81.07

Kết hợp phong cách và

nội dung

90.55

70.70

61.04

83.13

Kết hợp tất cả

91.72

71.26

61.43

84.28

2.4

KẾT LUẬN CHƯƠNG
Chương này trình bày các kết quả nghiên cứu trong lĩnh vực

xác định đặc điểm tác giả văn bản tiếng Việt, bao gồm nghiên cứu về

16
ứng dụng các đặc trưng cơ bản dựa theo phong cách, nghiên cứu,

phân tích các đặc trưng dựa trên nội dung và nghiên cứu, đề xuất một
phương pháp xác định đặc điểm tác giả dựa trên loại đặc trưng mới
là âm tiết và vần trong tiếng Việt.

CHƯƠNG 3
XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG DỰA TRÊN DỮ LIỆU
LỊCH SỬ TRUY CẬP HỆ THỐNG THƯƠNG MẠI ĐIỆN TỬ

3.1

PHƯƠNG PHÁP TÁI CHỌN MẪU
Phần này trình bày nghiên cứu về dự đốn giới tính người

dùng dựa trên dữ liệu lịch sử truy cập trên hệ thống TMĐT thông
qua phương pháp tiếp cận tái chọn mẫu. Theo đó, mỗi mẫu danh sách
sản phẩm được xem của một người dùng sẽ được chia tách ra làm
nhiều mẫu tương ứng mỗi sản phẩm đơn lẻ. Kết quả cuối cùng sẽ
được kết hợp dựa trên kết quả của các mẫu đơn lẻ này. Nghiên cứu
sử dụng các thuật tốn học máy thơng dụng như SVM, Bayesian
Networks, cây ngẫu nhiên (Random Tree) để huấn luyện và kiểm
chứng mơ hình trên các tập dữ liệu được cung cấp bởi tập đoàn FPT
trong cuộc thi về khai phá dữ liệu trong khuôn khổ hội nghị về khai
phá dữ liệu và phát hiện tri thức khu vực châu Á – Thái Bình Dương
2015 (PAKDD’15 – Pacific Asia Knowledge Discovery and Data
Mining 2015). Nghiên cứu cũng tập trung vào việc sử dụng các kỹ
thuật hỗ trợ để nâng cao độ chính xác cho các thuật toán học máy khi

17
xử lý vấn đề phân loại không cân bằng như tái chọn mẫu, học nhạy

cảm chi phí, học kết hợp như đã nói ở trên.
Tập các đặc trưng phân loại được sử dụng trong nghiên cứu
này được chia làm hai loại chính: đặc trưng chung và đặc trưng dựa
trên sản phẩm. Đặc trưng chung bao gồm các đặc trưng liên quan đến
thời gian và tần suất của hành động xem sản phẩm. Các đặc trưng
dựa trên sản phẩm bao gồm tất các cả đặc trưng liên quan đến sản
phẩm và loại sản phẩm. Nghiên cứu này đề xuất một phương pháp
tiếp cận đơn giản nhưng hiệu quả cho loại đặc trưng này. Trong mỗi
lượt xem, người dùng có thể xem nhiều sản phẩm, tuy nhiên có nhiều
người chỉ xem một sản phẩm duy nhất. Với các lượt xem có nhiều
sản phẩm được xem, hệ thống sẽ tách ra làm nhiều lượt con chỉ chứa
một sản phẩm được xem. Đây có thể xem như một phương pháp tái
chọn mẫu, theo đó các mẫu mới cho tập dữ liệu huấn luyện được tạo
ra bằng cách tách các lượt xem có nhiều sản phẩm được xem thành
nhiều mẫu con chỉ có một sản phẩm được xem.
Một mơ hình dự đốn dựa trên học máy được xây dựng dựa
trên tập dữ liệu huấn luyện này và được dùng để dự đoán đầu ra cho
tất cả các dữ liệu về các lượt xem chỉ chứa một sản phẩm. Với các dữ
liệu về các lượt xem chứa nhiều sản phẩm, mỗi sản phẩm sẽ được dự
đoán riêng rẽ và sau đó kết quả được kết hợp lại để cho ra kết luận
cuối cùng. Phương pháp kết hợp sử dụng kỹ thuật chọn đa số
(voting) đơn giản: nếu số lượng nam được dự đoán nhiều hơn số
lượng nữ, kết quả cuối cùng sẽ là nam và ngược lại kết quả sẽ là nữ.
Ngoài ra, do tập dữ liệu huấn luyện có đặc điểm khơng cần bằng giữa
các lớp (khoảng 80% là nữ và chỉ 20% nam), một số kỹ thuật hỗ trợ
như tái chọn mẫu (resampling), học nhạy cảm chi phí (cost-sensitive

18
learning), học kết hợp (boosting) được áp dụng để nâng cao độ chính

xác.
Các kết quả thực nghiệm cho thấy, thuật toán Bayesian
Networks cho kết quả tốt hơn so với các thuận tốn cịn lại, trong khi
thuật tốn SVM cho kết quả kém nhất. SVM được biết đến như một
thuật toán phân loại tốt nhất trong nhiều trường hợp, trong đó có việc
nhận diện đặc điểm cá nhân người dùng. Tuy nhiên, thuật tốn này
có thể khơng phát huy được thế mạnh khi áp dụng trên tập dữ liệu có
số đặc trưng không lớn như tập dữ liệu hiện tại.
Khi sử dụng Baysian Networks trên các thuật toán tái chọn
mẫu khác nhau, thuật toán Resample với phương pháp tái chọn mẫu
tăng cho kết quả tốt trong khi hai thuật tốn cịn lại là
SpreadSubSample và SMOTE cho kết quả kém hơn. Khi kết hợp kỹ
thuật tái chọn mẫu với các kỹ thuật hỗ trợ khác như học nhạy cảm
chi phí, học kết hợp, cho thấy các kỹ thuật này đều có hiệu quả trong
việc nâng cao hiệu suất của thuật toán cơ sở. Mỗi kỹ thuật giúp tăng
độ chính xác lên khoảng 1-2%, trong khi kết hợp các kỹ thuật này có
thể giúp tăng hiệu suất lên hơn 3%.
3.2

PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG DỰA
TRÊN BIỂU DIỄN CÂY
Phần này trình bày một phương pháp tiếp cận khác để giải

quyết vấn đề dự đốn giới tính người dùng dựa trên dữ liệu lịch sử
truy cập hệ TMĐT như ở phần 3.1. Ý tưởng của phương pháp là khai
thác tối đa mối quan hệ giữa các sản phẩm/loại sản phẩm được xem
trong cùng một lượt xem dựa trên một biểu diễn dạng cây của danh
sách sản phẩm/loại sản phẩm. Theo đó, bên cạnh các đặc trưng cơ

19
bản như thời gian, tần suất xem, danh sách các sản phẩm/loại sản
phẩm riêng rẽ, nghiên cứu này đề xuất sử dụng các đặc trưng như
chuỗi các sản phẩm/loại sản phẩm được xem liên tiếp, các cặp
chuyển tiếp sản phẩm/loại sản phẩm khác nhau trong cùng một lượt
xem v.v. (gọi chung là các đặc trưng nâng cao). Với cấu trúc phân
cấp nhiều cấp độ của danh mục sản phẩm/loại sản phẩm, chúng tôi
sử dụng một phương pháp biểu diễn dạng cây để cung cấp khung
nhìn tốt hơn về mối quan hệ giữa các sản phẩm/loại sản phẩm so với
biểu diễn dạng liệt kê. Sau khi xây dựng được tập dữ liệu huấn luyện,
các thuật toán học máy rừng ngẫu nhiên (Random Forest), máy véc
tơ hỗ trợ (SVM), và mạng Bayes (Bayesian Networks) được sử dụng
để xây dựng mơ hình phân loại
Các đặc trưng được sử dụng trong nghiên cứu này được chia
làm hai loại, được gọi là các đặc trưng cơ bản và các đặc trưng nâng
cao. Các đặc trưng cơ bản bao gồm các đặc trưng liên quan đến thời
gian, tần suất xem sản phẩm và các đặc trưng về các sản phẩm/loại
sản phẩm riêng rẽ. Các đặc trưng về thời gian và tần suất xem tương
tự như ở phần 3.1. Đặc trưng về các sản phẩm/loại sản phẩm bao
gồm tất cả các sản phẩm và loại sản phẩm có trong hệ thống. Để xây
dựng danh mục các đặc trưng này, các mã sản phẩm/mã phân loại
được trích ra từ trong tập dữ liệu và sử dụng chúng như các đặc trưng
dạng số. Với mỗi sản phẩm/loại sản phẩm, thực hiện đếm số lần
người dùng xem sản phẩm/loại sản phẩm đó trong lượt xem và sử
dụng con số này làm giá trị của đặc trưng tương ứng.
Bên cạnh các đặc trưng sản phẩm/loại sản phẩm riêng rẽ,
chúng tôi đặt giả thiết rằng mối quan hệ giữa các sản phẩm/loại sản
phẩm được xem trong cùng một lượt xem cũng là một yếu tố có thể

20
dùng để dự đốn giới tính người dùng. Chẳng hạn người dùng nam
thường chỉ xem ít loại sản phẩm trong một lượt xem trong khi người
dùng nữ có thể xem liên tiếp nhiều loại sản phẩm khác nhau. Trong
file dữ liệu, danh sách các sản phẩm/loại sản phẩm đã xem trong một
lượt xem được biểu thị dưới dang danh sách liệt kê như dưới đây:
A00002/B00003/C00006/D19760/;
A00002/B00001/C00010/D18416;
A00002/B00001/C00004/D19764/;A00002/B00003/C00008/
D19761/; A00002/B00003/C00008/D08538/
Việc sử dụng danh sách liệt kê này có thể gây khó khăn cho
việc trích chọn hiệu quả tất cả các thông tin về mối quan hệ giữa các
sản phẩm/loại sản phẩm trong một lượt xem. Nghiên cứu này đề xuất
một biểu diễn dạng cây nhằm cung cấp một khung nhìn tốt hơn về
các quan hệ này. Theo biểu diễn này, loại sản phẩm ở mức chung
nhất sẽ nằm ở gốc của cây, các sản phẩm cụ thể nằm ở phần lá của
cây và các loại sản phẩm ở cấp độ trung gian nằm ở các tầng giữa
của cây. Theo đó, danh mục sản phẩm/loại sản phẩm được biểu diễn
dưới dạng danh sách liệt kê ở trên được chuyển đổi sang biểu diễn
cây như trong hình 3.1.
Từ biểu diễn dạng cây này, có thể dễ dàng chuyển đổi ngược
trở lại biểu diễn dạng danh sách liệt kê bằng cách duyệt cây theo
chiều sâu và từ trái sang phải. Ngồi ra, từ biểu diễn cây, có thể rút ra
được các thông tin về quan hệ giữa các sản phẩm/loại sản phẩm bằng
cách khai thác các thuộc tính của cây như các nút, các tầng, đường
đi, nút kề v.v. Trong bài tốn hiện tại, có thể sử dụng các thuộc tính
của cây để làm đặc trưng về mối quan hệ như số nút tại mỗi tầng (số
sản phẩm trong mỗi lượt xem), chuỗi các nút liên tiếp trên cùng tầng

21
(tương ứng với các chuỗi sản phẩm/loại sản phẩm được xem liền
nhau trong cùng một lượt xem), cặp nút chuyển tại các tầng khác
nhau (chuyển sản phẩm trong 1 lượt xem).
A00002

B00003

C00006

D19760

B00001

C00010

D18416

B00003

C00004

D19764

D19761

C00008

D08538

Hình 3.1. Biểu diễn dạng cây của danh mục sản phẩm/loại sản phẩm
được xem
Nghiên cứu này cũng sử dụng học máy để xây dựng mơ hình
phân loại cùng với các kỹ thuật hỗ trợ giải quyết vấn đề không cân
bằng nhóm trong phân loại như ở nghiên cứu trước. Ngồi ra, do số
lượng các đặc trưng lớn (khoảng 3.500 đặc trưng), các kỹ thuật lựa
chọn đặc trưng được áp dụng để giảm bớt độ phức tạp và loại bỏ đi
các đặc trưng ít liên quan đến q trình phân loại.
Nhằm đánh giá hiệu quả của các đặc trưng cơ bản và nâng cao,
các thực nghiệm được tiến hành trên các tập đặc trưng khác nhau,
bao gồm tập đặc trưng cơ bản và tập đặc trưng cơ bản kết hợp nâng
cao. Theo cách phân loại tập đặc trưng, các đặc trưng nâng cao chỉ
mang tính bổ sung, nếu sử dụng riêng rẽ sẽ khơng hiệu quả. Do đó,

22
thực nghiệm trên tập đặc trưng nâng cao riêng rẽ không được thực
hiện trong nghiên cứu này.
Mỗi tập đặc trưng sẽ được thử nghiệm trên ba thuật toán học
máy và các kỹ thuật hỗ trợ như đã nói ở trên. Kết quả thực nghiệm
cuối cùng cho thấy khi thuật toán học máy kết hợp với kỹ thuật tái
cân bằng lớp theo phương pháp đặt lại trọng số cho các lớp
ClassBalancer

và

kỹ

thuật

học

nhạy

cảm

chi

phí

CostSensitiveClassifier cho kết quả BAC tốt nhất. Cụ thể, các đặc
trưng nâng cao khi được sử dụng kết hợp với các đặc trưng cơ bản đã
cải tiến kết quả đáng kể khi so sánh với việc chỉ sử dụng đặc trưng
cơ bản. Mặc dù vậy, trong tập dữ liệu được cung cấp, có khá nhiều
lượt xem chỉ có một sản phẩm được xem (khoảng 30%) và các đặc
trưng nâng cao không có hiệu quả với các trường hợp này (do khơng
có nhiều sản phẩn được xem trong cùng lượt để khai thác mối quan
hệ giữa chúng). Trên thực tế, số lượng người dùng xem nhiều sản
phẩm trong một lượt xem sẽ nhiều hơn và do đó việc sử dụng các đặc
trưng nâng cao sẽ đem lại hiệu quả cao hơn khi áp dụng trong các
trường hợp này.
So sánh kết quả của các thuật tốn học máy, thuật tốn
Random Forest có kết quả vượt trội so với các thuật toán SVM và
Bayesian Networks. Thuật tốn Random Forest thực hiện học kết
hợp thơng qua việc lựa chọn nhiều tập con đặc trưng và dữ liệu để
xây dựng nên một tập các cây quyết định, do đó phù hợp với bài
tốn có số lượng đặc trưng lớn và thưa như bài toán hiện tại. Một
điểm thú vị khác là phương pháp biểu diễn đặc trưng được sử dụng
trong nghiên cứu này cũng có cấu trúc dạng cây.

23
Bảng 3.12. Kết quả phân loại sau khi lựa chọn đặc trưng và tối ưu
tham số
BAC

Macro F1

Kết quả ban đầu

81.0

78.5

Áp dụng lựa chọn đặc trưng với Information

81.2

78.8

81.7

79.3

Gain (2.500 đặc trưng)
Tối ưu tham số cho thuật toán Random
Forest (1.000 cây, với số đặc trưng 13)
3.3

KẾT LUẬN CHƯƠNG

Chương này trình bày hai kết quả nghiên cứu về vấn đề dự

đốn giới tính người dùng dựa trên dữ liệu lịch sử truy cập trên hệ
thống TMĐT. Hai nghiên cứu được trình bày trong chương bao gồm
nghiên cứu sử dụng phương pháp tiếp cận tái chọn mẫu và nghiên
cứu thứ hai sử dụng phương pháp khai thác tối đa mối quan hệ giữa
các sản phẩm/loại sản phẩm trong cùng một lượt xem nhờ sử dụng
một biểu diễn cây của danh sách sản phẩm/loại sản phẩm

KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO
Luận án đã trình bày các kết quả nghiên cứu của nghiên cứu
sinh về việc xác định được đặc điểm tác giả văn bản và xác định đặc
điểm người dùng cùng với một số phương pháp học máy để nhận
diện đặc điểm tác giả và người dùng trên mạng Internet. Các đóng

MỘT số PHƯƠNG PHÁP HỌC MÁY XÁC ĐỊNH đặc điểm NGƯỜI DÙNG TRÊN MẠNG INTERNET tt

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về