Tải bản đầy đủ (.pdf) (26 trang)

Phân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễu (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (793.93 KB, 26 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
-------------------------------

Ninh Thị Thu Trang

PHÂN LOẠI VĂN BẢN HIỆU QUẢ TRONG ĐIỀU KIỆN
XUẤT HIỆN BIẾN NHIỄU

Chuyên ngành: Hệ thống thông tin
Mã số: 8.48.01.04

TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2018


Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học: TS. Hoàng Xuân Dậu

Phản biện 1: ..............................................................................

Phản biện 2: ..............................................................................

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính
Viễn thông
Vào lúc: ……..giờ…….ngày ……..tháng……..năm …….

Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông




1

MỞ ĐẦU
1. Lý do chọn đề tài
Phân loại văn bản là một phần quan trọng trong lĩnh vực xử lý ngôn ngữ. Nhiệm
vụ của bài toán này là tự động sắp xếp một bộ tài liệu thành các loại (hoặc các lớp, hoặc
chủ đề) từ một tập hợp được xác định trước. Các chương trình phân loại văn bản ngày
càng được sử dụng nhiều trong các ứng dụng thời gian thực, do đó cần phải cân nhắc
không chỉ độ chính xác mà còn tính mạnh mẽ của chúng khi có những thay đổi (nhiễu)
trong việc phân phối dữ liệu.
Đề tài "Phân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễu"
nghiên cứu thuật toán phân loại văn bản dựa trên thuật toán Back-door cải tiến[5] để
kiểm soát các biến số nhiễu. Bằng cách kiểm soát chặt chẽ các yếu tố gây nhiễu, có thể
cải thiện đáng kể hiệu quả của bộ phân loại.
2. Tổng quan về vấn đề nghiên cứu
Trong bài toán phân loại văn bản, xem xét trường hợp có một biến nhiễu Z có
ảnh hưởng đến cả các đặc trưng văn bản X và biến nhãn Y. Ví dụ, một bộ phân loại
được huấn luyện để dự đoán tình trạng sức khoẻ của người dùng dựa vào giao tiếp của
họ trên mạng có thể sai lệch bởi các biến số kinh tế xã hội. Khi ảnh hưởng của Z thay
đổi từ dữ liệu huấn luyện sang dữ liệu thử nghiệm, độ chính xác của phân loại có thể bị
giảm nhanh chóng[5].
Trong các ngành khoa học xã hội, nhiều phương pháp đã được phát triển để kiểm
soát yếu tố gây nhiễu, bao gồm kết hợp, phân tầng và hồi quy[9][Rosenbaum].
Pearl[8]đã phát triển các phép thử để xác định cấu trúc nào cho phép kiểm soát các yếu
tố gây nhiễu bằng cách sử dụng điều chỉnh đồng biến, còn được gọi là Back-door[8].
Luận văn sử dụng các điều chỉnh trên thuật toán Back-door để cải thiện hiệu quả của
các bộ phân loại văn bản[5].
Trong cộng đồng học máy, lựa chọn thiên vị đã nhận được một số sự chú ý. Xu

hướng lựa chọn trong phân loại văn bản xảy ra khi sự phân bố của các đặc trưng văn
bản thay đổi từ huấn luyện sang thử nghiệm. Đã có các nghiên cứu xem xét trường hợp


2
hàm phân phối mục tiêu P (Y) thay đổi khi từ huấn luyện sang thử nghiệm. Ở đây, bài
toán giải quyết một trường hợp đầy thách thức hơn về mối quan hệ thay đổi giữa nhãn
mục tiêu Y và một nhãn nhiễu Z[5].
3. Mục đích nghiên cứu
 Nghiên cứu thuật toán Back-door cải tiến cho phân loại văn bản khi có sự xuất hiện biến
nhiễu.
 Xây dựng mô hình và cài đặt thử nghiệm thuật toán Back-door cải tiến trong bài toán
phân loại văn bản có sự xuất hiện của biến nhiễu.
4. Đối tượng và phạm vi nghiên cứu
 Đối tượng nghiên cứu: Thuật toán Back-door cải tiến cho phân loại văn bản.
 Phạm vi nghiên cứu: Bài toán phân loại văn bản có sự xuất hiện của biến nhiễu.
5. Phương pháp nghiên cứu
Phương pháp nghiên cứu là nghiên cứu lý thuyết kết hợp với thực nghiệm và
phân tích, đánh giá kết quả.
Nội dung chính của luận văn gồm 3 chương như sau:
Chương 1 – BÀI TOÁN PHÂN LOẠI VĂN BẢN: Giới thiệu bài toán phân loại
văn bản nói chung và trình bày một số mô hình phân loại văn bản được sử dụng phổ
biến hiện nay.
Chương 2 – THUẬT TOÁN BACK-DOOR CẢI TIẾN CHO PHÂN LOẠI VĂN
BẢN CÓ SỰ XUẤT HIỆN CỦA BIẾN NHIỄU: Trình bày và chứng minh thuật toán
Back-door cải tiến trong phân loại văn bản.
Chương 3 – THỬ NGHIỆM VÀ ĐÁNH GIÁ: Áp dụng thuật toán Back-door cải
tiến trong phân loại trên tập dữ liệu thực tế, tiến hành so sánh kết quả với một số mô
hình khác và rút ra kết luận.


Chương 1 - BÀI TOÁN PHÂN LOẠI VĂN BẢN


3
Chương này trình bày khái quát về bài toán phân loại văn bản, các bước giải
quyết bài toán phân loại văn bản và giới thiệu ra một số mô hình phân loại văn bản
phổ biến hiện nay.

1.1. Bài toán phân loại văn bản
1.1.1.

Phát biểu bài toán

Phân loại văn bản (Text classification) là quá trình gán nhãn (tên lớp/nhãn
lớp) các văn bản ngôn ngữ tự nhiên một cách tự động vào một hoặc nhiều lớp cho
trước.
Bài toán phân loại văn bản có thể được phát biểu như sau: Cho trước một tập
văn bản D={d1,d2,…,dn} và tập chủ đề được định nghĩa C={c1,c2,…,cn}.
Nhiệm vụ của bài toán là gán lớp di thuộc về cj cho trước. Hay nói cách khác,
mục tiêu của bài toán là đi tìm hàm f sao cho:
f =DxC Boolean

f ( d , c) 



true
false

f(d,c)=true nếu d thuộc về lớp c

f(d,c)=false nếu d không thuộc về lớp c

1.1.2.

Mô hình tổng quát

Phân loại văn bản được các nhà nghiên cứu định nghĩa thống nhất là việc gán
tên các chủ đề (tên lớp / nhãn lớp) đã được xác định trước cho các văn bản dựa trên
nội dung của nó. Phân loại văn bản là công việc được sử dụng để hỗ trợ trong quá
trình tìm kiếm thông tin (Information Retrieval), trích xuất thông tin (Information
Extraction), lọc văn bản hoặc tự động đưa các văn bản vào những chủ đề xác định
trước.


4
Có nhiều hướng tiếp cận giải quyết bài toán phân loại văn bản đã được nghiên
cứu như: tiếp cận dựa trên lý thuyết đồ thị, cách tiếp cận sử dụng lý thuyết tập thô,
tiếp cận dựa trên thống kê… Tuy nhiên, tất cả các hướng tiếp cận trên đều dựa vào
phương pháp chung là học máy. Học máy gồm học có giám sát, học không giám sát
và học tăng cường.

Biểu diễn ban đầu
Dữ liệu
văn bản

Tri thức thêm vào

Học quy nạp

Biểu diễn ban đầu


Giảm số chiều hoặc
lựa chọn thuộc tính

Các công cụ
phân loại
Biểu diễn cuối cùng

Hình 1.1. Sơ đồ khung một hệ thống phân loại văn bản[1]

1.1.3.

Tiền xử lý văn bản

Văn bản trước khi được vector hoá, tức là trước khi sử dụng, cần phải qua quá
trình tiền xử lý. Quá trình tiền xử lý sẽ giúp nâng cao hiệu suất phân loại và giảm độ
phức tạp của thuật toán huấn luyện.
Tuỳ vào mục đích bộ phân loại mà chúng ta sẽ có những phương pháp tiền xử
lý văn bản khác nhau, như:
- Chuyển văn bản về chữ thường
- Loại bỏ dấu câu (nếu không thực hiện tách câu)
- Loại bỏ các kí tự đặc biệt ([ ],[.], [,], [:], [“], [”], [;], [/], [[]], [~], [`],
[!],[@], [#], [$],[%],[^],[&],[*],[(],[)]), các chữ số, phép tính toán số học


5
- Loại bỏ các stopword (những từ xuất hiện hầu hết trong các văn bản) không
có ý nghĩa khi tham gia vào phân loại văn bản.

1.1.4.


Phương pháp biểu diễn văn bản

Một trong những nhiệm vụ đầu tiên trong phân loại văn bản là chọn được một
mô hình biểu diễn văn bản thích hợp. Một văn bản ở dạng thô (dạng chuỗi) cần được
chuyển sang một mô hình khác để tạo thuận lợi cho việc biểu diễn và tính toán. Tuỳ
thuộc vào từng thuật toán phân loại khác nhau mà chúng ta có mô hình biểu diễn
riêng.
Phương pháp chuẩn thường được sử dụng là Term Frequency Inverse
Document Frequency (TFIDF) [17], với hàm tính trọng số từ khóa được xác định bởi
công thức:

m
TFIDFl ,d  freql ,d *log  
 dfl 

(1.4)

Trong đó:
- Tần suất từ khóa l trong tài liệu d: freql,d là số lần xuất hiện của từ khóa l trong
tài liệu d.
- Tần suất văn bản dfl là sốvăn bản trong tập tài liệu có chứa từ khóa l.
- m là tổng số tài liệu huấn luyện.
Trọng số TFIDF của một từ khóa trong toàn bộ tập tài liệu m được tính bởi
công thức:
TFIDF  TFIDFl ,d , TFIDF  R

1.1.5.

Đánh giá bộ phân loại văn bản


Các độ đo thường dùng cho bài toán phân loại văn bản:
a) Ma trận nhầm lẫn (Confusion Matrix)

(1.5)


6
Ma trận nhầm lẫn, hay còn được gọi là Bảng dữ liệu thống kê (Contingency
Table) và chỉ được sử dụng đối với bài toán phân loại. Ý nghĩa của các ký hiệu trong
ma trận nhầm lẫn:
 TPi: Số lượng các ví dụ thuộc lớp ci được phân loại chính xác vào lớp ci
 FPi: Số lượng các ví dụ không thuộc lớp ci bị phân loại nhầm vào lớp ci
 TNi: Số lượng các ví dụ không thuộc lớp ci được phân loại (chính xác)
 FNi: Số lượng các ví dụ thuộc lớp ci bị phân loại nhầm (vào các lớp khác ci)
 P = tổng số các ví dụ thuộc lớp ci
 N = tổng số các ví dụ thuộc lớp khác ci
 P-hat = tổng số các ví dụ nhận thành lớp ci
 N-hat = tổng số các ví dụ nhận thành lớp khác ci
b) Precision và Recall
Hai độ đo này thường xuyên được sử dụng để đánh giá các hệ thống phân loại
văn bản.
- Precision đối với lớp ci: Tổng các ví dụ thuộc lớp ci được phân loại chính xác
chia cho tổng số các ví dụ được phân loại vào lớp ci
Pri 

TPi
TPi  FPi

(1.6)


- Recall đối với lớp ci: Tổng số các ví dụ thuộc lớp ci được phân loại chính xác
chia cho tổng số các ví dụ thuộc lớp ci
Rei 

TPi
TPi  FPi

(1.7)

c) F1
Tiêu chí đánh giá F1 là là sự kết hợp của 2 tiêu chí đánh giá Precision và
Recall:


7
F  2*

precision  recall
precision  recall

1.2. Một số mô hình phân loại văn bản
1.2.1.

Mô hình Naïve Bayes
Naïve Bayes[6] là phương pháp phân loại dựa vào xác suất, được sử dụng

rộng rãi trong lĩnh vực học máy và nhiều lĩnh vực khác như trong các công cụ tìm
kiếm, các bộ lọc thư điện tử, …
Ý tưởng cơ bản của cách tiếp cận này là sử dụng xác suất có điều kiện giữa từ

hoặc cụm từ và chủ đề để dự đoán xác suất chủ đề của một văn bản cần phân loại.
Điểm quan trọng của phương pháp này chính là ở chỗ giả định rằng sự xuất hiện
của tất cả các từ trong văn bản đều độc lập với nhau. Như thế Naïve Bayes không
tận dụng được sự phụ thuộc của nhiều từ vào một chủ đề cụ thể. Chính giả định đó
làm cho việc tính toán Naïve Bayes hiệu qủa và nhanh chóng hơn các phương pháp
khác với độ phức tạp theo số mũ vì nó không sử dụng cách kết hợp các từ để đưa ra
phán đoán chủ đề.
Mục đích chính là làm sao tính được xác suất Pr(Cj, d’), xác suất để văn bản
d’ nằm trong lớp Cj. Theo luật Bayes, văn bản d’ sẽ được gán vào lớp Cj nào có xác
suất Pr(Cj, d’) cao nhất.

1.2.2.

Mô hình Support Vector Machine
Thuật toán máy vector hỗ trợ (Support Vector Machines - SVM) được

Corters và Vapnik giới thiệu vào năm 1995[3]. SVM được đánh giá rất hiệu quả để
giải quyết các bài toán với dữ liệu có số chiều lớn như các vector biểu diễn văn bản.
Thuật toán SVM ban đầu chỉ được thiết kế để giải quyết bài toán phân loại nhị phân
tức là số lớp hạn chế là hai lớp. Hiện nay, SVM được đánh giá là bộ phân loại chính
xác nhất cho bài toán phân loại văn bản [16], bởi vì đó là bộ phân loại tốc độ rất
nhanh và hiệu quả đối với bài toán phân loại văn bản.


8
Cho tập dữ liệu học D  {( xi , yi ), i  1..n} với xi  R m và yi {  1,1} là một số
nguyên xác định xi là dữ liệu dương hay âm. Một tài liệu xi được gọi là dữ liệu
dương nếu nó thuộc lớp ci; xi được gọi là dữ liệu âm nếu nó không thuộc lớp ci. Bộ
phân loại tuyến tính được xác định bằng siêu phẳng:
{x : f ( x)  wT  w 0  0}


(1.16)

Trong đó w  Rm và w 0  R đóng vai trò là tham số của mô hình. Hàm phân
loại nhị phân h : Rm  {0,1} có thể thu được bằng cách xác định dấu của f(x):
1
h( x )  
0

f ( x)  0
f ( x)  0

(1.17)

Bộ phân loại của mô hình học bao gồm việc xác định w và w0 từ dữ liệu. Với
thuật toán này, mỗi dữ liệu được xem là một điểm trong mặt phẳng. Dữ liệu học là
tách rời tuyến tính (linearly separable) nếu tồn tại một siêu phẳng sao cho hàm phân
loại phù hợp với tất cả các nhãn; tức là yi f ( xi )  0 với mọi i = 1,..,n.

1.2.3.

Mô hình Logistic Regression
Bài toán phân loại là một trường hợp đặc biệt của bài toán hồi qui

(Regression), với điều kiện biến dự đoán y chỉ nhận hai giá trị, 0 và 1 (bài toán
binary logistic regression). Có 2 nhận xét để tiếp cận bài toán này.
Thứ nhất: Dùng các hàm hồi qui tuyến tính (Linear Regression) để dự đoán
biến y, khi biết x. Ở đây bỏ qua điều kiện giá trị của y là rời rạc(0 hoặc 1). Ở Linear
Regression chọn hàm dự đoán:


h ( x)  g ( T x)

(1.27)

Thứ hai: Giới hạn y trong đoạn [0, 1], do vậy chọn h ( x)  g ( T x) , trong đó:
gz 

1
,zR
1  e z

(1.28)


9
Tóm lại có hàm dự đoán với đầu vào x như sau:
h ( x) 

1
1  e

T

x

(1.29)

Logistic Regression là thuật toán dùng để ước lượng xác suất p với sự kiện
phân loại, với dữ liệu đã có x, được viết:
p(Y  y | x) 


1.2.4.

1
1  e z

(1.30)

Mô hình Subsampling
Subsampling (Logistic Regression Subsampling - LRS)[11] là mô hình phát

triển từ mô hình Logistic Regression, mô hình này loại bỏ sự thiên vị trong quá
trình huấn luyện bằng cách lấy mẫu dữ liệu sao cho P(Y, Z) được phân phối đồng
nhất. Tức là nếu nij là số các trường hợp y = i và z = j, thì ta lấy mẫu sao cho n00 =
n01 = n10 = n11.
Khi cài đặt mô hình này, ta sử dụng sự hỗ trợ của hàm random để chọn ra bộ
dữ liệu thỏa mãn điều kiện lấy mẫu. Cách tiếp cận này có thể vô tình loại bỏ nhiều
trường hợp khi bộ dữ liệu có sự thiên lệch dữ liệu lớn.
1.2.5.

Mô hình Matching
Matching[12] là việc ghép cặp các đơn vị nghiên cứu và đợn vị so sánh có các đặc

điểm tương tự có thể quan sát được của chúng. Khi sự khác biệt giữa hai đơn vị bất kỳ nào
đều được ghi nhận trong tập biến số quan sát (tiền xử lý), tức là khi các kết quả không phụ
thuộc vào việc phân chia theo điều kiện tiền điều kiện tiền xử lý, phương pháp Matching
có thể mang lại ước tính không thiên vị trong nghiên cứu. Các phương pháp ghép cặp đầu
tiên của phương pháp Matching quan sát dựa trên một hoặc một vài biến số.
Matching về cơ bản là tính toán sơ đồ trọng số, xác định trọng số được đặt trên các
đơn vị so sánh khi tính toán hiệu quả ước tính:



10

ˆ |T 1 

1
N

1

 (Y  J  Y )
iN

i

i

jJ i

j

(1.31)

Trong đó N là nhóm nghiên cứu, |N| là số đơn vị trong nhóm nghiên cứu, Ji là tập
hợp các đơn vị so sánh phù hợp với đơn vị nghiên cứu i và |Ji| là số đơn vị so sánh trong Ji.

1.2.6.

Mô hình Sum out

Sum out (SO)[11]: Mô hình này sử dụng bộ phân loại hồi quy logistic, trong đó các

nhãn nằm trong khoảng giá trị của Y và Z (nghĩa là nhãn dạng {(y=0, z=0), (y=0, z=1),
...}).
Trong quá trình thử nghiệm, để phân loại cho một biến X mới, ta tính toán giá trị
của P(Z=1, Y=0|X) + P(Z=0,Y=1|X).

1.3. Bài toán của luận văn
Xem xét biến số nhiễu là biến có ảnh hưởng nhân quả lên kết quả của việc
phân loại văn bản, luận văn nghiên cứu thuật toán phân loại văn bản dựa trên thuật
toán Back-door cải tiến[3] để kiểm soát các biến số nhiễu. Bằng cách kiểm soát chặt
chẽ các yếu tố gây nhiễu, có thể cải thiện đáng kể hiệu quả của bộ phân loại.
Giả sử ta quan sát biến nhiễu trong quá trình huấn luyện, không phải ở quá
trình thử nghiệm. Xét bài toán như sau:
- Đầu vào của bài toán: Giả sử có tập dữ liệu huấn luyện D  {( xi , yi , zi )}in1 ,
trong đó mỗi bộ bao gồm một vector đặc trưng x, một nhãn y, và một biến
số nhiễu z xác định trước
- Đầu ra mong đợi: Mục tiêu của luận văn là dự đoán nhãn yj cho một trường
hợp mới xj, trong khi không kiểm soát đối với một nhiễu zj.


11
1.4. Kết luận chương
Trong Chương 1, luận văn đã trình bày về bài toán phân loại văn bản, vai trò
và cách tiếp cận, thực hiện bài toán phân loại văn bản sau đó nêu ra một số mô hình
phân loại văn bản thường được sử dụng.
Trong chương tiếp theo, luận văn sẽ xem xét bài toán phân loại văn bản trong
điều kiện xuất hiện biến số nhiễu có ảnh hưởng đến kết quả của bộ phân loại văn
bản.



12

Chương 2 - THUẬT TOÁN BACK-DOOR CẢI TIẾN CHO
PHÂN LOẠI VĂN BẢN CÓ XUẤT HIỆN CỦA BIẾN NHIỄU
2.1. Giới thiệu
Các mô hình phân loại văn bản ở Chương 1 đang áp dụng cho bài toán gán
nhãn Y cho đối tượng X khi X và Y là các biến số độc lập với nhau.
Thuật toán Back-door tiêu chuẩn được Pear[6] giới thiệu năm 2003, đưa ra
một sơ đồ đơn giản để kiểm tra quan hệ nhân quả giữa các biến. Thuật toán Backdoor cải tiến xem xét những trường hợp mà đối tượng cần phân loại X có tác động
nhân quả với biến nhãn Y. Bằng việc kiểm soát một biến số nhiễu Z, trong đó Z có
ảnh hưởng tới cả X và Y, mô hình này được kỳ vọng có có thể cải thiện độ chính
xác của bộ phân loại trong những trường hợp X có tác động nhân quả với Y.

2.2. Thuật toán Back-door tiêu chuẩn
Giả sử có một sơ đồ nhân quả G, cùng với dữ liệu thử nghiệm trên tập con V
gồm các biến thuộc G, và giả sử ước tính ảnh hưởng của các biến đầu vào (X=x) có
thể có trên tập các biến trả về Y, X và Y là hai tập con của V. Nói cách khác, ước
tính P( y | xˆ) từ một ước lượng mẫu P(v).
Tồn tại một sơ đồ kiểm tra đơn giản, tên là "tiêu chuẩn Back-door" trong
Pearl[6], có thể được áp dụng trực tiếp vào sơ đồ nguyên nhân để kiểm tra nếu một
tập hợp Z  V gồm các biến có khả năng xác định P( y | xˆ ) .
Định nghĩa 1: Tiêu chuẩn Back-door
Một tập các biến Z thỏa mãn tiêu chuẩn Back-door liên quan đến cặp biến
(Xi,Xj) trong một đồ thị không tuần hoàn G nếu:
(i) không có nút nào trong Z là hậu duệ của Xi; Và


13
(ii) Z chặn mọi đường đi giữa Xi và Xj có chứa một mũi tên vào Xi.

Tương tự như vậy, nếu X và Y là hai tập hợp các nút con của G, Z sẽ đáp ứng
các tiêu chí tương ứng với (X, Y) nếu nó thỏa mãn tiêu chuẩn Back-door với bất kỳ
cặp (Xi, Xj) nào ví dụ như Xi X và Xj Y.
Cái tên "Back-door" thể hiện điều kiện (ii), đòi hỏi chỉ chặn các đường đi có
mũi tên chỉ vào Xi; Những đường đi này có thể được xem như là nhập Xi thông qua
cửa sau. Trong ví dụ Hình 1, các bộ Zl={X3, X4} và Z2={X4, X5} đáp ứng các tiêu
chí back-door, nhưng Z3={X4} không thoả mãn vì X4 không chặn đường dẫn (Xi,
X3, Xl, X4, X2, X5, Xj).

Hình 2.1. Mô hình ví dụ cho tiêu chuẩn Back-door

Trong hình trên, điều chỉnh các biến {X3,X4} hoặc {X4,X5} sẽ mang lại một
ước tính thích hợp cho P( x j | xˆi )

2.3. Thuật toán Back-door cải tiến cho phân loại văn bản
Thuật toán Back-door cải tiến
Nếu một tập hợp Z gồm các biến thỏa mãn tiêu chuẩn Back-door, xác định
được cặp biến (X, Y), thì ảnh hưởng nhân quả của X trên Y là xác định được và
được cho bởi công thức:


14
P( y | xˆ )   P( y | x, z ) P( z )

(2.1)

z

Công thức (2.1) đại diện cho công thức chuẩn đạt được khi điều chỉnh Z; các
biến X bằng nhau trong (2.1) được đặt tên là "điều kiện bỏ qua Z" trong Rosenbaum

và Rubin[12]. Các tiêu chuẩn đồ họa có thể được kiểm tra bằng hệ thống các thủ tục
được áp dụng cho các sơ đồ với mọi kích thước và hình dạng. Tiêu chuẩn cũng cho
phép nhà phân tích tìm kiếm một tập hợp các biến số tối ưu - cụ thể là một tập hợp
Z giảm thiểu chi phí đo lường hoặc biểu diễn mẫu [18]. Tập Z được gọi là "bộ đầy
đủ" để kiểm soát nhiễu.

2.4. Điều chỉnh khả năng cải tiến thuật toán Back-door
Để cài đặt, p(z) được tính bằng ước tính xác suất tối đa ở trên. Tính p(y|x,z)
bằng cách thêm hai tính năng bổ sung ci, 0 và ci, 1 cho mỗi trường hợp xi với z = 0
và z = 1. Tính năng thứ nhất (thứ hai) được đặt thành v1 nếu zi = 0 (zi = 1) và tính
năng thứ hai (thứ nhất) được đặt là 0. Trong trường hợp mặc định, cho v1 = 1 nhưng
xem xét lại quyết định này trong phần tiếp theo. Để dự đoán một trường hợp mới, ta
tính toán bằng cách sử dụng phương trình (2.1). Ở đây, dùng trực giác có thể thấy
cách tiếp cận này là hữu ích, cũng như một phương pháp để cho phép nhà nghiên
cứu điều chỉnh sức mạnh thuật toán Back-door cải tiến.

2.5. Kết luận chương
Trong Chương 2, luận văn đã trình bày về thuật toán Back-door tiêu chuẩn,
thuật toán Back-door cải tiến cho phân loại văn bản và các khả năng cải tiến thuật
toán Back-door trong bải toán phân loại văn bản.
Trong chương tiếp theo luận văn trình bày kết quả áp dụng thuật toán Backdoor cải tiến vào việc phân loại dữ liệu từ Twitter và IDMb.


15

Chương 3 - THỬ NGHIỆM VÀ ĐÁNH GIÁ
3.1. Các tập dữ liệu và tiền xử lý dữ liệu cho thử nghiệm
3.1.1.

Bộ dữ liệu Twitter

Mục tiêu của luận văn là dự đoán vị trí của một người sử dụng Twitter từ các

tweet của họ, với giới tính được xem là một biến nhiễu tiềm năng. Để thực hiện
mục tiêu này, luận văn sử dụng bộ dữ liệu từ nguồn [5]. Dữ liệu được thu thập dựa
trên việc sử dụng API Twitter streaming để thu thập các tweet với các đối tượng địa
lý từ New York City (NYC) và Los Angeles (LA) trong thời gian hai ngày (15, 16
tháng 8 năm 2017). Bộ dữ liệu chứa khoảng 100 000 tweet cho NYC và 218,945
cho LA.
Dự đoán vị trí với giới tính là biến gây nhiễu, gán yi = 1 cho biết NYC và zi=
1 chỉ Nam. Do cách xây dựng bộ dữ liệu này, dữ liệu được phân bố đều trên bốn
cặp y/z có thể có.

3.1.2.

Bộ dữ liệu IMDb
Mục tiêu của luận văn trong thử nghiệm này là dự đoán cảm xúc của một bài

đánh giá phim bị nhiễu bởi thể loại phim bằng dữ liệu IMDb theo Maas[7]. Bộ dữ
liệu chứa 50.000 đánh giá phim từ IMDb được gắn nhãn với tình cảm tích cực hoặc
tiêu cực. Loại bỏ từ dừng tiếng Anh, các thuật ngữ xuất hiện dưới 10 lần, và sử
dụng một véc tơ nhị phân để biểu hiện sự có hoặc không có các đặc trưng.
Xác định biến là biến nhiễu nếu bộ phim thuộc thể loại "kinh dị", như được
xác định bởi sự phân loại của IMDb. Vì vậy, chúng ta cho zi = 1 cho phim kinh dị,
và zi = 0 nếu không là phim kinh dị. Trái với bộ dữ liệu Twitter, dữ liệu này phân
bố không đồng đều giữa bốn cặp nhãn/nhiễu. Khoảng 18% phim là phim kinh dị, và
5% đánh giá với tình cảm tích cực là phim kinh dị.

3.2. Kịch bản thử nghiệm



16
Luận văn tiến hành thử nghiệm và so sánh trên các mô hình sau:
- Logistic Regression (LR)[11]
- Back-door cải tiến (BA)[3]
-

Subsampling (LRS)[9]
Với mỗi mô hình, tiến hành chạy thử nghiệm trên từng bộ dữ liệu với kịch

bản như sau:
- Lấy dữ liệu huấn luyện: 800 mẫu cho Twitter, 1000 mẫu cho bộ IMDb
- Lấy dữ liệu thử nghiệm: 800 mẫu cho Twitter, 1000 mẫu cho bộ IMDb
- Quan sát kết quả đầu ra và thống kê các tham số:
o Độ chính xác của huấn luyện và thử nghiệm khác với P(Y|Z)
o Độ chính xác trung bình trong huấn luyện được ưu tiên
o Phần trăm các đặc trưng thể hiện nghịch lý Simpson

3.3. Kết quả
3.3.1.

Kết quả trên dữ liệu Twitter
Trong Hình 3.1 và 3.2, phương pháp tốt nhất ở các khu vực nhất định là

BAZ10 và LRS. Chúng tốt hơn tất cả các phân loại khác trong khoảng [-1.6, -0.6] ∪
[0.6, 1.6]: có khoảng 15 điểm tốt hơn so với BA, khoảng 20 điểm so với LR. Ngoài
ra - ở khu vực giữa - BAZ10 tốt hơn BA và LR. Hơn nữa, độ chính xác tối đa tổn
thất của BAZ10 đối với các phân loại khác là xấp xỉ 2 điểm khi sự khác biệt tương
quan là 0. Điều này cho thấy rằng BAZ10 đáng kể hơn nhiều so với LR, trong khi
chỉ sai sót một lượng nhỏ khi các yếu tố gây nhiễu có ít tác động.



17

Hình 3.1. Độ chính xác của huấn luyện và thử nghiệm khác với P(Y|Z) trên dữ
liệu Twitter

Hình 3.2. Độ chính xác trung bình trên dữ liệu Twitter trong
huấn luyện được ưu tiên

Để hiểu tại sao BAZ10 chính xác hơn và mạnh mẽ hơn các phương pháp
khác, ta tính toán các hệ số của phân loại LR, BA và BAZ10 khi sự ưu tiên là 0.9
(tức là 90% người New York là nam giới). Hình 3.3 thể hiện các hệ số cho mười
đặc trưng được tiên đoán nhiều nhất của nhãn lớp theo thống kê (disneyland,
brooklyn, angeles, nj, socal, losangeles, freeway, dtla, dodgers, pasadena) và mười


18
đặc trưng được tiên đoán nhiều nhất của biến số nhiễu (cutest, makeup, obsessed,
girlposts, nails, sodamntrue, xoxo, bff, leggings, adorable). Trọng số của các đặc
trưng liên quan đến vị trí (10 đặc trưng đầu tiên) giảm một chút trong phương pháp
Back-door cải tiến nhưng tương đối quan trọng. Ngược lại, trọng lượng của các đặc
trưng liên quan đến giới tính (10 đặc trưng còn lại) đang giảm dần về 0 trong
phương pháp Back-door cải tiến. Lưu ý rằng sử dụng BAZ10 thay vì BA có tác
động nhiều hơn đến các đặc điểm liên quan đến giới tính. Những kết quả này hỗ trợ
quan sát trực quan rằng trong huấn luyện Back-door cải tiến sẽ ảnh hưởng đến các
đặc trưng chịu tác động của nhiễu nhiều nhất.

Hình 3.3. Đặt hệ số ưu tiên 0.9 cho các bộ phân loại LR, BA và BAZ10 trong thử
nghiệm Twitter



19

Một cách khác để xem xét tác động của BA, dùng khái niệm nghịch lý của
Simpson[14]. Trong các nghiên cứu nguyên nhân, nghịch lý của Simpson phát sinh
khi hiệu quả của X trên Y được tìm thấy dương tính trong quần thể chung, nhưng
âm tính trong mỗi tiểu quần thể xác định bởi nhiễu Z. Ví dụ, hút thuốc được phát
hiện là gây ra ung thư trong cộng đồng, nhưng được phát hiện không gây ra ung thư
khi xem xét các cộng đồng nam giới và phụ nữ một cách riêng biệt. Đối với một
phân loại nhất định, có thể tính toán số đặc trưng văn bản thể hiện nghịch lý của
Simpson bằng cách xác định các hệ số một mặt phù hợp với tất cả các dữ liệu,
nhưng ngược lại lại phù hợp với các trường hợp dữ liệu với z = 0 và z = 1. Nghĩa là,
chúng ta xác định các hệ số mà có thể dự đoán y = 1 cho toàn bộ, nhưng dự đoán y
= 0 cho từng nhóm con (và ngược lại).
Hình 3.4 tính tỷ lệ phần trăm các đặc trưng thể hiện nghịch lý Simpson cho
sức mạnh của sự thiên vị trong các dữ liệu được chọn. Dữ liệu Twitter có chứa
khoảng 22000 đặc trưng. Trong trường hợp BAZ10, số lượng các đặc trưng thể hiện
nghịch lý Simpson vẫn tương đối ổn định; trong khi nó tăng nhanh khi thiên vị đạt
được cực trị trong các phương pháp khác. (Quan sát kết quả tương tự trên dữ liệu
IMDb.)


20

Hình 3.4. Phần trăm các đặc trưng thể hiện nghịch lý Simpson

Từ các Hình 3.3 và 3.4, có thể kết luận rằng có hai cách để Back-door cải tiến
tăng cường tính hiệu quả: (1) bằng cách điều chỉnh về 0 với các thuật ngữ có quan
hệ với biến nhiễu Z; (2) bằng cách hiệu chỉnh phía các hệ số dự đoán của Y nhưng
bị sai khác do nhiễu.



21

Hình 3.5. Ảnh hưởng của việc điều chỉnh độ mạnh v1 đối với các hệ số đặc trưng
c0, c1 và độ chính xác trên bộ dữ liệu Twitter

Hình 3.5 chỉ ra ảnh hưởng của tham số v1 trong phương pháp BA, điều khiển
sức mạnh của việc cải tiến Back-door. Hình này cho thấy sự thay đổi của các hệ số
quy mô trong giá trị tuyệt đối của c0 và c1 (đường nét đứt) cũng như độ chính xác
(đường liền) khi v1 tăng lên trong Twitter. Những kết quả này là trong trường hợp
mức độ ưu tiên khác nhau trong huấn luyện và kiểm tra là lớn (|ưu tiên huấn luyện –
ưu tiên thử nghiệm > 1.2). Độ chính xác thấp và ổn định khi v1 nhỏ hơn 10-1. Sau đó
tăng và bắt đầu tăng cao tại v1 = 10. Với số liệu này, độ chính xác đạt được là 15
điểm giữa hai đường c0 và c1.

3.3.2.

Kết quả trên dữ liệu IMDb
Hình 3.6 và Hình 3.7 hiển thị kết quả cho dữ liệu IMDb. BA và BAZ10 một

lần nữa xuất hiện hiệu quả nhất khi các biến gây nhiễu được ưu tiên. Các phương
pháp khác thực hiện tốt, ngoại trừ LRS, tạo ra kết quả ít hơn khoảng 10 điểm so với
các phương pháp khác (từ hình này sẽ bỏ qua LRS). Đánh giá hiệu suất này kém so
với thực tế là sự phân bố các biến số y |z ở đây sai lệch nhiều hơn là trong Twitter,


22
dẫn đến LRS chỉ phù hợp với một phần nhỏ của dữ liệu đào tạo. Điều này cũng giải
thích tại sao sự thay đổi độ chính xác tổng thể không phải là cực trị như trong các

thử nghiệm của Twitter: hiệu ứng gây nhiễu được giảm thiểu vì có rất ít bộ phim
kinh dị trong dữ liệu.

Hình 3.6. Độ chính xác của huấn luyện và thử nghiệm khác với P(Y|Z) trên dữ
liệu IMDb

Hình 3.7. Độ chính xác trung bình trên dữ liệu IMDb trong huấn luyện được ưu
tiên


23
Đối với các thí nghiệm trên dữ liệu từ IMDb và Twitter, ta tính thêm một
phép thử cặp để so sánh BAZ10 và LR cho mỗi giá trị của sự khác biệt tương quan
(ví dụ, trục x trong Hình 3.1 và 3.6). Ta thấy rằng trong 19 trường hợp, BAZ10 hoạt
động tốt hơn LR; trong 8 trường hợp, LR hoạt động tốt hơn BAZ10; và trong 5
trường hợp kết quả không khác biệt đáng kể (p <0,01). Như các số liệu cho thấy,
khi các dữ liệu thử nghiệm rất giống với dữ liệu huấn luyện việc coi trọng biến
nhiễu, BAZ10 là tương đương hoặc hơi kém hơn LR; tuy nhiên, khi dữ liệu thử
nghiệm khác đi nhiều so với khi huấn luyện, BAZ10 hoạt động tốt hơn LR, đôi khi
khoảng cách rất hớn (ví dụ: tăng độ chính xác tuyệt đối 20% trên dữ liệu Twitter).


×