BÁO CÁO NHẬP MÔN TRÍ TUỆ NHÂN TẠO

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.52 MB, 19 trang )

====o0o====

BÁO CÁO
NHẬP MƠN TRÍ TUỆ NHÂN TẠO
ĐỀ TÀI 44: Nghiên cứu xây dựng chương trình phân loại văn bản dùng
giải thuật Support Vector Machine bằng ngôn ngữ Python
Giáo viên hướng dẫn:

NGUYỄN NGỌC DUY

Sinh viên thực hiện:

MSSV

VŨ TUẤN ANH

N18DCCN010

NGUYỄN PHẠM NHẬT MINH

N17DCCN095

TP Hồ Chí Minh, ngày 1 tháng 8 năm 2021

BÁO CÁO ĐỀ TÀI 44

MỤC LỤC

NHẬP MƠN TRÍ TUỆ NHÂN TẠO

TRANG 2

BÁO CÁO ĐỀ TÀI 44

Nội dung công việc
NGUYỄN PHẠM NHẬT MINH: Xây dựng cơ sở lý thuyết.
VŨ TUẤN ANH: Hiện thực chương trình.

1 GIỚI THIỆU GIẢI THUẬT SUPPORT VECTOR MACHINE
1.1 CÁC KHÁI NIỆM NỀN TẢNG
1.1.1 Khoảng cách từ một điểm tới một siêu mặt phẳng
Trong không gian 2 chiều, ta biết rằng khoảng cách từ một điểm có toạ độ
tới đường thẳng có phương trình được xác định bởi:
Trong khơng gian ba chiều, khoảng cách từ một điểm có toạ độ tới một mặt
phẳng có phương trình được xác định bởi:
Hơn nữa, nếu ta bỏ dấu trị tuyệt đối ở tử số, chúng ta có thể xác định được điểm
đó nằm về phía nào của đường thẳng hay mặt phẳng đang xét. Những điểm làm
cho biểu thức trong dấu giá trị tuyệt đối mang dấu dương nằm về cùng 1 phía (phía
dương của đường thẳng), những điểm làm cho biểu thức trong dấu giá trị tuyệt đối
mang dấu âm nằm về phía cịn lại (phía âm). Những điểm nằm trên đường
thẳng/mặt phẳng sẽ làm cho tử số có giá trị bằng 0, tức khoảng cách bằng 0.
Việc này có thể được tổng quát lên không gian nhiều chiều: Khoảng cách từ
một điểm (vector) có toạ độ tới siêu mặt phẳng (hyperplane) có phương trình
được xác định bởi:

Với

với d là số chiều của khơng gian.

1.1.2 Bài tốn phân chia hai classes
Quay lại với bài toán trong Perceptron Learning Algorithm (PLA). Giả sử rằng
có hai class khác nhau được mơ tả bởi các điểm trong không gian nhiều chiều, hai
classes này linearly separable, tức tồn tại một siêu phẳng phân chia chính xác hai
classes đó. Hãy tìm một siêu mặt phẳng phân chia hai classes đó, tức tất cả các
NHẬP MƠN TRÍ TUỆ NHÂN TẠO

TRANG 3

BÁO CÁO ĐỀ TÀI 44

điểm thuộc một class nằm về cùng một phía của siêu mặt phẳng đó và ngược phía
với tồn bộ các điểm thuộc class cịn lại. Chúng ta đã biết rằng, thuật tốn PLA có
thể làm được việc này nhưng nó có thể cho chúng ta vơ số nghiệm như hình dưới
đây:

Các mặt phân cách hai classes linearly separable.

Câu hỏi đặt ra là: trong vô số các mặt phân chia đó, đâu là mặt phân chia tốt
nhất theo một tiêu chuẩn nào đó? Trong ba đường thẳng minh họa trong hình phía
trên, có hai đường thẳng khá lệch về phía class hình trịn đỏ. Điều này có thể khiến
cho lớp màu đỏ khơng vui vì lãnh thổ xem ra bị lấn nhiều quá. Liệu có cách nào để
tìm được đường phân chia mà cả hai classes đều cảm thấy công bằng và hạnh
phúc nhất hay không?
Ta cần tìm một tiêu chuẩn để đo sự hạnh phúc của mỗi class. Xét hình dưới đây:

NHẬP MƠN TRÍ TUỆ NHÂN TẠO

TRANG 4

BÁO CÁO ĐỀ TÀI 44

Margin của hai classes là bằng nhau và lớn nhất có thể.

Nếu ta định nghĩa mức độ hạnh phúc của một class tỉ lệ thuận với khoảng cách
gần nhất từ một điểm của class đó tới đường/mặt phân chia, thì ở hình bên trái,
class trịn đỏ sẽ khơng được hạnh phúc cho lắm vì đường phân chia gần nó hơn
class vng xanh rất nhiều. Ta cần một đường phân chia sao cho khoảng cách từ
điểm gần nhất của mỗi class (các điểm được khoanh tròn) tới đường phân chia là
như nhau, như thế thì mới cơng bằng. Khoảng cách như nhau này được gọi
là margin (lề).
Đã có cơng bằng rồi, chúng ta cần văn minh nữa. Công bằng mà cả hai đều kém
hạnh phúc như nhau thì chưa phải là văn mình cho lắm.
Chúng ta xét tiếp hình bên phải khi khoảng cách từ đường phân chia tới các
điểm gần nhất của mỗi class là như nhau. Xét hai cách phân chia bởi đường nét
liền màu đen và đường nét đứt màu lục, đường nào sẽ làm cho cả hai class hạnh
phúc hơn? Rõ ràng đó phải là đường nét liền màu đen vì nó tạo ra một margin rộng
hơn.
Việc margin rộng hơn sẽ mang lại hiệu ứng phân lớp tốt hơn vì sự phân chia
giữa hai classes là rạch ròi hơn. Việc này, sau này các bạn sẽ thấy, là một điểm
khá quan trọng giúp Support Vector Machine mang lại kết quả phân loại tốt hơn so
với Neural Network với 1 layer, tức Perceptron Learning Algorithm.
Bài tốn tối ưu trong Support Vector Machine (SVM) chính là bài tốn đi tìm
đường phân chia sao cho margin là lớn nhất. Đây cũng là lý do vì sao SVM cịn
được gọi là Maximum Margin Classifier.

NHẬP MƠN TRÍ TUỆ NHÂN TẠO

TRANG 5

BÁO CÁO ĐỀ TÀI 44

1.2 XÂY DỰNG BÀI TOÁN TỐI ƯU CHO SVM
Giả sử rằng các cặp dữ liệu của training set là

với

vector
thể hiện đầu vào của một điểm dữ liệu và
là nhãn của điểm dữ
liệu đó. d là số chiều của dữ liệu và N là số điểm dữ liệu. Giả sử rằng nhãn của mỗi
điểm dữ liệu được xác định bởi
trong PLA.

(class 1) hoặc

(class 2) giống như

Để dễ hình dung, ta xét trường hợp trong khơng gian hai chiều dưới đây. Khơng
gian hai chiều để dễ hình dung, các phép tốn hồn tồn có thể được tổng qt lên
khơng gian nhiều chiều.

Phân tích bài tốn SVM.

Giả sử rằng các điểm vng xanh thuộc class 1, các điểm trịn đỏ thuộc class -1
và mặt
là mặt phân chia giữa hai classes. Hơn nữa, class

1 nằm về phía dương, class -1 nằm về phía âm của mặt phân chia. Nếu ngược lại,
ta chỉ cần đổi dấu của w và b. Chú ý rằng ta cần đi tìm các hệ số w và b.

NHẬP MƠN TRÍ TUỆ NHÂN TẠO

TRANG 6

BÁO CÁO ĐỀ TÀI 44

Ta quan sát thấy một điểm quan trọng sau đây: với cặp dữ liệu
khoảng cách từ điểm đó tới mặt phân chia là:

bất kỳ,

Điều này có thể dễ nhận thấy vì theo giả sử ở trên, yn ln cùng dấu
với phía của xn. Từ đó suy ra yn cùng dấu với
không âm.

, và tử số luôn là 1 số

Với mặt phần chia như trên, margin được tính là khoảng cách gần nhất từ 1
điểm tới mặt đó (bất kể điểm nào trong hai classes):

Bài tốn tối ưu trong SVM chính là bài tốn tìm w và b sao cho margin này đạt
giá trị lớn nhất:

(1)
Việc giải trực tiếp bài toán này sẽ rất phức tạp, nên ta sẽ đưa nó về bài tốn đơn
giản hơn.

Nhận xét quan trọng nhất là nếu ta thay vector hệ số w bởi kw và b bởi kb trong
đó k là một hằng số dương thì mặt phân chia khơng thay đổi, tức khoảng cách từ
từng điểm đến mặt phân chia khơng đổi, tức margin khơng đổi. Dựa trên tính chất
này, ta có thể giả sử:
nhất như hình dưới đây:

NHẬP MƠN TRÍ TUỆ NHÂN TẠO

với những điểm nằm gần mặt phân chia

TRANG 7

BÁO CÁO ĐỀ TÀI 44

Các điểm gần mặt phân cách nhất của hai classes được khoanh tròn.

Như vậy, với mọi n, ta có:
Vậy bài tốn tối ưu (1) có thể đưa về bài tốn tối ưu có ràng buộc sau đây:

(2)
Bằng một biến đổi đơn giản, ta có thể đưa bài toán này về bài toán dưới đây:
(3)
Ở đây, chúng ta đã lấy nghịch đảo hàm mục tiêu, bình phương nó để được một
hàm khả vi, và nhân với

để biểu thức đạo hàm đẹp hơn.

Quan sát quan trọng: Trong bài toán (3), hàm mục tiêu là một norm, nên là
một hàm lồi. Các hàm bất đẳng thức ràng buộc là các hàm tuyến tính theo w và b,

nên chúng cũng là các hàm lồi. Vậy bài toán tối ưu (3) có hàm mục tiêu là lồi, và
các hàm ràng buộc cũng là lồi, nên nó là một bài tốn lồi. Hơn nữa, nó là
một Quadratic Programming. Thậm chí, hàm mục tiêu là strictly
NHẬP MƠN TRÍ TUỆ NHÂN TẠO

TRANG 8

BÁO CÁO ĐỀ TÀI 44

convex vì
và I là ma trận đơn vị - là một ma trận xác định dương. Từ
đây có thể suy ra nghiệm cho SVM là duy nhất.
Đến đây thì bài tốn này có thể giải được bằng các cơng cụ hỗ trợ tìm nghiệm
cho Quadratic Programing, ví dụ CVXOPT.
Tuy nhiên, việc giải bài tốn này trở nên phức tạp khi số chiều d của không gian
dữ liệu và số điểm dữ liệu N tăng lên cao.
Người ta thường giải bài toán đối ngẫu của bài toán này. Thứ nhất, bài tốn đối
ngẫu có những tính chất thú vị hơn khiến nó được giải hiệu quả hơn. Thứ hai, trong
q trình xây dựng bài tốn đối ngẫu, người ta thấy rằng SVM có thể được áp dụng
cho những bài tốn mà dữ liệu khơng linearly separable, tức các đường phân chia
không phải là một mặt phẳng mà có thể là các mặt có hình thù phức tạp hơn.
Xác định class cho một điểm dữ liệu mới: Sau khi tìm được mặt phân cách
, class của bất kỳ một điểm nào sẽ được xác định đơn giản bằng cách:

Trong đó hàm sgn là hàm xác định dấu, nhận giá trị 1 nếu đối số là không âm và -1
nếu ngược lại.

2 GIỚI THIỆU NGƠN NGỮ LẬP TRÌNH PYTHON
Python là một ngơn ngữ lập trình thơng dịch (interpreted), hướng đối tượng

(object-oriented), và là một ngôn ngữ bậc cao (high-level) ngữ nghĩa động
(dynamic semantics). Python hỗ trợ các module và gói (packages), khuyến khích
chương trình module hóa và tái sử dụng mã. Trình thơng dịch Python và thư viện
chuẩn mở rộng có sẵn dưới dạng mã nguồn hoặc dạng nhị phân miễn phí cho tất cả
các nền tảng chính và có thể được phân phối tự do.

Sau đây là các đặc điểm của Python:
NHẬP MƠN TRÍ TUỆ NHÂN TẠO

TRANG 9

BÁO CÁO ĐỀ TÀI 44
•

Ngữ pháp đơn giản, dễ đọc.

•

Vừa hướng thủ tục (procedural-oriented), vừa hướng đối tượng (objectoriented)

•

Hỗ trợ module và hỗ trợ gói (package)

•

Xử lý lỗi bằng ngoại lệ (Exception)

•

Kiểu dữ liệu động ở mức cao.

•

Có các bộ thư viện chuẩn và các module ngoài, đáp ứng tất cả các nhu
cầu lập trình.

•

Có khả năng tương tác với các module khác viết trên C/C+
+ (Hoặc Java cho Jython, hoặc .Net cho IronPython).

•

Có thể nhúng vào ứng dụng như một giao tiếp kịch bản (scripting
interface).

Python dễ dàng kết nối với các thành phần khác:
•

Python có thể kết nối với các đối tượng COM, .NET (Ironpython,
Python for .net), và CORBA, Java… Python cũng được hỗ trợ
bởi Internet Communications Engine (ICE) và nhiều cơng nghệ kết nối
khác.

•

Có thể viết các thư viện trên C/C++ để nhúng vào Python và ngược lại.

Python là ngơn ngữ có khả năng chạy trên nhiều nền tảng.
•

Python có cộng đồng lập trình rất lớn, hệ thống thư viện chuẩn, và cả các
thư viện mã nguồn mở được chia sẻ trên mạng.

•

Python có cho mọi hệ điều hành:
Windows, Linux/Unix, OS/2, Mac, Amiga, và những hệ điều hành khác.
Thậm chí có cả những phiên bản chạy trên .NET, máy ảo Java, và điện

NHẬP MƠN TRÍ TUỆ NHÂN TẠO

TRANG 10

BÁO CÁO ĐỀ TÀI 44

thoại di động (Nokia Series 60). Với cùng một mã nguồn sẽ chạy giống
nhau trên mọi nền tảng.
Python là ngơn ngữ mã nguồn mở
•

Cài đặt Python dùng giấy phép nguồn mở nên được sử dụng và phân tối
tự do, ngay cả trong việc thương mại. Giấy phép Python được quản lý
bởi Python Software Foundation.

3 GIỚI THIỆU BÀI TOÁN PHÂN LOẠI VĂN BẢN
3.1 BÀI TOÁN PHÂN LOẠI VĂN BẢN

Phân loại văn bản (Text Classification) là bài toán thuộc nhóm học có giám sát
(Supervised learning) trong học máy. Bài tốn này u cầu dữ liệu cần có nhãn (label).
Mơ hình sẽ học từ dữ liệu có nhãn đó, sau đó được dùng để dự đốn nhãn cho các dữ liệu
mới mà mơ hình chưa gặp.
Lấy ví dụ, cần xây dựng một mơ hình học máy để dự đốn chủ đề (Kinh tế, Xã hội,
Thể thao,…) của một bài báo bất kỳ. Khi đó, ta cần rất nhiều dữ liệu có gán nhãn; tức là
ta cần rất nhiều bài báo mà mỗi bài báo đó chúng ta phải biết trước nó nằm trong chủ đề
nào rồi.
Tổng quát về cách hoạt động của một bài toán phân loại văn bản:

NHẬP MƠN TRÍ TUỆ NHÂN TẠO

TRANG 11

BÁO CÁO ĐỀ TÀI 44

Mơ hình phân loại văn bản tiếng Việt tự động với Machine learning

Giai đoạn (a): Huấn luyện (training) là giai đoạn học tập của mơ hình phân loại văn
bản. Ở bước này, mơ hình sẽ học từ dữ liệu có nhãn (trong ảnh trên nhãn là Possitive,
Negative, Neutral). Dữ liệu văn bản sẽ được số hóa thơng qua bộ trích xuất đặc
trưng (feature extractor) để mỗi mẫu dữ liệu trong tập huấn luyện trở thành 1 vector nhiều
chiều (đặc trưng). Thuật toán máy học sẽ học và tối ưu các tham số để đạt được kết quả
tốt trên tập dữ liệu này. Nhãn của dữ liệu được dùng để đánh giá việc mơ hình học tốt
khơng và dựa vào đó để tối ưu.
Giai đoạn (b): Dự đốn (prediction), là giai đoạn sử dụng mơ hình học máy sau khi
nó đã học xong. Ở giai đoạn này, dữ liệu cần dự đoán cũng vẫn thực hiện các bước trích
xuất đặc trưng. Mơ hình đã học sau đó nhận đầu vào là đặc trưng đó và đưa ra kết quả dự
đốn.

Bài tốn: Xây dựng mơ hình phân loại văn bản tin tức tiếng Việt cho trang báo điện tử
X. Mỗi khi một bài báo được đăng, chương trình cần phải tự động xác định được bài báo
đó nằm trong danh mục nào. Các danh mục gồm có: Kinh tế, Thể thao, Giáo dục, Sức
khỏe, Du lịch, Pháp luật,…
NHẬP MƠN TRÍ TUỆ NHÂN TẠO

TRANG 12

BÁO CÁO ĐỀ TÀI 44

3.2 ĐẶC TẢ DỮ LIỆU
Dữ liệu đầu vào được lấy từ các bài báo tiếng Việt kèm theo chủ đề của bài báo đó.
Dữ liệu đã tiền xử lý có dạng: mỗi bài báo là một dịng, từ đầu tiên là nhãn (chủ đề)
của dịng đó.
Ví dụ:
__label__thể_thao sanchez không dự trận khai màn nh anh cùng arsenal
__label__âm_nhạc những sao việt hóa thân thành phó nháy trong mv
__label__nhịp_sống vợ phải quỳ gối mới được nói chuyện
__label__thể_thao hà nội chốt danh sách dự afc cup thể thao

3.3 DEMO SẢN PHẨM
Chương trình gồm 5 block:

Dữ liệu đầu vào file news_categories.txt:

Block 1: Tiền xử lý dữ liệu bằng hàm text_preprocess() gồm các chức năng:
•
•
•

Xóa HTML code (nếu có)
Chuẩn hóa bảng mã Unicode (đưa về Unicode tổ hợp dựng sẵn)
Chuẩn hóa kiểu gõ dấu tiếng Việt (dùng òa úy thay cho ồ )

NHẬP MƠN TRÍ TUỆ NHÂN TẠO

TRANG 13

BÁO CÁO ĐỀ TÀI 44

Thực hiện tách từ tiếng Việt (sử dụng thư viện tách từ underthesea)
Đưa về văn bản lower (viết thường)
Xóa các ký tự đặc biệt: “.”, “,”, “;”, “)”, …
 Dữ liệu được đưa về dạng chuẩn
•
•
•

Block 2: Khử nhiễu (stopword):

NHẬP MƠN TRÍ TUỆ NHÂN TẠO

TRANG 14

BÁO CÁO ĐỀ TÀI 44

Stopword là các từ xuất hiện nhiều ở tất cả các chuyên mục cần phân loại. Do đó,

chúng là các đặc trưng khơng có tác dùng cho việc phân loại văn bản.
• Các stopword thường là các từ nối (của, là, có, được, những,…) và các từ đặc
trưng của dữ liệu (ví dụ như các từ “máy bay, tiếp viên” là các stopword nếu làm
bài phân loại đánh giá khách hàng của doanh nghiệp vận tải hàng khơng.
•

Bộ stopword.txt được xây dựng từ news_categories.txt. Trong chương trình này
stopword.txt lấy top 100 từ xuất hiện nhiều nhất trong dữ liệu đầu vào, sau đó khử nhiễu,
lưu lại trong news_categories.prep.
Block 3: Tạo train và test:

Trước khi huấn luyện mơ hình phân loại văn bản, ta cần xây dựng tập huấn luyện và
tập kiểm thử. Việc này là cần thiết để đánh giá kết quả huấn luyện, lựa chọn mơ hình
cũng như tinh chỉnh để mơ hình cho tốt hơn. Block này gồm những chức năng sau:
1. Đọc dữ liệu từ file và tách làm 2 list text (dữ liệu) và label (nhãn). Dữ liệu

text[i] sẽ có nhãn là label[i].
2. Chia làm 2 tập train (X_train, y_train) và test (X_test, y_test) theo tỉ lệ 80%
train, 20% test.
3. Lưu train/test data ra file để sử dụng cho việc train với thư viện Fasttext.
4. Đưa label về dạng vector để tiện cho tính tốn sử dụng LabelEncoder.
Block 4: Tạo models huấn luyện sử dụng thuật tốn SVM:

NHẬP MƠN TRÍ TUỆ NHÂN TẠO

TRANG 15

BÁO CÁO ĐỀ TÀI 44

Qua huấn luyện, thu được độ chính xác của chương trình dựa trên dataset đầu vào là
88% và huấn luyện mất gần 2000 giây, khoảng 30 phút.
Block 5: Test kiểm thử:

Demo 5 input:

NHẬP MƠN TRÍ TUỆ NHÂN TẠO

TRANG 16

BÁO CÁO ĐỀ TÀI 44

Input1

Input 2

NHẬP MƠN TRÍ TUỆ NHÂN TẠO

TRANG 17

BÁO CÁO ĐỀ TÀI 44

Input 3

Input 4

NHẬP MƠN TRÍ TUỆ NHÂN TẠO

TRANG 18

BÁO CÁO ĐỀ TÀI 44

Input 5

NHẬP MƠN TRÍ TUỆ NHÂN TẠO

TRANG 19

BÁO CÁO NHẬP MÔN TRÍ TUỆ NHÂN TẠO

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về