Tải bản đầy đủ (.pdf) (19 trang)

Nghiên cứu kỹ thuật gán nhãn cho dữ liệu dạng chuỗi và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (334.37 KB, 19 trang )




BỘ GIÁO DỤC VÀ ĐÀO TẠO TẬP ĐOÀN BƯU CHÍNH VIỄN THÔNG VIỆT NAM

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG



BÙI ĐỨC TRUNG


NGHIÊN CỨU KỸ THUẬT GÁN NHÃN CHO DỮ LIỆU
DẠNG CHUỖI VÀ ỨNG DỤNG


CHUYÊN NGÀNH :
TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH

MÃ SỐ: 60.48.15



TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT



HÀ NỘI – 2010










































Luận văn được hoàn thành tại:
Học viện Công nghệ Bưu chính Viễn thông
Tập đoàn Bưu chính Viễn thông Việt Nam

Người hướng dẫn khoa học:
PGS.TS. TỪ MINH PHƯƠNG

Phản biện 1: ……………………………………………………
……………………………………………………

Phản biện 2: ……………………………………………………
……………………………………………………

Luận văn sẽ được bảo vệ trước hội đồng chấm luận văn tại Học viện Công nghệ
Bưu chính Viễn thông
Vào lúc: giờ ngày tháng năm

Có thể tìm hiểu luận văn tại:
- Thư viện Học viện Công nghệ Bưu chính Viễn thông

1

LỜI MỞ ĐẦU


Dữ liệu dạng chuỗi là một tập các phần tử được sắp thứ tự s:= a
1
, a
2
, a
n
.
Trong đó mỗi phần tử a
i
có thể là kiểu số hoặc có thể nhận giá trị rời rạc. Độ dài n
của chuỗi là không cố định, chuỗi được sắp theo thứ tự thời gian hoặc vị trí và có
thể sắp đều hoặc không.
Bài toán gán nhãn cho dữ liệu dạng chuỗi là một phần quan trọng của vấn đề
phân loại giám sát, khi mà các nhãn cho một bộ các biến mục tiêu sẽ được dự đoán
đồng thời với nhãn các biến khác trong chuỗi.
Có nhiều bài toán trong thực tế được giải quyết dựa trên vấn đề gán nhãn
cho dữ liệu dạng chuỗi. Gán nhãn cho dữ liệu dạng chuỗi có vai trò cốt lõi, quan
trọng trong ba bài toán cơ bản sau: thông tin, nhận dạng giọng nói, ngôn ngữ và
chữ viết. Các ứng dụng cổ điển của bài toán gán nhãn cho dữ liệu dạng chuỗi là về
giọng nói với chuỗi các âm vị, ngôn ngữ với chuỗi các từ và khoảng trắng và chữ
viết tay với chuỗi các nét chữ. Ngoài ra, hiện nay một số ứng dụng mới của
phương pháp này như Tin sinh học với các bài toán về dự đoán gen, các ứng dụng
trong viễn thông về cảnh báo lỗi, gán nhãn cho các gói dữ liệu …
Mô hình Markov ẩn đã thành công với bài toán gán nhãn cho dữ liệu dạng
chuỗi này trong nhiều năm. Gần đây, một số mô hình có điều kiện như Maximum
Entropy Markov Model (MEMM) và Conditional Random Field (CRF) được sử
dụng nhiều bởi khả năng cho phép các tính năng chồng chéo. Đặc biệt là CRF
được coi như là một phương pháp rất triển vọng đối với bài toán gán nhãn cho
chuỗi.

Bưu điện tỉnh Lạng Sơn là một doanh nghiệp kinh doanh các dịch vụ Bưu
chính, viễn thông trên địa bàn tỉnh Lạng Sơn, các dữ liệu dạng chuỗi ngày càng
2

xuất hiện nhiều trong quá trình sản xuất kinh doanh tại đơn vị và cho thấy có thể có
nhiều ứng dụng. Vì lý do đó, tôi chọn đề tài: “Nghiên cứu kỹ thuật gán nhãn cho
dữ liệu dạng chuỗi và ứng dụng”
Mục đích nghiên cứu: Nghiên cứu các dạng dữ liệu dạng chuỗi, các kỹ
thuật gán nhãn cho dữ liệu dạng chuỗi và các ứng dụng trong các bài toán có cấu
trúc trong thực tế.
Với mục tiêu cụ thể như sau:
- Nghiên cứu bài toán gán nhãn cho dữ liệu dạng chuỗi.
- Nghiên cứu một sỗ kỹ thuật gán nhãn cho dữ liệu dạng chuỗi cụ thể là
máy vecto hỗ trợ (Support Vector Machines –SVM)
s
, Mô hình Markov ẩn (Hidden
Markov Model – HMM), Mạng Markov với lề cực đại (Max Margin Markov
Network -M3N) và Trường ngẫu nhiêu điều kiện (Conditional Random Field –
CRF).
- Minh hoạ các kỹ thuật trên bằng hai bài toán thường gặp.
Đối tượng và phạm vi nghiên cứu:
Luận văn tập trung vào nghiên cứu các dữ liệu dạng chuỗi có cấu trúc, các
kỹ thuật gán nhãn cho dữ liệu dạng chuỗi, đây là một lĩnh vực giành được nhiều sự
chú ý trong Machine Learning và lĩnh vực mới thu hút sự quan tâm của nhiều đối
tượng. Kỹ thuật gán nhãn cho dữ liệu dạng và ứng dụng cụ thể của kỹ thuật này.
Phương pháp nghiên cứu:
Nghiên cứu lý thuyết trong các kỹ thuật gán nhãn cho dữ liệu dạng chuỗi,
nghiên cứu cụ thể kỹ thuật SVM, HMM, M3N và CRF. Nghiên cứu bài toán “Gán
nhãn từ loại” và bài toán “Nhận dạng ký tự viết tay” cùng với các ứng dụng trong
thực tế từ đó có hướng giải quyết cụ thể.

3

Luận văn này được trình bày trong ba chương:
Chương 1: Tổng quan
Chương 1 giới thiệu chung về dữ liệu dạng chuỗi, bài toán gán nhãn cho dữ liệu
dạng chuỗi và các ứng dụng trong trí tuệ nhân tạo hiện nay. Chương này cũng đề cập
đến các công nghệ đã và đang được ứng dụng bài toán gán nhãn cho dữ liệu dạng
chuỗi.
Chương 2: Một số mô hình giải bài toán gán nhãn cho dữ liệu dạng
chuỗi
Chương này sẽ giới thiệu một số mô hình để giải bài toán gán nhãn cho dữ
liệu dạng chuỗi. Trong chương này ta sẽ xem xét các phương pháp được ứng dụng
nhiều hiện nay là SVM, HMM, M3N và CRF. Ta cũng xem xét cụ thể cách mô
hình bài toán gán nhãn cho dữ liệu dạng chuỗi đối với các phương pháp này.
Chương 3: Thiết kế thử nghiệm và phân tích
Trong phần này ta sẽ áp dụng các thuật toán đã đề cập trong các phần trước
để mô hình hai bài toán học có cấu trúc đã được biết rộng rãi là: gán nhãn từ loại
(Part-of-speech (POS) tagging) và nhận dạng ký tự viết tay (handwritten character
recognition - OCR).






4


Chương 1
TỔNG QUAN

1.1 DỮ LIỆU DẠNG CHUỖI
Dữ liệu dạng chuỗi là một tập các phần tử được sắp thứ tự s:= a
1
, a
2
, a
n
.
Trong đó mỗi phần tử a
i
có thể là kiểu số hoặc có thể nhận giá trị rời rạc. Độ dài n
của chuỗi là không cố định, chuỗi được sắp theo thứ tự thời gian hoặc vị trí và có
thể sắp đều hoặc không.
Ngày nay, dữ liệu dạng chuỗi được ứng dụng thực tế trong nhiều ngành và
có vai trò quan trọng trong các bài toán phân loại hay nhận dạng.
1.2 BÀI TOÁN GÁN NHÃN CHO DỮ LIỆU DẠNG CHUỖI
Gán nhãn cho chuỗi là xác định nhãn phân loại cho từng thành phần trong
chuỗi quan sát được. Để xác định nhãn cho các thành phần của một chuỗi, ta có thể
xác định nhãn cho từng thành phần độc lập với các thành phần khác. Khi đó, bài
toán có thể coi như là một tập các nhiệm phụ phân lớp độc lập đối với các thành
phần của chuỗi. Tuy nhiên, có thể nhận thấy nhãn phân loại của mỗi thành phần lại
phụ thuộc vào nhãn các thành phần xung quanh. Vì vậy, việc gán nhãn cho chuỗi
cần được thực hiện theo phương pháp cho phép tính tới sự phụ thuộc giữa các nhãn
trong chuỗi với nhau. Từ đây dẫn tới nhu cầu phát triển và sử dụng kỹ thuật phân
loại đặc thù cho dữ liệu có dạng chuỗi.
Trong bài toán gán nhãn cho dữ liệu dạng chuỗi, đầu ra là chuỗi của các
nhãn y = (y
1
, y
2

, …, y
T
) tương ứng với một chuỗi quan sát x = (x
1
, x
2
, …, x
T
). Nếu
mỗi nhãn có thể nhận giá trị từ tập ∑ thì đầu ra có thể coi như là một vấn đề phân
loại đa lớp với |∑|
T
các lớp khác nhau. Bài toán có thể được đưa ra như sau:
Bài toán: Cho trước
5

Đầu vào: x = (x
1
, x
2
, …, x
T
)
Và các nhãn tương ứng: y = (y
1
, y
2
, …, y
T
)

Khi đó, với mỗi x, hãy tiên đoán y.
Gán nhãn cho dữ liệu dạng chuỗi được sử dụng nhiều trong các bài toán gán
nhãn từ loại, nhận dạng hình ảnh, âm thanh hay các bài toán về dự đoán gen. Mô
hình Markov ẩn đã thành công trong một thời gian dài với bài toán gán nhãn cho
dữ liệu dạng chuỗi. Gần đây, một số mô hình có điều kiện như Maximum Entropy
Markov Model (MEMM) và Conditional Random Field (CRF) được sử dụng nhiều
bởi khả năng cho phép các tính năng chồng chéoTrong đó CRF là phương pháp
được chú ý nhiều nhất.
Sự quan tâm dành cho bộ môn Trí tuệ nhân tạo cũng như bài toán gán nhãn
cho dữ liệu dạng chuỗi trong những năm gần đây là rất đáng kể. Nhiều công trình
nghiên cứu trong và ngoài nước đã và đang sử dụng gán nhãn cho dữ liệu dạng
chuỗi và có những ứng dụng nhất định. Trong những năm gần đây, việc giải bài
toán gán nhãn cho dữ liệu dạng chuỗi với dữ liệu có cấu trúc thu hút được nhiều sự
chú ý trong các vấn đề về xử lý ngôn ngữ tự nhiên. Mục đích của bài toán học có
cấu trúc là dự đoán được các cấu trúc phức tạp như chuỗi, cây hay đồ thị.










6


Chương 2
MỘT SỐ MÔ HÌNH GIẢI BÀI TOÁN GÁN NHÃN CHO DỮ

LIỆU DẠNG CHUỖI

Chương này giới thiệu một số mô hình để giải bài toán gán nhãn cho dữ liệu
dạng chuỗi. Trong chương này ta sẽ xem xét các phương pháp được ứng dụng
nhiều hiện nay là SW, SVM, HMM, M3N và CRF. Ta cũng xem xét cụ thể cách mô
hình bài toán gán nhãn cho dữ liệu dạng chuỗi đối với các phương pháp này.
2.1 MÔ HÌNH CỬA SỔ TRƯỢT (SW)
Đối với bài toán gán nhãn cho dữ liệu dạng chuỗi nêu trên, có một số mô
hình thích hợp dùng để giải như Mô hình Markov ẩn (Hidden Markov Model –
HMM), mô hình máy vector hỗ trợ (Support Vector Machine – SVM), mô hình
Cửa sổ trượt (Sliding Window) hay mô hình Các trường điều kiện ngẫu nhiên
(Conditional Random Fields – CRFs). Trong đó có thể nói mô hình cửa sổ trượt là
một mô hình đơn giản nhất.
Mô hình cửa sổ trượt chuyển vấn đề học có giám sát một chuỗi thành mô
hình học có giám sát kinh điển. Phương pháp này xây dựng một bộ phân loại cửa
sổ h
w
mà sắp xếp một cửa sổ đầu vào w với một giá trị đầu ra y riêng. Cụ thể, lấy d
= (w-1)/2 là một nửa độ dài của cửa sổ. Khi đo cửa sổ h
w
sẽ dự đoán phần tử y
i,t
sử
dụng cửa sổ <x
i,t-d
, x
i,t-d+1
, …, x
i,t
, …, x

i,t+d-1
, x
i,t+d
>. Kết quả là với mỗi chuỗi đầu
vào x
i
được thêm vào một giá trị d null ở cuối và sau đó được chuyển thành N
i
mẫu
riêng biệt.
7

Phương pháp cửa sổ trượt cho kết quả tương đối tốt trong một số ứng dụng.
tuy nhiên phương pháp này không cho phép tính đến sự phụ thuộc giữa giá trị của
y
t
với các giá trị y khác gần đó.
Một cách để cải tiến mô hình cửa sổ trượt đã nêu ở trên là làm cho nó hồi
quy. Trong mô hình cửa sổ trượt hồi quy, các giá trị được dự đoán 
,
được cung
cấp như là đầu vào để hỗ trợ trong việc dự đoán giá trị y
i,t+1
. Cụ thể, với một cửa sổ
của nửa độ dài d, hầu hết các dự đoán d gần đây 
,
,
,
,…,
,

được sử
dụng như là các đầu vào (cùng với cửa sổ trượt <x
i,t-d
, x
i,t-d+1
, …, x
i,t
, …, x
i,t+d-1
,
x
i,t+d
>) để dự đoán y
y,t
.
2.2 PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ (SVM)
Lấy =
{(
̅

,

)
,…,
(
̅

,

)}

là một tập gồm m mẫu huấn luyện. Giả sử
rằng mỗi mẫu ̅

là được đưa vào từ miền  ⊆ 

và mỗi nhãn 

là một giá trị
nguyên từ tập =
{
1,…,
}
. Một bộ phân loại đa lớp là một hàm : → mà
ánh xạ một ̅ tới một phần tử y trong . Trong phần này ta tập trung vào nền tảng
mà sử dụng bộ phân loại được cho bởi


(
̅
)
= arg


{



.̅
}


Để xây dựng được bộ dự đoán, ta thay thế lỗi phân loại sai của một mẫu
([

(
̅
)
≠]) bằng các phần biên tuyến tính sau đây
max




.̅+ 1 − 
,
− 


.̅
Phương pháp SVM có thể sử dụng cho bài toán gán nhãn cho dữ liệu dạng
chuỗi. Thay vì sử dụng chuỗi cặp (x,y) làm các mẫu huấn luyện, SVM sử dụng mỗi
cặp dấu hiệu nhãn (x, y) trong chuỗi làm mẫu huấn luyện. Với ánh xạ đặc trưng

(
,
)
= 



… 

|
Σ
|


ở đây 

= (= ), SVM học vector trọng số w và
biến lỏng ξ cho vấn đề tối ưu bậc hai sau đây
8

min
,

1
2




+







Với điều kiện ∀,∀∈ \


:

,
(
(

,

)
−(

,))

≥1 − 


SVM sử dụng phưong pháp lát cắt để xử lý vấn đề tối ưu này lặp đi lặp lại
việc thêm hầu hết các hạn chế vi phạm vào tập hợp các hạn chế được tối ưu cho
công thức kép. Sau đó ta được w đã học và ξ, sự phân loại của mẫu x mới được
thực hiện bởi 
(

)
= arg
∈

,
(
,
)


với sự tìm kiếm đầy đủ của nhãn y.
Phương pháp này bao gồm một tham số điều chỉnh C là sự thoả hiệp giữa lỗi
huấn luyện và biên
2.3 MÔ HÌNH MARKOV ẨN (HMM)
Ta đã biết mô hình Markov là mô hình mà mỗi trạng thái tương ứng với một
sự kiện có thể quan sát được. Tuy nhiên các mô hình như vậy có ứng dụng rất hạn
chế trong các bài toán thực tế. Do đó, mô hình được mở rộng bao gồm cả những
trường hợp thống kê chồng kép với một quá trình thống kê mà bên trong không
quan sát được (ẩn sâu bên trong), chỉ có thể quan sát được thông qua một tập các
quá trình thống kê khác, các quá trình mà tạo ra dãy quan sát được. Mô hình như
vậy được gọi là mô hình Markov ẩn (HMM).
Một mô hình Markov ẩn học một mô hình có khả năng sinh qua các cặp đầu
vào, mỗi cặp gồm một chuỗi của các quan sát và chuỗi của các nhãn. Mô hình
Markov ẩn đã có được nhiều thành công trước đây, các mô hình Markov ẩn khó
mô hình các đa đặc trưng không độc lập. Đúng ra thì, cho trước một chuỗi quan
sát, ta có thể tìm được tuyến trạng thái có khả năng nhất cho chuỗi quan sát bằng
thuật toán Viterbi.
9

max


,

,…

P(q

q


…q

|o

o

…o

)
Ở đây Q =q

,q

,…,q

là chuỗi trạng thái với độ dài T, và O =
o

,o

,…,o

là chuỗi các quan sát tương ứng.
Ma trận chuyển trạng thái được tính như sau:
a

= Pq

|q


=
Countq

,q


Count
(
q

)

Ở đây Countq

,q

 là số các lần qj xuất hiện theo qi.
Thứ hai, phân bố xác suất khởi tạo được tính như sau:
π

= P
(
q

)
=
Count
(
q


)
n

Với n là số các chuỗi huấn luyện.
Đối với các quan sát rời rạc như trường hợp gán nhãn từ loại, ma trận quan
sát được tính toán như sau:
b

(
k
)
= Po

|q

=
Counto

,q

+ α
Countq

+
|

|
α


ở đây Counto

,q

 là số các lần ok được gán nhãn qj, và α là thông số làm
mịn. Thông số điều chỉnh cho trường hợp rời rạc là α.
Đối với các trường hợp khi các quan sát là các vector như bài toán nhận
dạng ký tự viết tay, ta sử dụng mô hình Markov ẩn với mật độ liên tục Gaussian để
mô hình xác suất từ trạng thái,
b

(
k
)
= Po

,q

= (μ



)
10

Ở đây 

và 

là giá trị trung bình và ma trận hiệp phương sai (covariance)

của các quan sát được phát ra trên trạng thái qj.
2.4 MẠNG MARKOV VỚI BỀ MẶT PHÂN CÁCH CỰC ĐẠI (M3N)
Mạng Markov với bề mặt phân cách cực đại (M3N) kết hợp chặt chẽ các lõi
mà có hiệu quả tốt với các đặc trưng có không gian lớn, và khả năng lưu giữ các sự
tương quan trong dữ liệu có cấu trúc. Ta cũng tham khảo một thuật toán có hiệu
quả để học mạng M3 dựa trên sự trình bày chương trình bày bậc hai. Ta cũng cung
cấp một lý thuyết bao mới cho sự tổng quát hoá trong các miền có cấu trúc.
Hướng tiếp cận này định nghĩa một mạng Markov tuyến tính logarit trên tập
các biến nhãn; mạng này cho phép mô tả sự tương quan giữa các biến nhãn này.
Sau đó ta định nghĩa một vấn đề tối ưu dựa trên bề mặt phân cách đối với các
thông số của mô hình này. Để mạng Markov có thể tạo thành hình tam giác dễ sử
lý, kết quả thu được từ bài toán quy hoạch bậc hai (Quadratic program – QP) là
tương đương với một công thức với kích thước đa thức mà cho phép một giải pháp
có nhiều hiệu quả.
Trong mô hình này, một cặp mạng Markov đựoc định nghĩa dưới dạng đồ
thị G= (Y,E). Mỗi cạnh (,) ∈ được kết hợp với một hàm tiềm năng

,
,

,

= exp





,


,

= exp 




,

,


ở đây 
,
,

,

 là cặp hàm cơ bản. Tất cả các cạnh trong đồ thị biểu thị
cùng loại tương tác, do đó ta có thể định nghĩa một ánh xạ


(
,
)
=  

,

,



(,)∈

Mạng mã hoá một phân bố xác suất có điều kiện chung
11

(
(

|

)
∝ 
,
,

,


,∈
= exp(


(
,
)
)
Vector trọng số w được chọn để làm cực đại bề mặt phân cách, thu được tất
cả các ưu điểm của nền tảng SVM. Chương trình bậc hai cơ bản đối với M3N sử

dụng công thức giống như trong công thức (2.4.6). Tuy nhiên M3N cũng cung cấp
một cách thông số hoá các biến đôi để có được các ưu điểm của cấu trúc mạng của
vấn đề gán nhãn cho dữ liệu dạng chuỗi.
2.5 MÔ HÌNH CÁC TRƯỜNG ĐIỀU KIỆN NGẪU NHIÊN (CRF)
CRF đưa ra một định nghĩa tốt về sự phân bổ xác suất dựa trên khả năng gán
nhãn, được huấn luyện bởi khả năng lớn nhất hay sự ước lượng MAP. CRF cũng
dễ dàng tổng quát hoá để tương tự với ngữ pháp phi ngữ cảnh ngẫu nhiên mà có
thể có ích trong một số vấn đề như dự đoán cấu trúc ARN bậc hai và xử lý ngôn
ngữ tự nhiên.
Định nghĩa. Lấy G = (V,E) là một đồ thị với Y = (

)
∈
, Y là tập các chỉ
mục các đỉnh của G. Với (X,Y) là một trường điều kiện ngẫu nhiên trong trường
hợp này, khi điều kiện được đặt trên X, các biến ngẫu nhiên Y
v
tuân theo thuộc tính
Markov đối với đồ thị: p(Y
v
|X, Y
w
, w≠v) = p(Y
v
|X, Y
w
, w ~ v), ở đây w ~ v nghĩa là
w và v là hàng xóm trong G.
Do đó, CRF là một trường ngẫu nhiên hoàn toàn có điều kiện trên quan sát
X.

Vấn đề ước lượng thông số là xác định thông số θ = (λ



,…; μ



,…) từ
dữ liệu huấn luyện = {x
(

)
,y
(

)
}


với phân phối kinh nghiệm p(x,y). Trong
phần sau ta sẽ đề cập đến thuật toán xác định tỉ lệ nhắc lại mà nó làm cực đại khả
năng theo hàm log (log-likehood) hàm mục tiêu (θ):

(

)
=

log





(

)
,
(

)
∝


(
,
)
log
,
(y|x)
12

Các đặc trưng là thành phần rất quan trọng trong thành công của các hệ
thống dựa trên CRF do các đặc trưng lọc những thông tin quan trọng nhất của dữ
liệu quan sát và mối quan hệ giữa dữ liệu đầu vào với đầu ra.
Vấn đề lựa chọn đặc trưng được biết đến một cách rộng rãi trong học máy
đối với các không gian đầu ra không có cấu trúc. Nói rộng ra, có ba hướng tiếp cận
đối với vấn đề này. Tiếp cận theo hướng lọc sử dụng một số thuật toán heuristic
nhanh và đơn giản để chọn các đặc trưng theo một vài tiêu chuẩn độc lập. Tiếp cận
theo hướng bao đánh giá rộng rãi các đặc trưng kết hợp theo biện pháp thực hiện

cuối cùng. Và cuối cùng là tiếp cận theo hướng nhúng xây dựng từng bước tập đặc
trưng như việc tiến hành học.
Conditional Random Field là một sự tiến bộ đáng kể trong thời gian gần đây
đối với vấn đề học máy khi có sự kết hợp tốt giữa mô hình đồ thị và học máy. Điều
này đã được chứng minh qua rất nhiều công việc thực tế trong đời sống mà nó
thường đạt được các kết quả có tính cạnh tranh cao và có thể được coi như là một
phương thức tốt nhất để gán nhãn cho dữ liệu dạng chuỗi. Trong chương 3 ta sẽ mô
hình một ứng dụng sử dụng CRF để gán nhãn cho dữ liệu dạng chuỗi.









13


Chương 3
THIẾT KẾ THỬ NGHIỆM VÀ PHÂN TÍCH
Dữ liệu gán nhãn từ loại được lấy từ
chia thành 5 tập huấn luyện riêng
biệt với kích thước khác nhau: 500, 1000, 2000, 4000, và 8000 câu. Đối với mỗi
kích thước huấn luyện, ta loại bỏ 10% các chuỗi là dữ liệu xác thực. Các đặc trưng
đầu vào cho mỗi dấu hiệu (trong POS là một từ) thay đổi theo vị trí của nó trong
câu.
Trong bài toán nhận dạng ký tự viết tay, tập dữ liệu cũng được lấy từ
chứa khoảng 6.000 chữ viết tay, với

độ dài xấp xỉ 8 ký tự, từ 150 người khác nhau, dữ liệu này được thu thập bởi
Kassel. Tập dữ liệu này được chia thành 10 phần, mỗi phần xấp xỉ 600 dữ liệu
huấn luyện, 100 dữ liệu xác thực và xấp xỉ 5.400 mẫu kiểm tra. Các đặc trưng đầu
vào cho mỗi tín hiệu là một vector miêu tả bằng một hình ảnh nhị phân 16 x 8 của
chữ cái.
Để đánh giá hiệu suất của tất cả các mô hình, ta sử dụng lỗi trung bình
(AverageLoss) trên chuỗi:
=
1


1


(
(


)


(


)









ở đây  và  lần lượt là chuỗi được dự đoán và chuỗi thực tế; N là tổng số
các mẫu kiểm tra; L
i
là độ dài của chuỗi thứ i; và I là hàm tổn thất 0-1.
Tương tự, tín hiệu tổn thất (phần tín hiệu bị phân loại sai) cũng là giá trị đo
lường hiệu suất. Tuỳ thuộc vào không gian hạn chế mà ta thoả luận các kết quả cho
14

tổn thất trung bình chuỗi khi nó đặt các trọng số thống nhất trên mỗi chuỗi hơn là
tín hiệu riêng lẻ.
Ta sẽ đề cập đến các hàm đặc trưng liên hệ với một mẫu huấn luyện (x,y),
với =
{


}


và =
{


}


. Ta cũng thêm vào hai trạng thái biên giả, y
0

= s
(trạng thái bắt đầu) và y
T+1
= e

(trạng thái kết thúc). Tại thời điểm t một nhóm các
hàm đặc trưng 

được thiết lập.
Đối với bài toán gán nhãn từ loại, tập quan sát là các câu, đoạn văn trong văn
bản được sắp xếp theo một kiểu nhất định. Trong đó, mỗi từ và dấu nằm trên một
dòng. Tập các nhãn là các nhãn như trong Penn Treebank
Trong bảng 3.2.2, mỗi lỗi trung bình của các mô hình riêng biệt trên dữ liệu
kiểm tra đạt được bằng cách sử dụng sự thiết lập thông số với lỗi xác thực là tốt nhất.
Trong tất các mô hình trên, ta có thể thấy được mô hình CRF được coi như một
phương thức cho ta một kết quả tốt nhất trong bài toán này. Lý do có thể là các đặc
trưng đầu vào cho mỗi từ có chứa đựng nhiều thông tin của nó và các từ hàng xóm
của nó, với tập dữ liệu càng lớn thì CRF đạt độ chính xác càng cao. Các mô hình
SVM và M3N cũng đạt được kết quả khá tốt, gần với kết quả của CRF.
Kích thước tập
huấn luyện
500 1.000 2.000 4.000 8.000
SVM

8,76 6,93 5,77 5,32 5,13
M3N 10,19 7,26 6,34 5,54 5,01
CRF 12,25 7,11 6,28 5,03 4,62
HMM 23,46 19,95 17,96 17,58 15,87
Bảng 3.2.2 Lỗi trung bình của các mô hình đối với bài toán gán nhãn từ loại
với các kích thước tập dữ liệu khác nhau (tính theo %)

Với phạm vi của bài toán nhận dạng ký tự viết tay, ta chỉ xét dữ liệu là các
chuỗi toạ độ không gắn với nhãn thời gian và được xử lý với tốc độ đồng nhất.
15

Trong bài toán nhận dạng ký tự viết tay, công đoạn tiền xử lý bao gồm các chức
năng lọc nhiễu và chuẩn hoá hình ảnh đầu vào.
Với đầu vào là các chuỗi quan sát, ta có một số phương pháp trích chọn đặc
trưng đơn giản và có hiệu quả, có thể áp dụng cho các tập dữ liệu chữ viết tay rời
rạc như: Trọng số vùng; Bản đồ chiếu và trích chọn chu tuyến.
Ta có thể thấy được một sự ngạc nhiên trong biểu đồ này là, khác với bài
toán gán nhãn từ loại, mô hình Markov ẩn có hiệu suất trung bình tương đối tốt. Do
đó, tuỳ thuộc vào nhiệm vụ của bài toán đặt ra, các mô hình sinh như mô hình
Markov ẩn có thể có kết quả tương đối tốt so với các mô hình khác. Cũng giống
như trong bài toán gán nhãn từ loại, mô hình CRF cho một kết quả rất tốt khi áp
dụng trong bài toán nhận dạng ký tự viết tay này. Điều này được thể hiện trong
hình 3.3.1

Hình 3.3.1 Lỗi trung bình của các mô hình đối với bài toán nhận dạng ký tự
viết tay
Trong chương này ta đã nghiên cứu ứng dụng của các mô hình giải bài toán
dữ liệu dạng chuỗi vào hai bài toán học có cấu trúc nổi tiếng cụ thể là bài toán gán
nhãn từ loại và bài toán nhận dạng ký tự viết tay. Đối với bài toán nhận dạng ký tự
viết tay, ta thấy mô hình Markov ẩn có được hiệu tương đối tốt, qua đó ta có thể
cho rằng tuỳ thuộc vào bài toán, ta có thể áp dụng các mô hình một cách linh hoạt
0.2584
0.2350
0.2508
0.2370
0.2200
0.2250

0.2300
0.2350
0.2400
0.2450
0.2500
0.2550
0.2600
0.2650
SVM
-
Multiclas
CRF
M3N
HMM
Do ton that trung binh
16

để đạt được kết quả tốt nhất. Ta cũng thấy CRF đã cho hiệu quả tốt nhất trong việc
giải bài toán gán nhãn từ loại cũng như bài toán nhận dạng ký tự viết tay. Bên cạnh
đó, các phương pháp SVM và M3N cũng thực hiện tương đối tốt công việc này.




















17

KẾT LUẬN
Gán nhãn cho dữ liệu dạng chuỗi là một chủ đề rộng lớn. Luận văn này đã
mô tả và so sánh một số mô hình khác nhau trong việc gán nhãn cho dữ liệu dạng
chuỗi là SW, SVM, HMM, M3N và CRF. Luận văn cũng thử nghiệm các mô hình
đó với hai bài toán phổ biến trong vấn đề gán nhãn cho dữ liệu dạng chuỗi đó là
“Gán nhãn từ loại” và “Nhận dạn ký tự viết tay”. Qua các bài toán thực tế cho thấy,
mô hình CRF cho kết quả tốt nhất trong các mô hình trên đối với các bài toán gán
nhãn cho dữ liệu dạng chuỗi. Luận văn đã tập trung nghiên cứu và đưa ra các kết
quả sau:
 Trình bày tổng quan bài toán gán nhãn cho dữ liệu dạng chuỗi.
 Trình bày một số mô hình thường dùng để giải bài toán gán nhãn cho
dữ liệu dạng chuỗi.
 Đưa ra bài toán và so sánh các kết quả đạt được khi giải bài toán bằng
các mô hình khác nhau.
Luận văn này có thể được phát triển theo một số hướng:
 Tìm hiểu kỹ hơn một số mô hình để giải bài toán gán nhãn cho dữ liệu
dạng chuỗi.
 Xây dựng một số ứng dụng khác sử dụng các phương pháp gán nhãn
cho dữ liệu dạng chuỗi.

Mặc dù có rất nhiều cố gắng trong nghiên cứu thực hiện luận văn, được sự
chỉ bảo nhiệt tình của thầy giáo hướng dẫn, PGS.TS Từ Minh Phương, và sự động
viên giúp đỡ của bạn bè, đồng nghiệp nhưng luận văn không thể tránh khỏi những
thiếu sót. Rất mong nhận được sự góp ý bổ sung của các thầy giáo, cô giáo và mọi
người để luận văn được hoàn thiện hơn.

×