Tải bản đầy đủ (.pdf) (50 trang)

Trích chọn thông tin trên tập văn bản pháp luật dùng kỹ thuật học máy bán giám sát dựa trên mô hình crfs theo tiêu chuẩn kỳ vọng tổng quát

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.54 MB, 50 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHẠM THỊ NGÂN

TRÍCH CHỌN THƠNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT
DÙNG KỸ THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN
MÔ HÌNH CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT

LUẬN VĂN THẠC SĨ

Hà Nội - 2011


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHẠM THỊ NGÂN

TRÍCH CHỌN THƠNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT
DÙNG KỸ THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN
MÔ HÌNH CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QT

Ngành: Cơng nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 604805

LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC: TIẾN SĨ NGUYỄN LÊ MINH

Hà Nội, 2011




-1MỤC LỤC

LỜI CAM ĐOAN................................................ Error! Bookmark not defined.
MỤC LỤC ............................................................................................................. 1
DANH MỤC HÌNH VẼ ........................................................................................ 3
DANH MỤC BẢNG BIỂU .................................................................................. 4
KÝ TỰ VIẾT TẮT ................................................................................................ 5
LỜI CẢM ƠN ....................................................................................................... 6
LỜI MỞ ĐẦU ....................................................................................................... 7
CHƢƠNG 1: HỌC BÁN GIÁM SÁT THEO MƠ HÌNH TRƢỜNG NGẪU
NHIÊN CĨ ĐIỀU KIỆN ....................................................................................... 8
1.1.Phƣơng pháp học máy Trƣờng ngẫu nhiên có điều kiện ................................ 8
1.1.1. Khái niệm trƣờng ngẫu nhiên có điều kiện ............................................. 8
1.1.2. Học máy CRFs ...................................................................................... 10
1.1.2.1. Hàm tiềm năng của các mơ hình CRFs...................................... 10
1.1.2.2. Th ̣t toán gán nhañ cho dƣ̃ liê ̣u da ̣ng chuỗi. ............................ 11
1.1.2.3. Ƣớc lƣợng tham số cho các mô hình CRFs ............................... 12
1.2.Học máy bán giám sát CRFs ......................................................................... 12
1.2.1. Học máy bán giám sát ........................................................................... 12
1.2.1.1. Học khơng có giám sát và Học có giám sát .............................. 13
1.2.1.2. Học máy bán giám sát ................................................................ 15
1.2.1.3. Một sớ thuật tốn học máy bán giám sát ................................... 16
1.2.2. Sơ bộ về mơ hình học máy bán giám sát CRFs .................................... 18
1.3.Kết luận chƣơng 1 ......................................................................................... 19
CHƢƠNG 2: HỌC MÁY BÁN GIÁM SÁT CRFs THEO TIÊU CHUẨN KỲ
VỌNG TỔNG QUÁT ......................................................................................... 20
2.1.Tiêu chuẩn kỳ vọng tổng quát ....................................................................... 20
2.1.1. Giới thiệu sơ bộ ..................................................................................... 20

2.1.2. Tiêu chuẩn kỳ vọng tổng qt ............................................................... 21
2.2.Mơ hình học máy bán giám sát CRFs theo tiêu chuẩn kỳ vọng tống quát ... 23
2.3.Kết luận chƣơng 2 ......................................................................................... 25


-2-

CHƢƠNG 3: MỘT MƠ HÌNH HỌC MÁY BÁN GIÁM SÁT CRFs TRÍCH
CHỌN THƠNG TIN PHÁP LUẬT TIẾNG VIỆT........................................... 26
3.1. Trích chọn thông tin từ văn bản pháp luật tiếng Việt .................................. 26
3.1.1. Một số đặc trƣng về miền dữ liệu văn bản pháp luật tiếng Việt ........... 26
3.1.2. Bài toán trích chọn thơng tin văn bản pháp luật tiếng Việt .................. 28
3.2. Một mơ hình học máy bán giám sát CRFs trích chọn thơng tin pháp luật
tiếng Việt .......................................................................................................... 28
3.2.1. Một sớ phân tích .................................................................................... 28
3.2.2. Mơ hình đề nghị .................................................................................... 29
3.2.3. Lựa chọn thuộc tính .............................................................................. 33
3.2.4. Cách đánh giá ........................................................................................ 33
3.3.Kết luận chƣơng 3 ......................................................................................... 34
CHƢƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ ............................................... 35
4.1. Mơ hình thực nghiệm ................................................................................... 35
4.1.1. Dữ liệu thực nghiệm.............................................................................. 35
4.1.2. Bộ công cụ Mallet ................................................................................. 35
4.2. Thực nghiệm và đánh giá ............................................................................. 35
4.2.1. Mơi trƣờng thực nghiệm ....................................................................... 35
4.2.2. Mơ tả quy trình thực nghiệm................................................................. 35
4.2.3. Kết quả thực nghiệm ............................................................................. 36
4.2.4. Đánh giá ................................................................................................ 37
4.3. Kết luận chƣơng 4 ........................................................................................ 40
KẾT LUẬN ......................................................................................................... 42

TÀI LIỆU THAM KHẢO ................................................................................... 44


-3-

DANH MỤC HÌNH VẼ

Hình 1. Đờ thị vơ hướng mơ tả CRFs ........................................................... 9
Hình 2. Mợt bước trong tḥt toán Viterbi cải tiế n.................................... 11
Hình 3/4. Mơ hình đề xuất giải quyết bài tốn ........................................... 30
Hình 5. Tập các ràng buộc (Constraint file)............................................... 32
Hình 6. Kết quả nhóm thực nghiệm 1 ......................................................... 36
Hình 7. Kết quả nhóm thực nghiệm 2 ......................................................... 37
Hình 8. Kết quả nhóm thực nghiệm 3 ......................................................... 38
Hình 9. Kết quả nhóm thực nghiệm 4 ......................................................... 39
Hình 10. Kết quả nhóm thực nghiệm 5 ....................................................... 40


-4-

DANH MỤC BẢNG BIỂU
Bảng 1. Mẫu ngữ cảnh từ vựng ........................................................................... 33
Bảng 2. Mẫu ngữ cảnh phát hiện tên thực thể .................................................... 33
Bảng 3. Kết quả nhóm thực nghiệm 1 ................................................................. 36
Bảng 4. Kết quả nhóm thực nghiệm 2 ................................................................. 37
Bảng 5. Kết quả nhóm thực nghiệm 3 ................................................................. 38
Bảng 6. Kết quả nhóm thực nghiệm 4 ................................................................. 38
Bảng 7. Kết quả nhóm thực nghiệm 5 ................................................................. 39



-5-

KÝ TỰ VIẾT TẮT
CRFs
EM
GE
GEC
GIS
i.i.d
IIS
KL
L-BFGS
LOC
MISC
NER
ORG
PER

Conditional Random Fields
Entropy Maximum
Generalized Expectation
Generalized Expectation Criteria
Generalized Iterative Scaling
independently and identically
Improved Iterative Scaling
Kullback Leibler
Limited memory Broyden–Fletcher–Goldfarb–Shanno
LOCation
MIScellaneous
Named Entity Recognition

ORGanization
PERson


-6-

LỜI CẢM ƠN
Để hoàn thành luận văn này tác giả đã nhận đƣợc sự giúp đỡ từ rất nhiều cơ
quan, đồn thể và cá nhân.
Trƣớc hết tơi xin chân thành cảm ơn các thầy giáo, cô giáo trong Khoa
Công nghệ Thông tin, trƣờng Đại học Công nghệ, Đại học Quốc gia Hà Nội đã
tận tình giảng dạy, trang bị cho tôi những kiến thức quý báu trong suốt quá trình
học tập tại trƣờng.
Tơi xin bày tỏ lịng biết ơn sâu sắc đến TS. Nguyễn Lê Minh - ngƣời thầy
đã trực tiếp hƣớng dẫn tôi trong suốt quá trình xây dựng và hồn thành luận văn
này. Tơi xin bày tỏ lịng biết ơn chân thành đến thầy giáo PGS.TS. Hà Quang
Thụy và các bạn trong Phịng thí nghiệm cơng nghệ tri thức, Trƣờng Đại học
Cơng nghệ đã giúp đỡ và đóng góp nhiều ý kiến q báu cho tơi.
Ći cùng, tơi xin bày tỏ lòng biết ơn sâu sắc tới gia đình, bạn bè, những
ngƣời luôn động viên, giúp đỡ tôi rất nhiệt tình để hoàn thành luận văn.
Hà Nội, tháng 05 năm 2011
Học viên
Phạm Thị Ngân


-7-

LỜI MỞ ĐẦU
Trích chọn thơng tin là một khâu cơ bản trong bài toán khai phá dữ liệu.
Ngày nay, cùng với sự phát triển của công nghệ thông tin, Tin học đã dần đƣợc

ứng dụng rộng rãi trong nhiều lĩnh vực nhƣ kinh tế, thƣơng mại, y tế, ngân hàng
và mang lại nhiều lợi ích to lớn. Bản thân tơi hiện đang công tác tại Học viện
Cảnh sát nhân dân, tơi có những hiểu biết nhất định về cơng tác giữ gìn trật tự an
tồn xã hội của lực lƣợng cảnh sát nhân dân. Tôi nhận thấy, các hoạt động của
lực lƣợng cảnh sát có liên quan nhiều đến việc lƣu trữ hồ sơ dữ liệu, tra cứu,
phân tích tổng hợp dữ liệu... Tuy nhiên, công tác quản lý hồ sơ dữ liệu này vẫn
còn kém hiệu quả do những hạn chế nhất định. Do đó tơi đã mạnh dạn chọn đề
tài tập trung nghiên cứu vào việc trích lọc thông tin trên tập văn bản pháp luật
này.
Trong nhiều thập kỷ qua, các nhà khoa học quan tâm đến lĩnh vực xử lý
ngôn ngữ tự nhiên đã nghiên cứu và đề xuất đƣợc nhiều phƣơng pháp, mô hình
xử lý ngôn ngữ với hiệu quả cao. Nổi bật trong sớ đó là phƣơng pháp học máy
bán giám sát dựa trên mô hình trƣờng ngẫu nhiên có điều kiện theo tiêu chuẩn
kỳ vọng tổng quát, phƣơng pháp này đạt đƣợc kết quả rất khả quan trên tập dữ
liệu ngôn ngữ tiếng Anh và hiện chƣa đƣợc áp dụng cho tiếng Việt. Đƣợc sự
giúp đỡ và đồng ý của Thầy giáo hƣớng dẫn TS. Nguyễn Lê Minh, tác giả quyết
định sử dụng mô hình này ứng dụng cho tập văn bản pháp luật.
Bố cục của luận văn chia thành 4 chương như sau:
 Chƣơng 1: Trình bày những kiến thức cơ bản về mơ hình trƣờng ngẫu
nhiên có điều kiện và phƣơng pháp học máy bán giám sát.
 Chƣơng 2: Trình bày về tiêu chuẩn kỳ vọng tổng quát và áp dụng tiêu
chuẩn kỳ vọng tổng quát vào mô hình trƣờng ngẫu nhiên có điều kiện.
 Chƣơng 3: Trình bày về bài tốn trích chọn thƣc thể trên tập văn bản
pháp luật và đề xuất mơ hình giải quyết bài tốn dựa trên mơ hình
CRFs theo tiêu chuẩn kỳ vọng tổng qt.
 Chƣơng 4: Trình bày các thực nghiệm trên tập dữ liệu sử dụng một sớ
mơ hình học máy có giám sát CRFs, và mơ hình học máy bán giám sát
CRFs theo chuẩn hóa entropy và theo tiêu chuẩn kỳ vọng tổng quát; Từ
đó đánh giá kết quả thu đƣợc.
Trong phần kết luận, luận văn tóm tắt lại những cơng việc đã thực hiện và

các kết quả đạt đƣợc. Đồng thời cũng đề cập đến những điểm còn hạn chế của
luận văn và hƣớng nghiên cứu trong tƣơng lai.


-8-

CHƢƠNG 1
HỌC BÁN GIÁM SÁT THEO MƠ HÌNH
TRƢỜNG NGẪU NHIÊN CĨ ĐIỀU KIỆN
Phƣơng pháp học máy Trƣờng ngẫu nhiên có điều kiện
Mơ hình trƣờng ngẫu nhiên có điều kiện (Conditional Random Fields, viết
tắt là CRFs) đƣợc Lafferty và cộng sự, 2001 [LCP01] giới thiệu lần đầu tiên vào
năm 2001. CRFs là mơ hình dƣ̣a trên xác ś t có điều kiện, nó cho phép tích hợp
đƣợc các thuộc tính đa dạng của chuỗi dƣ̃ liê ̣u quan sát nhằ m h ỗ trợ cho quá
trình phân lớp. Tuy nhiên, khác với các mơ hình xác suất khác, CRFs là mơ hình
đồ thị vơ hƣớng. Điều này cho phép CRFs có thể định nghĩa phân phới xác suất
của tồn bộ chuỗi trạng thái với điề u kiê ̣n biế t chuỗi quan sát cho trƣ ớc thay vì
phân phới trên mỗi trạng thái với điề u kiê ̣n bi ết trạng thái trƣớc đó và quan sát
hiện tại nhƣ trong các mơ hình đồ thị có hƣớng khác. Theo Lafferty và cộng sự
[LCP01], Hanna M. Wallach, 2002 và 2004 [Wal02, Wal04], bản chất “phân phối
điề u kiê ̣n” và “phân phố i toàn cu ̣c” của CRF s cho phép mô hiǹ h này khắ c phu ̣c
đƣơ ̣c những nhƣơ ̣c điể m của các mô hiǹ h trƣ ớc đó trong việc gán nhãn và phân
đoa ̣n các dƣ̃ liê ̣u da ̣ng chuỗi mà tiêu biểu là vấn đề „label bias‟.
Khi đề cập đến trƣờng ngẫu nhiên có điều kiện, chúng ta sử dụng một sớ
qui ƣớc kí hiệu:
 Chữ viết hoa X, Y, Z…kí hiê ̣u các biến ngẫu nhiên.
 Chữ thƣờng đậm x, y, t, s,…kí hiệu các vector nhƣ vector biể u diễn
chuỗi các dƣ̃ liê ̣u quan sát, vector biể u diễn chuỗi các nhãn …
 Chƣ̃ vi ết thƣờng in đâ ̣m và có chỉ số là kí hiê ̣u của mô ̣t thành phầ n
trong mơ ̣t vector, ví dụ xi chỉ một thành phần tại vị trí i trong vector x.

 Chữ viết thƣờng không đậm nhƣ x , y,… là kí hiê ̣u các giá tr ị đơn nhƣ
một dƣ̃ liê ̣u quan sát hay một tra ̣ng thái.
 S: Tâ ̣p hƣ̃u ha ̣n các tra ̣ng thái của mô ̣t mô hiǹ h CRFs.
1.1.

1.1.1. Khái niệm trƣờng ngẫu nhiên có điều kiện
Kí hiệu X là biế n ngẫu nhiên nhâ ̣n giá tri ̣là chuỗi dƣ̃ liê ̣u cầ n phải gán nhañ
và Y là biến ngẫu nhiên nhận giá trị là chuỗi nhãn tƣơng ứng . Mỗi thành phầ n Yi
của Y là một biến ngẫu nhiên n hâ ̣n g iá trị trong tập hữu hạn các trạng thái S.
Trong bài toán gán nhãn t ừ loại, X có thể nhận giá trị là các câu trong ngôn ngữ
tƣ̣ nhiên (gồm các từ), Y là một chuỗi ngẫu nhiên các nhãn tƣơng ứng với các t ừ


-9-

tạo thành câu này và mỗi một thành phần Yi của Y có miền giá trị là tập tất cả các
nhãn từ loại có thể (danh từ, động từ, tính từ,...).
Cho mô ̣t đồ thi ̣vô hƣớng phi chu trình G = (V, E), ở đây V là tập các đỉnh
của đồ thị và E là tập các cạnh vô hƣớn g nố i các đin̉ h đồ thi ̣ . Các đỉnh V biể u
diễn các thành phầ n của biế n ngẫu nhiên Y sao cho tồ n ta ̣i ánh xa ̣ mô ̣t - mô ̣t giƣ̃a
mô ̣t đin̉ h và mô ̣t thành phầ n Yv của Y. Ta nói (Y|X) là một trƣờng ngẫu nhiên
điề u kiê ̣n (Conditional Random Field) khi với điề u kiê ̣n X, các biến ngẫu nhiên
Yv tuân theo tính chấ t Markov đố i với đồ thi G
̣ [LCP01]:

P(Yv | X , Y ,   v)  P(Yv | X , Y ,   N (v))

(1.1)

Ở đây , N(v) là tập tất cả các đỉnh kề với

v. Nhƣ vâ ̣y , mô ̣t CRF là mô ̣t
trƣờng ngẫu nhiên phu ̣ th ̣c tồn cu ̣c vào X. Trong các bài toán xƣ̉ lý dƣ̃ liê ̣u
dạng chuỗi, G đơn giản chỉ là da ̣ng chuỗi G = (V={1,2,…m}, E={(i,i+1)}).
Kí hiệu X=(X1, X2,…, Xn), Y=(Y1,Y2,...,Yn). Mơ hiǹ h đờ thị cho CRF s có
dạng:
X

Y1

Y2

Y3

Yn-1

Yn

Hình 1. Đờ thị vô hướng mô tả CRFs
Gọi C là tập hợp tất cả các đồ thị con đầy đủ của đồ thị G - đồ thi ̣biể u diễn
cấ u trúc của mô ̣t CRFs. Áp du ̣ng kế t quả của J.Hammersley và P. Clifford, 1971
[HC71] cho các trƣờng ngẫu nhiên Markov , sẽ thƣ̀a số hóa đƣơ ̣c p(y|x) - xác
suấ t của chuỗi nhañ với điề u kiê ̣n biế t chuỗi dƣ̃ liê ̣u quan sát - thành tích của
các hàm tiề m năng nhƣ sau (theo [Wal04]):

P(y | x)   A ( A | x)
AC

(1.2)

Vì trong các bài toán xử lý dữ liệu dạng chuỗ i, đồ thi ̣biể u diễn cấ u trúc của

mô ̣t CRF có da ̣ng đƣờng thẳ ng nhƣ trong hiǹ h 1 cho nên tâ ̣p C phải là hợp của E và
V, trong đó E là tập các cạnh của đồ thị G và V là tập các đỉnh của G, hay nói cách
khác đồ thị con A hoă ̣c chỉ gồ m mô ̣t đỉnh hoă ̣c chỉ gồ m mô ̣t ca ̣nh của G.


- 10 -

1.1.2. Học máy CRFs
1.1.2.1. Hàm tiềm năng của các mơ hình CRFs

Lafferty và cộng sự [LCP01] giới thiệu phƣơng pháp xác định các hàm
tiề m năng cho các mô hình CRFs dƣ̣a trên nguyên lý cƣ̣c đa ̣i hóa Entropy . Cƣ̣c
đa ̣i hóa Entropy là mô ̣t nguyên lý cho phép đánh giá các phân phố i xác suấ t tƣ̀
mô ̣t tâ ̣p các dƣ̃ liê ̣u huấ n luyê ̣n . Bằ ng cách áp du ̣ng nguyên lý cƣ̣c đa ̣i hóa
Entropy, Lafferty xác định hàm tiềm năng của một CRF có dạng một hàm mũ.

 A  A | x  exp   k f k  A | x 

(1.3)

k

Ở đây fk là một thuộc tính của chuỗi dữ liệu quan sát và  k là trọng số chỉ
mƣ́c đô ̣ biể u đa ̣t thông tin của thuô ̣c tiń h fk.
Có hai loại thuộc tính là thuộc tính chuyển (kí hiệu là t) và thuộc tính trạng
thái (kí hiệu là s) tùy thuộc vào A là đồ thị con gồm một đỉnh hay một cạnh của
G. Thay các hàm tiề m năng vào công thƣ́c (1.2) và thêm vào đó mô ̣t thƣ̀a s ố
chuẩ n hóa Z(x) để đảm bảo tổng xác suất của tất cả các chuỗi nhãn tƣơng ứng
với mô ̣t chuỗi dƣ̃ liê ̣u quan sát bằ ng 1, ta đƣơ ̣c:
P ( y | x) 


1


exp    k t k (y i 1 , y i , x)    k s k (y i , x) 
Z ( x)  i k
i
k


(1.4)

Ở đây , x, y là chuỗi dữ liệu quan sát và chuỗi trạng thái tƣơng ứng ; tk là
thuô ̣c tiń h của tòan bô ̣ chuỗi quan sát và các tra ̣ng thái ta ̣i ví trí i-1, i trong ch̃i
trạng thái ; sk là thuộc tính của toàn bộ chuỗi quan sát và trạng thá i ta ̣i ví trí i
trong chuỗi tra ̣ng thái.
1 nế u xi=Bill và yi= B_PER

si =

0 nế u ngƣơ ̣c la ̣i
1 nế u xi-1= “Bill”, xi=”Clinton” và yi-1=B_PER,yi=I_PER

ti =
=

0 nế u ngƣơ ̣c la ̣i

Thƣ̀a số chuẩ n hóa Z(x) đƣơ ̣c tiń h nhƣ sau:



Z (x)   exp    k t k (y i 1 , y i , x)    k s k (y i , x) 
y
i
k
 i k


Đặt  (1 , 2 ,..., 1,  2 ..) là các vector các tham số của mô hình

(1.5)

,  đƣơ ̣c ƣớc

lƣơ ̣ng giá tri ̣nhờ các phƣơng pháp ƣớc lƣơ ̣ng tham số cho mô hiǹ h sẽ đƣơ ̣c đề
câ ̣p trong phầ n sau.


- 11 1.1.2.2. Thuâ ̣t toán gán nhãn cho dƣ̃ liêụ da ̣ng ch̃i.

Tại mỗi vị trí i trong ch̃i dƣ̃ liê ̣u quan sát , ta đinh
̣ nghiã mô ̣t ma trâ ̣n
chuyể n |S|×|S| nhƣ sau:
(1.6)
M i (x)  M i ( y' , y, x)


M i ( y ' , y, x)  exp   k t k ( y' , y, x)    k s k ( y, x) 
(1.7)
k

 k

Ở đây Mi(y’, y, x) là xác suất chuyển từ trạng thái y’ sang tra ̣ng thái y với
chuỗi dƣ̃ liê ̣u quan sát là x. Chuỗi tra ̣ng thái y* mô tả tố t nhấ t cho chuỗi dƣ̃ liê ̣u
quan sát x là nghiệm của phƣơng trình:
y* = argmax{p(y|x)}
(1.8)
Chuỗi y* đƣơ ̣c xác đinh
̣ bằ ng thu ật toán Viterbi cải tiến [Spr07] nhƣ mơ tả
trong hình 2. Đinh
̣ nghiã  i ( y) là xác suất của “chuỗi trạng thái độ dài i kế t thúc

bởi tra ̣ng thái y và có xác suấ t lớn nhấ t” biế t chuỗi quan sát là x.
Giả sử biế t tấ t cả  i ( y k ) với mo ̣i yk thuô ̣c tâ ̣p tra ̣ng thái S của mô hình, cầ n
xác định  i 1 ( y j ) . Tƣ̀ hin
̀ h 2, ta suy ra công thƣ́c truy hồi

 i 1 ( y j )  max  i 1 ( yk ) * M i ( yk , y j , x)yk  S

Pr  i ( y1 )

y
1

ob=
y

 i ( y2 )

Pr  i ( y N )


2

(1.9)

 i 1 ( y j )

?

y

j

y
N

ob=

Hình 2. Mợt bước trong tḥt toán Viterbi cải tiế n
Đặt Pr ei ( y)  arg max  i 1 ( y' ) * M i ( y' , y, x) . Giả sử chuỗi dữ liệu quan sát
x có độ dài n, sƣ̉ du ̣ng ki ̃ thuâ ̣t backtracking để tim
̀ chuỗi tra ̣ng thái y* tƣơng ƣ́ng
nhƣ sau:
 Bƣớc 1: Với mọi y thuộc tập trạng thái tìm
o y * (n)  arg max  n ( y) 
o in


- 12 -


 Bƣớc lă ̣p: chƣ̀ng nào i>0
o i  i-1
o y  Prei(y)
o y*(i) = y
Chuỗi y* tìm đƣợc chính là chuỗi có xác suất p(y*|x) lớn nhấ t , đó cũng
chính là chuỗi nhãn phù hợp nhất với chuỗi dữ liệu quan sát cho trƣớc.
Nhƣ vậy, do bản chất phân phới tồn cục của mình, CRFs có thể giải quyết
đƣơ ̣c vấ n đề „label bias‟, một nhƣợc điểm tiêu biểu của mô hình MEM [MMI02,
Wal04]. Ở phƣơng diện lý thuyết mô hình , ta có thể coi mô hiǹ h CRF s nhƣ là
mô ̣t máy tra ̣ng thái xác suấ t với các tro ̣ng số không chuẩ n hóa , mỗi tro ̣ng số gắ n
liề n với mô ̣t bƣớc chuyể n tra ̣ng thái . Bản chất khơng chuẩn hóa của các tro ̣ng số
cho phép các bƣớc chuyể n tra ̣ng thái có thể nhâ ̣n các giá tri ̣quan tro ̣ng khác
nhau. Vì thế bất cứ một trạng thái nào cũng có thể làm tăng hoặc giảm xác suất
đƣơ ̣c truyề n cho các tra ̣ng thái sau nó mà vẫn đảm bảo xác suấ t cuố i cùng đƣơ ̣c
gán cho toàn bộ chuỗi trạng thái thỏa mãn định nghĩa về xác suất nhờ thừa số
chuẩ n hóa toàn cu ̣c.
1.1.2.3. Ƣớc lƣợng tham số cho các mô hình CRFs

Kĩ thuật đƣợc sử dụng để đánh giá tham số cho mô ̣t mô hình CRF s là làm
cƣ̣c đa ̣i hóa đô ̣ đo likelihood giƣ̃a phân phố i mô hiǹ h và phân phố i thƣ̣c nghiê ̣m.
Nguyên lý cực đại likelihood đƣợc phát biểu nhƣ sau: Các tham sớ tớt nhất
của mơ hình là các tham sớ làm cực đại hàm likelihood. Nhƣ vậy, về phƣơng
diê ̣n toán ho ̣c , bài tốn ƣớc lƣợng tham sớ cho một mơ hình CRF s chính là bài
tốn tìm cực đại của hàm log -likelihood. Có nhiều phƣơng pháp tìm cƣ̣c đa ̣i của
hàm log-likelihood nhƣ các phƣơng pháp lặp (IIS, GIS), các phƣơng pháp tối ƣu
số (phƣơng pháp dựa trên vector gradient nhƣ phƣơng pháp gradient liên hơ ̣p ,
quasi-Newton …) và L-BFGs có thể phục vụ cho ƣớc lƣợn g tham số mô hiǹ h .
Trong các phƣơng pháp tim
̀ cƣ̣c tri ̣hàm log -likelihood này , phƣơng pháp L BFGs đƣơ ̣c đánh giá là vƣợt trội và có tớc độ hội tụ nhanh nhất [Mal02].
1.2.


Học máy bán giám sát CRFs

1.2.1. Học máy bán giám sát
Trong lý thuyết xác suất, một dãy các biến ngẫu nhiên đƣợc gọi là có độc
lập cùng phân phới nếu chúng có cùng một phân phới và độc lập với nhau. Các
quan sát trong một mẫu thƣờng đƣợc giả thiết là độc lập cùng phân phới nhằm
làm đơn giản hố tính tốn tốn học bên dƣới của nhiều phƣơng pháp thớng kê.
Trong nhiều ứng dụng, điều này thƣờng không thực tế. Trƣớc khi nghiên cứu về


- 13 -

học máy bán giám sát, tôi giới thiệu sơ bộ về hai phƣơng pháp học máy cơ bản
là Học khơng có giám sát và Học có giám sát.
1.2.1.1. Học khơng có giám sát và Học có giám sát

Học khơng có giám sát (unsupervised learning): Là phƣơng pháp học máy
nhằm tìm ra một mơ hình phù hợp với các quan sát. Cho trƣớc một mẫu chỉ gồm
các đối tƣợng (objects), cần tìm kiếm cấu trúc quan tâm (interesting structures)
của dữ liệu, và nhóm các đới tƣợng giớng nhau.
Học khơng giám sát thƣờng coi các đối tƣợng đầu vào là một tập các biến
ngẫu nhiên. Sau đó, một mơ hình mật độ kết hợp sẽ đƣợc xây dựng cho tập dữ
liệu đó. Biểu diễn tốn học của phƣơng pháp này nhƣ sau:
Cho X=(x1 , x2 , …, xn ) là tập hợp gồm n mẫu (examples or points), xi ∈
X với mọi i∈[N]:= {1,2, ..., n}. Thông thƣờng, ta giả thiết rằng các mẫu đƣợc
tạo ra một cách độc lập và giống nhau (i.i.d – independently and identically
distributed) từ một phân phới chung trên Χ. Mục đích của học khơng giám sát là
tìm ra một cấu trúc thơng minh trên tập dữ liệu đó.
Học khơng có giám sát có thể đƣợc dùng kết hợp với suy diễn Bayes

(Bayesian inference) để cho ra xác suất có điều kiện (nghĩa là học có giám sát)
cho bất kì biến ngẫu nhiên nào khi biết trƣớc các biến khác.
Học không giám sát cũng hữu ích cho việc nén dữ liệu: về cơ bản, mọi giải
thuật nén dữ liệu hoặc là dựa vào một phân bố xác suất trên một tập đầu vào một
cách tƣờng minh hay không tƣờng minh.
Học giám sát (supervised learning): Là phƣơng pháp học máy xây dựng
một hàm từ dữ liệu huấn luyện. Cho trƣớc một mẫu bao gồm các cặp đới tƣợng nhãn (xi,yi), cần tìm ra mới quan hệ dự đốn giữa các đới tƣợng và các nhãn.
Mục đích là học một phép ánh xạ từ x tới y, khi cho trƣớc một tập huấn luyện
gồm các cặp (xi,yi), trong đó yi ∈ Y gọi là các nhãn hoặc đích của các mẫu Xi.
Nếu nhãn là các sớ,
biểu diễn vector cột của các nhãn. Nhƣ đã nêu,
một yêu cầu chuẩn là các cặp (xi,yi) tuân theo giả thiết i.i.d trải khắp trên X×Y.
Nhiệm vụ đƣợc định rõ là, ta có thể tính tốn đƣợc một phép ánh xạ thơng qua
thực thi dự đốn của nó trên tập kiểm thử. Nếu các nhãn lớp là liên tục, nhiệm
vụ phân lớp đƣợc gọi là hồi quy. Có hai họ thuật tốn giám sát: generative
model và discriminative model:
Generative model: Phƣơng pháp này sẽ tạo ra một mơ hình mật độ phụ
thuộc vào lớp (class-conditional density) p(x|y) bằng một vài thủ tục học khơng
giám sát. Một mật độ sinh có thể đƣợc suy luận bằng cách sử dụng lý thuyết
Bayes.


- 14 -

Gọi là mơ hình sinh vì ta có thể tự tạo ra các mẫu dữ liệu.
Discriminative model: Phƣơng pháp này sẽ thay vì đánh giá xi đƣợc tạo ra
nhƣ thế nào mà tập trung đánh giá p(y|x) . Một vài phƣơng pháp discriminative
hạn chế chúng để mơ hình xem p(y|x) lớn hơn hoặc nhỏ hơn 0.5, ví dụ nhƣ
SVM. Trong thực hành, phƣơng pháp này thƣờng đƣợc đánh giá là hiệu quả hơn
phƣơng pháp sinh (generative).

Để có thể giải quyết một bài tốn nào đó của học có giám sát ngƣời ta phải
xem xét nhiều bƣớc khác nhau:
1. Xác định loại của các ví dụ huấn luyện. Trƣớc khi làm bất cứ điều gì,
ngƣời kĩ sƣ nên quyết định loại dữ liệu nào sẽ đƣợc sử dụng làm ví
dụ. Chẳng hạn, đó có thể là một kí tự viết tay đơn lẻ, toàn bộ một từ
viết tay, hay tồn bộ một dịng chữ viết tay.
2. Thu thập tập huấn luyện. Tập huấn luyện cần đặc trƣng cho thực tế sử
dụng của hàm chức năng. Vì thế, một tập các đối tƣợng đầu vào đƣợc
thu thập và đầu ra tƣơng ứng đƣợc thu thập, hoặc từ các chuyên gia
hoặc từ việc đo đạc tính tốn.
3. Xác định việc biễu diễn các đặc trƣng đầu vào cho hàm chức năng cần
tìm. Sự chính xác của hàm chức năng phụ thuộc lớn vào cách các đối
tƣợng đầu vào đƣợc biểu diễn. Thông thƣờng, đối tƣợng đầu vào đƣợc
chuyển đổi thành một vec-tơ đặc trƣng, chứa một số các đặc trƣng
nhằm mô tả cho đới tƣợng đó. Sớ lƣợng các đặc trƣng không nên quá
lớn, do sự bùng nổ tổ hợp; nhƣng phải đủ lớn để dự đốn chính xác
đầu ra.
4. Xác định cấu trúc của hàm chức năng cần tìm và giải thuật học tƣơng
ứng. Ví dụ, ngƣời kĩ sƣ có thể lựa chọn việc sử dụng mạng nơ-ron
nhân tạo hay cây quyết định.
5. Hoàn thiện thiết kế. Ngƣời kĩ sƣ sẽ chạy giải thuật học từ tập huấn
luyện thu thập đƣợc. Các tham sớ của giải thuật học có thể đƣợc điều
chỉnh bằng cách tới ƣu hóa hiệu năng trên một tập con (gọi là tập
kiểm chứng -validation set) của tập huấn luyện, hay thông qua kiểm
chứng chéo (cross-validation). Sau khi học và điều chỉnh tham số,
hiệu năng của giải thuật có thể đƣợc đo đạc trên một tập kiểm tra độc
lập với tập huấn luyện.


- 15 -


Trong “học có giám sát”, các dữ liệu đƣợc gán nhãn nên việc giải quyết
vấn đề thƣờng thuận lợi hơn rất nhiều. Tuy nhiên, với một số lƣợng dữ liệu lớn
thì cơng việc gán nhãn cho dữ liệu địi hỏi nỗ lực của con ngƣời và tớn nhiều
thời gian. Cịn “học khơng có giám sát” là mơ hình hóa một tập dữ liệu, trong đó
dữ liệu đầu vào chƣa đƣợc gán nhãn mà nó dựa trên mơt mơ hình phù hợp với
các quan sát, vì vậy với một sớ lƣợng lớn dữ liệu thì sự chính xác của kết quả
thu đƣợc không cao. Thực tế cho thấy rằng, dữ liệu chƣa đƣợc gán nhãn có thể
thu thập đƣợc rất nhiều và một cách dễ dàng. Tuy nhiên để xử lý sớ lƣợng dữ
liệu đó có kết quả tớt cũng gặp nhiều khó khăn.
1.2.1.2. Học máy bán giám sát

“Học máy bán giám sát” là sự kết hợp giữa “học có giám sát” và “học
khơng có giám sát”. Với một số lƣợng lớn dữ liệu, kể cả dữ liệu chƣa gán nhãn
và những dữ liệu đã đƣợc gán nhãn, sẽ đƣợc “máy học” giải quyết bằng một
cách tốt nhất bằng các giải thuật “học bán giám sát.
Từ đó, học bán giám sát có thể đƣợc xem là:
- Học giám sát cộng thêm dữ liệu chƣa gán nhãn (Supervised learning
+additional unlabeled data).
- Học không giám sát cộng thêm dữ liệu gán nhãn (Unsupervised
learning + additional labeled data).
Học bán giám sát chính là cách học sử dụng thơng tin có ở cả dữ liệu gán
nhãn (trong tập dữ liệu huấn luyện) lẫn dữ liệu chƣa gán nhãn. Các thuật toán
học bán giám sát có nhiệm vụ chính là mở rộng tập các dữ liệu gán nhãn ban
đầu. Hiệu quả của thuật toán phụ thuộc vào chất lƣợng của các mẫu gán nhãn
đƣợc thêm vào ở mỗi vòng lặp và đƣợc đánh giá dựa trên hai tiêu chí:
- Các mẫu đƣợc thêm vào phải đƣợc gán nhãn một cách chính xác.
- Các mẫu đƣợc thêm vào phải mang lại thơng tin hữu ích cho bộ phân
lớp (hoặc dữ liệu huấn luyện).
Các phƣơng pháp học bán giám sát sẽ rất hữu ích khi dữ liệu chƣa gán nhãn

nhiều hơn dữ liệu gán nhãn. Việc thu đƣợc dữ liệu gán nhãn là rẻ, nhƣng để gán
nhãn chúng thì tớn rất nhiều thời gian, cơng sức và tiền bạc. Đó là tình trạng của
rất nhiều các lĩnh vực ứng dụng trong học máy nhƣ:
- Trong nhận dạng lời nói, ta sẽ dễ dàng ghi lại một lƣợng lớn các bài diễn
thuyết, nhƣng để gán nhãn chúng yêu cầu con ngƣời phải lắng nghe rồi đánh
máy sao chép lại.
- Sự phong phú của hàng tỉ các trang web sẵn sàng cho xử lý tự động, nhƣng
để phân lớp chúng một cách tin cậy đòi hỏi con ngƣời phải đọc chúng.


- 16 -

- ...
Học bán giám sát là việc học trên cả dữ liệu đã và chƣa đƣợc gán nhãn. Từ
một số lƣợng lớn các dữ liệu chƣa đƣợc gán nhãn, và một tập với số luợng nhỏ
dữ liệu đã đƣợc gán nhãn ban đầu (thƣờng gọi là seed set) để xây dựng một bộ
phân lớp thậm chí là tớt hơn. Trong quá trình học nhƣ thế, phƣơng pháp học sẽ
tận dụng đƣợc những thông tin phong phú của dữ liệu chƣa gán nhãn, mà chỉ
yêu cầu một số lƣợng rất nhỏ các dữ liệu đã gán nhãn.
1.2.1.3. Một số thuật toán học máy bán giám sát

Theo Zhi-Hua Zhou và Ming Li, 2010 [ZL10], có rất nhiều các thuật tốn
học máy bán giám sát và có thể chia thành bớn nhóm phƣơng pháp nhƣ sau:
phƣơng pháp sinh [MU97, NCT00, SL94], S3VMs (Semi-Supervised Support
Vector Machines – phƣơng pháp máy vectơ hỗ trợ bán giám sát) [CZ05, GY05,
Joa99, LJ05], phƣơng pháp dựa trên đồ thị [BN04, BNS05, BNS06, ZBL04,
ZGL03] và phƣơng pháp dựa trên mâu thuẫn [ZL07, ZL05, ZZY07, ZC06,
NG00, GZ00, BS06, BM98].
- Trong phƣơng pháp sinh, cả tập mẫu gán nhãn và chƣa gán nhãn đƣợc giả
thiết đƣợc sinh ra từ mơ hình cùng tham sớ. Do đó, những tham sớ mơ

hình có liên kết trực tiếp những mẫu chƣa gán nhãn với mục tiêu học.
Những mơ hình trong phƣơng pháp này thƣờng coi những nhãn của dữ
liệu chƣa gán nhãn là những giá trị thiếu của tham sớ mơ hình và sử dụng
thuật tốn cực đại hóa kỳ vọng EM [DLR77] để tính tốn ƣớc lƣợng cực
đại likelihood của tham sớ mơ hình. Những thuật tốn trong phƣơng pháp
này khác nhau ở mô hình sinh đƣợc sử dụng để phù hợp với dữ liệu, ví dụ
phƣơng pháp pha trộn Gaussian [SL94], phƣơng pháp Nạve Bayes
[NCT00]. Những mơ hình sinh thực thi đơn giản, dễ dàng và có thể hiệu
quả hơn mô hình discriminative khi học với mẫu gán nhãn nhỏ. Tuy
nhiên, nhóm thuật tốn này có nhƣợc điểm lớn đó là khi giả thiết mơ hình
sai hoặc mơ hình sử dụng tập dữ liệu chƣa gán nhãn lớn thì việc thực thi
bị kém hiệu quả. Do đó, để mơ hình này thực thi có hiệu quả trong những
ứng dụng thực, cần phải tạo đƣợc mơ hình sinh chính xác dựa trên miền
tri thức, hoặc ngƣời ta có thể kết hợp những mặt tích cực của mơ hình
sinh và mơ hình discriminative [AG05, FUS05]. Một sớ thuật tốn điển
hình của phƣơng pháp này đƣợc Xiaojin Zhu đề cập trong [Zhu08] nhƣ:
Thuật toán học bán giám sát cực đại kỳ vọng EM địa phƣơng, Thuật toán
Self-training...


- 17 -

- Phƣơng pháp S3VMs cố gắng sử dụng dữ liệu chƣa gán nhãn để điều
chỉnh đƣờng biên quyết định đƣợc học từ tập nhỏ những mẫu dữ liệu gán
nhãn, nhờ đó có thể đi qua đƣợc những vùng dày đặc trong khi vẫn giữ
đƣợc phân lớp chính xác cho dữ liệu gán nhãn. T. Joachims, 1999 [Joa99]
đề xuất mơ hình TSVM (Transductive Support Vector Machine). Đầu
tiên, thuật tốn này khởi tạo một SVM sử dụng những mẫu gán nhãn và
gán những nhãn tiềm năng cho dữ liệu chƣa gán nhãn. Sau đó, nó lặp lại
việc cực đại hóa biên của cả dữ liệu gán nhãn và chƣa gán nhãn với những

nhãn tiềm năng bằng cách đặt nhãn của dữ liệu chƣa gán nhãn trên các
mặt của biên quyết định. Cách này có thể đạt đƣợc giải pháp tới ƣu đó là
biên quyết định khơng chỉ phân lớp chính xác dữ liệu gán nhãn mà còn
tránh đƣợc việc đi qua vùng mật độ cao. Tuy nhiên, độ không lồi của hàm
thiệt hại (loss function) trong TSVM sẽ dẫn đến thực tế là có nhiều điểm
tới ƣu cục bộ. Do đó nhiều nghiên cứu đƣợc đề xuất để giảm tác động tiêu
cực này.
- Phƣơng pháp học bán giám sát dựa trên đồ thị đầu tiên có thể thực thi
đƣợc đề xuất bởi Blum và Chawla, 2001 [BC01], họ xây dựng một đồ thị
với các nút là những mẫu huấn luyện (cả gán nhãn và chƣa gán nhãn) và
cạnh giữa các nút thể hiện mối quan hệ giữa những mẫu tƣơng ứng ví dụ
nhƣ quan hệ đồng dạng. Dựa trên đồ thị này, vấn đề học bán giám sát có
thể đƣợc giải quyết bằng việc tìm đƣờng cắt nhỏ nhất của đồ thị mà theo
đó những nút trong mỗi phần có cùng nhãn. Sau đó, A. Blum và cộng sự,
2004 [BLR04] làm nhiễu đồ thị bằng một số điểm ngẫu nhiên và tạo ra
đƣờng cắt “mềm” nhỏ nhất sử dụng phiếu bầu tối đa. Cả [BC01] và
[BLR04] đều sử dụng hàm dự đốn rời rạc ví dụ dự đốn của những mẫu
chƣa gán nhãn có thể là một trong các nhãn có thể. X. Zhu và cộng sự,
2003 [ZGL03] mở rộng hàm dự đoán rời rạc thành hàm liên tục. D. Zhou
và cộng sự, 2004 [ZBL04] định nghĩa độ thiệt hại bình phƣơng của hàm
dự đốn thơng qua cả dữ liệu gán nhãn và chƣa gán nhãn và đồ thị
Laplacian chuẩn hóa. Hầu hết những nghiên cứu trƣớc đây về học bán
giám sát dựa trên đồ thị thƣờng tập trung vào việc xây dựng một đồ thị
phản ánh đƣợc mối quan hệ thiết yếu gữa những mẫu, đây là điều then
chốt có tác động lớn đến thực thi việc học. Sau này, nhiều nghiên cứu đã
cố gắng cải thiện đồ thị bằng việc thêm vào những đặc trƣng miền tri
thức. X. Zhang và W. S. Lee, 2007 [ZL07b] chọn dải thông RBF tớt hơn
để cực tiểu hóa lỗi dự đốn trên dữ liệu gán nhãn sử dụng đánh giá chéo.
M. Hein và M. Maier, 2007 [HM07] cố gắng giảm dữ liệu nhiễu để đạt



- 18 -

đƣợc đồ thị tốt hơn... Mặc dù phƣơng pháp học bán giám sát dựa trên đồ
thị đƣợc ứng dụng khá rộng rãi nhƣng nó có nhƣợc điểm lớn về quy mô.
- Phƣơng pháp học bán giám sát dựa trên mâu thuẫn đƣợc đƣa ra gần đây
bởi Z. H. Zhou, 2008 [Zho08] dựa trên những nghiên cứu của A. Blum và
T. Mitchell, 1998 [BM98]. Trong phƣơng pháp này, nhiều máy học đƣợc
huấn luyện cho cùng tác vụ và mẫu thuẫn giữa các máy học sẽ nảy sinh
trong quá trình học. Ở đây, dữ liệu chƣa gán nhãn đƣợc coi là “cơ sở” cho
việc trao đổi thông tin. Nếu một máy học nào chắc chắn hơn các máy học
khác về một mẫu chƣa gán nhãn đang tranh luận thì máy học đó sẽ dạy
cho các máy học khác về mẫu này, sau đó mẫu này có thể đƣợc chọn để
truy vấn. Do đó, phƣơng pháp này khơng có những nhƣợc điểm nhƣ
những mô hình khác nhƣ vi phạm giả thiết mơ hình, hàm thiệt hại khơng
lồi, hay nhƣợc điểm về quy mơ của thuật tốn học. Thuật tốn điển hình
của nhóm phƣơng pháp này đƣợc Ziaojin Zhu đề cập trong [Zhu08] là
Thuật toán Co-training.
Mỗi phƣơng pháp học bán giám sát đều có những ƣu và nhƣợc điểm riêng.
Do đó tùy thuộc vào ứng dụng và loại dữ liệu mà lựa chọn phƣơng pháp học và
thuật toán cụ thể cho phù hợp.
1.2.2. Sơ bộ về mơ hình học máy bán giám sát CRFs
Nhƣ phân tích ở 1.2.1, có nhiều phƣơng pháp học bán giám sát và mỗi
phƣơng pháp có những ƣu và nhƣợc điểm riêng. Luận văn của tác giả tập trung
nghiên cứu mơ hình học bán giám sát CRFs, mơ hình này thuộc nhóm phƣơng
pháp sinh.
Mơ hình học bán giám sát CRFs là mơ hình kết hợp đƣợc cả dữ liệu chuỗi
đã gán nhãn và chƣa gán nhãn; mô hình đã khắc phục đƣợc những yếu điểm của
các mô hình khác và đƣợc ứng dụng trong nhiều nghiên cứu về xử lý ngôn ngữ.
Feng Jiao và cộng sự, 2006 [JWL06] đã đề xuất thuật toán tận dụng dữ liệu chƣa

gán nhãn qua chuẩn hóa entropy (entropy regularization) – thuật tốn đƣợc mở
rộng từ tiếp cận đƣợc đề xuất trong [GB04] cho mơ hình CRFs có cấu trúc. Một
tiếp cận khác, Gideon S.Mann và Andrew McCallum [MC08], Gregory Druck và
cộng sự [DMC08] đề xuất phƣơng pháp học bán giám sát CRFs sử dụng tiêu
chuẩn kỳ vọng tổng quát GE, phƣơng pháp này sẽ giới thiệu trong mục 2.2.
Trong phƣơng pháp này, thay vì sử dụng các mẫu gán nhãn máy học sẽ truy cập
các đặc trƣng gán nhãn. Những đặc trƣng này có thể đƣợc gán nhãn với chi phí
thấp hơn nhiều so với gán nhãn toàn bộ mẫu dữ liệu vì việc gán nhãn đặc trƣng
có thể chỉ cần gán nhãn cho những phần nhỏ của cấu trúc chuỗi hoặc cây.


- 19 -

Bên cạnh đó, việc sử dụng tiêu chuẩn kỳ vọng tổng quát xác lập các tham
số trong huấn luyện hàm mục tiêu cho phép tạo đƣợc kỳ vọng mơ hình gần với
phân phới mục tiêu. Luận văn sẽ tiến hành thực thi mơ hình này trên tập dữ liệu
tiếng Việt và so sánh với một số phƣơng pháp khác. Kết quả thực nghiệm sẽ thể
hiện ở Chƣơng 4.
Kết luận chƣơng 1
Chƣơng này giới thiệu về mô hình trƣờng ngẫu nhiên có điều kiện – một
mơ hình khá phổ biến và hiệu quả trong các ứng dụng về xử lý ngôn ngữ tự
nhiên - và giới thiệu về các phƣơng pháp học máy bán giám sát – một phƣơng
pháp đƣợc coi là tận dụng đƣợc các ƣu điểm của hai phƣơng pháp học máy có
giám sát và học khơng có giám sát. Từ đó, sơ lƣợc về một sớ mơ hình học máy
bán giám sát áp dụng vào mơ hình trƣờng ngẫu nhiên có điều kiện, nổi bật là mơ
hình học máy bán giám sát CRFs sử dụng tiêu chuẩn kỳ vọng tổng qt; mơ
hình này sẽ đƣợc giới thiệu và phân tích trong chƣơng tiếp theo của luận văn.
1.3.



- 20 -

CHƢƠNG 2
HỌC MÁY BÁN GIÁM SÁT CRFs THEO
TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT
2.1. Tiêu chuẩn kỳ vọng tổng quát
2.1.1. Giới thiệu sơ bộ
Những phƣơng pháp học có giám sát đòi hỏi tập các trƣờng hợp gán nhãn
lớn và nó hạn chế khả năng học ở những miền tri thức mới. Những phƣơng pháp
học bán giám sát với mục tiêu tăng cƣờng sử dụng tập các trƣờng hợp chƣa gán
nhãn là giải pháp lý tƣởng nhằm giảm các nỗ lực gán nhãn dữ liệu. Tuy nhiên,
phƣơng pháp này thƣờng phức tạp về tính tốn và phải tính đến độ tin cậy trong
các trƣờng hợp siêu tham số nhạy cảm của những phƣơng pháp học bán giám
sát. Trong khi đó, chúng ta cần một phƣơng pháp đơn giản nhƣng hiệu quả cho
phép thực hiện những mơ hình huấn luyện trên những miền tri thức mới và địi
hỏi tới thiểu việc gán nhãn. Một phƣơng pháp bán giám sát mới kết hợp tri thức
tiền nhiệm giữa những đặc trƣng và lớp vào việc huấn luyện sử dụng tiêu chuẩn
kỳ vọng tổng quát (GEC), đƣợc Andrew McCallum và cộng sự, 2007 [CMD07]
giới thiệu, đã và đang gây đƣợc nhiều chú ý và đƣa vào nhiều ứng dụng.
Tiêu chuẩn kỳ vọng tổng quát (GEC) [CMD07] là những điều kiện (term)
trong hàm mục tiêu huấn luyện cho phép gán giá trị cho kỳ vọng mơ hình. GEC
có điểm giớng với phƣơng pháp mơ-men, nhƣng cho phép biểu diễn những tham
chiếu vô hƣớng tùy ý trên các kỳ vọng của những hàm tùy biến mà không yêu
cầu sự cân bằng mô-men mẫu và mô-men mô hình. Đồng thời, GEC cũng có 3
điểm khác căn bản với những hàm mục tiêu huấn luyện truyền thớng; Đó là,
không cần ánh xạ một-một giữa những điều kiện GEC và những tham sớ mơ
hình, những kỳ vọng mơ hình cho những điều kiện GEC khác nhau có thể đƣợc
huấn luyện trên những tập dữ liệu khác nhau, kỳ vọng tham chiếu (hàm score)
có thể xác định từ nguồn khác nhƣ những tác vụ khác, những tri thức tiền
nghiệm.

Phƣơng pháp đƣợc sử dụng trong luận văn này là sử dụng kết hợp những
đặc trƣng và lớp biết trƣớc. Kỳ vọng của mô hình đƣợc ƣớc lƣợng từ những
phân phối lớp đƣợc huấn luyện từ những đặc trƣng lựa chọn và hàm tỷ số là
phân kỳ KL (S. Kullback và R. A. Leibler, 1951 [KL51], S. Kullback, 1959,
[Kul59]) – là độ đo không đối xứng giữa 2 phân bố xác suất – phân phối xác
suất thực và phân phối xác suất mục tiêu - từ những phân phối tham chiếu đƣợc
ƣớc lƣợng từ những nguồn đã có. Kết hợp những điều kiện GEC với tham số đã


- 21 -

biết cho phép sử dụng những mẫu đồng xuất hiện trong dữ liệu chƣa gán nhãn
để học những tham sớ cho những đặc trƣng mà chƣa có trong thông tin tiền
nghiệm.
Phƣơng pháp áp dụng trong luận văn để thực hiện tác vụ Nhận dạng tên
thực thể (NER) nhƣ tên ngƣời, tên địa điểm, tổ chức và những thực thể khác.
2.1.2. Tiêu chuẩn kỳ vọng tổng qt
Những mơ hình học bán giám sát trƣớc đây đã khắc phục một số hạn chế là
sử dụng dữ liệu đƣợc gán nhãn đầy đủ với dữ liệu không đƣợc gán nhãn hoặc
với các ràng buộc (ví dụ những đặc trƣng đƣợc đánh dấu với nhãn chính của nó).
GEC có thể sử dụng nhiều thơng tin hơn những mơ hình trƣớc nó. Trong GEC
có thể tận dụng thuận lợi của phân bớ xác suất điều kiện của những nhãn cho
trƣớc một đặc trƣng (p(y|fk(x) = 1)). Thông tin này cung cấp ràng buộc phong
phú hơn cho mô hình trong khi vẫn giữ lại tính dễ dịch. Con ngƣời thƣờng có
trực giác tớt về khả năng dự đoán quan hệ của những đặc trƣng khác nhau. Ví
dụ, rõ ràng là xác suất của nhãn PERSON gán cho từ đặc trƣng JOHN là cao, có
thể đến 0.95 trong khi cho từ BROWN thì tỉ lệ thấp hơn có thể là 0.4. Những
phân bớ cần đƣợc ƣớc lƣợng với độ chính xác cao và việc tự do biểu diễn mức
độ phân bố tốt hơn nhiều so với việc sử dụng tín hiệu giám sát nhị phân. Thuận
lợi khác của việc sử dụng những phân bố xác suất điều kiện - ràng buộc xác suất

là chúng có thể dễ dàng ƣớc lƣợng từ dữ liệu. Đối với đặc trƣng bắt đầu bằng
chữ hoa INITIAL-CAPITAL, tôi xác định tất cả thẻ với đặc trƣng đó và đếm sớ
nhãn xuất hiện cùng.
GEC cố gắng khớp những phân bố xác suất điều kiện này bằng kỳ vọng mơ
hình trên dữ liệu chƣa gán nhãn, ví dụ khuyến khích mơ hình dự đoán rằng tỉ lệ
nhãn PERSON gán cho từ John có thể là 0.95 trên tất cả điều kiện chƣa gán
nhãn.
Cho X là tập các biến kí hiệu là x∈X. Cho θ là những tham số của một số
mô hình, cho phép xác định phân bố xác suất trên tập X, pθ(X). Kỳ vọng của các
hàm f(X) theo mơ hình là
(2.1)

Trong đó, f(x) là một hàm bất kỳ của biến x cho giá trị vơ hƣớng hoặc
vecto. Hàm này có thể chỉ phụ thuộc vào tập con của tập biến x.
Và những kỳ vọng cũng có thể đƣợc xác định trên những phép gán giá trị
biến, ví dụ, khi thực hiện huấn luyện xác suất điều kiện của một số mơ hình.


- 22 -

Trong trƣờng hợp này, những biến đƣợc chia thành biến đầu vào X và biến đầu
ra Y. Một tập các phép gán cho biến đầu vào (những trƣờng hợp dữ liệu huấn
luyện)

= {x1, x2,...} có thể cho trƣớc và kỳ vọng điều kiện là
(2.2)

Một GEC đƣợc định nghĩa là một hàm G, sử dụng tham số là kỳ vọng của
mơ hình f(X) và trả về một giá trị vô hƣớng, giá trị này đƣợc bổ sung vào nhƣ là
một điều kiện trong hàm mục tiêu ƣớc lƣợng tham sớ:

(2.3)
Trong một sớ trƣờng hợp, G có thể đƣợc định nghĩa dựa trên khoảng cách
đến giá trị đích cho Eθ[f(X)]. Cho 𝑓 là giá trị đích và cho ∆(·, ·) là hàm khoảng
cách. Trong trƣờng hợp này, G có thể định nghĩa là:
(2.4)
Nhƣ đã mô tả ở trên, GEC là một dạng tổng quát, nó coi các phƣơng pháp
ƣớc lƣợng tham số truyền thống khác là trƣờng hợp đặc biệt. Có thể phân chia
GEC theo mức độ linh hoạt nhƣ sau:
1. Một GEC đƣợc xác định một cách độc lập theo tham sớ hóa. Trong các
phƣơng pháp ƣớc lƣợng tham sớ truyền thớng - phƣơng pháp đồ thị, có
sự tƣơng ứng một-một giữa các tập con của các biến sử dụng trong mỗi
phần tham sớ hóa của mơ hình và tập con của các biến trong đó các kỳ
vọng đƣợc xac định cho hàm mục tiêu. Trong GEC, mỗi tập con này có
thể đƣợc lựa chọn độc lập.
2. Những GEC điều kiện khác nhau không cần tất cả các điều kiện cho
những trƣờng hợp giớng nhau, chúng có thể tác động đến những tập dữ
liệu khác nhau hoặc những sự kết hợp khác nhau của những tập dữ liệu.
3. “Dấu hiệu huấn luyện” có giám sát bất kể ở kỳ vọng đích hay tổng
qt, trạng thái của hàm tỷ sớ, G, có thể xác định từ dữ liệu huấn luyện
gán nhãn hoặc bất kỳ nguồn nào, bao gồm cả những tác vụ khác hoặc
tri thức tiền nghiệm.
Do đó, một GEC có thể đƣợc xác định một cách độc lập với tham sớ hóa và
độc lập với những lựa chọn của bất kỳ tập dữ liệu điều kiện nào. Và một GEC có
thể hoạt động trên một sớ tập con bất kỳ của các biến trong x. Thêm vào đó, hàm
f có thể đƣợc định nghĩa theo kỳ vọng sinh ra mô-men của phân bố pθ(X) hoặc


- 23 -

bất kỳ kỳ vọng nào khác. Hàm tỷ sớ G và hàm khoảng cách ∆ có thể dựa trên

nguyên lý thông tin hoặc những hàm bất kỳ.
Những giá trị GEC có thể đƣợc sử dụng nhƣ là những thành phần duy nhất
của hàm mục tiêu ƣớc lƣợng tham sớ hoặc chúng có thể đƣợc sử dụng kết hợp
với những giá trị khác. Ví dụ, GEC có thể đƣợc áp dụng trong nhiều sơ đồ học
khác nhau trong đó sử dụng những hàm mục tiêu, bao gồm học kết hợp/sinh,
học khơng giám sát, học điều kiện/phân biệt, học có giám sát, học với những
biến ẩn, học có cấu trúc…
2.2. Mơ hình học máy bán giám sát CRFs theo tiêu chuẩn kỳ vọng tớng
qt
Nhìn chung, GEC biểu diễn một tham chiếu trên giá trị của kỳ vọng mơ
hình [CMD07]. Một kiểu tham chiếu có thể đƣợc biểu diễn bằng hàm khoảng
cách ∆, kỳ vọng mục tiêu f, dữ liệu D, hàm f và phân bớ mơ hình pθ , hàm mục
tiêu GEC là ∆(f, E[f x ]). Trong [MC10], Gideon S. Mann và Andrew McCallum
đặt những hàm là phân bố xác suất điều kiện và đặt ∆ p, q = D(p||q), phân kỳ
KL là độ đo không đối xứng giữa 2 phân bố xác suất p và q. Đối với huấn luyện
bán giám sát của CRFs, các tác giả bổ sung hàm mục tiêu với điều kiện chuẩn
hóa.

(2.5)
Trong đó p là phân bớ mục tiêu và

(2.6)

Với tiềm năng khơng chính thức
(2.7)
Trong đó fm(x,j) là một đặc trƣng phụ thuộc chỉ vào chuỗi quan sát x và j*
đƣợc định nghĩa là {j:fm(x,j)=1} và Um là tập các chuỗi mà fm(x,j) có mặt cho
một sớ j.
Tính tốn Gradient (Độ chênh lệch)
Để tính độ chênh lệch của GEC, D(p||pθ ), đầu tiên giảm những điều kiện

ràng buộc có tính đến dẫn xuất thành phần và các tác giả thu đƣợc độ chênh lệch
nhƣ sau:


×