Tải bản đầy đủ (.docx) (56 trang)

Trích chọn thông tin trên tập văn bản pháp luật dùng kỹ thuật học máy bán giám sát dựa trên mô hình CRFs theo tiêu chuẩn kỳ vọng tổng quát

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (862.17 KB, 56 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHẠM THỊ NGÂN

TRÍCH CHỌN THÔNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT
DÙNG KỸ THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN
MÔ HÌNH CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT

LUẬN VĂN THẠC SĨ

Hà Nội - 2011


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHẠM THỊ NGÂN

TRÍCH CHỌN THÔNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT
DÙNG KỸ THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN MÔ
HÌNH CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT

Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 604805

LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC: TIẾN SĨ NGUYỄN LÊ MINH

Hà Nội, 2011




LỜI CAM ĐOAN................................................
MỤC LỤC.............................................................................................................
DANH MỤC HÌNH VẼ........................................................................................
DANH MỤC BẢNG BIỂU ..................................................................................
KÝ TỰ VIẾT TẮT................................................................................................
LỜI CẢM ƠN .......................................................................................................
LỜI MỞ ĐẦU .......................................................................................................

CHƢƠNG 1: HỌC BÁN GIÁM SÁT THEO MÔ HÌNH TRƢỜNG NGẪU
NHIÊN CÓ ĐIỀU KIỆN.......................................................................................

1.1. Phƣơng pháp học máy Trƣờng ngẫu nhiên có điều kiện ................................
1.1.1. Khái niệm trƣờng ngẫu nhiên có điều kiện .............................................
1.1.2. Học máy CRFs ......................................................................................

1.1.2.1. Hàm tiềm năng của các mô hình CRFs......................................
1.1.2.2. Thuâṭtoan gan nhan cho dƣ liêụ dangg̣ chuỗi. ............................
́ ́
1.1.2.3. Ƣớc lƣợng tham số cho các mô hình CRFs ...............................
1.2. Học máy bán giám sát CRFs .........................................................................
1.2.1. Học máy bán giám sát ...........................................................................

1.2.1.1. Học không có giám sát và Học có giám sát ..............................
1.2.1.2. Học máy bán giám sát ................................................................
1.2.1.3. Một số thuật toán học máy bán giám sát ...................................
1.2.2. Sơ bộ về mô hình học máy bán giám sát CRFs ....................................
1.3. Kết luận chƣơng 1 .........................................................................................


CHƢƠNG 2: HỌC MÁY BÁN GIÁM SÁT CRFs THEO TIÊU CHUẨN KỲ
VỌNG TỔNG QUÁT .........................................................................................

2.1. Tiêu chuẩn kỳ vọng tổng quát
2.1.1. Giới thiệu sơ bộ .....................................................................................

2.1.2. Tiêu chuẩn kỳ vọng tổng quát ...............................................................
2.2. Mô hình học máy bán giám sát CRFs theo tiêu chuẩn kỳ vọng tống quát ...
2.3. Kết luận chƣơng 2 .........................................................................................


-2-

CHƢƠNG 3: MỘT MÔ HÌNH HỌC MÁY BÁN GIÁM SÁT CRFs TRÍCH
CHỌN THÔNG TIN PHÁP LUẬT TIẾNG VIỆT...........................................
3.1. Trích chọn thông tin từ văn bản pháp luật tiếng Việt ..................................
3.1.1. Một số đặc trƣng về miền dữ liệu văn bản pháp luật tiếng Việt ...........
3.1.2. Bài toán trích chọn thông tin văn bản pháp luật tiếng Việt ..................
3.2. Một mô hình học máy bán giám sát CRFs trích chọn thông tin pháp luật
tiếng Việt ..........................................................................................................
3.2.1. Một số phân tích ....................................................................................
3.2.2. Mô hình đề nghị ....................................................................................
3.2.3. Lựa chọn thuộc tính ..............................................................................
3.2.4. Cách đánh giá ........................................................................................
3.3. Kết luận chƣơng 3 .........................................................................................
CHƢƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ...............................................
4.1. Mô hình thực nghiệm ...................................................................................
4.1.1. Dữ liệu thực nghiệm ..............................................................................
4.1.2. Bộ công cụ Mallet .................................................................................
4.2. Thực nghiệm và đánh giá .............................................................................

4.2.1. Môi trƣờng thực nghiệm .......................................................................
4.2.2. Mô tả quy trình thực nghiệm .................................................................
4.2.3. Kết quả thực nghiệm .............................................................................
4.2.4. Đánh giá ................................................................................................
4.3. Kết luận chƣơng 4 ........................................................................................
KẾT LUẬN .........................................................................................................
TÀI LIỆU THAM KHẢO...................................................................................


-3-

DANH MỤC HÌNH VẼ

Hình 1. Đồ thị vô hướng mô tả CRFs........................................................... 9
Hình 2. Môṭ bước trong thuâṭ toán Viterbi cải tiến.....................................11
Hình 3/4. Mô hình đề xuất giải quyết bài toán........................................... 30
Hình 5. Tập các ràng buộc (Constraint file)...............................................32
Hình 6. Kết quả nhóm thực nghiệm 1......................................................... 36
Hình 7. Kết quả nhóm thực nghiệm 2......................................................... 37
Hình 8. Kết quả nhóm thực nghiệm 3......................................................... 38
Hình 9. Kết quả nhóm thực nghiệm 4......................................................... 39
Hình 10. Kết quả nhóm thực nghiệm 5....................................................... 40


-4-

DANH MỤC BẢNG BIỂU
Bảng 1. Mẫu ngữ cảnh từ vựng ...........................................................................
Bảng 2. Mẫu ngữ cảnh phát hiện tên thực thể ....................................................
Bảng 3. Kết quả nhóm thực nghiệm 1 .................................................................

Bảng 4. Kết quả nhóm thực nghiệm 2 .................................................................
Bảng 5. Kết quả nhóm thực nghiệm 3 .................................................................
Bảng 6. Kết quả nhóm thực nghiệm 4 .................................................................
Bảng 7. Kết quả nhóm thực nghiệm 5 .................................................................


CRFs
EM
GE
GEC
GIS
i.i.d
IIS
KL
L-BFGS
LOC
MISC
NER
ORG
PER


-6-

LỜI CẢM ƠN
Để hoàn thành luận văn này tác giả đã nhận đƣợc sự giúp đỡ từ rất nhiều
cơ quan, đoàn thể và cá nhân.
Trƣớc hết tôi xin chân thành cảm ơn các thầy giáo, cô giáo trong Khoa
Công nghệ Thông tin, trƣờng Đại học Công nghệ, Đại học Quốc gia Hà Nội đã
tận tình giảng dạy, trang bị cho tôi những kiến thức quý báu trong suốt quá trình

học tập tại trƣờng.
Tôi xin bày tỏ lòng biết ơn sâu sắc đến TS. Nguyễn Lê Minh - ngƣời thầy
đã trực tiếp hƣớng dẫn tôi trong suốt quá trình xây dựng và hoàn thành luận văn
này. Tôi xin bày tỏ lòng biết ơn chân thành đến thầy giáo PGS.TS. Hà Quang
Thụy và các bạn trong Phòng thí nghiệm công nghệ tri thức, Trƣờng Đại học
Công nghệ đã giúp đỡ và đóng góp nhiều ý kiến quý báu cho tôi.
Cuối cùng, tôi xin bày tỏ lòng biết ơn sâu sắc tới gia đình, bạn bè, những
ngƣời luôn động viên, giúp đỡ tôi rất nhiệt tình để hoàn thành luận văn.
Hà Nội, tháng 05 năm 2011
Học viên
Phạm Thị Ngân


-7-

LỜI MỞ ĐẦU
Trích chọn thông tin là một khâu cơ bản trong bài toán khai phá dữ liệu.
Ngày nay, cùng với sự phát triển của công nghệ thông tin, Tin học đã dần đƣợc
ứng dụng rộng rãi trong nhiều lĩnh vực nhƣ kinh tế, thƣơng mại, y tế, ngân hàng
và mang lại nhiều lợi ích to lớn. Bản thân tôi hiện đang công tác tại Học viện
Cảnh sát nhân dân, tôi có những hiểu biết nhất định về công tác giữ gìn trật tự an
toàn xã hội của lực lƣợng cảnh sát nhân dân. Tôi nhận thấy, các hoạt động của
lực lƣợng cảnh sát có liên quan nhiều đến việc lƣu trữ hồ sơ dữ liệu, tra cứu,
phân tích tổng hợp dữ liệu... Tuy nhiên, công tác quản lý hồ sơ dữ liệu này vẫn
còn kém hiệu quả do những hạn chế nhất định. Do đó tôi đã mạnh dạn chọn đề
tài tập trung nghiên cứu vào việc trích lọc thông tin trên tập văn bản pháp luật
này.
Trong nhiều thập kỷ qua, các nhà khoa học quan tâm đến lĩnh vực xử lý
ngôn ngữ tự nhiên đã nghiên cứu và đề xuất đƣợc nhiều phƣơng pháp, mô hình
xử lý ngôn ngữ với hiệu quả cao. Nổi bật trong số đó là phƣơng pháp học máy

bán giám sát dựa trên mô hình trƣờng ngẫu nhiên có điều kiện theo tiêu chuẩn
kỳ vọng tổng quát, phƣơng pháp này đạt đƣợc kết quả rất khả quan trên tập dữ
liệu ngôn ngữ tiếng Anh và hiện chƣa đƣợc áp dụng cho tiếng Việt. Đƣợc sự
giúp đỡ và đồng ý của Thầy giáo hƣớng dẫn TS. Nguyễn Lê Minh, tác giả quyết
định sử dụng mô hình này ứng dụng cho tập văn bản pháp luật.
Bố cục của luận văn chia thành 4 chương như sau:
 Chƣơng 1: Trình bày những kiến thức cơ bản về mô hình trƣờng ngẫu
nhiên có điều kiện và phƣơng pháp học máy bán giám sát.
 Chƣơng 2: Trình bày về tiêu chuẩn kỳ vọng tổng quát và áp dụng tiêu
chuẩn kỳ vọng tổng quát vào mô hình trƣờng ngẫu nhiên có điều kiện.
 Chƣơng 3: Trình bày về bài toán trích chọn thƣc thể trên tập văn bản
pháp luật và đề xuất mô hình giải quyết bài toán dựa trên mô hình
CRFs theo tiêu chuẩn kỳ vọng tổng quát.
Chƣơng 4: Trình bày các thực nghiệm trên tập dữ liệu sử dụng một số
mô hình học máy có giám sát CRFs, và mô hình học máy bán giám sát
CRFs theo chuẩn hóa entropy và theo tiêu chuẩn kỳ vọng tổng quát; Từ
đó đánh giá kết quả thu đƣợc.
Trong phần kết luận, luận văn tóm tắt lại những công việc đã thực hiện và
các kết quả đạt đƣợc. Đồng thời cũng đề cập đến những điểm còn hạn chế của
luận văn và hƣớng nghiên cứu trong tƣơng lai.



-8-

CHƢƠNG 1
HỌC BÁN GIÁM SÁT THEO MÔ HÌNH
TRƢỜNG NGẪU NHIÊN CÓ ĐIỀU KIỆN
1.1.


Phƣơng pháp học máy Trƣờng ngẫu nhiên có điều kiện
Mô hình trƣờng ngẫu nhiên có điều kiện (Conditional Random Fields, viết
tắt là CRFs) đƣợc Lafferty và cộng sự, 2001 [LCP01] giới thiệu lần đầu tiên vào
năm 2001. CRFs là mô hình dƣạ trên xác suất có điều kiện, nó cho phép tích
hợp đƣợc các thuộc tính đa dạng của chuỗi dƣƣ̃liêụ quan sát nhằm h ỗ trợ cho
quá trình phân lớp. Tuy nhiên, khác với các mô hình xác suất khác, CRFs là mô
hình đồ thị vô hƣớng. Điều này cho phép CRFs có thể định nghĩa phân phối xác
suất của toàn bộ chuỗi trạng thái với điều kiêṇ biết chuỗi quan sát cho trƣ ớc
thay vì phân phối trên mỗi trạng thái với điều kiêṇ bi ết trạng thái trƣớc đó và
quan sát hiện tại nhƣ trong các mô hình đồ thị có hƣớng khác. Theo Lafferty và
cộng sự [LCP01], Hanna M. Wallach, 2002 và 2004 [Wal02, Wal04], bản chất “phân

phối điều kiên”g̣ và“phân phối toàn cuc”g̣ của CRF s cho phép mô hinh ̀ này khắc
phucg̣ đƣơcg̣ những nhƣơcg̣ điểm của các mô hinh ̀ trƣ ớc đó trong việc gán nhãn
và phân đoaṇ các dƣƣ̃liêụ dangg̣ chuỗi mà tiêu biểu là vấn đề „label bias‟.
Khi đề cập đến trƣờng ngẫu nhiên có điều kiện, chúng ta sử dụng một số
qui ƣớc kí hiệu:
 Chữ viết hoa X, Y, Z…kih
́ iêụ các biến ngẫu nhiên.
 Chữ thƣờng đậm x, y, t, s,…kí hiệu các vector nhƣ

vector biểu diêñ
chuỗi các dƣƣ̃liêụ quan sát, vector biểu diêñ chuỗi các nhãn …



Chƣƣ̃vi ết thƣờng in đâṃ và cóchỉsốlàkíhiêụ của môṭthành phần trong
môṭvector, ví dụ xi chỉ một thành phần tại vị trí i trong vector x.




Chữ viết thƣờng không đậm nhƣ x , y,… là kih́ iêụ các giá tr ị đơn nhƣ
một dƣƣ̃liêụ quan sát hay một trangg̣ thái.

 S: Tâpg̣ hƣƣ̃u haṇ các trangg̣ thái của môṭmô hinh̀ CRFs.

1.1.1. Khái niệm trƣờng ngẫu nhiên có điều kiện
Kí hiệu X là biến ngâũ nhiên nhâṇ giátri lạ̀chuỗi dƣƣ̃liêụ cần phải gán nhañ và
Y là biến ngẫu nhiên nhận giá trị là chuỗi nhãn tƣơng ứng . Mỗi thành phần Yi của
Y là một biến ngẫu nhiên n hâṇ g iá trị trong tập hữu hạn các trạng thái S. Trong bài
toán gán nhãn t ừ loại, X có thể nhận giá trị là các câu trong ngôn ngữ tƣ g̣ nhiên
(gồm các từ), Y là một chuỗi ngẫu nhiên các nhãn tƣơng ứng với các t ừ


-9-

tạo thành câu này vàmỗi một thành phần Yi của Y có miền giá trị là tập tất cả các
nhãn từ loại có thể (danh từ, động từ, tính từ,...).
Cho môṭđồthi vộ hƣớng phi chu trinh̀ G = (V, E), ở đây V là tập các đỉnh
của đồ thị và E là tập các cạnh vô hƣớn g nối các đinhh̉ đồthi g̣. Các đỉnh V biểu
diêñ các thành phần của biến ngâũ nhiên Y sao cho tồn taịánh xa g̣môṭ- môṭgiƣƣ̃a
môṭđinhh̉ vàmôṭthành phần Yv của Y. Ta nói (Y|X) là một trƣờng ngẫu nhiên điều
kiêṇ (Conditional Random Field) khi với điều kiêṇ X, các biến ngẫu nhiên Yv
tuân theo tinh́ chất Markov đối với đồthi Gg̣ [LCP01]:
P(Yv | X,Yω,ω ≠ v) = P(Yv | X,Yω,ω∈ N(v))

(1.1)

Ở đây , N(v) là tập tất cả các đỉnh kề với
v. Nhƣ vây , môṭCRF làmôṭ

trƣờng ngâũ nhiên phu g̣thuôcg̣ toàn cucg̣ vào X. Trong các bài toán xƣh̉ lýdƣƣ̃liêụ
dạng chuỗi, G đơn giản chỉlàdangg̣ chuỗi G = (V={1,2,…m}, E={(i,i+1)}).
Kí hiệu X=(X1, X2,…, Xn), Y=(Y1,Y2,...,Yn). Mô hinh̀ đồ thị cho CRF s có
dạng:

Yn-1

Hình 1. Đồ thị vô hướng mô tả CRFs
Gọi C là tập hợp tất cả các đồ thị con đầy đủ của đồ thị G - đồthi biệh̉u diêñ
cấu trúc của môṭCRFs. Áp dungg̣ kết quảcủa J.Hammersley và P. Clifford, 1971
[HC71] cho các trƣờng ngâũ nhiên Markov , sẽ thƣ̀a sốhóa đƣơcg̣ p(y|x) - xác
suất của chuỗi nhañ với điều kiêṇ biết chuỗi dƣƣ̃liêụ quan sát - thành tích của các
hàm tiềm năng nhƣ sau (theo [Wal04]):

P(y | x) = ∏ψ A ( A | x)
A∈C

Vì trong các bài toán xử lý dữ liệu dạng chuỗ i, đồthi biệh̉u diêñ cấu trúc của
môṭCRF códangg̣ đƣờng thẳng nhƣ trong hinh̀ 1 cho nên tâpg̣ C phải là hợp của E và
V, trong đóE là tập các cạnh của đồ thị G và V là tập các đỉnh của G, hay nói cách
khác đồ thị con A hoăcg̣ chỉgồm môṭđinhh̉ hoăcg̣ chỉgồm môṭcanḥ của G.


-10-

1.1.2. Học máy CRFs
1.1.2.1. Hàm tiềm năng của các mô hình CRFs

Lafferty và cộng sự [LCP01] giới thiệu phƣơng pháp xác định các hàm
tiềm năng cho các mô hình CRFs dƣạ trên nguyên lýcƣcg̣ đaịhóa Entropy . Cƣcg̣

đaịhóa Entropy làmôṭnguyên lýcho phép đánh giácác phân phối xác suất tƣ̀
môṭtâpg̣ các dƣƣ̃liêụ huấn luyêṇ . Bằng cách áp dungg̣ nguyên lýcƣcg̣ đaịhóa
Entropy, Lafferty xác định hàm tiềm năng của một CRF có dạng một hàm mũ.

ψ A (A | x) = exp ∑γ k fk (A | x)
Ở đây fk là một thuộc tính của chuỗi dữ liệu quan sát và
mƣc đô g̣biểu đaṭthông tin cua thuôcg̣ tinh f .
́



Có hai loại thuộc tính là thuộc tính chuyển (kí hiệu là t) và thuộc tính trạng
thái (kí hiệu là s) tùy thuộc vào A là đồ thị con gồm một đỉnh hay một cạnh của
G. Thay các hàm tiềm năng vào công thƣ́c (1.2) và thêm vào đómôṭthƣ̀a s ố

chuẩn hoa Z(x) để đảm bảo tổng xác suất của tất cả các chuỗi

i taịvítrí i

́

vơi môṭchuỗi dƣ liêụ quan sat bằng 1, ta đƣơcg̣:
́

ƣ̃

Ở đây , x, y là chuỗi dữ liệu quan sát và chuỗi trạng thái tƣơng
thuôcg̣ tinh́ của tòan bô g̣chuỗi quan sát vàcác trangg̣ thái taịvi t́ rií -1, i trong chuỗi trạng thái ; sk là thuộc tính của toàn bộ chuỗi quan sát
và trạng thá


trong chuỗi trangg̣ thái.
si =

1 nếu xi=Bill vàyi= B_PER

0 nếu ngƣơcg̣ laị
1 nếu xi-1= “Bill”, xi=”Clinton” và yi-1=B_PER,yi=I_PER

ti =

1 nếu ngƣơcg̣ laị


Thƣ̀a sốchuẩn hóa Z(x) đƣơcg̣ tinh́ nhƣ sau:

Đặt θ(λ , λ
12

lƣơngg̣ giátri nhợ̀các phƣơng pháp ƣớc lƣơngg̣ tham sốcho mô hinh̀ se đƣ̃ ƣơcg̣ đề câpg̣
trong phần sau.
1.1.2.2. Thuâṭtoan gan nhan cho dƣ liêụ dangg̣ chuỗi.
́

Tại mỗi vị trí
chuyển |S|×|S| nhƣ sau:

Ở đây M (y’, y, x) là xác suất chuyển từ trạng thái y’ sang trangg̣ thai y vơi
chuỗi dƣ liêụ quan sat la
ƣ̃


quan sat x là nghiệm của phƣơng trình:
́

Chuỗi y* đ
trong hình 2. Đinḥ nghia
bơi trangg̣ thai y va co xac suất lơn nhất” biết chuỗi quan sat la x.


́

xác định ∂

i +1

Pr∂i ( y1 )

∂i ( y2 )


Pr ∂i ( yN )

Hình 2. Môṭ bước trong thuâṭ toán Viterbi cải tiến
Đặt Pr ei ( y) = arg max(∂i−1 ( y') * M i ( y', y, x)). Giả sử chuỗi dữ liệu quan sát
x có độ dài n, sƣh̉ dungg̣ ki ƣ̃thuâṭbacktracking đểtim̀ chuỗi trangg̣ thái y* tƣơng ƣ́ng
nhƣ sau:
 Bƣớc 1: Với mọi y thuộc tập trạng thái tìm
o

y * (n) = arg max(∂n ( y))


o

i



n


-12-

Bƣớc lăpg̣: chƣ̀ng nào

i>0 o i
i-1
o
o
Chuỗi y* tìm đƣợc chính là chuỗi có xác suất



y



Prei(y)

y*(i) = y
p(y*|x) lơn nhất ,


chính là chuỗi nhãn phù hợp nhất với chuỗi dữ liệu quan sát cho trƣớc.
Nhƣ vậy, do bản chất phân phối toàn cục của mình, CRFs có thể giải quyết
đƣơcg̣ vấn đề„label bias‟, một nhƣợc điểm tiêu biểu của mô hình MEM [MMI02,
Wal04]. Ở phƣơng diện lý thuyết mô hình , ta cóthể coi mô hinh ̀ CRF s nhƣ là
môṭmáy trangg̣ thái xác suất với các trongg̣ sốkhông chuẩn hóa , mỗi trongg̣ sốgắn
liền với môṭbƣớc chuyển trangg̣ thái. Bản chất không chuẩn hóa của các trongg̣ số
cho phép các bƣớc chuyển trangg̣ thái cóthểnhâṇ các giátri quaṇ trongg̣ khác
nhau. Vì thế bất cứ một trạng thái nào cũng có thể làm tăng hoặc giảm xác suất
đƣơcg̣ truyền cho các trangg̣ thái sau nómà vâñ đảm bảo xác suất cuối cùng đƣơcg̣
gán cho toàn bộ chuỗi trạng thái thỏa mãn định nghĩa về xác suất nhờ thừa số
chuẩn hóa toàn cucg̣.
1.1.2.3. Ƣớc lƣợng tham số cho các mô hình CRFs

Kĩ thuật đƣợc sử dụng để đánh giá tham sốcho môṭmô hinh ̀ CRF s là làm cƣcg̣
đaịhóa đô đg̣ o likelihood giƣƣ̃a phân phối mô hinh̀ vàphân phối thƣcg̣ nghiêṃ.

Nguyên lýcưcc̣ đaị likelihood đƣợc phát biểu nhƣ sau: Các tham số tốt nhất
của mô hình là các tham số làm cực đại hàm likelihood. Nhƣ vậy, vềphƣơng diêṇ
toán hocg̣, bài toán ƣớc lƣợng tham số cho một mô hình CRF s chính là bài toán tìm
cực đại của hàm log -likelihood. Có nhiều phƣơng pháp tim ̀ cƣcg̣ đaịcủa hàm loglikelihood nhƣ các phƣơng pháp lặp (IIS, GIS), các phƣơng pháp tối ƣu số
(phƣơng pháp dựa trên vector gradient nhƣ phƣơng pháp gradient liên hơpg̣ ,
quasi-Newton … ) và L-BFGs có thể phục vụ cho ƣớc lƣợn g tham sốmô hinh̀ .
Trong các phƣơng pháp tim̀ cƣcg̣ tri hạ̀m log -likelihood này , phƣơng pháp L BFGs đƣơcg̣ đánh giálàvƣợt trội và có tốc độ hội tụ nhanh nhất [Mal02].

1.2.

Học máy bán giám sát CRFs

1.2.1. Học máy bán giám sát
Trong lý thuyết xác suất, một dãy các biến ngẫu nhiên đƣợc gọi là có độc

lập cùng phân phối nếu chúng có cùng một phân phối và độc lập với nhau. Các
quan sát trong một mẫu thƣờng đƣợc giả thiết là độc lập cùng phân phối nhằm
làm đơn giản hoá tính toán toán học bên dƣới của nhiều phƣơng pháp thống kê.
Trong nhiều ứng dụng, điều này thƣờng không thực tế. Trƣớc khi nghiên cứu về


-13-

học máy bán giám sát, tôi giới thiệu sơ bộ về hai phƣơng pháp học máy cơ bản
là Học không có giám sát và Học có giám sát.
1.2.1.1. Học không có giám sát và Học có giám sát

Học không có giám sát (unsupervised learning): Là phƣơng pháp học máy
nhằm tìm ra một mô hình phù hợp với các quan sát. Cho trƣớc một mẫu chỉ gồm
các đối tƣợng (objects), cần tìm kiếm cấu trúc quan tâm (interesting structures)
của dữ liệu, và nhóm các đối tƣợng giống nhau.
Học không giám sát thƣờng coi các đối tƣợng đầu vào là một tập các biến
ngẫu nhiên. Sau đó, một mô hình mật độ kết hợp sẽ đƣợc xây dựng cho tập dữ
liệu đó. Biểu diễn toán học của phƣơng pháp này nhƣ sau:
Cho X=(x1 , x2 , …, xn ) là tập hợp gồm n mẫu (examples or points), xi ∈

X với mọi i∈[N]:= {1,2, ..., n}. Thông thƣờng, ta giả thiết rằng các mẫu đƣợc tạo ra một cách
độc lập và giống nhau (i.i.d – independently and identically distributed) từ một phân phối chung
trên Χ. Mục đích của học không giám sát là tìm ra một cấu trúc thông minh trên tập dữ liệu đó.

Học không có giám sát có thể đƣợc dùng kết hợp với suy diễn Bayes
(Bayesian inference) để cho ra xác suất có điều kiện (nghĩa là học có giám sát)
cho bất kì biến ngẫu nhiên nào khi biết trƣớc các biến khác.
Học không giám sát cũng hữu ích cho việc nén dữ liệu: về cơ bản, mọi giải
thuật nén dữ liệu hoặc là dựa vào một phân bố xác suất trên một tập đầu vào một

cách tƣờng minh hay không tƣờng minh.
Học giám sát (supervised learning): Là phƣơng pháp học máy xây dựng
một hàm từ dữ liệu huấn luyện. Cho trƣớc một mẫu bao gồm các cặp đối tƣợng
- nhãn (xi,yi), cần tìm ra mối quan hệ dự đoán giữa các đối tƣợng và các nhãn.
Mục đích là học một phép ánh xạ từ x tới y, khi cho trƣớc một tập huấn luyện gồm các cặp (x i,yi), trong đó yi ∈ Y gọi là các nhãn hoặc đích của các mẫu Xi.

Nếu nhãn là các số,

biểu diễn vector cột của các nhãn. Nhƣ đã nêu,

một yêu cầu chuẩn là các cặp (xi,yi) tuân theo giả thiết i.i.d trải khắp trên X×Y.
Nhiệm vụ đƣợc định rõ là, ta có thể tính toán đƣợc một phép ánh xạ thông qua
thực thi dự đoán của nó trên tập kiểm thử. Nếu các nhãn lớp là liên tục, nhiệm
vụ phân lớp đƣợc gọi là hồi quy. Có hai họ thuật toán giám sát: generative
model và discriminative model:
Generative model: Phƣơng pháp này sẽ tạo ra một mô hình mật độ phụ
thuộc vào lớp (class-conditional density) p(x|y) bằng một vài thủ tục học không
giám sát. Một mật độ sinh có thể đƣợc suy luận bằng cách sử dụng lý thuyết
Bayes.


-14-

Gọi là mô hình sinh vì ta có thể tự tạo ra các mẫu dữ liệu.
Discriminative model: Phƣơng pháp này sẽ thay vì đánh giá x i đƣợc tạo ra
nhƣ thế nào mà tập trung đánh giá p(y|x) . Một vài phƣơng pháp discriminative
hạn chế chúng để mô hình xem p(y|x) lớn hơn hoặc nhỏ hơn 0.5, ví dụ nhƣ
SVM. Trong thực hành, phƣơng pháp này thƣờng đƣợc đánh giá là hiệu quả
hơn phƣơng pháp sinh (generative).
Để có thể giải quyết một bài toán nào đó của học có giám sát ngƣời ta phải

xem xét nhiều bƣớc khác nhau:
1. Xác định loại của các ví dụ huấn luyện. Trƣớc khi làm bất cứ điều gì,
ngƣời kĩ sƣ nên quyết định loại dữ liệu nào sẽ đƣợc sử dụng làm ví
dụ. Chẳng hạn, đó có thể là một kí tự viết tay đơn lẻ, toàn bộ một từ
viết tay, hay toàn bộ một dòng chữ viết tay.
2. Thu thập tập huấn luyện. Tập huấn luyện cần đặc trƣng cho thực tế sử
dụng của hàm chức năng. Vì thế, một tập các đối tƣợng đầu vào đƣợc
thu thập và đầu ra tƣơng ứng đƣợc thu thập, hoặc từ các chuyên gia
hoặc từ việc đo đạc tính toán.
3. Xác định việc biễu diễn các đặc trƣng đầu vào cho hàm chức năng
cần tìm. Sự chính xác của hàm chức năng phụ thuộc lớn vào cách các
đối tƣợng đầu vào đƣợc biểu diễn. Thông thƣờng, đối tƣợng đầu vào
đƣợc chuyển đổi thành một vec-tơ đặc trƣng, chứa một số các đặc
trƣng nhằm mô tả cho đối tƣợng đó. Số lƣợng các đặc trƣng không
nên quá lớn, do sự bùng nổ tổ hợp; nhƣng phải đủ lớn để dự đoán
chính xác đầu ra.
4. Xác định cấu trúc của hàm chức năng cần tìm và giải thuật học tƣơng
ứng. Ví dụ, ngƣời kĩ sƣ có thể lựa chọn việc sử dụng mạng nơ-ron
nhân tạo hay cây quyết định.
5. Hoàn thiện thiết kế. Ngƣời kĩ sƣ sẽ chạy giải thuật học từ tập huấn
luyện thu thập đƣợc. Các tham số của giải thuật học có thể đƣợc điều
chỉnh bằng cách tối ƣu hóa hiệu năng trên một tập con (gọi là tập
kiểm chứng -validation set) của tập huấn luyện, hay thông qua kiểm
chứng chéo (cross-validation). Sau khi học và điều chỉnh tham số,
hiệu năng của giải thuật có thể đƣợc đo đạc trên một tập kiểm tra độc
lập với tập huấn luyện.


-15-


Trong “học có giám sát”, các dữ liệu đƣợc gán nhãn nên việc giải quyết
vấn đề thƣờng thuận lợi hơn rất nhiều. Tuy nhiên, với một số lƣợng dữ liệu lớn
thì công việc gán nhãn cho dữ liệu đòi hỏi nỗ lực của con ngƣời và tốn nhiều
thời gian. Còn “học không có giám sát” là mô hình hóa một tập dữ liệu, trong đó
dữ liệu đầu vào chƣa đƣợc gán nhãn mà nó dựa trên môt mô hình phù hợp với
các quan sát, vì vậy với một số lƣợng lớn dữ liệu thì sự chính xác của kết quả
thu đƣợc không cao. Thực tế cho thấy rằng, dữ liệu chƣa đƣợc gán nhãn có thể
thu thập đƣợc rất nhiều và một cách dễ dàng. Tuy nhiên để xử lý số lƣợng dữ
liệu đó có kết quả tốt cũng gặp nhiều khó khăn.
1.2.1.2. Học máy bán giám sát

“Học máy bán giám sát” là sự kết hợp giữa “học có giám sát” và “học
không có giám sát”. Với một số lƣợng lớn dữ liệu, kể cả dữ liệu chƣa gán nhãn
và những dữ liệu đã đƣợc gán nhãn, sẽ đƣợc “máy học” giải quyết bằng một
cách tốt nhất bằng các giải thuật “học bán giám sát.
Từ đó, học bán giám sát có thể đƣợc xem là:
- Học giám sát cộng thêm dữ liệu chƣa gán nhãn (Supervised learning
+additional unlabeled data).
- Học không giám sát cộng thêm dữ liệu gán nhãn (Unsupervised
learning + additional labeled data).
Học bán giám sát chính là cách học sử dụng thông tin có ở cả dữ liệu gán
nhãn (trong tập dữ liệu huấn luyện) lẫn dữ liệu chƣa gán nhãn. Các thuật toán
học bán giám sát có nhiệm vụ chính là mở rộng tập các dữ liệu gán nhãn ban
đầu. Hiệu quả của thuật toán phụ thuộc vào chất lƣợng của các mẫu gán nhãn
đƣợc thêm vào ở mỗi vòng lặp và đƣợc đánh giá dựa trên hai tiêu chí:
- Các mẫu đƣợc thêm vào phải đƣợc gán nhãn một cách chính xác.
- Các mẫu đƣợc thêm vào phải mang lại thông tin hữu ích cho bộ phân
lớp (hoặc dữ liệu huấn luyện).
Các phƣơng pháp học bán giám sát sẽ rất hữu ích khi dữ liệu chƣa gán
nhãn nhiều hơn dữ liệu gán nhãn. Việc thu đƣợc dữ liệu gán nhãn là rẻ, nhƣng

để gán nhãn chúng thì tốn rất nhiều thời gian, công sức và tiền bạc. Đó là tình
trạng của rất nhiều các lĩnh vực ứng dụng trong học máy nhƣ:
- Trong nhận dạng lời nói, ta sẽ dễ dàng ghi lại một lƣợng lớn các bài diễn
thuyết, nhƣng để gán nhãn chúng yêu cầu con ngƣời phải lắng nghe rồi đánh
máy sao chép lại.
- Sự phong phú của hàng tỉ các trang web sẵn sàng cho xử lý tự động, nhƣng
để phân lớp chúng một cách tin cậy đòi hỏi con ngƣời phải đọc chúng.


-16-

...
Học bán giám sát là việc học trên cả dữ liệu đã và chƣa đƣợc gán nhãn. Từ
một số lƣợng lớn các dữ liệu chƣa đƣợc gán nhãn, và một tập với số luợng nhỏ
dữ liệu đã đƣợc gán nhãn ban đầu (thƣờng gọi là seed set) để xây dựng một bộ
phân lớp thậm chí là tốt hơn. Trong quá trình học nhƣ thế, phƣơng pháp học sẽ
tận dụng đƣợc những thông tin phong phú của dữ liệu chƣa gán nhãn, mà chỉ
yêu cầu một số lƣợng rất nhỏ các dữ liệu đã gán nhãn.
-

1.2.1.3. Một số thuật toán học máy bán giám sát

Theo Zhi-Hua Zhou và Ming Li, 2010 [ZL10], có rất nhiều các thuật toán
học máy bán giám sát và có thể chia thành bốn nhóm phƣơng pháp nhƣ sau:
phƣơng pháp sinh [MU97, NCT00, SL94], S3VMs (Semi-Supervised Support
Vector Machines – phƣơng pháp máy vectơ hỗ trợ bán giám sát) [CZ05, GY05,
Joa99, LJ05], phƣơng pháp dựa trên đồ thị [BN04, BNS05, BNS06, ZBL04,
ZGL03] và phƣơng pháp dựa trên mâu thuẫn [ZL07, ZL05, ZZY07, ZC06,
NG00, GZ00, BS06, BM98].
- Trong phƣơng pháp sinh, cả tập mẫu gán nhãn và chƣa gán nhãn đƣợc

giả thiết đƣợc sinh ra từ mô hình cùng tham số. Do đó, những tham số mô
hình có liên kết trực tiếp những mẫu chƣa gán nhãn với mục tiêu học.
Những mô hình trong phƣơng pháp này thƣờng coi những nhãn của dữ
liệu chƣa gán nhãn là những giá trị thiếu của tham số mô hình và sử dụng
thuật toán cực đại hóa kỳ vọng EM [DLR77] để tính toán ƣớc lƣợng cực
đại likelihood của tham số mô hình. Những thuật toán trong phƣơng pháp
này khác nhau ở mô hình sinh đƣợc sử dụng để phù hợp với dữ liệu, ví dụ
phƣơng pháp pha trộn Gaussian [SL94], phƣơng pháp Naïve Bayes
[NCT00]. Những mô hình sinh thực thi đơn giản, dễ dàng và có thể hiệu
quả hơn mô hình discriminative khi học với mẫu gán nhãn nhỏ. Tuy
nhiên, nhóm thuật toán này có nhƣợc điểm lớn đó là khi giả thiết mô hình
sai hoặc mô hình sử dụng tập dữ liệu chƣa gán nhãn lớn thì việc thực thi
bị kém hiệu quả. Do đó, để mô hình này thực thi có hiệu quả trong những
ứng dụng thực, cần phải tạo đƣợc mô hình sinh chính xác dựa trên miền
tri thức, hoặc ngƣời ta có thể kết hợp những mặt tích cực của mô hình
sinh và mô hình discriminative [AG05, FUS05]. Một số thuật toán điển
hình của phƣơng pháp này đƣợc Xiaojin Zhu đề cập trong [Zhu08] nhƣ:
Thuật toán học bán giám sát cực đại kỳ vọng EM địa phƣơng, Thuật toán
Self-training...


-17-

-

Phƣơng pháp S3VMs cố gắng sử dụng dữ liệu chƣa gán nhãn để điều
chỉnh đƣờng biên quyết định đƣợc học từ tập nhỏ những mẫu dữ liệu gán
nhãn, nhờ đó có thể đi qua đƣợc những vùng dày đặc trong khi vẫn giữ
đƣợc phân lớp chính xác cho dữ liệu gán nhãn. T. Joachims, 1999 [Joa99]
đề xuất mô hình TSVM (Transductive Support Vector Machine). Đầu tiên,

thuật toán này khởi tạo một SVM sử dụng những mẫu gán nhãn và gán
những nhãn tiềm năng cho dữ liệu chƣa gán nhãn. Sau đó, nó lặp lại việc
cực đại hóa biên của cả dữ liệu gán nhãn và chƣa gán nhãn với những
nhãn tiềm năng bằng cách đặt nhãn của dữ liệu chƣa gán nhãn trên các
mặt của biên quyết định. Cách này có thể đạt đƣợc giải pháp tối ƣu đó là
biên quyết định không chỉ phân lớp chính xác dữ liệu gán nhãn mà còn
tránh đƣợc việc đi qua vùng mật độ cao. Tuy nhiên, độ không lồi của hàm
thiệt hại (loss function) trong TSVM sẽ dẫn đến thực tế là có nhiều điểm
tối ƣu cục bộ. Do đó nhiều nghiên cứu đƣợc đề xuất để giảm tác động
tiêu cực này.
Phƣơng pháp học bán giám sát dựa trên đồ thị đầu tiên có thể thực thi
đƣợc đề xuất bởi Blum và Chawla, 2001 [BC01], họ xây dựng một đồ thị
với các nút là những mẫu huấn luyện (cả gán nhãn và chƣa gán nhãn) và
cạnh giữa các nút thể hiện mối quan hệ giữa những mẫu tƣơng ứng ví dụ
nhƣ quan hệ đồng dạng. Dựa trên đồ thị này, vấn đề học bán giám sát có
thể đƣợc giải quyết bằng việc tìm đƣờng cắt nhỏ nhất của đồ thị mà theo
đó những nút trong mỗi phần có cùng nhãn. Sau đó, A. Blum và cộng sự,
2004 [BLR04] làm nhiễu đồ thị bằng một số điểm ngẫu nhiên và tạo ra
đƣờng cắt “mềm” nhỏ nhất sử dụng phiếu bầu tối đa. Cả [BC01] và
[BLR04] đều sử dụng hàm dự đoán rời rạc ví dụ dự đoán của những mẫu
chƣa gán nhãn có thể là một trong các nhãn có thể. X. Zhu và cộng sự,
2003 [ZGL03] mở rộng hàm dự đoán rời rạc thành hàm liên tục. D. Zhou
và cộng sự, 2004 [ZBL04] định nghĩa độ thiệt hại bình phƣơng của hàm
dự đoán thông qua cả dữ liệu gán nhãn và chƣa gán nhãn và đồ thị
Laplacian chuẩn hóa. Hầu hết những nghiên cứu trƣớc đây về học bán
giám sát dựa trên đồ thị thƣờng tập trung vào việc xây dựng một đồ thị
phản ánh đƣợc mối quan hệ thiết yếu gữa những mẫu, đây là điều then
chốt có tác động lớn đến thực thi việc học. Sau này, nhiều nghiên cứu đã
cố gắng cải thiện đồ thị bằng việc thêm vào những đặc trƣng miền tri
thức. X. Zhang và W. S. Lee, 2007 [ZL07b] chọn dải thông RBF tốt hơn

để cực tiểu hóa lỗi dự đoán trên dữ liệu gán nhãn sử dụng đánh giá chéo.
M. Hein và M. Maier, 2007 [HM07] cố gắng giảm dữ liệu nhiễu để đạt


-18-

đƣợc đồ thị tốt hơn... Mặc dù phƣơng pháp học bán giám sát dựa trên đồ
thị đƣợc ứng dụng khá rộng rãi nhƣng nó có nhƣợc điểm lớn về quy mô.
- Phƣơng pháp học bán giám sát dựa trên mâu thuẫn đƣợc đƣa ra gần đây
bởi Z. H. Zhou, 2008 [Zho08] dựa trên những nghiên cứu của A. Blum và
T. Mitchell, 1998 [BM98]. Trong phƣơng pháp này, nhiều máy học đƣợc
huấn luyện cho cùng tác vụ và mẫu thuẫn giữa các máy học sẽ nảy sinh
trong quá trình học. Ở đây, dữ liệu chƣa gán nhãn đƣợc coi là “cơ sở” cho
việc trao đổi thông tin. Nếu một máy học nào chắc chắn hơn các máy học
khác về một mẫu chƣa gán nhãn đang tranh luận thì máy học đó sẽ dạy
cho các máy học khác về mẫu này, sau đó mẫu này có thể đƣợc chọn để
truy vấn. Do đó, phƣơng pháp này không có những nhƣợc điểm nhƣ
những mô hình khác nhƣ vi phạm giả thiết mô hình, hàm thiệt hại không
lồi, hay nhƣợc điểm về quy mô của thuật toán học. Thuật toán điển hình
của nhóm phƣơng pháp này đƣợc Ziaojin Zhu đề cập trong [Zhu08] là
Thuật toán Co-training.
Mỗi phƣơng pháp học bán giám sát đều có những ƣu và nhƣợc điểm riêng.
Do đó tùy thuộc vào ứng dụng và loại dữ liệu mà lựa chọn phƣơng pháp học và
thuật toán cụ thể cho phù hợp.
1.2.2. Sơ bộ về mô hình học máy bán giám sát CRFs
Nhƣ phân tích ở 1.2.1, có nhiều phƣơng pháp học bán giám sát và mỗi
phƣơng pháp có những ƣu và nhƣợc điểm riêng. Luận văn của tác giả tập trung
nghiên cứu mô hình học bán giám sát CRFs, mô hình này thuộc nhóm phƣơng
pháp sinh.
Mô hình học bán giám sát CRFs là mô hình kết hợp đƣợc cả dữ liệu chuỗi

đã gán nhãn và chƣa gán nhãn; mô hình đã khắc phục đƣợc những yếu điểm của
các mô hình khác và đƣợc ứng dụng trong nhiều nghiên cứu về xử lý ngôn ngữ.
Feng Jiao và cộng sự, 2006 [JWL06] đã đề xuất thuật toán tận dụng dữ liệu
chƣa gán nhãn qua chuẩn hóa entropy (entropy regularization) – thuật toán
đƣợc mở rộng từ tiếp cận đƣợc đề xuất trong [GB04] cho mô hình CRFs có cấu
trúc. Một tiếp cận khác, Gideon S.Mann và Andrew McCallum [MC08], Gregory
Druck và cộng sự [DMC08] đề xuất phƣơng pháp học bán giám sát CRFs sử dụng
tiêu chuẩn kỳ vọng tổng quát GE, phƣơng pháp này sẽ giới thiệu trong mục 2.2.
Trong phƣơng pháp này, thay vì sử dụng các mẫu gán nhãn máy học sẽ truy cập
các đặc trƣng gán nhãn. Những đặc trƣng này có thể đƣợc gán nhãn với chi phí
thấp hơn nhiều so với gán nhãn toàn bộ mẫu dữ liệu vì việc gán nhãn đặc trƣng
có thể chỉ cần gán nhãn cho những phần nhỏ của cấu trúc chuỗi hoặc cây.


-19-

Bên cạnh đó, việc sử dụng tiêu chuẩn kỳ vọng tổng quát xác lập các tham
số trong huấn luyện hàm mục tiêu cho phép tạo đƣợc kỳ vọng mô hình gần với
phân phối mục tiêu. Luận văn sẽ tiến hành thực thi mô hình này trên tập dữ liệu
tiếng Việt và so sánh với một số phƣơng pháp khác. Kết quả thực nghiệm sẽ thể
hiện ở Chƣơng 4.
1.3.

Kết luận chƣơng 1

Chƣơng này giới thiệu về mô hình trƣờng ngẫu nhiên có điều kiện – một
mô hình khá phổ biến và hiệu quả trong các ứng dụng về xử lý ngôn ngữ tự
nhiên - và giới thiệu về các phƣơng pháp học máy bán giám sát – một phƣơng
pháp đƣợc coi là tận dụng đƣợc các ƣu điểm của hai phƣơng pháp học máy có
giám sát và học không có giám sát. Từ đó, sơ lƣợc về một số mô hình học máy

bán giám sát áp dụng vào mô hình trƣờng ngẫu nhiên có điều kiện, nổi bật là mô
hình học máy bán giám sát CRFs sử dụng tiêu chuẩn kỳ vọng tổng quát; mô hình
này sẽ đƣợc giới thiệu và phân tích trong chƣơng tiếp theo của luận văn.


-20-

CHƢƠNG 2
HỌC MÁY BÁN GIÁM SÁT CRFs THEO
TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT
2.1. Tiêu chuẩn kỳ vọng tổng quát
2.1.1. Giới thiệu sơ bộ
Những phƣơng pháp học có giám sát đòi hỏi tập các trƣờng hợp gán nhãn
lớn và nó hạn chế khả năng học ở những miền tri thức mới. Những phƣơng pháp
học bán giám sát với mục tiêu tăng cƣờng sử dụng tập các trƣờng hợp chƣa gán
nhãn là giải pháp lý tƣởng nhằm giảm các nỗ lực gán nhãn dữ liệu. Tuy nhiên,
phƣơng pháp này thƣờng phức tạp về tính toán và phải tính đến độ tin cậy trong
các trƣờng hợp siêu tham số nhạy cảm của những phƣơng pháp học bán giám
sát. Trong khi đó, chúng ta cần một phƣơng pháp đơn giản nhƣng hiệu quả cho
phép thực hiện những mô hình huấn luyện trên những miền tri thức mới và đòi
hỏi tối thiểu việc gán nhãn. Một phƣơng pháp bán giám sát mới kết hợp tri thức
tiền nhiệm giữa những đặc trƣng và lớp vào việc huấn luyện sử dụng tiêu chuẩn
kỳ vọng tổng quát (GEC), đƣợc Andrew McCallum và cộng sự, 2007 [CMD07] giới
thiệu, đã và đang gây đƣợc nhiều chú ý và đƣa vào nhiều ứng dụng.
Tiêu chuẩn kỳ vọng tổng quát (GEC) [CMD07] là những điều kiện (term)
trong hàm mục tiêu huấn luyện cho phép gán giá trị cho kỳ vọng mô hình. GEC
có điểm giống với phƣơng pháp mô-men, nhƣng cho phép biểu diễn những
tham chiếu vô hƣớng tùy ý trên các kỳ vọng của những hàm tùy biến mà không
yêu cầu sự cân bằng mô-men mẫu và mô-men mô hình. Đồng thời, GEC cũng có
3 điểm khác căn bản với những hàm mục tiêu huấn luyện truyền thống; Đó là,

không cần ánh xạ một-một giữa những điều kiện GEC và những tham số mô
hình, những kỳ vọng mô hình cho những điều kiện GEC khác nhau có thể đƣợc
huấn luyện trên những tập dữ liệu khác nhau, kỳ vọng tham chiếu (hàm score)
có thể xác định từ nguồn khác nhƣ những tác vụ khác, những tri thức tiền
nghiệm.
Phƣơng pháp đƣợc sử dụng trong luận văn này là sử dụng kết hợp những
đặc trƣng và lớp biết trƣớc. Kỳ vọng của mô hình đƣợc ƣớc lƣợng từ những
phân phối lớp đƣợc huấn luyện từ những đặc trƣng lựa chọn và hàm tỷ số là
phân kỳ KL (S. Kullback và R. A. Leibler, 1951 [KL51], S. Kullback, 1959,
[Kul59]) – là độ đo không đối xứng giữa 2 phân bố xác suất – phân phối xác
suất thực và phân phối xác suất mục tiêu - từ những phân phối tham chiếu đƣợc
ƣớc lƣợng từ những nguồn đã có. Kết hợp những điều kiện GEC với tham số đã


-21-

biết cho phép sử dụng những mẫu đồng xuất hiện trong dữ liệu chƣa gán nhãn
để học những tham số cho những đặc trƣng mà chƣa có trong thông tin tiền
nghiệm.
Phƣơng pháp áp dụng trong luận văn để thực hiện tác vụ Nhận dạng tên
thực thể (NER) nhƣ tên ngƣời, tên địa điểm, tổ chức và những thực thể khác.
2.1.2. Tiêu chuẩn kỳ vọng tổng quát
Những mô hình học bán giám sát trƣớc đây đã khắc phục một số hạn chế là
sử dụng dữ liệu đƣợc gán nhãn đầy đủ với dữ liệu không đƣợc gán nhãn hoặc
với các ràng buộc (ví dụ những đặc trƣng đƣợc đánh dấu với nhãn chính của
nó). GEC có thể sử dụng nhiều thông tin hơn những mô hình trƣớc nó. Trong
GEC có thể tận dụng thuận lợi của phân bố xác suất điều kiện của những nhãn
cho trƣớc một đặc trƣng (p(y|fk(x) = 1)). Thông tin này cung cấp ràng buộc
phong phú hơn cho mô hình trong khi vẫn giữ lại tính dễ dịch. Con ngƣời
thƣờng có trực giác tốt về khả năng dự đoán quan hệ của những đặc trƣng khác

nhau. Ví dụ, rõ ràng là xác suất của nhãn PERSON gán cho từ đặc trƣng JOHN
là cao, có thể đến 0.95 trong khi cho từ BROWN thì tỉ lệ thấp hơn có thể là 0.4.
Những phân bố cần đƣợc ƣớc lƣợng với độ chính xác cao và việc tự do biểu
diễn mức độ phân bố tốt hơn nhiều so với việc sử dụng tín hiệu giám sát nhị
phân. Thuận lợi khác của việc sử dụng những phân bố xác suất điều kiện - ràng
buộc xác suất là chúng có thể dễ dàng ƣớc lƣợng từ dữ liệu. Đối với đặc trƣng
bắt đầu bằng chữ hoa INITIAL-CAPITAL, tôi xác định tất cả thẻ với đặc trƣng
đó và đếm số nhãn xuất hiện cùng.
GEC cố gắng khớp những phân bố xác suất điều kiện này bằng kỳ vọng mô
hình trên dữ liệu chƣa gán nhãn, ví dụ khuyến khích mô hình dự đoán rằng tỉ lệ
nhãn PERSON gán cho từ John có thể là 0.95 trên tất cả điều kiện chƣa gán
nhãn.
Cho X là tập các biến kí hiệu là x∈X. Cho θ là những tham số của một số mô hình, cho phép xác định
phân bố xác suất trên tập X, pθ(X). Kỳ vọng của các hàm f(X) theo mô hình là

(2.1)

Trong đó, f(x) là một hàm bất kỳ của biến x cho giá trị vô hƣớng hoặc
vecto. Hàm này có thể chỉ phụ thuộc vào tập con của tập biến x.
Và những kỳ vọng cũng có thể đƣợc xác định trên những phép gán giá trị
biến, ví dụ, khi thực hiện huấn luyện xác suất điều kiện của một số mô hình.


-22-

Trong trƣờng hợp này, những biến đƣợc chia thành biến đầu vào X và biến đầu
ra Y. Một tập các phép gán cho biến đầu vào (những trƣờng hợp dữ liệu huấn
luyện)

= {x1, x2,...} có thể cho trƣớc và kỳ vọng điều kiện là

(2.2)

Một GEC đƣợc định nghĩa là một hàm G, sử dụng tham số là kỳ vọng của
mô hình f(X) và trả về một giá trị vô hƣớng, giá trị này đƣợc bổ sung vào nhƣ
là một điều kiện trong hàm mục tiêu ƣớc lƣợng tham số:
(2.3) Trong một số trƣờng
hợp, G có thể đƣợc định nghĩa dựa trên khoảng cách đến giá trị đích cho
Eθ[f(X)]. Cho là giá trị đích và cho ∆(·, ·) là hàm khoảng
cách. Trong trƣờng hợp này, G có thể định nghĩa là:
(2.4)
Nhƣ đã mô tả ở trên, GEC là một dạng tổng quát, nó coi các phƣơng pháp
ƣớc lƣợng tham số truyền thống khác là trƣờng hợp đặc biệt. Có thể phân chia
GEC theo mức độ linh hoạt nhƣ sau:
1. Một GEC đƣợc xác định một cách độc lập theo tham số hóa. Trong các
phƣơng pháp ƣớc lƣợng tham số truyền thống - phƣơng pháp đồ thị,
có sự tƣơng ứng một-một giữa các tập con của các biến sử dụng trong
mỗi phần tham số hóa của mô hình và tập con của các biến trong đó các
kỳ vọng đƣợc xac định cho hàm mục tiêu. Trong GEC, mỗi tập con này
có thể đƣợc lựa chọn độc lập.
2. Những GEC điều kiện khác nhau không cần tất cả các điều kiện cho
những trƣờng hợp giống nhau, chúng có thể tác động đến những tập dữ
liệu khác nhau hoặc những sự kết hợp khác nhau của những tập dữ liệu.
3. “Dấu hiệu huấn luyện” có giám sát bất kể ở kỳ vọng đích hay tổng quát,
trạng thái của hàm tỷ số, G, có thể xác định từ dữ liệu huấn luyện gán
nhãn hoặc bất kỳ nguồn nào, bao gồm cả những tác vụ khác hoặc tri
thức tiền nghiệm.
Do đó, một GEC có thể đƣợc xác định một cách độc lập với tham số hóa và
độc lập với những lựa chọn của bất kỳ tập dữ liệu điều kiện nào. Và một GEC có
thể hoạt động trên một số tập con bất kỳ của các biến trong x. Thêm vào đó, hàm f
có thể đƣợc định nghĩa theo kỳ vọng sinh ra mô-men của phân bố p θ(X) hoặc



×