(Luận văn thạc sĩ) nghiên cứu gán nhãn từ loại cho văn bản tiếng việt bằng phương pháp học máy không có hướng dẫn luận văn ths toán học 60 46 35

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.65 MB, 53 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
------------

Trần Thu Trang

NGHIÊN CỨU GÁN NHÃN TỪ LOẠI CHO VĂN BẢN
TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC MÁY KHƠNG
CĨ HƯỚNG DẪN
Chun nghành: Bảo đảm tốn học cho máy tính và hệ thống tính tốn
Mã số: 60 46 35

TĨM TẮT LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN THỊ MINH HUYỀN

Hà Nội – Năm 2012

1

Mục lục
LỜI NÓI ĐẦU .................................................................................................. 5
Chƣơng 1 - TỔNG QUAN ................................................................................ 7
1.1 Bài toán gán nhãn từ loại .................................................................... 7
1.2 Tổng quan về cách tiếp cận giải bài toán ............................................ 7
1.2.1 Quá trình gán nhãn từ loại............................................................ 7
1.2.2 Ngữ liệu ........................................................................................ 8
1.2.3 Các tiếp cận giải bài toán ............................................................. 9
1.2.5 Gán nhãn dựa trên luật ............................................................... 10
1.2.6 Gán nhãn thống kê ..................................................................... 11

1.2.7 Các từ chƣa biết.......................................................................... 12
1.3 Bài toán gán nhãn từ loại tiếng Việt ................................................. 13
Chƣơng 2 - CƠ SỞ TOÁN HỌC .................................................................... 15
2.1 Định lý Bayes .................................................................................... 15
2.2 Thuật tốn cực đại hóa kỳ vọng (EM) .............................................. 16
2.3 Mơ hình Markov ẩn........................................................................... 17
2.3.1 Ba bài tốn cơ bản của HMM .................................................... 18
2.2.2 Mơ hình n-gram ......................................................................... 23
2.4 Phân cụm ........................................................................................... 23
2.4.1 Khái niệm phân cụm .................................................................. 23
2.4.2 Các yêu cầu của phân cụm ......................................................... 24
2.4.3 Các phƣơng pháp phân cụm ....................................................... 24
2.4.4 Độ đo khoảng cách ..................................................................... 26

2

2.5 Phân tích giá trị kỳ dị ........................................................................ 27
Chƣơng 3 - MỘT SỐ PHƢƠNG PHÁP TIẾP CẬN KHƠNG CĨ HƢỚNG
DẪN CHO GÁN NHÃN TỪ LOẠI ............................................................... 30
3.1 Gán nhãn sử dụng kỹ thuật Cực đại hóa kỳ vọng ............................. 30
3.1.1 Huấn luyện mơ hình Trigram ..................................................... 31
3.1.2 Kết quả thử nghiệm với tiếng Anh............................................. 34
3.1.3 Các thí nghiệm cơ bản................................................................ 34
3.2 Gán nhãn từ loại bằng kỹ thuật phân cụm ........................................ 35
3.2.1 Suy luận gán nhãn ...................................................................... 36
3.2.2 Suy luận dựa trên từ loại ............................................................ 37
3.2.3 Suy luận dựa trên loại từ và ngữ cảnh ....................................... 37
3.2.4 Suy luận dựa trên loại từ và ngữ cảnh, sử dụng các véc tơ ngữ
cảnh trái và phải tổng quát hoá ............................................................... 38

3.2.5 Các kết quả ................................................................................. 39
3.3 Đề xuất phƣơng pháp không hƣớng dẫn cho bài toán gán nhãn từ loại
tiếng Việt ..................................................................................................... 40
KẾT LUẬN ..................................................................................................... 48

3

LỜI CẢM ƠN
Em xin chân thành cảm ơn các thầy cơ giáo trong khoa Tốn–Cơ–Tin
học đã dạy dỗ và truyền đạt cho em rất nhiều kiến thức trong những năm học
vừa qua.
Đặc biệt em xin gửi lời cảm ơn tới TS. Nguyễn Thị Minh Huyền đã tận
tình chỉ bảo và truyền đạt những kiến thức chuyên ngành trong quá trình em
thực hiện luận văn này.
Cuối cùng em xin gửi những lời chúc tốt đẹp nhất tới các thầy cô giáo
trong khoa, cơ Nguyễn Thị Minh Huyền, gia đình và bạn bè những ngƣời đã
ủng hộ em trong thời gian vừa qua.

4

LỜI NÓI ĐẦU
Một trong các vấn đề nền tảng của ngôn ngữ tự nhiên là việc phân loại
các từ thành các lớp từ loại dựa theo thực tiễn hoạt động ngôn ngữ. Mỗi từ
loại tƣơng ứng với một lớp từ giữ một vai trị ngữ pháp nhất định. Nói chung,
mỗi từ trong một ngơn ngữ có thể gắn với nhiều từ loại, và việc tự động
“hiểu” đúng nghĩa một từ phụ thuộc vào việc nó đƣợc xác định đúng từ loại
hay không. Công việc gán nhãn từ loại cho một văn bản là xác định từ loại
của mỗi từ trong phạm vi văn bản đó. Các cơng cụ gán nhãn (hay chú thích)

từ loại cho các từ trong một văn bản có thể thay đổi tuỳ theo quan niệm về
đơn vị từ vựng và thông tin ngôn ngữ cần khai thác trong các ứng dụng cụ
thể.
Xác định từ loại chính xác cho các từ trong văn bản là vấn đề rất quan
trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên. Cơng cụ gán nhãn từ loại có thể
đƣợc ứng dụng rộng rãi trong các hệ thống tìm kiếm thơng tin, trong các ứng
dụng tổng hợp tiếng nói, các hệ thống nhận dạng tiếng nói cũng nhƣ trong các
hệ thống dịch máy. Công cụ này cũng hỗ trợ cho việc phân tích cú pháp các
văn bản, góp phần giải quyết tính đa nghĩa của từ, và trợ giúp các hệ hống rút
trích thơng tin hƣớng đến ngữ nghĩa, v.v…
Vấn đề gán nhãn từ loại của nhiều ngôn ngữ đã đƣợc giải quyết tốt bằng
phƣơng pháp học máy có hƣớng dẫn, nghĩa là phải xây dựng một kho ngữ
liệu huấn luyện lớn và/hoặc xây dựng tập luật để nhận diện từ loại. Hiện nay,
bài toán gán nhãn từ loại tiếng Việt cũng đã đƣợc một số nhóm nghiên cứu và
giải giải quyết cũng chủ yếu bằng phƣơng pháp học máy có hƣớng dẫn,
nhƣng việc xây dựng tập huấn luyện còn gặp nhiều khó khăn vì bản thân các
nhà ngơn ngữ học vẫn còn chƣa thống nhất về tập từ loại tiếng Việt nên các
nhóm tự định nghĩa tập nhãn khác nhau, và các nhóm cũng tự xây dựng kho

5

dữ liệu đã gán nhãn và xây dựng tập luật khác nhau. Công việc này mất rất
nhiều thời gian, tiền của và công sức của các nhà nghiên cứu. Một cách tiếp
cận khác cho bài toán gán nhãn từ loại là sử dụng phƣơng pháp học máy
khơng có hƣớng dẫn để một mặt giải quyết vấn đề xác định bộ nhãn từ loại,
mặt khác tiết kiệm công sức xây dựng tập huấn luyện. Đề tài này nghiên cứu
một số phƣơng pháp gán nhãn từ loại khơng có hƣớng dẫn, trên cơ sở đó đƣa
ra một quy trình giải quyết bài toán gán nhãn từ loại tiếng Việt bằng cách tiếp
cận này.

Cấu trúc luận văn
Cấu trúc luận văn chia làm 3 chƣơng:
Chƣơng I: Tổng quan
Trong chƣơng này sẽ trình bày tổng quan về bài toán gán nhãn từ loại,
các tiếp cận để giải quyết bài toán gán nhãn từ loại, so sánh các tiếp cận.
Chƣơng này cũng trình bày hiện trạng cùng các phƣơng pháp đã đƣợc dùng
để giải quyết bài tốn gán nhãn từ loại cho tiếng Việt, khó khăn chƣa khắc
phục đƣợc.
Chƣơng II: Cơ sở toán học
Chƣơng này sẽ trình bày các kiến thức tốn học, các mơ hình học máy
đƣợc sử dụng trong luận văn.
Chƣơng III: Cách tiếp cận khơng có hƣớng dẫn cho bài tốn gán
nhãn từ loại
Chƣơng này sẽ trình bày một số phƣơng pháp học máy khơng có hƣớng
dẫn cho bài tốn gán nhãn từ loại, để từ đó có thể xây dựng một quy trình giải
quyết bài tốn gán nhãn từ loại tiếng Việt theo cách tiếp cận này.

6

Chƣơng 1 - TỔNG QUAN
1.1 Bài toán gán nhãn từ loại
Gán nhãn từ loại là việc xác định các chức năng ngữ pháp của từ trong
câu hay là quá trình gán từng từ trong đoạn văn bản với các đánh dấu từ loại
hoặc cấu trúc ngữ pháp. Đây là bƣớc cơ bản trƣớc khi phân tích cú pháp hay
các vấn đề xử lý ngôn ngữ phức tạp khác. Thông thƣờng, một từ có thể có
nhiều chức năng ngữ pháp, ví dụ: trong câu “con ngựa đá đá con ngựa đá”,
cùng một từ “đá” nhƣng từ thứ nhất và thứ ba giữ chức năng ngữ pháp là danh
từ, nhƣng từ thứ hai lại là động từ trong câu.
Gán nhãn từ loại là mức thấp nhất của phân tích ngữ nghĩa.

Xác định từ loại hỗ trợ cho việc phân tích cú pháp các văn bản, góp phần
giải quyết tính đa nghĩa của từ, và trợ giúp các hệ thống rút trích thơng tin
hƣớng đến ngữ nghĩa, v.v.
Ví dụ1:
John/ NNP saw/ VBD the/ DT saw/NN and/CC decided/VBD to/TO
take/VB it/PRP to/IN the/DT table/N.
Ví dụ 2:
Loan/Np muốn/V đi/V du lịch/V Huế/Np.
Trong đó các nhãn NNP, Np, NN, N: danh từ. VBD, V: động từ. DT: từ
hạn đinh. IN, TO: giới từ.
1.2 Tổng quan về cách tiếp cận giải bài tốn
1.2.1 Q trình gán nhãn từ loại
Gán nhãn từ loại là một quá trình gồm 3 bƣớc xử lý:[2]
- Bƣớc 1 (tiền xử lí): Phân tách xâu kí tự thành chuỗi các từ. Giai
đoạn này có thể phức tạp hay đơn giản tuỳ theo ngôn ngữ và từng

7

đơn vị từ vựng. Chẳng hạn với tiếng Anh và tiếng Pháp, việc phân
tách từ chủ yếu dựa vào ký tự trắng. Tuy nhiên vẫn có những cụm từ
ghép hay những cụm từ công cụ gây tranh cãi về cách xử lý. Trong
khi đó với tiếng Việt thì dấu trắng không phải là dấu hiệu để xác
định ranh giới các đơn vị từ vựng do tần số xuất hiện từ ghép là rất
cao.
- Bƣớc 2: Gán nhãn tiên nghiệm, tức là tìm cho mỗi từ tập tất cả các
nhãn từ loại mà nó có thể có. Tập nhãn này có thể thu đƣợc từ cơ sở
dữ liệu từ điển hoặc từ kho văn bản đã gán nhãn bằng tay. Đối với
một từ mới chƣa xuất hiện trong cơ sở dữ liệu thì có thể sử dụng
một nhãn ngầm định hoặc gắn cho nó tập tất cả các nhãn. Trong các

ngơn ngữ biến đổi hình thái ngƣời ta cũng dựa vào hình thái từ để
đốn nhận lớp từ loại của từ đang xét.
- Bƣớc 3: Quyết định kết quả gán nhãn. Giai đoạn loại bỏ nhập
nhằng, tức là lựa chọn cho mỗi từ một nhãn phù hợp nhất với ngữ
cảnh trong tập nhãn tiên nghiệm.
1.2.2 Ngữ liệu
Để thực hiện gán nhãn từ loại ta phải có kho ngữ liệu[2], chúng có thể là:
- Từ điển và các văn phạm loại bỏ nhập nhằng.
- Kho văn bản đã gán nhãn, có thể kèm theo các quy tắc ngữ pháp xây
dựng bằng tay.
- Kho văn bản chƣa gán nhãn, có kèm theo các thông tin ngôn ngữ
nhƣ là tập từ loại và các thông tin mô tả quan hệ giữa từ loại và hậu
tố.
- Kho văn bản chƣa gán nhãn, với tập từ loại cũng đƣợc xây dựng tự
động nhờ các tính tốn thống kê. Trong trƣờng hợp này khó có thể
dự đốn trƣớc về tập từ loại.

8

1.2.3 Các tiếp cận giải bài tốn
Chúng ta có hai tiếp cận chính cho gán nhãn từ loại tự động:[19]
- Tiếp cận có hƣớng dẫn.
- Tiếp cận khơng hƣớng dẫn.
Bộ gán nhãn có hƣớng dẫn có đặc thù là dựa trên kho ngữ liệu đã đƣợc
gán nhãn cho việc tạo ra các cơng cụ đƣợc sử dụng cho q trình gán nhãn. Ví
dụ nhƣ là Từ điển bộ gán nhãn, các tần suất từ/nhãn, các xác suất chuỗi nhãn,
tập các luật.
Các mơ hình khơng hƣớng dẫn khơng u cầu kho ngữ liệu đã gán nhãn
nhƣng lại sử dụng các thuật tốn tính tốn phức tạp để tự động xây dựng các

nhóm từ (nghĩa là xây dựng các tập nhãn) và dựa trên các nhóm từ này để tính
tốn các thơng tin xác suất cần thiết cho các bộ gán nhãn thống kê hoặc để
xây dựng các luật ngữ cảnh cần thiết cho các hệ thống dựa trên luật.
Sự khác nhau giữa hai tiếp cận thể hiện trong bảng sau:
Không hƣớng dẫn

Có hƣớng dẫn

- Lựa chọn tập văn đã gán nhãn/tập - Rút ra tập nhãn sử dụng dữ liệu
nhãn

huấn luyện chƣa gán nhãn

- Tạo ra các từ điển sử dụng tập văn - Xây dựng từ điển sử dụng dữ liệu
đã gán nhãn

huấn luyện chƣa gán nhãn

- Tính tốn các công cụ khử nhập - Quy nạp các công cụ khử nhập
nhằng, có thể bao gồm:

nhằng, có thể bao gồm:

+ các tần suất từ

+ các tần suất từ

+ Các xác suất chuỗi nhãn.

+ Các xác suất chuỗi nhãn

+ Các thể hiện luật.
Tuy có nhiều sự khách nhau nhƣng chúng cũng có những điểm giống
nhau là:
- Gán nhãn dữ liệu sử dụng thông tin từ điển đã xây dựng

9

- Khử nhập nhằng bằng các tiếp cận dựa vào thống kê, dựa trên luật
hoặc lai các tiếp cận trên.
Vì việc khử khử nhập nhằng sử dụng các tiếp cận dựa trên luật hoặc dựa
trên thống kê hoặc lai các tiếp cận vậy tiếp theo ta sẽ tìm hiểu các tiếp cận nêu
trên.
1.2.5 Gán nhãn dựa trên luật
Bộ gán nhãn dựa trên luật sử dụng các luật đƣợc viết bằng tay để phân
biệt sự nhập nhằng nhãn, ràng buộc để loại ra các nhãn không phù hợp.
Gán nhãn dựa trên luật sử dụng từ điển để tìm các từ loại có thể cho các
từ, sử dụng các luật làm thành một nghĩa, ví dụ nhƣ là : det - X - n = X/adj
đặc biệt là hàng trăm ràng buộc có thể đƣợc thiết kế một cách thủ cơng.
Các tiếp cận gán nhãn dựa trên luật sử dụng thông tin ngữ cảnh để gán
các nhãn cho các từ chƣa biết hoặc các từ nhập nhằng. Các luật này thƣờng
đƣợc biết nhƣ các luật khung ngữ cảnh. Nhƣ một ví dụ, một luật khung ngữ
cảnh có thể nói một vài điều: Nếu một từ chƣa biết hoặc nhập nhằng X đứng
sau một từ hạn định và đứng đằng trƣớc một danh từ, nhãn của nó sẽ là một
tính từ.
Trong việc bổ sung cho thông tin ngữ cảnh, nhiều bộ gán nhãn sử dụng
thơng tin hình thái học để thêm vào quy trình khử nhập nhằng. Ví dụ: Nếu
một từ nhập nhằng hoặc chƣa biết kết thúc với đuôi “ing” và đằng trƣớc là
một động từ thì nhãn của từ đó sẽ là một động từ. (phụ thuộc vào lý thuyết

ngữ pháp) V-W (ing) = W/Verb.
Vài hệ thống vƣợt quá việc sử dụng thơng tin ngữ cảnh và hình thái bằng
việc xây dựng các luật gắn với các nhân tố nhƣ là sự viết bằng chữ hoa (có thể
xác định nhƣ một danh từ riêng) và hệ thống dấu chấm câu. Thông tin loại
này nhỏ hơn hoặc lớn hơn phụ thuộc vào ngôn ngữ đang đƣợc gán nhãn.

10

Các bộ gán nhãn dựa trên luật hầu hết yêu cầu huấn luyện có hƣớng dẫn,
nhƣng gần đây đã có rất nhiều quan tâm đến việc quy nạp tự động của các
luật. Một tiếp cận để xây dựng luật tự động là để chạy một văn bản chƣa gán
nhãn thông qua một bộ gán nhãn và xem cách nó thực hiện. Tiếp đó một
ngƣời sẽ duyệt lại đầu ra của bƣớc 1 này và sửa tất cả các từ bị gán nhãn sai.
Văn bản đã đƣợc gán nhãn đúng này sẽ đƣợc đƣa vào bộ gán nhãn để bộ gán
nhãn học quy tắc sửa lỗi bằng cách so sánh 2 tập dữ liệu.
1.2.6 Gán nhãn thống kê
Bộ gán nhãn thống kê đơn giản nhất giải quyết nhập nhằng các từ chỉ đặt
cơ sở vào xác suất mà một từ xuất hiện với một nhãn đặc biệt. Nói cách khác,
nhãn đƣợc gặp thƣờng xuyên nhất trong tập huấn luyện là nhãn đƣợc gán cho
một thể hiện không rõ ràng của từ đó. Vấn đề với tiếp cận này là trong khi nó
có thể mang lại một nhãn hợp lệ cho một từ đƣa ra, lại cũng có thể mang lại
chuỗi khơng hợp lệ các nhãn.
Một lựa chọn thay thế cho tiếp cận tần số từ là để tính tốn xác suất của
một chuỗi đã cho của sự xuất hiện các nhãn. Điều này thỉnh thoảng gọi tắt là
tiếp cận N-gram, thể hiện rằng nhãn tốt nhất cho một từ đã cho đƣợc xác định
bởi xác suất mà nó xuất hiện với N nhãn trƣớc. Thuật toán phổ biến nhất thi
hành tiếp cận N-gram là thuật tốn Viterbi. Một thuật tốn tìm kiếm mà tránh
sự khai triển đa thức của một tìm kiếm theo chiều rộng bằng cách làm gọn cây
tìm kiếm ở mỗi cấp độ sử dụng các ƣớc lƣợng khả năng cực đại N tốt nhất

(Trong đó N là số nhãn của từ theo sau).
Mức độ phức tạp tiếp theo có thể đƣợc xây dựng vào trong một bộ gán
nhãn thống kê kết hợp hai tiếp cận trƣớc sử dụng các xác suất chuỗi nhãn và
các độ đo tần suất từ. Điều này đƣợc biết đến nhƣ là mơ hình Markov ẩn. Các
giả thiết cơ bản cho mơ hình này nhƣ sau:
Mỗi trạng thái nhãn đem lại một từ trong câu. Mỗi từ là

11

- Không tƣơng quan với tất cả các từ khác và nhãn của chúng.
- Xác suất chỉ phụ thuộc vào N nhãn đằng trƣớc.
Các bộ gán nhãn mơ hình Markov ẩn và hiện có thể đƣợc thi hành sử
dụng thuật toán Viterbi, và là một trong số các thuật toán hiệu quả nhất. Mơ
hình Markov ẩn (HMM) khơng thể đƣợc sử dụng trong một lƣợc đồ gán nhãn
tự động. Nó tin tƣởng và o các tính tốn thống kê trên chuỗi đầu ra. HMM
không đƣợc huấn luyện một cách tự động. Giải pháp cho vấn đề này khơng có
khả năng đƣợc huấn luyện một cách tự động là sử dụng thuật toán BaumWelch, cũng nhƣ là thuật toán tiến-lùi (Forward –Backward). Thuật tốn này
sử dụng từ hơn là thơng tin nhãn cho sự lặp lại xây dựng một chuỗi để cải tiến
xác suất của dữ liệu huấn luyện.
Một trong những vấn đề còn lại cuả các tiếp cận là: Các từ chƣa biết nên
đƣợc xử lý nhƣ thế nào?
1.2.7 Các từ chƣa biết
Tất nhiên là các quy tắc trong các bộ gán nhãn dựa trên luật đƣợc trang
bị để giải quyết cho vấn đề này, nhƣng trong các mơ hình thống kê là làm thế
nào để có thể tính tốn xác suất mà một từ đã cho xuất hiện với một nhãn nếu
từ đó chƣa biết bộ gán nhãn? Có vài giải pháp tiềm năng cho vấn đề này: Một
trong những giải pháp sử dụng thơng tin hình thái. Trong trƣờng hợp này, bộ
gán nhãn tính tốn xác suất mà một hậu tố trên một từ chƣa biết xuất hiện với
một nhãn đặc biệt. Nếu một mơ hình Markov ẩn đang đƣợc sử dụng, xác suất

mà một từ chứa đựng hậu tố mà xuất hiện với một nhãn đặc biệt trong chuỗi
đã cho đƣợc tính tốn. Một giải pháp khác là gán một tập các nhãn mặc định
(các lớp mở đặc đặc biệt: Danh từ, tính từ, trạng từ, động từ..) cho các từ chƣa
biết và để giải quyết nhập nhằng sử dụng các xác suất mà các nhãn đó xuất
hiện tại cuối n-gram trong câu hỏi. Một xác suất khác là để tính tốn xác suất
mà mỗi nhãn trong tập nhãn xuất hiện tại cuối n-gram và để lựa chọn đƣờng

12

dẫn với xác suất cao nhất. Đây không phải là giải pháp tối ƣu nếu mà làm việc
với một tập nhãn lớn.
1.3 Bài toán gán nhãn từ loại tiếng Việt
Đối với tiếng Anh, bài toán gán nhãn từ loại đã đƣợc giải quyết khá tốt,
cịn hiện nay bài tốn gán nhãn từ loại tiếng Việt cũng đã có rất nhiều nghiên
cứu, và phƣơng pháp khác nhau để giải quyết. Tuy nhiên với tiếng Việt thì
cịn rất nhiều khó khăn, đặc biệt là bản thân việc phân loại từ tiếng Việt cịn
rất nhiều tranh cãi, chƣa có một chuẩn mực thống nhất.
Qua khảo sát các nghiên cứu gần đây của tiếng Việt cho bài tốn gán
nhãn từ loại [5], có thể thấy có hai dạng tập nhãn từ loại thƣờng đƣợc sử dụng
cho các công cụ gán nhãn từ loại tiếng Việt:
 Dạng thứ nhất, xuất phát từ tập gồm 8 nhãn từ loại tiếng Việt thông
dụng đƣợc các nhà nghiên cứu ngôn ngữ học công nhận nhiều nhất (bao gồm:
danh từ, động từ, tính từ, đại từ, phụ từ, kết từ, trợ từ, cảm từ) để xây dựng tập
nhãn “mịn” hơn bằng cách phân nhỏ mỗi từ loại trên thành các tiểu từ loại.
Việc phân nhỏ này dựa trên nền tảng là các tiểu loại từ đƣợc nêu ra trong
cuốn Ngữ pháp tiếng Việt của Ủy ban khoa học xã hội Việt Nam, xuất bản
năm 1983, có bổ sung thêm một số nhãn từ loại để tránh trƣờng hợp một từ
mang cùng một lúc nhiều nhãn từ loại (chẳng hạn động từ ngoại động chỉ cảm
nghĩ hay động từ nội động chỉ cảm nghĩ). Tùy thuộc vào từng loại ứng dụng

xem cần thông tin cú pháp và từ vựng ở mức nào mà việc xây dựng, xác định
tập nhãn từ loại sẽ dừng ở mức thô hay mịn khác nhau.
Hiện nay, ở Việt Nam đã có một số tập nhãn từ loại đƣợc xây dựng, chủ
yếu ở mức thô, tiêu biểu có thể kể đến bộ nhãn VnPOStag của tác giả Trần
Thị Oanh gồm 14 nhãn [4], 01 nhãn không xác định và các nhãn ký hiệu đặc
biệt khác; bộ VietTreeBank gồm 16 nhãn và 01 nhãn cho từ không phân loại
đƣợc, … Bộ nhãn gồm nhiều nhãn nhất hiện nay đƣợc xây dựng bởi nhóm tác

13

giả Nguyễn Thị Minh Huyền sử dụng cho công cụ VnQtag [2] gồm 48 nhãn
và 01 nhãn không xác định.
 Dạng thứ hai, tập nhãn tiếng Việt đƣợc xây dựng thông qua việc xây
dựng kho ngữ liệu song ngữ Anh-Việt mà trong đó các câu tiếng Việt đã đƣợc
gán nhãn từ loại chính xác nhờ kết quả liên kết từ Anh-Việt và phép chiếu từ
loại từ Anh sang Việt.
Tiêu biểu cho dạng tập nhãn từ loại này là tập nhãn đƣợc sử dụng trong
nghiên cứu “Gán nhãn từ loại tự động cho Tiếng Việt” [11] của nhóm tác giả
Đinh Điền, tập nhãn này đƣợc xây dựng bằng cách quy chiếu từ tập nhãn
tiếng Anh là Brown Corpus.
Nhƣ vậy, có thể thấy rằng bài toán gán nhãn từ loại cho tiếng Việt đang
ngày càng đƣợc quan tâm nghiên cứu. Tuy nhiên đây vẫn là hƣớng nghiên
cứu đầy tiềm năng và cũng đầy thử thách, cùng với đó là việc các nghiên cứu
đã có hầu hết vẫn cịn mang tính cá thể, chƣa có đƣợc sự đối chiếu so sánh
khách quan, và sự thống nhất về bộ nhãn giữa các nhà ngôn ngữ, đồng thời
cũng chƣa xây dựng đƣợc bộ nhãn đủ lớn để bài tốn gán nhãn tiếng Việt có
thể đạt độ chính xác rất cao. Luận văn này sẽ tập trung vào việc nghiên cứu
một số phƣơng pháp học máy khơng có hƣớng dẫn đƣợc sử dụng thành cơng
cho các ngơn ngữ khác để có thể tìm ra phƣơng pháp giải quyết đƣợc khó

khăn về việc xác định từ loại của bài toán gán nhãn tiếng Việt.
Ở chƣơng này chúng ta đã tìm hiểu tổng quan về gán nhãn từ loại cùng
hiện trạng khó khăn của bài tốn gán nhãn từ loại tiếng Việt. Tiếp theo chúng
ta sẽ tìm hiểu cơ sở tốn học để giải quyết bài tốn đó bằng phƣơng pháp học
máy khơng có hƣớng dẫn.

14

Chƣơng 2 - CƠ SỞ TOÁN HỌC
Ở chƣơng này chúng ta sẽ nhắc lại một số kiến thức cơ sở phục vụ cho
các cơng cụ giải quyết bài tốn gán nhãn từ loại bằng phƣơng pháp học máy
khơng có hƣớng dẫn. Đây là các kiến thức liên quan đến xác suất (định lý
Bayes), mơ hình học máy (mơ hình Markov ẩn, mơ hình N-gram, thuật tốn
cực đại hóa kì vọng tìm nghiệm tối ƣu cho mơ hình học máy, bài tốn phân
cụm), phƣơng pháp phân tích giá trị kì dị phục vụ việc giảm số chiều dữ liệu
trong tính tốn véc tơ.
2.1 Định lý Bayes
Định lý Bayes cho phép tính xác suất xảy ra của một sự kiện ngẫu nhiên
A khi biết sự kiện liên quan B đã xảy ra. Xác suất này đƣợc ký hiệu là P(A|B),
và đọc là "xác suất của A nếu có B". Đại lƣợng này đƣợc gọi xác suất có điều
kiện hay xác suất hậu nghiệm vì nó đƣợc rút ra từ giá trị đƣợc cho của B hoặc
phụ thuộc vào giá trị đó.
Theo định lí Bayes, xác suất xảy ra A khi biết B sẽ phụ thuộc vào 3 yếu tố:
 Xác suất xảy ra A của riêng nó, khơng quan tâm đến B. Kí hiệu là
P(A) và đọc là xác suất của A. Đây đƣợc gọi là xác suất biên
duyên hay xác suất tiên nghiệm, nó là "tiên nghiệm" theo nghĩa
rằng nó khơng quan tâm đến bất kỳ thông tin nào về B.
 Xác suất xảy ra B của riêng nó, khơng quan tâm đến A. Kí hiệu là
P(B) và đọc là "xác suất của B". Đại lƣợng này còn gọi là hằng số

chuẩn hóa (normalising constant), vì nó ln giống nhau, khơng
phụ thuộc vào sự kiện A đang muốn biết.

15

 Xác suất xảy ra B khi biết A xảy ra. Kí hiệu là P(B|A) và đọc là
"xác suất của B nếu có A". Đại lƣợng này gọi là khả năng
(likelihood) xảy ra B khi biết A đã xảy ra. Chú ý không nhầm lẫn
giữa khả năng xảy ra A khi biết B và xác suất xảy ra A khi biết B.
Khi biết ba đại lƣợng này, xác suất của A khi biết B cho bởi công thức:
P( A | B) 

P( B | A) P( A)
likelihood * prior

P( B)
normalizing _ cons tan t

Từ đó dẫn tới
P( A | B) P( B)  P( A  B)  P( B | A) P( A)

2.2 Thuật tốn cực đại hóa kỳ vọng (EM)
Thuật tốn EM (Expectation Maximization) nhằm tìm ra sự ƣớc lƣợng
về khả năng lớn nhất của các tham số trong mơ hình xác suất (các mơ hình
phụ thuộc vào các biến ẩn chƣa đƣợc quan sát), nó đƣợc xem nhƣ thuật tốn
dựa trên mơ hình.
Sau bƣớc khởi tạo, thuật toán đƣợc chia làm hai bƣớc xử lý: Đánh giá
dữ liệu chƣa đƣợc gán nhãn (bƣớc E) và đánh giá các tham số của mơ hình,
khả năng lớn nhất có thể xảy ra (bƣớc M)

Bƣớc E:Tính tốn các giá trị dự kiến của các biến chƣa biết dựa trên
các ƣớc lƣợng tham số hiện thời.
Pw j | xk , t  

Pxk | w j , t Pw j , t 
Pxk , t 



Pxk | wi , (i t ) , 2 Pi (t )
k Pxk | w j , (jt ) , 2 Pi (t )

Bƣớc M: Tính toán lại các giá trị tham số nhƣ một ƣớc lƣợng khả năng
cực đại cho trƣớc giá trị của các biến chƣa biết đƣợc tính tốn trong bƣớc E.
 i( t 1) 

 Pw | x ,  x
 Pw | x ,  
i

k

i

k

Pi ( t 1) 

 Pw
k

k

i

t

k

k

t

| xk , t 

R

16

Lặp lại bƣớc E và bƣớc M cho đến khi đạt đƣợc kết quả.
2.3 Mơ hình Markov ẩn
Mơ hình Markov ẩn (tiếng Anh là Hidden Markov Model - HMM) là mơ
hình thống kê trong đó hệ thống đƣợc mơ hình hóa đƣợc cho là một q trình
Markov với các tham số không biết trƣớc và nhiệm vụ là xác định các tham số
ẩn từ các tham số quan sát đƣợc, dựa trên sự thừa nhận này. Các tham số của
mô hình đƣợc rút ra sau đó có thể sử dụng để thực hiện các phân tích kế tiếp,
ví dụ cho các ứng dụng nhận dạng mẫu.
Trong một mơ hình Markov điển hình, trạng thái đƣợc quan sát trực tiếp
bởi ngƣời quan sát, và vì vậy các xác suất chuyển tiếp trạng thái là các tham

số duy nhất. Mơ hình Markov ẩn thêm vào các đầu ra: mỗi trạng thái có xác
suất phân bổ trên các biểu hiện đầu ra có thể. Vì vậy, nhìn vào dãy của các
biểu hiện đƣợc sinh ra bởi HMM không trực tiếp chỉ ra dãy các trạng thái.
Các chuyển tiếp trạng thái trong mơ hình markov.

Hình 2.3 Minh họa hoạt động của mơ hình Markov ẩn
Trong đó:
xi: 1 trạng thái trong mơ hình markov

17

aij = p(xj|xi): xác suất để trạng thái xj xuất hiện sau trạng thái xi
bi(oj) = p(oj|i): xác suất quan sát đƣợc oj tại trạng thái ti
oi: dữ liệu quan sát đƣợc
2.3.1 Ba bài toán cơ bản của HMM
2.3.1.1 Bài tốn 1

Cung cấp cho mơ hình các tham số, tính xác suất của dãy đầu ra cụ thể.
Giải bằng thuật toán tiến-lùi. Nghĩa là Cho chuỗi quan sát O = {o1,o2,...,oT} và
mơ hình λ = {A, B}, ta phải tính xác suất có điều kiện P(O|λ) của chuỗi quan
sát.
Xác suất P(O/λ) =?
Để tính đƣợc xác suất này ta sử dụng thuật toán tiến hoặc thuật toán lùi
[12].
Xác suất tiến αt(i): Xác suất ở trạng thái si, cho trƣớc sự quan sát một
phần o1,…,ot.
 t (i)  P(o1 ...ot ,qt  si |  )



N



 t ( j )   t 1 (i)aij b j (ot )
 i 1



Thuật toán tiến:

18

-

Khởi tạo: 1 (i)   i bi (o1 )1  i  N

-

Xây dựng:  t ( j )    t 1 (i)aij b j (ot )2  t  T ,1  j  N

-

Kết thúc: P(O |  )    T (i)





N

 i 1



N

i 1

Xác suất lùi βt(j): Xác suất ở trạng thái si, cho trƣớc sự quan sát một
phần ot+1,…,oT.
t (i)  P(ot 1...oT | qt  si ,  )





N

 t (i)   aij b j (ot 1 )  t 1 ( j ) 
 j 1



Thuật toán lùi:
-

Khởi tạo: T (i)  1,1  i  N

-

Xây dựng:


N



 t (i)   aij b j (ot 1 )  t 1 ( j )  t  T  1...1,1  i  N
 j 1

-



N

Kết thúc: P(O |  )    i 1 (i) .
i 1

19

2.3.1.2 Bài tốn 2

Cung cấp cho mơ hình các tham số, tìm dãy các trạng thái (ẩn) có khả
năng lớn nhất mà có thể sinh ra dãy đầu ra đã cung cấp. Nghĩa là cho chuỗi
quan sát O={o1,o2,...,oT} và mô hình λ = {A, B} ta phải tìm chuỗi trạng thái

ẩn Q={q1, q2..,qT} sao cho xác suất có điểu kiện P(O|λ) là cực đại.
Q  arg max P(Q' | O,  )
Q'

Để giải quyết bài toán này ta sử dụng thuật toán viterbi:
Khởi tạo:  1 (i)   i b j (o1 )1  i  N





Xây dựng:  t ( j )  max  t 1 (i)aij b j (ot )
1i  N

 t ( j )  arg max  t 1 (i)aij  2  t  T ,1  j  N




1i  N

Kết thúc: p *  max  T (i)
1i  N

qT*  arg max  T (i)
1i  N

Đọc đƣờng dẫn ra: qt*   t 1 (qt*1 )t  T  1,...,1
2.3.1.3 Bài tốn 3

Cung cấp dãy đầu ra, tìm tập hợp có khả năng nhất của chuyển tiếp trạng
thái và các xác suất đầu ra. Nghĩa là cho chuỗi quan sát O = {o1,o2,...,oT} và
mơ hình λ = {A, B}, ta phải đánh giá lại các thông số của mơ hình sao cho
xác suất có điểu kiện P(O|λ) là cực đại. tức là tìm  '  arg max P(O |  )


Để giải quyết bài toán này chúng ta sử dụng thuật toán forwardbackward hoặc Baum-Welch.
Thuật toán tiến-lùi (forward-backward) là trƣờng hợp đặc biệt của
Expectation-Maximization (viết tắt là: thuật tốn EM). Thuật tốn có thể tính
tốn ƣớc lƣợng khả năng cực đại và ƣớc lƣợng mode hậu nghiệm của các
tham số (xác suất đầu ra và xác suất chuyển tiếp) của một HMM khi chỉ cho
trƣớc đầu ra nhƣ dữ liệu huấn luyện.

20

Ý tƣởng thuật tốn tiến-lùi.
1. Bắt đầu với 1 mơ hình λ bất kỳ, tính tốn P(O huấn luyện/ λ).
2. Đoán ra các chuyển tiếp trạng thái và đầu ra đƣợc sử dụng nhiều
nhất trong tính tốn P(O/λ).
3. Tăng xác suất của chúng, mà sẽ mang lại 1 mơ hình mới với 1
xác suất P(O/λ) cao hơn.
4. Lặp lại cho đến khi 1 giá trị cực đại đạt đƣợc.
Thuật toán:
Ba tham số cần đƣợc ƣớc lƣợng lại:
- Phân phối trạng thái ban đầu:  i
- Xác suất chuyển tiếp: ai,j
- Xác suất đầu ra: bi(ot)
Ƣớc lƣợng xác suất chuyển tiếp
Định nghĩa: t (i, j )  P(qt  si ,qt 1  s j | O,  ) là xác suất chuyển tiếp từ

trạng thái i sang trạng thái j tại thời điểm t cho trƣớc mơ hình hiện tại và các
tham số.

 t (i, j ) 

 t (i)ai , j b j (ot 1 ) t 1 ( j )
N

N

 (i)a
i 1 j 1

t

i, j

b j (ot 1 ) t 1 ( j )

21

Bằng trực quan ta có cơng thức ƣớc lƣợng lại xác suất chuyển tiếp là:
Số dự kiến chuyển tiếp từ trạng thái si sang sj chia cho số

aˆ i , j 

dự kiến chuyển tiếp từ trạng thái si trong O.
T 1

aˆ i , j 

  (i, j )
t

t 1
T 1 N

  (i, j ' )
t 1 j '1

t

Định nghĩa: là xác suất chuyển tiếp từ trạng thái si trong O.
T 1

Ta có thể tính đƣợc: aˆ i , j 

  (i, j )
t 1
T 1

t


t 1

t

(i )

Ƣớc lƣợng xác suất trạng thái ban đầu:
Phân phối trạng thái ban đầu  i là xác suất mà si là một

-

trạng thái bắt đầu.
Ta có thể ƣớc lƣợng lại một cách dễ dàng: ˆi   1 (i)

-

Ƣớc lƣợng xác suất đầu ra
Xác suất đầu ra đƣợc ƣớc lƣợng lại nhƣ sau:
bˆi (k )  Số lần dự kiến trong trạng thái si và ký tự quan sát Vk/ số lần dự

kiến tại trạng thái si.
T

bˆi (k ) 

  (o , v
t

t 1

T


t 1

t

k

) t (i )

(i )

Trong đó δ(ot,vk) = 1 nếu ot = vk. và = 0 nễu ngƣợc lại.
Mơ hình đã đƣợc cập nhật
Xuất phát từ   ( A, B,  ) . Chúng ta tạo đƣợc mơ hình  '  ( Aˆ , Bˆ , ˆ ) theo
các luật cập nhật sau:

22

T 1

aˆ i , j 

  t (i, j )
t 1
T 1


t 1

t

T

, bˆi (k ) 

  (o , v

(i )

t

t 1

T


t 1

t

k

) t (i )

(i )

, ˆ i   1 (i) .

2.2.2 Mơ hình n-gram
Mơ hình n-gram là một mơ hình sử dụng n-1 từ đằng trƣớc đó để dự
đốn từ tiếp theo. Tính tốn xác suất của từ tiếp theo sẽ là số lƣợng của các từ
có liên quan chặt chẽ với nhau để tính xác suất của dãy các từ. Mơ hình ngram là mơ hình Markov bậc n-1.

Mơ hình trigram là mơ hình Markov bậc 2
P W1N | T1N PT1N  

i  N 1

 Pw
i 1

i

| t i Pt i | t i 2 , t i 1 

Chuối nhãn thích hợp nhất t1,....tN đƣợc chọn để cực đại công thức trên.
t0, t-1, và tn+1 là các dấu bắt đầu và kết thúc chuỗi.
Xác suất đƣợc ƣớc lƣợng từ việc đếm tần suất quan hệ (khả năng cực


đại), ví dụ: Pt 3 | t1 , t 2  

ct1 , t 2 , t 3 
Với
ct1 , t 2 

Phƣơng pháp ƣớc lƣợng khả năng cực đại cho nhiều xác suất 0 trong các
kết quả trigrams. Để tránh có các xác suất bằng 0 này, ngƣời ta cần sử dụng
thuật toán làm mịn bằng phƣơng pháp nội suy:






Pt3 , | t1 , t 2   3 Pt3 | t1 , t 2   2 Pt 3 | t 2   1 Pt 3 

3  2  1  1

Các hệ số  cũng đƣợc ƣớc lƣợng từ dữ liệu huấn luyện.
2.4 Phân cụm
2.4.1 Khái niệm phân cụm
Phân cụm (clustering) làm việc phân chia các đối tƣợng vào các nhóm,
sao cho các đối tƣợng thuộc cùng một nhóm có độ tƣơng tự cao hơn các đối

23

tƣợng thuộc các nhóm khác nhau. Sự tƣơng tự đƣợc đánh giá thơng qua một
độ đo khoảng cách nào đó. Phân cụm là một bài toán phổ biến cho phân tích
dữ liệu thống kê, đƣợc sử dụng trong nhiều lĩnh vực sử dụng học máy hay
khai phá dữ liệu nhƣ nhận dạng mẫu, phân tích ảnh,…
Phân cụm là một cơng cụ độc lập để xem xét phân bố dữ liệu, và làm
bƣớc tiền xử lí cho các thuật tốn khác.
2.4.2 Các yêu cầu của phân cụm
- Có thể thay đổi kích thƣớc cụm
- Khả năng làm việc với các loại thuộc tính khác nhau.
- Khám phá đƣợc các cụm có hình dạng bất kì.
- Khả năng làm việc với dữ liệu có chứa nhiễu.
- Khơng phụ thuộc vào thứ tự các bản ghi nhập vào.
- Khả năng làm việc với dữ liệu nhiều chiều.
- Có thể diễn giải và khả dụng.
2.4.3 Các phƣơng pháp phân cụm

Có rất nhiều các phƣơng pháp phân cụm khác nhau. Việc lựa chọn
phƣơng pháp nào tuỳ thuộc vào kiểu dữ liệu, mục tiêu và ứng dụng cụ thể.
Nhìn chung, có thể chia thành các phƣơng pháp sau:
2.4.3.1 Phƣơng pháp phân hoạch

Cho một cơ sở dữ liệu D chứa n đối tƣợng, tạo phân hoạch thành tập có
k cụm sao cho:
- Mỗi cụm chứa ít nhất một đối tƣợng
- Mỗi đối tƣợng thuộc về một cụm duy nhất
- Cho trị k, tìm phân hoạch có k cụm sao cho tối ƣu hoá tiêu chuẩn
phân hoạch đƣợc chọn.

24

Các phƣơng pháp phân hoạch điển hình đƣợc biết đến là k-means và kmedoids.
Một biến thể của K-means cho phép sự chồng lặp của các phân cụm đó
là Cmeans mờ (FCM: Fuzzy C-means). Thay vì có các quan hệ thành viên
kiểu nhị phân giữa các đối tƣợng và các phân cụm tiêu biểu, FCM cho phép
các cấp độ khác nhau của cấp độ thành viên [32]. Krishnapuram đã đƣa ra
một phiên bản đã chỉnh sửa của FCM đƣợc coi là Fuzzy C-Medoids (FCMdd)
trong đó các ý nghĩa đƣợc thay bằng các ngữ cảnh. Thuật tốn này tƣơng đối
nhanh và có cỡ là O(n2) và có cƣờng độ hoạt động nhanh hơn FCM.
2.4.3.2 Phƣơng pháp phân cấp

Phân cấp: Tạo phân cấp cụm chứ không phải phân hoạch các đối tƣợng.
Khác với phân hoạch, phân cấp không cần số cụm k ở đầu vào và dùng ma
trận khoảng cách làm tiêu chuẩn gom cụm. Trong phƣơng pháp phân cấp có
thể dùng điều kiện dừng, ví dụ nhƣ số cụm.
Phân cấp cụm thƣờng đƣợc biểu diễn dƣới dạng cây các cụm, trong đó:

- Các lá của cây biểu diễn từng đối tƣợng
- Các nút trong biểu diễn các cụm
Có hai phƣơng pháp tạo cây phân cấp là từ dƣới lên và từ trên xuống.
- Phƣơng pháp từ dƣới lên (bottom up): Ban đầu mỗi đối tƣợng đƣợc
đặt vào một cụm riêng. Trộn dần từng bƣớc hai cụm giống nhau
nhất cho đến khi chỉ cịn một cụm hay thoả mãn điều kiện nào đó thì
dừng.
- Phƣơng pháp từ trên xuống (top - down): Bắt đầu từ cụm lớn nhất
chứa tất cả các đối tƣợng. Chia cụm có độ phân biệt cao nhất thành
các cụm nhỏ hơn và tiếp diễn cho đến khi có n cụm hoặc thoả mãn
điều kiện dừng.

25

(Luận văn thạc sĩ) nghiên cứu gán nhãn từ loại cho văn bản tiếng việt bằng phương pháp học máy không có hướng dẫn luận văn ths toán học 60 46 35

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về