Tải bản đầy đủ (.pdf) (13 trang)

Nghiên cứu gán nhãn từ loại cho văn bản tiếng việt bằng phương pháp học máy không có hướng dẫn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (429.29 KB, 13 trang )

Nghiên cứu gán nhãn từ loại cho văn bản tiếng
Việt bằng phương pháp học máy không có
hướng dẫn

Trần Thu Trang

Trường Đại học Khoa học Tự nhiên
Luận văn ThS. ngành: Bảo đảm toán học cho máy tính và hệ thống tính toán
Mã số: 60 46 35
Người hướng dẫn: TS. Nguyễn Thị Minh Huyền
Năm bảo vệ: 2012


Abstract. Trình bày tổng quan về bài toán gán nhãn từ loại, các tiếp cận để giải
quyết bài toán gán nhãn từ loại, so sánh các tiếp cận, trình bày hiện trạng cùng các
phương pháp đã được dùng để giải quyết bài toán gán nhãn từ loại cho tiếng Việt,
khó khăn chưa khắc phục được. Trình bày các kiến thức toán học, các mô hình học
máy được sử dụng trong luận văn. Trình bày một số phương pháp học máy không có
hướng dẫn cho bài toán gán nhãn từ loại, để từ đó có thể xây dựng một quy trình giải
quyết bài toán gán nhãn từ loại tiếng Việt theo cách tiếp cận này.

Keywords. Toán tin; Gán nhãn từ loại; Văn bản tiếng Việt; Máy tính

Content

MỞ ĐẦU
Một trong các vấn đề nền tảng của ngôn ngữ tự nhiên là việc phân loại các từ thành các
lớp từ loại dựa theo thực tiễn hoạt động ngôn ngữ. Mỗi từ loại tương ứng với một lớp từ giữ
một vai trò ngữ pháp nhất định. Nói chung, mỗi từ trong một ngôn ngữ có thể gắn với nhiều
từ loại, và việc tự động “hiểu” đúng nghĩa một từ phụ thuộc vào việc nó được xác định đúng
từ loại hay không. Công việc gán nhãn từ loại cho một văn bản là xác định từ loại của mỗi từ


trong phạm vi văn bản đó. Các công cụ gán nhãn (hay chú thích) từ loại cho các từ trong một
văn bản có thể thay đổi tuỳ theo quan niệm về đơn vị từ vựng và thông tin ngôn ngữ cần khai
thác trong các ứng dụng cụ thể.
Xác định từ loại chính xác cho các từ trong văn bản là vấn đề rất quan trọng trong lĩnh
vực xử lý ngôn ngữ tự nhiên. Công cụ gán nhãn từ loại có thể được ứng dụng rộng rãi trong
các hệ thống tìm kiếm thông tin, trong các ứng dụng tổng hợp tiếng nói, các hệ thống nhận
dạng tiếng nói cũng như trong các hệ thống dịch máy. Công cụ này cũng hỗ trợ cho việc phân
tích cú pháp các văn bản, góp phần giải quyết tính đa nghĩa của từ, và trợ giúp các hệ hống
rút trích thông tin hướng đến ngữ nghĩa, v.v…
Vấn đề gán nhãn từ loại của nhiều ngôn ngữ đã được giải quyết tốt bằng phương pháp
học máy có hướng dẫn, nghĩa là phải xây dựng một kho ngữ liệu huấn luyện lớn và/hoặc xây
dựng tập luật để nhận diện từ loại. Hiện nay, bài toán gán nhãn từ loại tiếng Việt cũng đã
được một số nhóm nghiên cứu và giải giải quyết cũng chủ yếu bằng phương pháp học máy có
hướng dẫn, nhưng việc xây dựng tập huấn luyện còn gặp nhiều khó khăn vì bản thân các nhà
ngôn ngữ học vẫn còn chưa thống nhất về tập từ loại tiếng Việt nên các nhóm tự định nghĩa
tập nhãn khác nhau, và các nhóm cũng tự xây dựng kho dữ liệu đã gán nhãn và xây dựng tập
luật khác nhau. Công việc này mất rất nhiều thời gian, tiền của và công sức của các nhà
nghiên cứu. Một cách tiếp cận khác cho bài toán gán nhãn từ loại là sử dụng phương pháp
học máy không có hướng dẫn để một mặt giải quyết vấn đề xác định bộ nhãn từ loại, mặt
khác tiết kiệm công sức xây dựng tập huấn luyện. Đề tài này nghiên cứu một số phương pháp
gán nhãn từ loại không có hướng dẫn, trên cơ sở đó đưa ra một quy trình giải quyết bài toán
gán nhãn từ loại tiếng Việt bằng cách tiếp cận này.
Cấu trúc luận văn
Cấu trúc luận văn chia làm 3 chương:
Chƣơng I: Tổng quan
Trong chương này sẽ trình bày tổng quan về bài toán gán nhãn từ loại, các tiếp cận để
giải quyết bài toán gán nhãn từ loại, so sánh các tiếp cận. Chương này cũng trình bày hiện
trạng cùng các phương pháp đã được dùng để giải quyết bài toán gán nhãn từ loại cho tiếng
Việt, khó khăn chưa khắc phục được.
Chƣơng II: Cơ sở toán học

Chương này sẽ trình bày các kiến thức toán học, các mô hình học máy được sử dụng
trong luận văn.
Chƣơng III: Cách tiếp cận không có hƣớng dẫn cho bài toán gán nhãn từ loại
Chương này sẽ trình bày một số phương pháp học máy không có hướng dẫn cho bài
toán gán nhãn từ loại, để từ đó có thể xây dựng một quy trình giải quyết bài toán gán nhãn từ
loại tiếng Việt theo cách tiếp cận này.
Chƣơng 1 - TỔNG QUAN
1.1 Bài toán gán nhãn từ loại
Gán nhãn từ loại là việc xác định các chức năng ngữ pháp của từ trong câu hay là quá
trình gán từng từ trong đoạn văn bản với các đánh dấu từ loại hoặc cấu trúc ngữ pháp. Đây là
bước cơ bản trước khi phân tích cú pháp hay các vấn đề xử lý ngôn ngữ phức tạp khác.
Thông thường, một từ có thể có nhiều chức năng ngữ pháp, ví dụ: trong câu “con ngựa đá đá
con ngựa đá”, cùng một từ “đá” nhưng từ thứ nhất và thứ ba giữ chức năng ngữ pháp là danh
từ, nhưng từ thứ hai lại là động từ trong câu.
1.2 Tổng quan về cách tiếp cận giải bài toán
1.2.1 Quá trình gán nhãn từ loại
Gán nhãn từ loại là một quá trình gồm 3 bước xử lý:
 Bước 1 (tiền xử lí): Phân tách xâu kí tự thành chuỗi các từ
 Bước 2: Gán nhãn tiên nghiệm, tức là tìm cho mỗi từ tập tất cả các nhãn từ loại
mà nó có thể có.
 Bước 3: Quyết định kết quả gán nhãn
1.2.2 Ngữ liệu
Để thực hiện gán nhãn từ loại ta phải có kho ngữ liệu[2], chúng có thể là:
- Từ điển và các văn phạm loại bỏ nhập nhằng.
- Kho văn bản đã gán nhãn, có thể kèm theo các quy tắc ngữ pháp xây dựng bằng
tay.
- Kho văn bản chưa gán nhãn, có kèm theo các thông tin ngôn ngữ như là tập từ loại
và các thông tin mô tả quan hệ giữa từ loại và hậu tố.
Kho văn bản chưa gán nhãn, với tập từ loại cũng được xây dựng tự động nhờ các tính toán
thống kê

1.2.3 Các tiếp cận giải bài toán
Chúng ta có hai tiếp cận chính cho gán nhãn từ loại tự động:[19]
- Tiếp cận có hướng dẫn.
- Tiếp cận không hướng dẫn.
Bộ gán nhãn có hướng dẫn có đặc thù là dựa trên kho ngữ liệu đã được gán nhãn cho
việc tạo ra các công cụ được sử dụng cho quá trình gán nhãn. Ví dụ như là Từ điển bộ gán
nhãn, các tần suất từ/nhãn, các xác suất chuỗi nhãn, tập các luật.
Các mô hình không hướng dẫn không yêu cầu kho ngữ liệu đã gán nhãn nhưng lại sử dụng
các thuật toán tính toán phức tạp để tự động xây dựng các nhóm từ (nghĩa là xây dựng các tập
nhãn) và dựa trên các nhóm từ này để tính toán các thông tin xác suất cần thiết cho các bộ
gán nhãn thống kê hoặc để xây dựng các luật ngữ cảnh cần thiết cho các hệ thống dựa trên
luật.
1.2.5 Gán nhãn dựa trên luật
Gán nhãn dựa trên luật sử dụng từ điển để tìm các từ loại có thể cho các từ, sử dụng các luật
làm thành một nghĩa
Các tiếp cận gán nhãn dựa trên luật sử dụng thông tin ngữ cảnh để gán các nhãn cho các từ
chưa biết hoặc các từ nhập nhằng
1.2.6 Gán nhãn thống kê
Bộ gán nhãn thống kê đơn giản nhất giải quyết nhập nhằng các từ chỉ đặt cơ sở vào xác
suất mà một từ xuất hiện với một nhãn đặc biệt. Nói cách khác, nhãn được gặp thường xuyên
nhất trong tập huấn luyện là nhãn được gán cho một thể hiện không rõ ràng của từ đó. Vấn đề
với tiếp cận này là trong khi nó có thể mang lại một nhãn hợp lệ cho một từ đưa ra, lại cũng
có thể mang lại chuỗi không hợp lệ các nhãn.
1.2.7 Các từ chƣa biết
Có vài giải pháp tiềm năng cho vấn đề này: Một trong những giải pháp sử dụng thông tin
hình thái. Trong trường hợp này, bộ gán nhãn tính toán xác suất mà một hậu tố trên một từ
chưa biết xuất hiện với một nhãn đặc biệt. Nếu một mô hình Markov ẩn đang được sử dụng,
xác suất mà một từ chứa đựng hậu tố mà xuất hiện với một nhãn đặc biệt trong chuỗi đã cho
được tính toán. Một giải pháp khác là gán một tập các nhãn mặc định (các lớp mở đặc đặc
biệt: Danh từ, tính từ, trạng từ, động từ ) cho các từ chưa biết và để giải quyết nhập nhằng sử

dụng các xác suất mà các nhãn đó xuất hiện tại cuối n-gram trong câu hỏi.
1.3 Bài toán gán nhãn từ loại tiếng Việt
Qua khảo sát các nghiên cứu gần đây của tiếng Việt cho bài toán gán nhãn từ loại, có
thể thấy có hai dạng tập nhãn từ loại thường được sử dụng cho các công cụ gán nhãn từ loại
tiếng Việt:
 Dạng thứ nhất, xuất phát từ tập gồm 8 nhãn từ loại tiếng Việt thông dụng được các
nhà nghiên cứu ngôn ngữ học công nhận nhiều nhất (bao gồm: danh từ, động từ,
tính từ, đại từ, phụ từ, kết từ, trợ từ, cảm từ) để xây dựng tập nhãn “mịn” hơn bằng
cách phân nhỏ mỗi từ loại trên thành các tiểu từ loại
 Dạng thứ hai, tập nhãn tiếng Việt được xây dựng thông qua việc xây dựng kho
ngữ liệu song ngữ Anh-Việt mà trong đó các câu tiếng Việt đã được gán nhãn từ
loại chính xác nhờ kết quả liên kết từ Anh-Việt và phép chiếu từ loại từ Anh sang
Việt.
Như vậy, có thể thấy rằng bài toán gán nhãn từ loại cho tiếng Việt đang ngày càng
được quan tâm nghiên cứu. Tuy nhiên đây vẫn là hướng nghiên cứu đầy tiềm năng và cũng
đầy thử thách, cùng với đó là việc các nghiên cứu đã có hầu hết vẫn còn mang tính cá thể,
chưa có được sự đối chiếu so sánh khách quan, và sự thống nhất về bộ nhãn giữa các nhà
ngôn ngữ, đồng thời cũng chưa xây dựng được bộ nhãn đủ lớn để bài toán gán nhãn tiếng
Việt có thể đạt độ chính xác rất cao

Chƣơng 2 - CƠ SỞ TOÁN HỌC
2.1 Định lý Bayes
Định lý Bayes cho phép tính xác suất xảy ra của một sự kiện ngẫu nhiên A khi biết sự
kiện liên quan B đã xảy ra. Xác suất này được ký hiệu là P(A|B), và đọc là "xác suất của A
nếu có B". Đại lượng này được gọi xác suất có điều kiện hay xác suất hậu nghiệm vì nó được
rút ra từ giá trị được cho của B hoặc phụ thuộc vào giá trị đó
2.2 Thuật toán cực đại hóa kỳ vọng (EM)
Thuật toán EM (Expectation Maximization) nhằm tìm ra sự ước lượng về khả năng
lớn nhất của các tham số trong mô hình xác suất (các mô hình phụ thuộc vào các biến ẩn
chưa được quan sát), nó được xem như thuật toán dựa trên mô hình.

2.3 Mô hình Markov ẩn
Mô hình Markov ẩn (tiếng Anh là Hidden Markov Model - HMM) là mô hình thống kê trong
đó hệ thống được mô hình hóa được cho là một quá trình Markov với các tham số không biết
trước và nhiệm vụ là xác định các tham số ẩn từ các tham số quan sát được, dựa trên sự thừa
nhận này
2.3.1 Ba bài toán cơ bản của HMM
2.3.1.1 Bài toán 1
Cung cấp cho mô hình các tham số, tính xác suất của dãy đầu ra cụ thể. Giải bằng thuật
toán tiến-lùi. Nghĩa là Cho chuỗi quan sát O = {o
1
,o
2
, ,o
T
} và mô hình λ = {A, B}, ta phải
tính xác suất có điều kiện P(O|λ) của chuỗi quan sát.
Xác suất P(O/λ) =?
2.3.1.2 Bài toán 2
Cung cấp cho mô hình các tham số, tìm dãy các trạng thái (ẩn) có khả năng lớn nhất mà
có thể sinh ra dãy đầu ra đã cung cấp. Nghĩa là cho chuỗi quan sát O={o
1
,o
2
, ,o
T
} và mô
hình λ = {A, B} ta phải tìm chuỗi trạng thái ẩn Q={q
1
, q
2

,q
T
} sao cho xác suất có điểu kiện
P(O|λ) là cực đại.
),|'(maxarg
'

OQPQ
Q


2.3.1.3 Bài toán 3
Cung cấp dãy đầu ra, tìm tập hợp có khả năng nhất của chuyển tiếp trạng thái và các
xác suất đầu ra. Nghĩa là cho chuỗi quan sát O = {o
1
,o
2
, ,o
T
} và mô hình λ = {A, B}, ta phải
đánh giá lại các thông số của mô hình sao cho xác suất có điểu kiện P(O|λ) là cực đại. tức là
tìm
)|(maxarg'


OP

2.2.2 Mô hình n-gram
Mô hình n-gram là một mô hình sử dụng n-1 từ đằng trước đó để dự đoán từ tiếp theo
2.4 Phân cụm

2.4.1 Khái niệm phân cụm
Phân cụm (clustering) làm việc phân chia các đối tượng vào các nhóm, sao cho các đối tượng
thuộc cùng một nhóm có độ tương tự cao hơn các đối tượng thuộc các nhóm khác nhau
2.4.2 Các yêu cầu của phân cụm
2.4.3 Các phƣơng pháp phân cụm
2.4.3.1 Phƣơng pháp phân hoạch
2.4.3.2 Phƣơng pháp phân cấp
2.4.3.3 Phƣơng pháp dựa trên mật độ
2.4.3.4 Phƣơng pháp dựa trên mô hình
2.4.4 Độ đo khoảng cách
Một bước quan trọng trong bất kỳ kỹ thuật phân cụm nào là lựa chọn một độ đo khoảng cách
để xác định sự tương tự của hai phần tử. Độ đo này sẽ ảnh hưởng đến hình thái của cụm, vì
một phần tử nào đó có thể gần với một phần tử khác theo một độ đo khoảng cách này và xa
hơn theo một độ đo khác
2.5 Phân tích giá trị kỳ dị
Phân tích giá trị kì dị (Singular value decomposition - SVD) có thể được nhìn vào từ
ba quan điểm sau [34]:
- Thứ nhất, chúng ta có thể coi nó như là một phương pháp để biến đổi các biến có
tương quan thành một tập hợp các biến không tương quan, biểu đạt tốt hơn mối
quan hệ khác nhau giữa các phần tử dữ liệu gốc.

×