Tải bản đầy đủ (.docx) (32 trang)

Báo cáo hệ chuyên giaxử lý ngôn ngữ tự nhiên và phân tích văn bản tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (385.66 KB, 32 trang )


1

2

Ngày nay cùng với sự bùng nổ thông tin trên Internet mà trong đó văn bản là một
trong những dạng chủ yếu thì nhu cầu xử lý ngôn ngữ tự nhiên trên máy tính là rất lớn.
Làm thế nào để máy tính có thể hiểu được ngôn ngữ của con người vẫn là một trong
những câu hỏi thách thức các nhà khoa học trong suốt lịch sử nửa thế kỷ của ngành trí tuệ
nhân tạo.
Những năm gần đây, với sự tiến bộ về năng lực tính toán và khả năng lưu trữ của
máy tính, các tiếp cận mới về xử lý ngôn ngữ tự nhiên đã thu được những thành công
đáng khích lệ, đặc biệt là cách tiếp cận sử dụng phương pháp thống kê trên kho ngữ liệu
lớn.
Xử lý ngôn ngữ tự nhiên là xử lý ngôn ngữ nói và ngôn ngữ viết của con người
nên nó mang nét đặc thù riêng cho mỗi ngôn ngữ, mỗi quốc gia. Ngành xử lý ngôn ngữ
tiếng Việt mới được quan tâm nghiên cứu.So với nhiều nước thì sau họ rất nhiều
năm.Tuy nhiên người đi sau cũng có những thuận lợi, chúng ta có thể nhanh chóng học
hỏi công nghệ, kinh nghiệm từ các nước đi trước, định hướng được mục tiêu, cách thức
tiến hành để sớm tiếp cận được trình độ công nghệ tiên tiến một cách nhanh nhất.
Trong xử lý ngôn ngữ tự nhiên, kho ngữ liệu là một nguồn tài nguyên quan
trọng.Một mặt nó được dùng để huấn luyện các mô hình phân tích ngôn ngữ như tách
câu, tách từ, gán nhãn từ loại, phân tích cú pháp.Mặt khác, nó còn được dùng để kiểm
chứng độ tin cậy của các mô hình ngôn ngữ đó. Trong khuôn khổ đồ án môn học, chúng
em xin trình bày đề tài nghiên cứu “Tch từ v gn nhn từ Ting Vit tch hp
VnTokenizer v Viettagger”.
Bài báo cáo được chia làm các chương như sau:
Chương 1: Tổng quan về xử lý ngôn ngữ tự nhiên v phân tch văn bản
ting vit
Chương 2: Cc công cụ phân tch văn bản ting vit
Chương 3: Xây dựng phần mềm tch từ ting vit sử dụng Viettagger.


3
 !
"#$%&'(
))*+, /+012345+,6++,789+:;<+
Xử lý ngôn ngữ tự nhiên là một lĩnh vực nghiên cứu của Trí tuệ nhân tạo nhằm
xây dựng một hệ thống xử lý cho máy tính, làm cho máy tính có thể “hiểu” được ngôn
ngữ của con người gồm cả ngôn ngữ nói và viết. Nghĩa là, khi chúng ta nói hay viết thì
máy tính hiểu được là chúng ta đang nói gì, viết gì. Không chỉ với một loại ngôn ngữ của
một dân tộc, của một quốc gia máy tính có thể hiểu được, máy tính có thể hiểu được ngôn
ngữ của tất cả các dân tộc, các quốc gia trên thế giới. Nhờ đó, mọi người trên thế giới dựa
vào máy tính cũng có thể hiểu, giao tiếp được với nhau mà không cần học, hiểu ngôn ngữ
của nhau… Và hơn thế nữa, máy tính có thể phân tích, tổng hợp ngôn ngữ để đưa ra tri
thức cho con người một cách nhanh và chính xác nhất. Nhất là khi các dữ liệu liên quan
đến ngôn ngữ đang dần trở nên là kiểu dữ liệu chính của con người.
Để làm được những việc đó người ta đã xác định một số bài toán ứng dụng cơ bản
trong xử lý ngôn ngữ tự nhiên để giải quyết. Đó là:
 Bi ton tổng hp ting nói:Bài toán này giải quyết vấn đề là làm cho máy biết
đọc các văn bản thành tiếng người.
 Bi ton nhận dạng ting nói: Tức việc làm cho máy biết chuyển tiếng nói của
người thành dãy các từ.
 Nhận dạng chữ vit: Từ một văn bản in trên giấy, máy tính chuyển thành một tệp
văn bản trên máy tính.
 Tóm tắt văn bản: Từ một văn bản dài, máy tính tóm tắt thành văn bản ngắn hơn
với những nội dung cơ bản nhất.
 Dịch tự động: Là việc dịch tự động từ tiếng này sang tiếng khác, chẳng hạn dịch
câu “ông già đi nhanh quá” sang tiếng Anh. Việc dịch này đòi hỏi máy không
những phải hiểu đúng nghĩa câu tiếng Việt mà còn phải tạo ra được câu tiếng Anh
tương ứng.
 Tìm kim thông tin trên mạng: Đây là lĩnh vực có sự chia sẻ nhiều nhất giữa trí
tuệ nhân tạo và Internet, và ngày càng trở nên hết sức quan trọng. Sẽ sớm đến một

ngày, mọi tri thức của con người được số hóa và để lên mạng hay các thư viện số
cực lớn.
 Pht triển tri thức v khai ph dữ liu văn bản: Từ nhiều nguồn tài nguyên khác
4
nhau, thậm chí còn không có liên quan gì đến nhau, máy tính tìm ra được những
tri thức mới mà trước đó chưa có ai biết.
Còn nhiều bài toán và công nghệ xử lý ngôn ngữ tự nhiên khác, như giao diện
người-máy bằng ngôn ngữ tự nhiên, các hệ hỏi đáp, các hệ sinh ngôn ngữ, …
Về Công nghệ xử lý ngôn ngữ, nhất là xử lý văn bản, về đại thể bao gồm các bước
cơ bản sau:
 Tầng ngữ âm: Nghiên cứu về ngữ âm.
 Tầng hình thi: Nghiên cứu về các thành phần có nghĩa của từ (word), như từ
được tạo ra bởi các hình vị (morphemes) và từ được tách ra trong một câu thế nào.
Trong tiếng Việt, một bài toán quan trọng là phân tách từ (word segmentation).
Một thí dụ quen thuộc là câu “Ông già đi nhanh quá” có thể phân tách thành (Ông
già) (đi) (nhanh quá) hoặc (Ông) (già đi) (nhanh quá) hoặc những cách khác nữa.
 Tầng ngữ php: Nghiên cứu các quan hệ cấu trúc giữa các từ, xem các từ đi với
nhau thế nào để tạo ra câu đúng. Quá trình này thường được cụ thể trong các bước
cơ bản sau:
- Xác định từ loại (POS tagging): Xem mỗi từ trong câu là loại gì (danh từ,
động từ, giới từ, …). Trong thí dụ trên, có thể “Ông già” là danh từ, “đi” là
động từ, “nhanh” là trạng từ, và “quá” là thán từ.
- Xác định cụm từ (chunking): Thí dụ “Ông già” là cụm danh từ, “đi” là cụm
động từ, “nhanh quá” là cụm trạng từ. Như vậy câu trên có hai phân tích
(Ông già) (đi) (nhanh quá) hoặc (Ông) (già đi) (nhanh quá).
- Xác định quan hệ ngữ pháp (parsing): (Ông già) (đi) (nhanh quá) là quan hệ
chủ ngữ-vị ngữ-trạng ngữ.
 Tầng ngữ nghĩa (semantic layer) : Nghiên cứu xác định nghĩa của từng từ và tổ
hợp của chúng để tạo nghĩa của câu. Thí dụ trong phân tích (Ông già) (đi) (nhanh
quá), động từ “đi” có thể có nghĩa “bước đi”, hay “chết” hay “điều khiển” (khi

dánh cờ), … và tương ứng ta có các nghĩa khác nhau của câu.
 Tầng ngữ dụng (pragmatic layer): Nghiên cứu mối quan hệ giữa ngôn ngữ và
ngữ cảnh xử dụng ngôn ngữ (context-of-use). Ngữ dụng như vậy nghiên cứu việc
ngôn ngữ được dùng để nói về người và vật như thế nào.
Việc phân tích một câu nói hay một câu trong văn bản ở các tầng từ ngữ âm (1)
đến tầng ngữ pháp (3) gọi là phân tích sơ bộ (shallow parsing).Nếu phân tích thêm cả
5
tầng ngữ nghĩa (từ (1) đến (4)) ta sẽ có phân tích đầy đủ (fully parsing). Trong các vấn đề
của xử lí ngôn ngữ, có vấn đề cần đến phân tích đầy đủ (như dịch tự động), nhưng cũng
có những vấn đề chỉ với phân tích sơ bộ cũng có thể đã xử lí được (như tìm kiếm thông
tin, phân tích văn bản cho tổng hợp tiếng nói, mô hình ngôn ngữ trong nhận dạng tiếng
nói…).
)=)>8?@AB;8CD+EFAG+H:I+8JE:0K+AG+
Phân tích văn bản là một bài toán lớn, phức tạp. Nó là nền tảng, tiền đề cho việc
xây dựng các ứng dụng quan trọng của xử lý ngôn ngữ như: nhận dạng chữ viết, tóm tắt
văn bản, dịch tự động, tìm kiếm thông tin trên mạng, …
Quá trình phân tích văn bản được chia thành các bước: phân tách văn bản ra thành
các câu. Với mỗi câu thực hiện phân tích cú pháp để xác định ngữ nghĩa của câu. Từ đó
người ta xác định được nội dung văn bản cần phân tích. Việc phân tích câu cũng được
chia thành các bước nhỏ hơn nữa như: tách từ, xác định từ loại, xác định các thành phần
ngữ pháp trong câu. Trong xử lý ngôn ngữ tự nhiên, người ta đưa ra các bài toán cơ bản
để thực hiện các bài toán trong các bước phân tích văn bản đó. Đó là:
- Bài toán tách câu: tách một văn bản ra thành các câu.
- Bài toán tách từ: tách một câu thành các đơn vị từ có nghĩa.
- Bài toán gán nhãn từ loại: gán cho mỗi từ trong một câu một nhãn từ loại.
- Bài toán phân tích cú pháp: phân tích câu thành các thành phần ngữ pháp, xác định
mối quan hệ ngữ nghĩa, quan hệ ngữ pháp giữa các thành phần đó.
Để phân tích văn bản tốt thì việc giải quyết tốt các bài toán cơ bản này là rất quan
trọng.Đây cũng là những bài toán khó đối với ngôn ngữ tiếng Việt, đã và vẫn đang được
các nhà nghiên cứu quan tâm.

)=))(B;8CD+8DE:EI.
Vấn đề tách một văn bản ra thành các đơn vi câu độc lập dường như được ít các
nhà nghiên cứu quan tâm nhất, mặc dù nó cũng là phần việc quan trọng trong phân tích
văn bản. Để tách một văn bản ra thành các đơn vi câu độc lập đối với tiếng Việt không
đơn thuần là chỉ dựa vào các dấu hiệu kết câu (đấu chấm ‘.’, dấu chấm than ‘.’ và dấu
chấm hỏi ‘?’). Vẫn có những câu tiếng Việt mà các dấu hiệu kết câu đó vẫn chưa phải là
kết câu. Ví dụ như “Giá xăng mới tăng lên thành 16.000 đồng/lít”, hay “Tp.Hà Nội”,
“TS.Phạm Lan”,…
6
Theo tạp chí Computational Linguistics, đối với các ngôn ngữ Âu – Mỹ, trong thời
gần đây có một số bài báo giới thiệu một số phương pháp và hệ thống tách câu. Các
phương pháp chủ yếu là dựa trên luật, học máy có giám sát và học máy không giám sát.
Với ngôn ngữ tiếng Việt có công trình nghiên cứu của nhóm tác giả Lê Hồng
Phương và Hồ Tường Vinh với phương pháp học máy thông kê, sử dụng mô hình
Maximum Entropy. Tức là dựa vào một tập văn mẫu các câu được tách, mô hình sẽ học
và đưa ra quyết định xem với mỗi vị trí có dấu hiệu kết câu trong văn bản cần tách có
đúng là ranh giới giữa các câu hay chưa.Phương pháp này dễ thực hiện và độ tin cậy phụ
thuộc vào tập văn mẫu các câu đã được tách.Tập văn này càng lớn, chính xác thì độ tin
cậy càng cao.
)=)=)(B;8CD+8DE:8L
Trong những năm gần đây có nhiều công trình nghiên cứu để giải quyết bài toán
tách từ tiếng Việt. Các nghiên cứu này thường tập trung vào 2 hướng tiếp cận lớn để giải
quyết bài toán này là tách từ dựa trên đơn vị từ và tách từ dựa trên âm tiết.
 MN+,8;OHEP+QR,;G;AB;8CD+S9/8T<+QF+0U8L
Hướng tiếp cận dựa trên từ với mục tiêu tách được các từ hoàn chỉnh trong câu.
Hướng tiếp cận này có thể chia ra theo ba hướng: dựa trên thống kê (statistics - based),
dựa trên từ điển (dictionary – based) và hydrid (kết hợp nhiều phương pháp với hy vọng
đạt được những ưu điểm của các phương pháp này)
• MN+,8;OHEP+S9/8T<+8:@+,V< Dựa trên các thông tin như tần số xuất hiện
của từ trong tập huấn luyện ban đầu. Hướng tiếp cận này đặc biệt dựa trên tập ngữ

liệu huấn luyện, nhờ vậy nên hướng tiếp cận này tỏ ra linh hoạt và hữu dụng trong
nhiều lĩnh vực khác nhau.
• MN+,8;OHEP+S9/8T<+8LQ;R+ Ý tưởng của hướng tiếp cận này là những cụm
từ được tách ra từ văn bản phải được so khớp với các từ trong từ điển. Do đó trong
hướng tiếp cận này đòi hỏi từ điển riêng cho từng lĩnh vực quan tâm. Hướng tiếp
cận “full word / phrase” cần sử dụng một từ điển hoàn chỉnh để có thể tách được
đầy đủ các từ hoặc ngữ trong văn bản, trong khi đó hướng tiếp cận thành phần
“component” lại sử dụng từ điển thành phần. Từ điển thành phần chỉ chứa các
thành phần của từ và ngữ như hình vị và các từ đơn giản. Hướng tiếp cận theo từ
điển vẫn còn một số hạn chế trong việc tách từ vì thực hiện hoàn toàn dựa vào từ
7
điển. Nếu như thực hiện thao tác tách từ bằng cách sử dụng từ điển hoàn chỉnh thì
trong thực tế việc xây dựng một bộ từ điển hoàn chỉnh là khó thực hiện vì đòi hỏi
nhiều thời gian và công sức. Nếu tiếp cận theo hướng sử dụng từ điển thành phần
thì sẽ giảm nhẹ hạn chế, khó khăn khi xây dựng từ điển, vì khi đó chúng ta sẽ sử
dụng các hình vị từ và các từ đơn giản và các từ khác để hình thành nên từ, cụm từ
hoàn chỉnh.
• MN+,8;OHEP+8:WCXAT;S Với mục đích kết hợp các hướng tiếp cận khác
nhau để thừa hưởng được các ưu điểm của nhiều kỹ thuật và các hướng tiếp cận
khác nhau nhằm nâng cao kết qủa. Hướng tiếp cận này thường kết hợp giữa hướng
dựa trên thống kê và dựa trên từ điển nhằm tận dụng các mặt mạnh của các
phương pháp này. Tuy nhiên hướng tiếp cận Hybrid lại mất nhiều thời gian xử lý,
không gian đĩa và đòi hỏi nhiều chi phí.
 MN+,8;OHEP+QR,;G;AB;8CD+S9/8T<+QF+0UIY8;O8
Trong tiếng Việt, hình vị nhỏ nhất là âm tiết (tiếng) được hình thành bởi nhiều ký
tự trong bảng chữ cái. Hướng tiếp cận này đơn thuần rút trích ra một số lượng nhất định
các tiếng trong văn bản như rút trích từ 1 ký tự (unigram) hay nhiều ký tự (n-gram) và
cũng mang lại một số kết qủa nhất định được minh chứng thông qua một số công trình
nghiên cứu đã được công bố, như của tác giả Lê An Hà [2003] xây dựng tập ngữ liệu thô
10MB bằng cách sử dụng phương pháp qui hoạch động để cựa đại hóa xác suất xuất hiện

của các ngữ. Rồi công trình nghiên cứu của H.Nguyễn [2005] làm theo hướng tiếp cận là
thay vì sử dụng ngữ liệu thô, công trình tiếp cận theo hướng xem Internet như một kho
ngữ liệu khổng lồ, sau đó tiến hành thống kê và sử dụng thuật giải di truyền để tìm cách
tách từ tối ưu nhất, và một số công trình của một số tác giả khác. Khi so sánh kết qủa của
tác giả Lê An Hà và H.Nguyễn thì thấy công trình của H.Nguyễn cho được kết qủa tốt
hơn khi tiến hành tách từ, tuy nhiên thời gian xử lý lâu hơn. Ưu điểm nổi bật của hướng
tiếp cận dựa trên nhiều ký tự là tính đơn giản, dễ ứng dụng, ngoài ra còn có thuận lợi là ít
tốn chi phí cho thao tác tạo chỉ mục và xử lý nhiều câu truy vấn. Qua nhiều công trình
nghiên cứu của các tác giả đã được công bố, hướng tiếp cận tách từ dựa trên nhiều ký tự,
cụ thể là cách tách từ hai ký tự được cho là sự lựa chọn thích hợp.
8
)=)Z)(B;8CD+,D++:[+8L4C\;
Gán nhãn từ loại chính là việc xác định chức năng ngữ pháp của từ trong câu. Đây
là bước cơ bản khi phân tích sâu văn phạm hay các vấn đề xử lý ngôn ngữ phức tạp khác.
Quá trình gán nhãn có thể được chia thành các bước sau:
- Gán nhãn tiên nghiệm, tức là tìm cho mỗi từ tập tất cả các nhãn từ loại mà nó có
thể có. Tập nhãn này có thể thu được từ cơ sở dữ liệu từ điển hoặc kho văn bản đã
gán nhãn bằng tay. Đối với một từ mới chưa xuất hiện trong cơ sở ngữ liệu thì có
thể dùng một nhãn ngầm định hoặc gắn cho nó tập tất cả các nhãn. Trong các ngôn
ngữ biến đổi hình thái người ta cũng dựa vào hình thái từ để đoán nhận lớp từ loại
tương ứng của từ đang xét.
- Quyết định kết quả gán nhãn, đó là giai đoạn loại bỏ nhập nhằng, tức là lựa chọn
cho mỗi từ một nhãn phù hợp nhất với ngữ cảnh trong tập nhãn tiên nghiệm. Có
nhiều phương pháp để thực hiện việc này, trong đó người ta phân biệt chủ yếu các
phương pháp dựa vào quy tắc ngữ pháp và các phương pháp xác suất . Ngoài ra
còn có các hệ thống sử dụng mạng nơ-ron, các hệ thống lai sử dụng kết hợp tính
toán xác suất và ràng buộc ngữ pháp, gán nhãn nhiều tầng.
Về mặt ngữ liệu, các phương pháp phân tích từ loại thông dụng hiện nay dùng một
trong các loại tài nguyên ngôn ngữ sau:
- Từ điển và các văn phạm loại bỏ nhập nhằng.

- Kho văn bản đã gán nhãn, có thể kèm theo các quy tắc ngữ pháp xây dựng bằng
tay.
- Kho văn bản chưa gán nhãn, có kèm theo các thông tin ngôn ngữ như là tập từ loại
và các thông tin mô tả quan hệ giữa từ loại và hậu tố.
- Kho văn bản chưa gán nhãn, với tập từ loại cũng được xây dựng tự động nhờ các
tính toán thống kê. Trong trường hợp này khó có thể dự đoán trước về tập từ loại.
Các bộ gán nhãn từ loại dùng từ điển và văn phạm gần giống với một bộ phân tích
cú pháp.Các hệ thống học sử dụng kho văn bản để học cách đoán nhận từ loại cho mỗi
từ.Từ giữa những năm 1980 các hệ thống này được triển khai rộng rãi vì việc xây dựng
kho văn bản mẫu ít tốn kém hơn nhiều so với việc xây dựng một từ điển chất lượng cao
và một bộ quy tắc ngữ pháp đầy đủ.Một số hệ thống sử dụng đồng thời từ điển để liệt kê
các từ loại có thể cho một từ, và một kho văn bản mẫu để loại bỏ nhập nhằng.
9
Các bộ gán nhãn thường được đánh giá bằng độ chính xác của kết quả: [số từ được
gán nhãn đúng] / [tổng số từ trong văn bản]. Các bộ gán nhãn tốt nhất hiện nay có độ
chính xác đạt tới 98%.
)=)])(B;8CD+H:I+8JE:E^H:DH
Các hướng tiếp cận để giải bài toán phân tích cú pháp đều sử dụng văn phạm phi
ngữ cảnh để biểu diễn ngôn ngữ, sau đó dùng một số kỹ thuật phân tích để xác định cây
phân tích cú pháp.Sở dĩ vậy là vì nó biểu diễn được hầu hết các ngôn ngữ tự nhiên, và nó
cũng có đủ hạn chế để xây dựng các trình phân tích câu hiệu quả.
Văn phạm phi ngữ cảnh khi được sử dụng để biểu diễn cấu trúc cú pháp thì các ký
hiệu kết thúc tương ứng với các từ trong ngôn ngữ, các ký hiệu không kết thúc tương ứng
với các phân loại cú pháp (hay từ loại).Tiên đề biểu diễn phân loại "câu".Các quy tắc sinh
biểu diễn các quy tắc ngữ pháp. Ta có thể chia chúng thành các qui tắc từ vựng (chứa ít
nhất một ký hiệu kết thúc) và các qui tắc ngữ đoạn (không chứa ký hiệu kết thúc nào).
Với mỗi từ trong từ vựng có một tập các qui tắc sinh chứa từ này trong vế phải.Một cây
dẫn xuất cũng được gọi là cây cú pháp cho một phân tích của một ngữ đoạn thành các
thành phần kế tiếp.
)Z)_:C+,74;`.

Trong các phương để giải các bài toán cơ bản của phân tích ngôn ngữ thì phương
pháp thống kê trên một tập dữ liệu mẫu được các nhà nghiên cứu đặc biệt quan tâm hơn
cả. Một mặt là do phương pháp dễ triển khai thực hiện và được sử dụng rộng rãi trong
nhiều ngôn ngữ khác nhau (Anh, Pháp, Trung, Nhật, Thái,…). Mặt nữa là ngày nay với
sự phát triển mạnh của công nghệ phần cứng, những khó khăn hạn chế về không gian lưu
trữ cũng như tốc độ xử lý được cải thiện.Máy tính có thể tính toán và xử lý cho kết quả
một cách nhanh chóng.Và phương pháp thống kê này cho kết quả ổn định và độ chính
xác cao nếu có tập dữ liệu mẫu đủ lớn.Tập dữ liệu mẫu này chính là kho ngữ liệu.
Có các loại kho ngữ liệu về câu, từ, từ được gán nhãn, câu được gán nhãn cú
pháp.Trong đó kho dữ liệu về các câu được gán nhãn cú pháp là đầy đủ nhất, từ đây có
thể đễ dàng rút được các dữ liệu mẫu về câu, từ hay từ được gán nhãn.Các kho ngữ liệu
này ngoài việc dùng để làm dữ liệu huấn luyện các mô hình xử lý ngôn ngữ tự động, nó
còn có một vai trò quan trọng khác là để đánh giá, kiểm chứng hiệu quả của các mô hình.
10
Bộ công cụ trong đề tài nghiên cứu luận văn này chính là để hỗ trợ xây dựng kho
ngữ liệu câu tiếng Việt có chú giải cú pháp (gán nhãn cú pháp).Việc xây dựng kho ngữ
liệu này được thực hiện bởi các chuyên gia ngôn ngữ là các nhà nghiên cứu xử lý ngôn
ngữ, các nhà ngôn ngữ học. Việc thực hiện là thủ công bằng tay hoặc bán tự động bằng
việc sử dụng các công cụ đã có như tách câu, tách từ, gán nhãn từ loại, gán nhãn cú pháp
được tích hợp vào chương trình.
11
=abc$%&'(
de
Trong chương này em giới thiệu một số công cụ phân tích văn bản tiếng Việt đã
có áp dụng cho các bài toán cơ bản: tách câu, tách từ, gán nhãn từ loại và phân tích cú
pháp. Đây là những công cụ được xây dựng bằng ngôn ngữ Java mã nguồn mở, có thể dễ
dàng mở rộng, tích hợp được vào các hệ thống khác.
=))(B;8CD+8DE:EI.0BE6+,Ef0+bW+8W8WE8CT
g8AB;8CD+
Cho một văn bản tiếng Việt bất kỳ. Hãy phân tách văn bản đó ra thành các đơn vị

câu độc lập.
Bài toán tách câu đặt ra với mục đích xây dựng công cụ tự động tách các câu trong
một văn bản tiếng Việt bất kỳ một cách chính xác nhất có thể.
Công cụ tách câu vnSententDetector của hai tác giả Lê Hồng Phương và Hồ
Tường Vinh được xây dựng dựa trên mô hình xác suất với Maximum Entropy.Mô hình
này được đào tạo trên tạp dữ liệu được huấn luyện gồm có 4.800 câu tiếng Việt. Bộ dữ
liệu này được các nhà ngôn ngữ học thuộc trung tâm từ điển học Việt Nam (Vietlex) xây
dựng thủ công bằng tay. Với phương pháp này, theo bài báo mà các tác giả đã công bố thì
độ chính xác đạt được 95%.
Ý tưởng của phương pháp là xây dựng mô hình xác suất ước lượng lớp b xảy ra
trong ngữ cảnh c, p(b,c).
Trong đó: b {no, yes}, α
j
là những tham số chưa biết của mô hình và mỗi α
j

ứng một đặc trưng mô hình f
j
, π là một hằng số.
Gọi ={no,yes} là tập khả năng của các lớp, là tập khả năng về các ngữ cảnh. Khi đó
các đặc trưng f
j
là hàm nhị phân . Các hàm này dùng để mã
12
hóa thông tin ngữ cảnh. Xác suất để biết ranh giới câu trong ngữ cảnh c được cho bởi
p(yes,c). α
j
được chọn để cực đại hàm likelihood của tập dữ liệu mẫu.
Mô hình sử dụng luật quyết định đơn giản để xác định khả năng ranh giới câu.
Ranh giới hiện tại là khả năng ranh giới câu nếu và chỉ nếu p(yes,c) >0.5, trong đó:

vàc là ngữ cảnh có chứa khả năng là ranh giới câu.
Một phần quan trọng của phương pháp là lựa chọn các đặc trưng f
j
.Các đặc trưng
của mô hình Maximum Entropy có thể mã hóa bất kỳ thông tin nào có ích cho việc xác
định các ranh giới câu. Các khả năng ranh giới câu được xác định bằng cách quét văn bản
theo các chuỗi ký tự được ngăn cách bởi kí tự trắng mà trong đó có chứa một trong các
ký hiệu “.”, “!” hoặc “?”
=)=)(B;8CD+8DE:8L0BE6+,Ef0+CVW+;hWT
 g8AB;8CD+
Cho một câu tiếng Việt bất kỳ, hãy tách câu đó thành những đơn vị từ vựng (từ),
hoặc chỉ ra những âm tiết nào không có trong từ điển (phát hiện đơn vị từ vựng mới).
 ;N;8:;`.E6+,Ef0+CVW+;hWT
vnTokenizer là công cụ tách từ tiếng Việt được nhóm tác giả Nguyễn Thị Minh
Huyền, Vũ Xuân Lương và Lê Hồng Phương phát triển dựa trên phương pháp so khớp tối
đa (Maximum Matching) với tập dữ liệu sử dụng là bảng âm tiết tiếng Việt và từ điển từ
vựng tiếng Việt.
Công cụ được xây dựng bằng ngôn ngữ Java, mã nguồn mở.Có thể đễ dàng sửa
đổi nâng cấp và tích hợp vào các hệ thống phân tích văn bản tiếng Việt khác.
Quy trình thực hiện tách từ theo phương pháp khớp tối đa:
13
Hình 2.1. Quy trình tách từ
- Đầu vào của công cụ tách từ vnTokenizer là một câu hoặc một văn bản được lưu
dưới dạng tệp.
- Đầu ra là một chuỗi các đơn vị từ được tách.
- Các đơn vị từ bao gồm các từ trong từ điển cũng như các chuỗi số, chuỗi kí từ
nước ngoài, các hình vị ràng buộc (gồm các phụ tố), các dấu câu và các chuỗi kí tự
hỗn tạp khác trong văn bản (ISO, 2008). Các đơn vị từ không chỉ bao gồm các từ
có trong từ điển, mà cả các từ mới hoặc các từ được sinh tự do theo một quy tắc
nào đó (như phương thức thêm phụ tố hay phương thức láy) hoặc các chuỗi kí

hiệu không được liệt kê trong từ điển.
Công cụ sử dụng tập dữ liệu đi kèm là tập từ điển từ vựng tiếng Việt, danh sách
các đơn vị từ mới bổ sung, được biểu diễn bằng ôtômat tối tiểu hữu hạn trạng thái, tệp
chứa các biểu thức chính quy cho phép lọc các đơn vị từ đặc biệt (xâu dạng số, ngày
tháng,…), và các tệp chứa các thống kê unigram và bigram trên kho văn bản tách từ mẫu.
Với các đơn vị từ đã có trong từ điển, khi thực hiện tách từ cũng được xử lý hiện
tượng nhập nhằng bằng cách kết hợp với các thống kê unigram và bigram. Chẳng hạn
trong tiếng Việt thường gặp các trường hợp nhập nhằng như:
- Xâu AB vừa có thể hiểu là 1 đơn vị từ, vừa có thể là chuỗi 2 đơn vị từ A-B.
- Xâu ABC có thể tách thành 2 đơn vị AB-C hoặc A-BC.
 D+:,;DVO8 G
14
Kết quả đánh giá của công cụ được cho là ổn định đối với nhiều loại văn bản/ văn
phong khác nhau.Độ chính xác trung bình đạt được là khoảng 94%.
=)Z)(B;8CD+,D++:[+8L4C\;0BE6+,Ef0+8/,
 g8AB;8CD+8*+, D8
Cho một câu tiếng Việt đã được tách thành các đơn vị độc lập. Gán cho mỗi đơn vị
từ đó một nhãn từ loại ngôn ngữ.
Đã có một số công cụ gán nhãn từ loại được xây dựng như vnQtag, vnTagger và
JvnTagger. Trong đó vnQtag được xây dựng từ năm 2003 theo phương pháp xác suất và
đã được công bố rộng rãi trong cộng đồng các nhà nghiên cứu xử lý ngôn ngữ tiếng Việt.
Gần đây có vnTagger [Lê Hồng Phương, 2009] và JvnTagger [Phan Xuân Hiếu, VLSP,
2009] được xây dựng theo phương pháp học máy thống kê (Maxmimum Entropy và
Conditional Rundom Fields), sử dụng bộ ngữ liệu mẫu Vietreebank [Nguyễn Phương
Thái, VLSP] để huấn luyện mô hình học.
 ;N;8:;`.+,.i+,@EE6+,Ef0+8/,
vnQtag là công cụ gán nhãn từ loại cho văn bản tiếng Việt đã tách từ, được phát
triển bởi nhóm tác giả Nguyễn Thị Minh Huyền, Vũ Xuân Lương và Lê Hồng Phương
dựa trên xác suất, 2003, sử dụng bộ ngữ liệu mẫu đã gán nhãn. Việc thực hiện gán nhãn
được thực hiện qua thao tác dòng lệnh (môi trường DOS) và được tiến hành qua hai

bước: huấn luyện và gán nhãn.
 D++:[+8:WC2DE?.j8
Ý tưởng của phương pháp gán nhãn từ loại xác suất là xác định phân bố xác suất
trong không gian kết hợp giữa dãy các từ S
w
và dãy các nhãn từ loại S
t
. Sau khi đã có
phân bố xác suất này, bài toán loại bỏ nhập nhằng từ loại cho một dãy các từ được đưa về
bài toán lựa chọn một dãy từ loại sao cho xác suất điều kiện P(S
t
| S
w
) kết hợp dãy từ loại
đó với dãy từ đã cho đạt giá trị lớn nhất.
Theo công thức xác suất Bayes ta có:
P(S
t
| S
w
) = P(S
w
| S
t
).P(S
t
)/P(S
w
).
Ở đây dãy các từ S

w
đã biết, nên thực tế chỉ cần cực đại hoá xác suất P(S
w
|S
t
).P(S
t
).
Với mọi dãy S
t
= t
1
t
2
tN và với mọi dãy S
w
= w
1
w
2
w
N
:
P(w
1
w
2
w
N
|t

1
t
2
t
N
) = P(w
1
|t
1
t
2
t
N
) P(w
2
|w
1
,t
1
t
2
t
N
) P(w
N
|w
1
w
N-1
, t

1
t
2
t
N
)
15
P(t
1
t
2
t
N
) = P(t
1
)P(t
2
|t
1
) P(t
3
| t
1
t
2
) P(t
N
|t
1
t

N-1
)
Người ta đưa ra các giả thiết đơn giản hoá cho phép thu gọn mô hình xác suất về
một số hữu hạn các tham biến.
Đối với mỗi P(w
i
|w
1
w
i-1
, t
1
t
2
t
N
), giả thiết khả năng xuất hiện một từ khi cho một
nhãn từ loại là hoàn toàn xác định khi biết nhãn đó, nghĩa là P(w
i
|w
1
w
i-1
, t
1
t
2
t
N
) = P(w

i
|
t
i
).
Như vậy xác suất P(w
1
w
2
w
N
|t
1
t
2
t
N
) chỉ phụ thuộc vào các xác suất cơ bản có
dạng P(w
i
| t
i
):
P(w
1
w
2
w
N
| t

1
t
2
t
N
) = P(w
1
| t
1
)P(w
2
| t
2
) P(w
N
| t
N
)
Đối với các xác suất P(t
i
|t
1
t
i-1
), giả thiết khả năng xuất hiện của một từ loại là
hoàn toàn xác định khi biết các nhãn từ loại trong một lân cận có kích thước k cố định,
nghĩa là: P(t
i
|t
1

t
i-1
)= P(t
i
| t
i-k
t
i-1
). Nói chung, các bộ gán nhãn thường sử dụng giả thiết k
bằng 1 (bigram) hoặc 2 (trigram).
Như vậy mô hình xác suất này tương đương với một mô hình Markov ẩn, trong đó
các trạng thái ẩn là các nhãn từ loại (hay các dãy gồm k nhãn nếu k> 1), và các trạng thái
hiện (quan sát được) là các từ trong từ điển. Với một kho văn bản đa gán nhãn mẫu, các
tham số của mô hình này dễ dàng được xác định nhờ thuật toán Viterbi.
 74;`.Yk.
Bộ gán nhãn QTAG là một bộ gán nhãn trigram. QTAG sử dụng kết hợp hai
nguồn thông tin: một từ điển từ chứa các từ kèm theo danh sách các nhãn có thể của
chúng cùng với tần suất xuất hiện tương ứng; và một ma trận gồm các bộ ba nhãn từ loại
có thể xuất hiện liền nhau trong văn bản với các tần số xuất hiện của chúng. Cả hai loại
dữ liệu này thu được dễ dàng dựa vào kho văn bản mẫu đã gán nhãn. Các loại dấu câu và
các kí hiệu khác trong văn bản được xử lý như các đơn vị từ vựng, với nhãn chính là dấu
câu tương ứng.
 :.P88CD+,D++:[+8L4C\;
16
Về mặt thuật toán, QTAG làm việc trên một cửa sổ chứa 3 từ, sau khi đã bổ sung
thêm 2 từ giả ở đầu và cuối văn bản. Các từ được lần lượt đọc và thêm vào cửa sổ mỗi
khi cửa sổ di chuyển từ trái sang phải, mỗi lần một vị trí. Nhãn được gán cho mỗi từ đã
lọt ra ngoài cửa sổ là nhãn kết quả cuối cùng. Thủ tục gán nhãn như sau:
1. Đọc từ (token) tiếp theo
2. Tìm từ đó trong từ điển

3. Nếu không tìm thấy, gán cho từ đó tất cả các nhãn (tag) có thể
4. Với mỗi nhãn có thể
5. Tính P
w
= P(tag|token) là xác suất từ token có nhãn tag
6. Tính P
c
= P(tag|t1,t2), là xác suất nhãn tag xuất hiện sau các nhãn t
1
, t
2
, là nhãn
tương ứng của hai từ đứng trước từ token.
7. Tính P
w,c
= P
w
* P
c
, kết hợp hai xác suất trên.
8. Lặp lại phép tính cho hai nhãn khác trong cửa sổ
Sau mỗi lần tính lại (3 lần cho mỗi từ), các xác suất kết quả được kết hợp để cho ra
xác suất toàn thể của nhãn được gán cho từ.Vì các giá trị này thường nhỏ, nên chúng
được tính trong biểu thức logarit cơ số 10.Giá trị xác suất tính được cho mỗi nhãn tương
ứng với một từ thể hiện độ tin cậy của phép gán nhãn này cho từ đang xét.
=)])(B;8CD+H:I+8JE:E^H:DH0BE6+,Ef0+$/T?WT
 g8AB;8CD+8*+, D8
Cho một câu tiếng Việt.Phân tích cú pháp đưa ra mô tả về quan hệ và vai trò ngữ
pháp của các từ, các cụm từ (hoặc ngữ) trong câu, đồng thời đưa ra hình thái của câu.
Đầu vào của giai đoạn này là câu đã được phân tách từ, trong đó mỗi từ có đặc

điểm hình thái xác định.Quá trình kiểm tra cú pháp tiến hành phân tích và tổ hợp các từ ở
đầu vào, dựa trên các luật cú pháp để loại bỏ các trường hợp bất quy tắc và từng bước
dựng lên cấu trúc cú pháp (cây phân tích) của câu.Kết quả cần đạt được là hình thái của
câu.
 (>E6+,Ef0+$/T?WT
Công cụ phân tích cú pháp vnParser được tác giả Lê Hồng Phương trình bày trong
khóa luận tốt nghiệp cử nhân khoa học, 2002, với cơ sở lý thuyết là sử dụng phương pháp
17
phân tích từ trên xuống cho các mạng chuyển đệ quy (RTN – recursive transition
networks).
 6+,Ef?3Sf+,=4C\;S74;`.+,6++,74B
- Từ điển từ vựng tiếng Việt có kèm theo chú giải từ loại, là các nhãn từ loại có thể.
Từ điển này có khoảng 37.000 từ được cung cấp bởi các chuyên gia ngôn ngữ
thuộc trung tâm từ điển học Việt Nam (Vietlex).
- Tập các luật cú pháp cho ngôn ngữ tiếng Việt, là các quy tắc sinh ngôn ngữ. Tác
giả mới thử nghiệm chạy thành công với tập luật đơn giản phân tích được một số
câu tiếng Việt.
Để công cụ vnParser chạy tốt thì rất cần có bộ dữ liệu ngôn ngữ đủ chuẩn và đủ
lớn có thể bao phủ được hầu hết các từ ngữ tiếng Việt thuộc nhiều lĩnh vực khác nhau.
 8Ml+,8:9E:;`+
Về tư tưởng của phương pháp là xây dựng một hệ các ôtômat, là các mạng chuyển
đệ quy:
- Từ các quy tắc của văn phạm, xây dựng các ôtômat hữu hạn trạng thái.
- Từ các từ và các nhãn trong từ điển, các nhãn ở đây chính là các trạng thái kết của
văn phạm đã cho. Xây dựng các ôtômat cho các trạng thái kết này với mỗi cung
chuyển sẽ sinh ra một từ.
Với hệ ôtômat này, áp dụng kỹ thuật phân tích từ trên xuống cho một câu cần phân
tích đầu vào ta sẽ có kết quả xác định ôtômat có đoán nhận được câu hay không.
Ví dụ: xét văn phạm đơn giản:
1. S → NP (Aux) V (NP) PP*

1’. S → Aux NP V (NP) PP*
2. NP → (Det) (Quant) Adj* N* N PP*
3. PP → Prep NP
Văn phạm này định nghĩa một ngôn ngữ phi ngữ cảnh trên bảng chữ cái {Aux, V,
Det, Quant, Adj, N, Prep}.Ở đây có một mở rộng so với thông thường là các ngoặc tròn,
chứa các phần tử tuỳ chọn, và dấu hoa thị dùng để chỉ ký hiệu đi kèm với nó có thể
không có hoặc xuất hiện nhiều hơn một lần.
Các vế phải của các quy tắc cũng có thể được xem như định nghĩa của các biểu
thức của các ngôn ngữ chính quy, hay các biểu thức chính quy, tương ứng trên các bảng
18
chữ cái {NP, Aux, V, PP} đối với quy tắc 1, {Det, Quant, Adj, N, PP} đối với quy tắc 2
và {Prep, PP} đối với quy tắc 3.
Từ các quy tắc của văn phạm, ta xây dựng được các ôtômát hữu hạn trạng thái
tương đương:
Hình 2.2 Automat hữu hạn trạng thái
Từ tập từ điển, ví dụ có các quy tắc viết lại:
Det → 'a'
Det → 'the'
Det → 'some'
Ta có thể xây dựng dạng chuyển như sau và gắn kết quả vào mạng văn phạm
tương tự như A1-A3:
Để minh họa rõ hơn một quá trình phân tích, ta xét văn phạm sau:
19
Với bộ từ vựng:
ART the, a
NUMBER one
PRONOUN one
ADJ wild, green
NOUN dogs, man, saw, green
VERB cried, saw, broke, faded, man

Khi đó, với câu cần phân tích:
1
The
2
wild
3
dogs
4
cried
5
Sẽ được phân tích như sau:
(MNE @8:;`+8\; U8TJ:;`+8\; m;RY8TG01 .+,QMnEQ;
1. S 1 nil S/1
2. NP 1 {S1} NP/1
3. NP1 2 {S1} NP1/1
4. NP1 3 {S1} NP1/2
5. NP2 4 {S1} NP2/1
6. S1 4 nil S1/1
7. S2 5 nil N2/1
Ở bước thứ 7, khi mà quá trình phân tích đã đi được hết câu (vị trí 5), điểm trả về
là rỗng tức là các trạng thái lưu trữ tạm thời trong quá trình phân tích đã hết thì quá trình
phân tích thành công.
20
Z%o!pqr
#qsde&t$uvp
#w_vxvp)
Z));N;8:;`.01u+/,,WT)
JVnTagger là công cụ gán nhãn từ loại tiếng Việt dựa trên Conditional Random
Fields (Lafferty et al., 2001) và Maximum Entropy (Nigam et al., 1999).JVnTagger được
xây dựng trong khuôn khổ đề tài cấp nhà nước VLSP với dữ liệu huấn luyện khoảng

10.000 câu và 20,000 câu của Viet Treebank. Thử nghiệm với phương pháp 5-fold cross
validation trên VTB-10,000 cho thấy kết quả gán nhãn với CRFs có thể đạt giá trị F1 lớn
nhất là 93.45% và 10-fold cross validation với Maxent trên VTB-20,000 đạt giá trị F1 lớn
nhất là 93.32%.
Z)=)F?l458:.XO80B8:9E+,:;`Y
Z)=));N;8:;`./2;Y.Yv+8TCHX
Tư tưởng chính của Maximum Entropy là “ngoài việc thỏa mãn một số rang buộc
nào đó thì mô hình càng đồng đều càng tốt”.Để rõ hơn về vấn đề này, ta hãy cùng xem
xét bài toán phân lớp gồm có 4 lớp.Ràng buộc duy nhất mà chúng ta chỉ biết là trung bình
40% các tài liệu chứa từ “professor” thì nằm trong lớp faculty. Trực quan cho thấy nếu có
một tài liệu chứa từ “professor” chúng ta có thể nói có 40% khảnăng tài liệu này thuộc
lớp faculty, và 20% khả năng cho các khả năng còn lại (thuộc một trong 3 lớp còn lại).
Mặc dù maximum entropy có thể được dùng để ượng lượng bất kì một phân phối xác suất
nào, chúng ta xem xét khả năng maximum entropy cho việc gán nhãn dữ liệu chuỗi.Nói
cách khác, ta tập trung vào việc học ra phân phối điều kiện của chuỗi nhãn tương ứng với
chuỗi (xâu) đầu vào cho trước.
Z)=)=)DETB+,A.>E0BQgE8TM+,
Trong maximum entropy, người ta dùng dữ liệu huấn luyện để xác định các ràng
buộc trên phân phối điều kiện. Mỗi ràng buộc thể hiện một đặc trưng nào đó của dữ liệu
huấn luyện. Mọi hàm thực trên quan sát đầu vào và nhãn đầu ra có thể được xem
như là đặc trưng ) , ( s o f i. Maximum Entropy cho phép chúng ta giới hạn các phân phối
mô hình lý thuyết gần giống nhất các giá trị kì vọng cho các đặc trưng này trong dữ liệu
huấn luyện D . Vì thế người ta đã mô hình hóa xác suất ) | ( s o P như sau (ở đây, o là
quan sát đầu vào và s là quan sát đầu ra).
21

Ở đây () s o f i, là một đặc trưng, λ là một tham số cần phải ướng lượng và Z(o)
là thừa số chuẩn hóa đơn giản nhằm đảm bảo tính đúng đắn của định nghĩa xác suất (tổng
xác suất trên toàn bộ không gian bằng 1)
Lưu ý, mỗi hàm đặc trưng fi(o,s), là một ánh xạ từ <ngữ cảnh, nhãn> ->[0,1]. Một ví dụ

về một hàm đặc trưng là f(từ hiện tại là “học_sinh”, nhãn danh từ N) = 1.
Một số phương pháp huấn luyện mô hình từ dữ liệu học bao gồm: IIS (improved
iterative scaling), GIS, L-BFGS, v.v.
Z)=)Z);N;8:;`.C+S;8;C+/4p/+SCYy;W4S?
CRFs là mô hình trạng thái tuyến tính vô hướng (mấy trạng thái hữu hạn được
huấn luyện có điều kiện) và tuân theo tính chất Markov thứ nhất. CRFs đã được chứng
minh rất thành công cho các bài toán gán nhãn cho chuỗi như tách từ, gán nhãn cụm từ,
xác định thực thể, gán nhãn cụm danh từ, etc.Gọi o = (o1, o2, …, oT) là một chuỗi dữ
liệu quan sát cần được gán nhãn. Gọi S là tập trạng thái, mỗitrạng thái liên kết với một
nhãn L. Đặt s = (s1, s2,…, sT) là một chuỗi trạng thái nào đó, CRFs xác định xác suất
điều kiện của một chuỗi trạng thái khi biết chuỗi quan sát như sau:
Gọi là thừa số chuẩn hóa trên toàn bộ các chuỗi nhãn có thể.fk xác định một hàm đặc
trưng và k λ là trọng số liên kết với mỗi đặc trưng fk. Mục đích của việc học máy với
CRFs là ước lượng các trọng số này. Ở đây, ta có hai loại đặc trưng fk : đặc trưng trạng
thái (per-state) và đặc trưng chuyển (transition).
Ở đây δ là Kronecker-δ . Mỗi đặc trưng trạng thái (2) kết hợp nhãn l của trạng thái hiện
tại st và một vịtừ ngữ cảnh - một hàm nhị phân xk(o,t) xác định các ngữ cảnh quan trọng
của quan sát o tại vị trí t. Một đặc trưng chuyển (3) biểu diễn sự phụ thuộc chuỗi bằng
cách kết hợp nhãn l’ của trạng thái trước st-1 và nhãn l của trạng thái hiện tại st.
Người ta thường huấn luyện CRFs bằng cách làm cực đại hóa hàm likelihood theo dữ
liệu huấn luyện sửdụng các kĩ thuật tối ưu như L‐BFGS. Việc lập luận (dựa trên mô hình
đã học) là tìm ra chuỗi nhãn tương ứng của một chuỗi quan sát đầu vào. Đối với CRFs,
22
người ta thường sử dụng thuật toán qui hoạch động điển hình là Viterbi để thực hiện lập
luận với dữ liệu mới.
Z)=)])9/E:z+QgE8TM+,
Các mẫu ngữ cảnh cho việc lựa chọn đặc trưng với Maximum Entropy và Conditional
Random Fields được cho trong bảng sau:
Loại Ngữ cảnh Giải thích
Mẫu ngữ cảnh cho cả Maxent và CRFs

Mẫu ngữ cảnh cơ
bản (loại 1)
w:-2; w:-1; w:0; w:1; w:2 w:i cho biết từ tại vị trí
thứ i trong chuỗi đầu
vào (nằm trong cửa sổ
trượt với kích cỡ 5)
w:0:1; w:1:2; w:-1:1 w:i:j kết hợp từ thứ i và
từ thứj trong chuỗi đầu
vào
is_all_capitalized(i) (i=0;1);
is_initial_capitalized(i)(i=0;1);
is_number(i) (i=-1;0;1);
contain_numbers(i)
(i,contain_hyphen,contain_comma
,
is_marks
Kiểm tra một số thuộc
tính của từ thứ i trong
cửa sổ hiện tại như: từ
có phải là toàn chữviết
hoa hay có kí tự đầu
viết hoa hay không, có
chứa số, v.v
Mẫu ngữ cảnh từ
điển (loại 2)
tags_in_dictionary(i)
(i=0,1)
Các từ loại có thể gán
cho từthứ i trong cửa sổ
hiện tại (V, N, A, )

Mẫu ngữ cảnh
đặc trưng tiếng
Việt (loại 3)
is_full_repretative(0),
is_partial_repretative(0)
Kiểm tra xem một từ
có phải từ láy toàn bộ
hay một phần không
Mẫu ngữ cảnh
dựa vào suffix
(loại 4)
prf(0),
sff(0)
Âm tiết đầu tiên (ví dụ
“sự” trong “sự hướng
dẫn”), cuối cùng trong
từ hiện tại (“hóa” trong
“công nghiệp hóa”)
Mẫu cho đặc trưng cạnh của CRFs
t-1 t0 Nhãn của từ trước đó và nhãn của từ hiện tại. Đặc
23
trưng này được trích chọn trực tiếp từ dữ liệu bởi FlexCrfs
Z)=){)_O8 G,D++:[+8L4C\;0N;py?0B/2;Y.Yv+8TCHX
Z)=){))_O8 G,D++:[+8L4C\;0N;py?0B/2W+88T<+8PH(|})}}}
Dữ liệu VietTreebank gồm 10,000 câu được chia thành 5 folds. Đánh giá gán nhãn
từ loại với CRFs và Maximum Entropy với phương pháp 5-fold-cross-validation, lấy lần
lượt 4 fold để huấn luyện và thửnghiệm trên fold còn lại sau đó lấy trung bình độ đo F1
trên 5 thử nghiệm, chúng tôi thu được kết quả như bảng sau:
Z)=){)=)_O8 G,D++:[+8L4C\;0N;/2W+88T<+8PHS74;`.(|=})}}}
Dữ liệu VietTreebank gồm 20,000 câu được chia thành 10 folds. Đánh giá gán

nhãn từ loại với Maximum Entropy với phương pháp 10-fold-cross-validation, lấy lần
lượt 9 fold để huấn luyện và thử nghiệm trên fold còn lại sau đó lấy trung bình độ đo F1
trên 10 thử nghiệm, chúng tôi thu được kết quả như bảng sau:
Z)Z)68Gu0+/,,WT
Công cụ được cài đặt trên ngôn ngữ Java (phiên bản 1.6).Để có thể thực thi được
công cụ, chúng ta chỉ cần cài đặt Java Runtime Environment.
Z)Z))j.8T^E8:MYfEu0+/,,WT
bin (lưu các file .classes đã được biên dịch)
24
inputdir (lưu các file văn bản để thử nghiệm gán nhãn từ loại
với JVnTagger)
lib (lưu các thư viện cần dùng choJVnTagger)
lbfgs.jar (thư viện cần dung để tối ưu hóa hàm likelihood cho
CRFs và Maxent)
model (thư mục lưu các mô hình đã được huấn luyện của
CRFs và Maxent. Mô hình của CRFs được sinh ra
nhờ huấn luyện với công cụFlexCRFs++. Mô hình
của Maxent được sinh ra nhờ huấn luyện dùng
jmaxent.Trainer trong JVnTagger).
src (thư mục lưu mã nguồn của công cụ)
Z)Z)=)DEH/EV/,W?8TC+,u0+/,,WT
Packages Mô tả
jflexcrfs
flexcrfs.Labeling
Lưu mã nguồn CRFs cho gán nhãn dữ
liệu với mô hình đã được huấn luyện
lưu trong model/crfs. Lưu ý định dạng mô
hình phù hợp với định dạng mô tả trong
FlexCRFs++1. Xem thêm phần 3 để biết
thêm cơ sở lý thuyếtcủa CRFs.

Gán nhãn câu với CRFs
Jmaxent
jmaxent.Trainer
jmaxent.Classification
Lưu mã nguồn Maximum Entropy. Xem
thêm phần 3 để biết thêm cơ sở lý thuyết
của Maxent.
Huấn luyện mô hình Maximum Entropy
Phân lớp với Maximum Entropy
jvntagger.data
jvntagger.data .Tword
jvntagger.data .Sentence
jvntagger.data .DataReader
(mã nguồn cho phép thao tác, xử lý dữ
liệu)
Lưu từ vựng và nhãn từ loại tương ứng.
Nhãn có thể nhận giá trịnull (trong trường
hợp từ chưa được gán nhãn)
Một tập các từ vựng cùng nhãn tương ứng
(tập các TWord)
Lớp trừu tượng, thừa kết lớp này để đọc
dữ liệu vào với các dữ liệu với định dạng
khác nhau.
25

×