TÌM HIỂU VẤN ĐỀGÁN NHÃN VĂN BẢN TIẾNG VIỆT VÀ MỘT SỐ PHƯƠNG PHÁP GÁN NHÃN VĂN BẢN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (319.59 KB, 20 trang )

BỘ QUỐC PHÒNG
HỌC VIỆN KỸ THUẬT QUÂN SỰ
CƠ SỞ 2 THÀNH PHỐ HỒ CHÍ MINH

MÔN HỌC:
NGUYÊN LÝ CHƯƠNG TRÌNH DỊCH
GV BỘ MÔN:TS HÀ CHÍ TRUNG
ĐỀ TÀI:
TÌMHIỂUVẤNĐỀGÁNNHÃNVĂN BẢNTIẾNGVIỆT
VÀ MỘT SỐ PHƯƠNG PHÁPGÁNNHÃNVĂN BẢN (ÍT
NHẤT2 PHƯƠNG PHÁP)
Học viên thực hiện : Phan Thị Ngọc Tuyết Vân
Mã học viên : 14871114
Lớp :CHKHMT K.26B
Tp.HCM, năm 2015
Đồ án môn Nguyên Lý Chương Trình Dịch

LỜI MỞ ĐẦU
Kính Thưa Thầy, trước tiên em xin gởi đến Thầy lời cảm ơn chân thành nhất.
Thầy đã hướng dẫn môn học NGUYÊN LÝ CHƯƠNG TRÌNH DỊCH cho lớp
CHKHMT – TPHCM25A13. Dẫu trong thời gian ngắn, nhưng Thầy đã giảng giải cho
chúng em khái quát và những gì cô đọng nhất về môn học. Khi phân công bài tập, Thầy
hướng dẫn và phân tích để chúng em hiểu cách trình bày cho việc hoàn thành bài tập.
Em rất cảm ơn sự tận tâm của Thầy đã giúp chúng em hoàn tất bài tập.
Trong khuôn khổ của một bài viết sẽ không tránh khỏi những thiếu sót. Em rất
mong nhận được sự góp ý cũng như chỉ bảo thêm của Thầy, được như vậy tất cả chúng
em sẽ có thể được học hỏi thêm nhiều kiến thức của Thầy, giúp chúng em tiến bộ hơn
trong tương lai.
Trân trọng.
MỤC LỤC
HVTH: Phan Thị Ngọc Tuyết Vân - 14871114 Trang 2

Đồ án môn Nguyên Lý Chương Trình Dịch

MỞĐẦU
Một trong các vấn đề nền tảng của phân tích ngôn ngữ là việc phân loại các từ
thành các lớp từ loại dựa theo thực tiễn hoạt động ngôn ngữ. Mỗi từ loại tương ứng với
một hình thái và một vai trò ngữ pháp nhất định. Các bộ chú thích từ loại có thể thay đổi
tuỳ theo quan niệm về đơn vị từ vựng và thông tin ngôn ngữ cần khai thác trong các ứng
dụng cụ thể. Mỗi từ trong một ngôn ngữ nói chung có thể gắn với nhiều từ loại, và việc
giải thích đúng nghĩa một từ phụ thuộc vào việc nó được xác định đúng từ loại hay
không. Công việc gán nhãn từ loại cho một văn bản là xác định từ loại của mỗi từ trong
phạm vi văn bản đó. Khi hệ thống văn bản đã được gán nhãn, hay nói cách khác là đã
được chú thích từ loại thì nó sẽ được ứng dụng rộng rãi trong các hệ thống tìm kiếm
thông tin, trong các ứng dụng tổng hợp tiếng nói, các hệ thống nhận dạng tiếng nói cũng
như trong các hệ thống dịch máy.
Đối với các văn bản Việt ngữ, việc gán nhãn từ loại có nhiều khó khăn, đặc biệt là
bản thân việc phân loại từ tiếng Việt cho đến nay vẫn là một vấn đề còn nhiều tranh cãi,
chưa có một chuẩn mực thống nhất
HVTH: Phan Thị Ngọc Tuyết Vân - 14871114 Trang 3
Đồ án môn Nguyên Lý Chương Trình Dịch

Chương 1: TỔNG QUAN VỀ XỬ LÝ
NGÔN NGỮ TỰ NHIÊN
I. Tổng quan:
Xử lý ngôn ngữ chính là xử lý thông tin khi đầu vào là “dữ liệu ngôn ngữ” (dữ liệu
cần biến đổi), tức dữ liệu “văn bản” hay “tiếng nói”. Các dữ liệu liên quan đến ngôn ngữ
viết (văn bản) và nói (tiếng nói) đang dần trở nên kiểu dữ liệu chính con người có và lưu
trữ dưới dạng điện tử. Đặc điểm chính của các kiểu dữ liệu này là không có cấu trúc hoặc
nửa cấu trúc và chúng không thể lưu trữ trong các khuôn dạng cố định như các bảng biểu.
Vấn đề là làm sao ta có thể xử lý chúng, tức chuyển chúng từ các dạng ta chưa hiểu được
thành các dạng ta có thể hiểu và giải thích được, tức là ta có thể tìm ra thông tin, tri thức

hữu ích cho mình.
II. Qui trình xử lý ngôn ngữ tự nhiên
Để máy tính có thể hiểu và thực thi một chương trình được viết bằng ngôn ngữ cấp
cao, ta cần phải có một trình biên dịch thực hiện việc chuyển đổi chương trình đó sang
chương trình ở dạng ngôn ngữ đích. Cấu trúc của trình biên dịch là một cấu trúc mức
quan niệm bao gồm các giai đoạn: Phân tích từ vựng, Phân tích cú pháp, Phân tích ngữ
nghĩa, Sinh mã trung gian, Tối ưu mã và Sinh mã đích. Nói một cách đơn giản, trình biên
dịch là một chương trình làm nhiệm vụ đọc một chương trình được viết bằng một ngôn
ngữ - ngôn ngữ nguồn (source language) - rồi dịch nó thành một chương trình tương
đương ở một ngôn ngữkhác - ngôn ngữ đích (target languague). Một phần quan trọng
trong quá trình dịch là ghi nhận lại các lỗi có trong chương trình nguồn để thông báo lại
cho người viết chương trình
1. Phân tích từ vựng (Lexical Analysis)
Phân tích từ vựng là giai đoạn đầu tiên của mọi trình biên dịch. Nhiệm vụ chủ yếu
của nó là đọc các ký hiệu đầu vào rồi tạo ra một chuỗi các mã thông báo token được sử
dụng bởi bộ phân tích cú pháp.
2. Phân tích cú pháp (Syntax Analysis)
Giai đoạn phân tích cú pháp thực hiện công việc nhóm các thẻ từ của chương trình
nguồn thành các ngữ đoạn văn phạm (grammatical phrase), mà sau đó sẽ được trình biên
dịch tổng hợp ra thành phẩm. Thông thường, các ngữ đoạn văn phạm này được biểu diễn
bằng dạng cây phân tích cú pháp (parse tree) với:
- Ngôn ngữ được đặc tả bởi các luật sinh.
- Phân tích cú pháp dựa vào luật sinh để xây dựng cây phân tích cú pháp.
HVTH: Phan Thị Ngọc Tuyết Vân - 14871114 Trang 4
Đồ án môn Nguyên Lý Chương Trình Dịch

3. Phân tích ngữ nghĩa (Semantic Analysis)
Giai đoạn phân tích ngữ nghĩa sẽ thực hiện việc kiểm tra xem chương trình nguồn
có chứa lỗi về ngữ nghĩa hay không và tập hợp thông tin về kiểu cho giai đoạn sinh mã
về sau. Một phần quan trọng trong giai đoạn phân tích ngữ nghĩa là kiểm tra kiểu (type

checking) và ép chuyển đổi kiểu.
4. Sinh mã trung gian
Sau khi phân tích ngữ nghĩa, một số trình biên dịch sẽ tạo ra một dạng biểu diễn
trung gian của chương trình nguồn. Chúng ta có thể xem dạng biểu diễn này như một
chương trình dành cho một máy trừu tượng. Chúng có 2 đặc tính quan trọng: dễ sinh và
dễ dịch thành chương trình đích.
5. Tối ưu mã
Giai đoạn tối ưu mã cố gắng cải thiện mã trung gian để có thể có mã máy thực
hiện nhanh hơn. Một số phương pháp tối ưu hóa hoàn toàn bình thường.
Có một khác biệt rất lớn giữa khối lượng tối ưu hoá mã được các trình biên dịch
khác nhau thực hiện. Trong những trình biên dịch gọi là "trình biên dịch chuyên tối ưu",
một phần thời gian đáng kể được dành cho giai đoạn này.
6. Sinh mã đích
Giai đoạn cuối cùng của biên dịch là sinh mã đích, thường là mã máy hoặc mã hợp
ngữ. Các vị trí vùng nhớ được chọn lựa cho mỗi biến được chương trình sử dụng. Sau đó,
các chỉ thị trung gian được dịch lần lượt thành chuỗi các chỉ thị mã máy. Vấn đề quyết
định là việc gán các biến cho các thanh ghi.
HVTH: Phan Thị Ngọc Tuyết Vân - 14871114 Trang 5
Đồ án môn Nguyên Lý Chương Trình Dịch

Chương 2:
BÀI TOÁN GÁN NHÃN TỪ LOẠI
I Khái niệm về bài toán gán nhãn từ loại
Mỗi từ trong một ngôn ngữ nói chung đôi khi có thể gắn với nhiều từ loại và
việcgiải thích đúng nghĩa một từ phụ thuộc vào việc nó có được xác định đúng từ loại
haykhông dựa trên ngữ cảnh cho trước. Công việc gán nhãn từ loại cho một văn bản
làxác định từ loại của mỗi từ trong phạm vi văn bản đó, tức là phân loại các từthành các
lớp từ loại dựa trên thực tiễn hoạt động ngôn ngữ. Việc gán nhãntừ loại thường được thể
hiện bằng cách gán cho mỗi từ một “nhãn” có sẵn theo tậpnhãn cho trước.
1 Quá trình gán nhãn từ loại thường được chia làm 3 bước :

Giai đoạn tiền xử lý: Phân tách xâu ký tự thành chuỗi các từ. Giai đoạn này có thể
đơn giản hay phức tạp tuỳ theo ngôn ngữ và quan niệm về đơn vị từ vựng. Chẳng hạn đối
với tiếng Anh hay tiếng Pháp, việc phân tách từ phần lớn là dựa vào các ký hiệu trắng.
Tuy nhiên vẫn có những từ ghép hay những cụm từ gây tranh cãi về cách xử lý. Trong
khi đó với tiếng Việt thì dấu trắng càng không phải là dấu hiệu để xác định ranh giới các
đơn vị từ vựng do tần số xuất hiện từ ghép rất cao.
Khởi tạo gán nhãn: tức là tìm cho mỗi từ tập tất cả các nhãn từ loại mà nó có thể
có. Tập nhãn này có thể thu được từ cơ sở dữ liệu từ điển hoặc kho ngữ liệu đã gán nhãn
bằng tay. Đối với một từ mới chưa xuất hiện trong cơ sở ngữ liệu thì có thể dùng một
nhãn ngầm định hoặc gắn cho nó tập tất cả các nhãn. Trong các ngôn ngữ biến đổi hình
thái người ta cũng dựa vào hình thái từ để đoán nhận lớp từ loại tương ứng của từ đang
xét.
Quyết định kết quả gán nhãn: đó là giai đoạn loại bỏ nhập nhằng, tức là lựa chọn
cho mỗi từ một nhãn phù hợp nhất với ngữ cảnh trong tập nhãn khởi tạo nói trên. Có
nhiều phương pháp để thực hiện việc này, trong đó người ta phân biệt chủ yếu các
phương pháp dựa vào quy tắc ngữ pháp (với đại diện nổi bật là phương pháp Brill) và các
phương pháp xác suất. Ngoài ra còn có các hệ thống sử dụng mạng nơ-ron, các hệ thống
lai sử dụng kết hợp tính toán xác suất và ràng buộc ngữ pháp, gán nhãn nhiều tầng, …
7. Các khó khăn của bài toán gán nhãn từ loại
Nếu mỗi từ chỉ có một nhãn từ loại và ta có thể xây dựng được một từ điển hữuhạn
các từ và nhãn tương ứng của nó thì chắc chắn có thể giải quyết được bài toán gánnhãn từ
loại với kết quả tối ưu. Tuy nhiên, trong thực tế một từ đôi khi có thể có nhiềuhơn một
nhãn từ loại thích hợp, và ta cũng không thể kiểm soát được toàn bộ các từ cóthể xuất
hiện trong văn bản, điều này dẫn đến hai vấn đề mà bài toán gán nhãn từ loạiphải đối
mặt: Nhập nhằng từ loại và từ mới.Vấn đề chủ yếu của bài toán gán nhãn từ loại thực
HVTH: Phan Thị Ngọc Tuyết Vân - 14871114 Trang 6
Đồ án môn Nguyên Lý Chương Trình Dịch

chất là việc loại bỏ nhậpnhằng về từ loại, tức là khi một từ có nhiều từ loại, nhưng trong
một ngữ cảnh cụ thể,nó chỉ có thể có một từ loại đúng mà thôi

Nhìn chung, các nhập nhằng từ loại thường được giải quyết bằng cách xét đếnngữ
cảnh mà từ đó xuất hiện, tuy nhiên trong một số trường hợp, ngay cả khi có thôngtin về
ngữ cảnh mà một số từ vẫn còn tiềm tàng nhập nhằng về từ loại.Một vấn đề khác mà bài
toán gán nhãn từ loại cần phải xử lý là khi gặp những từmới mà bộ gán nhãn không thể
giải quyết được bằng những cách thông thường. Trongtrường hợp này, thường thì hệ
thống sẽ để nguyên và đánh dấu một từ loại đặc biệt đểchuyển sang phần xử lý tên riêng
(proper name) hay từ mới (unknown word).
III. Tập nhãn từ loại
1 Nguyên tắc xây dựng tập nhãn từ loại và một số tập nhãn từ loạicủa các
ngôn ngữ trên thế giới
Từ loại là những lớp từ có cùng bản chất ngữ pháp, được phân chia theo ý
nghĩakhái quát, theo khả năng kết hợp với các từ ngữ khác trong ngữ lưu và thực
hiệnnhững chức năng ngữ pháp nhất định ở trong câu. Trong thực tế, các tập nhãn
sửdụng cho việc gán nhãn từ loại thường được xây dựng và phát triển từ các lớp cơ bảnlà
các lớp từ đóng (Closed word class, function word class, còn được gọi là các từchức
năng, là một tập cố định và không thể mở rộng, các lớp này thường chỉ chứa mộtsố lượng
ít các từ có liên quan. Ví dụ: Giới từ, mạo từ, đại từ, số đếm, ) và các lớp từmở (Open
class, là các lớp từ có khả năng mở rộng bằng cách tạo thêm từ mới hoặc“mượn” từ các
ngôn ngữ khác. Có 4 lớp từ mở chính là danh từ - nouns, động từ -verb, tính từ - adjective
và một phần của phó từ - [adverb]). Thường thì một lớp từ sẽđược chia thành nhiều từ
loại theo các đặc tính riêng nào đó.
Với mỗi ngôn ngữ thường đều có nhiều tập nhãn từ loại có thể sử dụng,tuy nhiên,
việc lựa chọn tập nhãn ảnh hướng rất lớn đến độ khó của bài toán gán nhãntừ loại. Chọn
tập nhãn lớn sẽ làm tăng độ khó nhưng tập nhãn nhỏ hơn có thể khôngđủ đáp ứng cho
một mục đích nhất định nào đó. Việc chọn tập nhãn nào sẽ tùy thuộcvào từng ứng dụng
cụ thể, nói cách khác là tùy thuộc vào số lượng thông tin mà ứngdụng đó đòi hỏi. Như
vậy, cần phải có một sự thoả hiệp để xây dựng được một bộnhãn từ loại không quá lớn và
có chất lượng, tức là cần phải có sự cân đối giữa:
• Có được lượng thông tin rõ ràng hơn (Tức là phạm vi phân lớp từ loại nhỏ hơn, chia
thành nhiều từ loại hơn dựa trên nhiều yếu tố thể hiện sự khác biệt).

• Có khả năng tiến hành thực hiện việc gán nhãn (Tức là số lượng các từ loại càng ít càng
dễ tiến hành).
HVTH: Phan Thị Ngọc Tuyết Vân - 14871114 Trang 7
Đồ án môn Nguyên Lý Chương Trình Dịch

8. Các hướng tiếp cận bài toán gán nhãn từ loại
a. Gán nhãn bằng phương pháp dựa trên hệ luật
Đây là phương pháp gán nhãn từ loại ra đời sớm nhất, các bộ gán nhãn “sơ
khai”đều thực hiện theo phương pháp này. Nội dung chính của phương pháp này là
xâydựng một cơ sở dữ liệu lớn các “luật” được viết bằng tay, vì vậy phương pháp này
cònđược gọi là phương pháp gán nhãn thủ công. Các luật được xây dựng dựa vào ngữ
cảnh thích hợp, ví dụ, nếu một từ nhập nhằng đang xét đi sau một từ chỉ định thì nó có
xuhướng là một danh từ hơn là một động từ.
Đại diện tiêu biểu cho nhóm các phương pháp thủ công dựa trên hệ luật này
làENGTWOL (Voutilainen, 1995).
b. Các phương pháp dựa vào học máy
Phương pháp dựa trên luật là một phương pháp thủ công còn tiềm tàngrất nhiều
nhập nhằng. Cùng với đó, việc xây dựng một hệ thống trích chọn dựa trêncác luật là rất
tốn công sức. Thông thường để xây dựng một hệ thống như vậy đòi hỏicông sức vài
tháng từ một lập trình viên với nhiều kinh nghiệm về ngôn ngữ học. Giảipháp cho các
giới hạn này là phải xây dựng một hệ thống bằng cách nào đó có thể “tựhọc”, điều này sẽ
giúp giảm bớt sự tham gia của các chuyên gia ngôn ngữ và làm tăngtính khả chuyển cho
hệ thống, các phương pháp như vậy được gọi là các phương phápdựa vào học máy.
Như đã nói ở trên, các phương pháp dựa vào học máy là các phương pháp
xâydựng hệ thống mà bằng cách nào đó có thể “tự học” (để ngắn gọn ở các phần dưới
đâyta sẽ gọi là các phương pháp học máy). Phần này sẽ xem xét một đại diện tiêu biểu
củaphương pháp học máy, giải quyết nhập nhằng bằng cách sử dụng một bộ dữ liệu
huấnluyện để tính toán xác suất của một từ cho sẵn sẽ được gán với một nhãn nào đó
trongngữ cảnh cho trước, vì bản chất đó, họ các phương pháp này còn được gọi là
cácphương pháp xác suất.

Xác suất cho một từ, tức là xác suất mà một nhãn cho trước t là thích hợp vớimột
từ cho trước w được tính bằng công thức:
Để minh họa cho phương pháp xác suất, phần này sẽ giới thiệu một bộ gán
nhãnđiển hình sử dụng mô hình Markov ẩn (HMM). Mô hình Markov ẩn được giớithiệu
và nghiên cứu vào cuối những năm 1960 và đầu những năm 1970, cho đến naynó được
ứng dụng nhiều trong nhận dạng tiếng nói, tin sinh học và xử lý ngôn ngữ tựnhiên. HMM
lựa chọn một chuỗi nhãn tốt nhất cho toàn bộ câu, thông thường người tasử dụng thuật
toán Viterbi để tìm chuỗi nhãn tốt nhất đó.
Mô hình HMM có thể được xây dựng bởi các ô-tô-mát hữu hạn trạng
thái(probabilistic finite state automata) với các tham số biểu diễn xác suất chuyển
trạngthái và xác suất sinh dữ liệu quan sát tại mỗi trạng thái. Các trạng thái trong mô hình
HVTH: Phan Thị Ngọc Tuyết Vân - 14871114 Trang 8
Đồ án môn Nguyên Lý Chương Trình Dịch

HMM được xem là bị ẩn đi bên dưới dữ liệu quan sát sinh ra do mô hình. Quá trìnhsinh
ra chuỗi dữ liệu quan sát trong HMM thông qua một loạt các bước chuyển trạngthái xuất
phát từ một trong các trạng thái bắt đầu và dừng lại ở một trạng thái kết thúc.Tại mỗi
trạng thái, một thành phần của chuỗi quan sát được sinh ra trước khi chuyểnsang trạng
thái tiếp theo. Trong bài toán gán nhãn từ loại dữ liệu, ta có thể xem tươngứng mỗi trạng
thái với một trong nhãn từ loại: NN, NP, VB và dữ liệu quan sát là cáctừ trong câu. Mặc
dù các lớp này không sinh ra các từ, nhưng mỗi lớp được gán chomột từ bất kì có thể
xem như là sinh ra từ này theo một cách thức nào đó.
Giả sử, với câu đầu vào W (w1, w2,…, wn), ta cần tìm một chuỗi các nhãn tốt
nhấtcho toàn bộ câu, trong đó mỗi nhãn tương ứng với một từ của câu đầu vào T (t1, t2,
…,tn). Bộ gán nhãn sử dụng mô hình HMM sẽ tìm chuỗi các nhãn sao cho giá trị của
tíchP(Từ |nhãn) * P (nhãn | n nhãn trước đó) là cực đại, tức là thỏa mãn công thức:
Tˆ = argmaxT ∈τ P(T | W )
Ta đang quan tâm tới việc tìm chuỗi nhãn phù hợp nhất làm cực đại công thức nên
mẫu số trong tất cả các trường hợp là giống nhau, vì vậy ta có thể loại bỏ nó.
Do đó, bài toán trở thành tìm chuỗi các nhãn thỏa mãn công thức

Tˆ = argmaxT ∈τ P(T )P(W | T )
Áp dụng luật chuỗi xác suất, ta có công thức
Vẫn không có phương pháp hiệu quả để tính xác suất của chuỗi này một cáchchính
xác, vì nó yêu cầu quá nhiều dữ liệu. Ở đây ta phải áp dụng các giả thiết độc lậpđiều kiện
để có một xác suất đơn giản hơn (giả thiết rằng mỗi từ đều là độc lập với cáctừ khác và
đặc tính của một từ chỉ phụ thuộc vào nhãn của nó). Sử dụng giả thiết N-gram để mô hình
hóa xác suất chuỗi từ:
Cụ thể ta dùng mô hình phổ biến nhất là mô hình tri-gram.
P
( t1 ,t2 ,t3 ) = P ( t2 | t1 ) P ( t3 | t2 )
Đầu tiên, ta đơn giản hóa rằng xác suất của một từ thì chỉ phụ thuộc vào nhãn
củanó:
P(w
i
| w
1
t
1
w
i
−
1
t
i
−
1
t
i
) = P(w
i

| t
i
)
HVTH: Phan Thị Ngọc Tuyết Vân - 14871114 Trang 9
Đồ án môn Nguyên Lý Chương Trình Dịch

Tiếp theo, ta giả thiết rằng các nhãn phía trước có thể được xấp xỉ bởi 2 nhãntrước
và gần nó nhất:
P(t
i
| w
1
t
1
w
i-1
t
i-1
)= P(t
i
| t
i-2
t
i-1
)
Vì vậy, công thức Tˆ = argmaxT ∈τ P(T | W ) được biến đổi tương đương với công
thức dưới đây,ta phải lựa chọn chuỗi nhãn làm cực đại công thức này
Các thành phần thừa số trong công thức trên có thể được tính toán từ tập dữ
liệuhuấn luyện của mô hình. Chú ý rằng để có thể tránh xác suất bằng 0 ta cần sử dụng
cáckỹ thuật làm trơn

Ta có thể mô hình hóa HMM dưới dạng một đồ thị có hướng như hình
Như đã nói ở trên, thông thường trong mô hình HMM thuật toán hay được sửdụng
để tìm dãy trạng thái tối ưu là thuật toán Viterbi. Thuật toán này dựa trêncông thức truy
hồi dưới đây:
Một trong những bộ gán nhãn tiêu biểu sử dụng phương pháp này là bộ gán
nhãnTnT của tác giả Thorsten Brants sử dụng phương pháp tri-gram, cho kết quả 96.7%
vớitập nhãn Penn TreeBank và bộ dữ liệu WallStreet trong tiếng Anh. QTAG là mộtbộ
gán nhãn dựa trên mô hình HMM do nhóm nghiên cứu Corpus Research thuộctrường đại
học tổng hợp Birmingham phát triển, cung cấp miễn phí cho mục đíchnghiên cứu. Một
điểm nổi trội của QTAG là dù được xây dựng cho tiếng Anh nhưngnó có thể được huấn
luyện để sử dụng cho các ngôn ngữ khác. Phương pháp xácsuất còn được sử dụng để gán
nhãn từ loại trong rất nhiều ngôn ngữ khác nhau, ví dụviệc áp dụng mô hình HMM cho
bài toán gán nhãn từ loại tiếng Trung Quốc đạt đến93.5 % trong nghiên cứu của các tác
giả GouDong Zhou và Jian Su; Hai tác giảFábio N.Kepler và Marcelo Finger cũng công
bố kết quả sử dụng mô hình HMM đểgán nhãn từ loại cho tiếng Bồ Đào Nha với kết quả
93.48 % .
HVTH: Phan Thị Ngọc Tuyết Vân - 14871114 Trang 10
Đồ án môn Nguyên Lý Chương Trình Dịch

Tuy nhiên, mặc dù tính đến thời điểm hiện tại, đây là một trong những
phươngpháp gán nhãn theo phương pháp xác suất thông dụng nhất được biết đến nhưng
nóvẫn còn tiềm tàng những giới hạn khó giải quyết. Adrew McCallum trong các
nghiêncứu của mình đã đưa ra hai vấn đề mà các mô hình HMM truyền thống nói riêngvà
các mô hình sinh (generative models) nói chung gặp phải khi gán nhãn cho dữ liệudạng
chuỗi.
Ngoài HMM, còn rất nhiều phương pháp xác suất khác có thể sử dụng để
giảiquyết bài toán gán nhãn từ loại nói chung và bài toán gán nhãn từ loại tiếng Việt
nóiriêng, nhiều trong số chúng có những ưu điểm giải quyết được các hạn chế của
môhình HMM mà ta đã nói ở trên. Cùng với đó, bên cạnh các phương pháp học máy
xácsuất, còn có các phương pháp học máy khác, ví dụ phương pháp học máy dựa trên

độđo, phương pháp sử dụng mạng nơ ron nhân tạo, ….
c. Phương pháp lai
Đại diện tiêu biểu của phương pháp lai là phương pháp dựa trên học chuyển
đổi(Transformation-Based learning TBL), đây là một phương pháp học có giám sát,đòi
hỏi một tập ngữ liệu đã được gán nhãn. Phương pháp này sử dụng đặc tính của cảhai kiến
trúc gán nhãn nói trên. Giống như bộ gán nhãn dựa trên luật, nó dựa vào luậtđể xác định
khi một từ nhập nhằng thì nó có khả năng là một nhãn nào nhất. Giốngnhư bộ gán nhãn
xác suất, nó có một thành phần học máy để tạo ra các luật một cáchtự động từ một bộ dữ
liệu huấn luyện đã được gán nhãn trước.
Ý tưởng chính của thuật toán này là bắt đầu với một vài giải pháp đơn giản
(hoặctinh vi) cho vấn đề (gọi là “baseline tagging”) và từng bước áp dụng những luật
biếnđổi (luật chuyển) tối ưu (tìm ra từ tập ngữ liệu huấn luyện đã được đánh dấu
chínhxác) để dần dần giải quyết vấn đề (tức là chuyển từ nhãn không chính xác sang
nhãnchính xác). Quá trình này sẽ dừng lại khi không còn luật chuyển tối ưu nào được
lựachọn hoặc đã hết dữ liệu. Mô hình tổng quát của phương pháp lai.
Thuật toán bao gồm 5 bước:
HVTH: Phan Thị Ngọc Tuyết Vân - 14871114 Trang 11
Đồ án môn Nguyên Lý Chương Trình Dịch

• Bước 1: Gán nhãn cho từng từ bằng nhãn thông dụng nhất.
• Bước 2: Chọn một phép chuyển có tính quyết định thay thế nhãn đã gán
bằngnhãn mới mà kết quả đem lại có hệ số đánh giá lỗi thấp hơn (Đánh giá một
phépchuyển bằng hệ số đánh giá lỗi thực chất là so sánh nó với “sự thật”).
• Bước 3: Áp dụng phép chuyển này cho cả tập huấn luyện.
• Bước 4: Thực hiện lại các bước trên
• Bước 5: Đưa ra kết quả là một bộ gán nhãn mà nhãn đầu tiên sử dụng
unigrams,sau đó áp dụng phép chuyển đã được “học” ở trên theo thứ tự.
Ví dụ về một số luật chuyển thường được áp dụng cho phương pháp lai được
chobởi bảng sau:
ST

T
Chuyển nhãn
Điều kiện Ví dụ
Cũ Mới
1 NN VB Nhãn trước đó là TO To/TO race/NN VB
2 VBP VB
1 trong 3 nhãn trước đó là MD
Might /MD vanish/VBP
VB
3 NN VB
1 trong 2 nhãn trước đó là DT
Might/MD not
reply/NNVB
4 VB NN 1 trong 3 nhãn trước đó là VBZ
5 VBD VBN
Ví dụ: Xét từ “race” trong hai câu dưới đây
- It is expected to race tomorrow.
- The race for outer space.
Thuật toán sẽ thực hiện như sau:
• Đầu tiên, gán nhãn tất cả các từ “race” là NN (nhãn thường gặp nhất trong
tậpngữ liệu Brown corpus). Tức là:
“It is expected to race/NN tomorrow”
“The race/NN for outer space”
• Sau đó, sử dụng luật biến đổi để thay thế các nhãn NN bằng VB cho tất cả cáctừ
“race” mà đứng trước nó là từ được gán nhãn TO. Tức là:
“It is expected to race/VB tomorrow”
Và “The race/NN for outer space”
Đại diện tiêu biểu cho phương pháp này là bộ gán nhãn từ loại Brill’s (được
xâydựng bởi Eric Brill) sử dụng cho tiếng Anh, đây là một bộ gán nhãn rất thông dụng
HVTH: Phan Thị Ngọc Tuyết Vân - 14871114 Trang 12

Đồ án môn Nguyên Lý Chương Trình Dịch

vìcác ưu điểm của nó như miễn phí, đem lại kết quả khá khả quan (Độ chính xác là96.6%
cho tập ngữ liệu Wall Street Journal).
IV. Các phương pháp học máy áp dụng cho bài toán gán nhãn từ loại
Tiếng Việt
1 Phương pháp mô hình cực đại hóa Entropy
Mô hình cực đại hóa Entropy (Maximum Entropy Model - MEM) là một mô hình
dựa trên lý thuyết xác suất, được đề xuất lần đầu bởi Jaynes E.T. từ năm 1957. MEM giải
quyết tốt ba yêu cầu chủ yếu của xử lý ngôn ngữ tự nhiên, đó là: Độ chính xác, đặc trưng
thiếu tri thức và khả năng tái sử dụng.
a Khái niệm MEM
Tư tưởng chính của phương pháp cực đại hóa Entropy là “ngoài việc thỏa mãn
một số ràng buộc nào đó thì mô hình càng đồng đều càng tốt”. Để rõ hơn về vấn đề này,
thử xem xét trong trường hợp một bài toán gán nhãn từ loại gồm có 8 nhãn từ loại. Giả sử
chúng ta có một ràng buộc duy nhất: 80% các từ có ký tự đầu của các hình vị viết hoa là
danh từ riêng (Np). Trực quan cho thấy, nếu có một từ mà tất cả ký tự đầu của các hình vị
tạo nên nó là viết hoa thì chúng ta có thể nói có 80% khả năng từ này thuộc lớp danh từ
riêng, và 20% khả năng được chia đều cho 7 lớp còn lại.
Như vậy, bản chất lý thuyết của MEM là chọn một phân bố xác suất p theo một
đặc trưng ràng buộc nào đó. Phân bố được chọn là phân bố làm cực đại hóa độ hỗn loạn
thông tin trong một tập các thực thể được gán nhãn.
d. Nguyên lý cực đại hóa Entropy
Cực đại hóa Entropy là một nguyên lý cho phép đánh giá các phân phối xác suất từ
một tập các dữ liệu huấn luyện. Entropy là độ đo về tính đồng đều hay tính không chắc
chắn của một phân phối xác suất. Độ đo Entropy điều kiện của một phân phối mô hình
trên “một chuỗi trạng thái với điều kiện biết một chuỗi dữ liệu quan sát” p(y|x) có dạng
sau:
Tư tưởng chủ đạo của nguyên lý cực đại hóa Entropy là ta phải xác định một phân
phối mô hình sao cho “phân phối đó tuân theo mọi giả thiết đã biết từ thực nghiệm và

ngoài ra không đưa thêm bất kì một giả thiết nào khác”. Điều này có nghĩa là phân phối
mô hình phải thỏa mãn mọi ràng buộc được rút ra từ thực nghiệm, và phải gần nhất với
phân phối đều. Nói theo ngôn ngữ toán học, ta phải tìm phân phối mô hình p(y|x)thỏa
mãn hai điều kiện, một là nó phải thuộc tập P’ và hai là nó phải làm cực đại Entropy điều
kiện.
HVTH: Phan Thị Ngọc Tuyết Vân - 14871114 Trang 13
Đồ án môn Nguyên Lý Chương Trình Dịch

Với P là không gian của tất cả các phân phối xác suất điều kiện,và P’ là tập con
của P, P’ được xác định như sau:
e. Mô hình xác suất
Mô hình xác suất được định nghĩa theo không gian H x T, trong đó H là tập từ có
thể và ngữ cảnh từ loại, hoặc còn gọi là “lịch sử”, và T là tập các nhãn có thể có. Xác suất
mô hình của lịch sử h cùng với nhãn t được định nghĩa theo công thức
Trong đó, Π là hằng số chuẩn hóa, {μ, α1, … αk} là các tham số mang giá trị
dương của mô hình và{f1, …, fk} chính là các đặc trưng, thỏa mãnfj (h,t){0, 1}. Chú
ýrằng mỗi tham số aj tương ứng với một đặc trưng fj.
Cho trước một tập các từ {w1, …, wn} và một chuỗi nhãn {t1, …, tn} được
xem là dữ liệu huấn luyện, ta định nghĩa hi là lịch sử khi dự đoán nhãn ti. Các tham số
{μ, α1,… αk} được chọn sao cho làm cực đại likelihood dữ liệu huấn luyện sử dụng p
theocông thức:
Mô hình này được xem xét dưới dạng Maximum Entropy, trong đó mục tiêu là
cực đại entropy của một phân phối dưới những ràng buộc nhất định. Ở đây, entropy của
phân phối p được định nghĩa theo công thức:
Và các ràng buộc được cho bởi công thức:
Trong đó kỳ vọng đặc trưng của mô hình là:
và kỳ vọng đặc trưng quan sát là:
HVTH: Phan Thị Ngọc Tuyết Vân - 14871114 Trang 14
Đồ án môn Nguyên Lý Chương Trình Dịch

Trong đó là xác suất của (hi, ti) trong dữ liệu huấn luyện. Vì thế, cácràng buộc
này sẽ ép buộc mô hình phải đáp ứng được yêu cầu phù hợp tương ứng giữacác kỳ vọng
đặc trưng đó với kỳ vọng đặc trưng quan sát trong dữ liệu huấn luyện.
f. Hạn chế của mô hình MEM
Mặc dù mô hình MEM có những ưu điểm về độ chính xác, đặc trưng thiếu tri thức
và khả năng tái sử dụng, nhưng trong một số trường hợp đặc biệt, MEM cũng như các mô
hình định nghĩa một phân phối xác suất cho mỗi trạng thái có thể gặp phải vấn đề “label
bias” Vấn đề “label bias” là vấn đề do các trạng thái có phân phối chuyển với entropy
thấp (ít đường đi ra) có xu hướng ít chú ý hơn đến quan sát hiện tại, mô hình MEM gặp
phải vấn đề này tức là không xác định được nhánh rẽ đúng,điều này sẽ có ảnh hưởng đến
kết quả mà nó đạt được.
Năm 1991, Léon Bottou đưa ra hai giải pháp cho vấn đề “label bias”.Giải pháp thứ
nhất là gộp các trạng thái và trì hoãn việc rẽ nhánh cho đến khi gặp một quan sát xác
định. Đây chính là trường hợp đặc biệt của việc chuyển một ô-tô-mát không đơn định
sang một automata đơn định. Nhưng vấn đề ở chỗ ngay cả khi có thể thực hiện việc
chuyển đổi này thì cũng gặp phải sự bùng nổ tổ hợp các trạng thái của automata. Giải
pháp thứ hai mà Bottou đưa ra là chúng ta sẽ bắt đầu mô hình với một đồ thị đầy đủ của
các trạng thái và để cho thủ tục huấn luyện tự quyết định một cấu trúc thích hợp cho mô
hình.Tiếc rằng giải pháp này sẽ làm mất đi tính có thứ tự của mô hình, một tính chất rất
có ích cho các bài toán trích chọn thông tin.
Một giải pháp đúng đắn hơn cho vấn đề này là xem xét toàn bộ chuỗi trạng thái
như một tổng thể và cho phép một số các bước chuyển trong chuỗi trạng thái này đóng
vai trò quyết định với việc chọn chuỗi trạng thái. Điều này có nghĩa là xác suất của toàn
bộ chuỗi trạng thái sẽ không phải được bảo tồn trong quá trình chuyển trạng thái mà có
thể bị thay đổi tại một bước chuyển tùy thuộc vào quan sát tại đó.
9. Mô hình trường ngẫu nhiên điều kiện
Mô hình trường ngẫu nhiên điều kiện CRF (Conditional Random Fields được giới
thiệu lần đầu vào năm 2001 bởi Lafferty và các đồng nghiệp. CRF là mô hình dựa trên
xác suất điều kiện, nó có thể tích hợp được các thuộc tính đa dạng của chuỗi dữ liệu quan
sát nhằm hỗ trợ cho quá trình phân lớp. Tuy vậy, khác với các mô hình xác suất khác,

CRF là mô hình đồ thị vô hướng. Điều này cho phép CRF có thể định nghĩa phân phối
xác suất của toàn bộ chuỗi trạng thái với điều kiện biết chuỗi quan sát cho trước thay vì
phân phối trên mỗi trạng thái với điều kiện biết trạng thái trước đó và quan sát hiện tại
như trong các mô hình đồ thị có hướng khác. Bản chất “phân phối điều kiện” và “phân
phối toàn cục” của CRF cho phép mô hình này khắc phục được những nhược điểm của
HVTH: Phan Thị Ngọc Tuyết Vân - 14871114 Trang 15
Đồ án môn Nguyên Lý Chương Trình Dịch

các mô hình trước đó trong việc gán nhãn và phân đoạn các dữ liệu dạng chuỗi mà tiêu
biểu là vấn đề ‘label bias.
a Khái niệm CRF
Kí hiệu X là biến ngẫu nhiên nhận giá trị là chuỗi dữ liệu cần phải gán nhãn và Y là
biến ngẫu nhiên nhận giá trị là chuỗi nhãn tương ứng. Mỗi thành phần Yi của Y là một
biến ngẫu nhiên nhận gía trị trong tập hữu hạn các trạng thái S. Trong bài toán gán nhãn
từ loại, X có thể nhận giá trị là các câu trong ngôn ngữ tự nhiên (gồm các từ), Y là một
chuỗi ngẫu nhiên các nhãn tương ứng với các từ tạo thành câu này và mỗi một thành
phần Yi của Y có miền giá trị là tập tất cả các nhãn từ loại có thể (danh từ, động từ, tính
từ, ).
Cho một đồ thị vô hướng không có chu trình G = (V, E), ở đây V là tập các đỉnh
của đồ thị và E là tập các cạnh vô hướng nối các đỉnh đồ thị. Các đỉnh V biểu diễn các
thành phần của biến ngẫu nhiên Y sao cho tồn tại ánh xạ một- một giữa một đỉnh và một
thành phần Yv của Y. Ta nói (Y|X) là một trường ngẫu nhiên điều kiện (Conditional
Random Field) khi với điều kiện X, các biến ngẫu nhiên Yv tuân theo tính chất Markov
đối với đồ thị G:
Ở đây, N(v) là tập tất cả các đỉnh kề với v. Như vậy, một CRF là một trường ngẫu
nhiên phụ thuộc toàn cục vào X. Trong các bài toán xử lý dữ liệu dạng chuỗi, G đơn giản
chỉ là dạng chuỗi G = (V={1,2,…m}, E={(i,i+1)}).
Kí hiệu X=(X
1
, X

2
,…, X
n
), Y=(Y
1
,Y
2
, ,Y
n
). Mô hình đồ thị cho CRF có dạng:
Gọi C là tập hợp tất cả các đồ thị con đầy đủ của đồ thị G - đồ thị biểu diễn cấu
trúc của một CRF. Áp dụng kết quả của Hammerley-Clifford cho các trường ngẫu nhiên
Markov, sẽ thừa số hóa được p(y|x) - xác suất của chuỗi nhãn với điều kiện biết chuỗi dữ
liệu quan sát - thành tích của các hàm tiềm năng như sau:
Vì trong các bài toán xử lý dữ liệu dạng chuỗi đồ thị biểu diễn cấu trúc của một
CRF có dạng đường thẳng như trong hình trên nên tập C phải là hợp của E và V, trong đó
HVTH: Phan Thị Ngọc Tuyết Vân - 14871114 Trang 16
Đồ án môn Nguyên Lý Chương Trình Dịch

E là tập các cạnh của đồ thị G và V là tập các đỉnh của G, hay nói cách khác đồ thị con A
hoặc chỉ gồm một đỉnh hoặc chỉ gồm một cạnh của G.
g. Hàm tiềm năng của các mô hình CRF
Lafferty xác định các hàm tiềm năng cho các mô hình CRF dựa trên nguyên lý cực
đại hóa Entropy. Cực đại hóa Entropy là một nguyên lý cho phép đánh giá các phân phối
xác suất từ một tập các dữ liệu huấn luyện. Bằng cách áp dụng nguyên lý cực đại hóa
Entropy, Lafferty xác định hàm tiềm năng của một CRF có dạng một hàm mũ.
Ở đây f
k
là một thuộc tính của chuỗi dữ liệu quan sát và là trọng số chỉ mức độ biểu
đạt thông tin của thuộc tính f

k
.
Có hai loại thuộc tính là thuộc tính chuyển (kí hiệu là t) và thuộc tính trạng thái (kí
hiệu là s) tùy thuộc vào A là đồ thị con gồm một đỉnh hay một cạnh của G. Thay các hàm
tiềm năng vào công thức và thêm vào đó một thừa sổ chuẩn hóa Z(x) để đảm bảo tổng
xác suất của tất cả các chuỗi nhãn tương ứng với một chuỗi dữ liệu quan sát bằng 1, ta
được:
Ở đây, x, y là chuỗi dữ liệu quan sát và chuỗi trạng thái tương ứng; t
k
là thuộc tính
của toàn bộ chuỗi quan sát và các trạng thái tại ví trí i-1, i trong chuỗi trạng thái;s
k
là
thuộc tính của toàn bộ chuỗi quan sát và trạng thái tại ví trí i trong chuỗi trạng thái.
Thừa số chuẩn hóa Z(x) được tính như sau:
HVTH: Phan Thị Ngọc Tuyết Vân - 14871114 Trang 17
Đồ án môn Nguyên Lý Chương Trình Dịch

h. Thuật toán gán nhãn cho dữ liệu dạng chuỗi.
Tại mỗi vị trí i trong chuỗi dữ liệu quan sát, ta định nghĩa một ma trận chuyển|S|*|
S| như sau:
Ở đây Mi(y’, y, x) là xác suất chuyển từ trạng thái y’ sang trạng thái y với chuỗidữ
liệu quan sát là x. Chuỗi trạng thái y* mô tả tốt nhất cho chuỗi dữ liệu quan sát x
lànghiệm của phương trình: y* = argmax{p(y|x)}
Chuỗi y* được xác định bằng thuật toán Viterbi cải tiến. Định nghĩalà xác suất của
“chuỗi trạng thái độ dài i kết thúc bởi trạng thái y và có xác suất lớn nhất”, biết chuỗi
quan sát là x.
Giả sử biết tất cả với mọi y
k
thuộc tập trạng thái S của mô hình, cần xácđịnh . Ta

suy ra công thức truy hồi:
Đặt. Giả sử chuỗi dữ liệu quan sát xcó độ dài n, sử dụng kĩ thuật backtracking để
tìm chuỗi trạng thái y* tương ứng nhưsau:
• Bước 1: Với mọi y thuộc tập trạng thái tìm
o
o i n
• Bước lặp: chừng nào i>0
o i i-1
o y Prei(y)
o y*(i) = y
Chuỗi y* tìm được chính là chuỗi có xác suất p(y*|x) lớn nhất, đó cũng chính
làchuỗi nhãn phù hợp nhất với chuỗi dữ liệu quan sát cho trước.
Như vậy, do bản chất phân phối toàn cục của mình, CRF có thể giải quyết
đượcvấn đề ‘label bias’, một nhược điểm tiêu biểu của mô hình ME. Ở phươngdiện lý
thuyết mô hình, ta có thể coi mô hình CRF như là một máy trạng thái xác suấtvới các
trọng số không chuẩn hóa, mỗi trọng số gắn liền với một bước chuyển trạngthái. Bản chất
không chuẩn hóa của các trọng số cho phép các bước chuyển trạng tháicó thể nhận các
giá trị quan trọng khác nhau. Vì thế bất cứ một trạng thái nào cũng cóthể làm tăng hoặc
giảm xác suất được truyền cho các trạng thái sau nó mà vẫn đảmbảo xác suất cuối cùng
HVTH: Phan Thị Ngọc Tuyết Vân - 14871114 Trang 18
Đồ án môn Nguyên Lý Chương Trình Dịch

được gán cho toàn bộ chuỗi trạng thái thỏa mãn định nghĩa vềxác suất nhờ thừa số chuẩn
hóa toàn cục.
i. Ước lượng tham số cho các mô hình CRF
Kĩ thuật được sử dụng để đánh giá tham số cho một mô hình CRF là làm cực
đạihóa độ đo likelihood giữa phân phối mô hình và phân phối thực nghiệm.
Nguyên lý cực đại likelihood được phát biểu như sau: Các tham số tốt nhất củamô
hình là các tham số làm cực đại hàm likelihood. Như vậy, về phương diện toánhọc, bài
toán ước lượng tham số cho một mô hình CRF chính là bài toán tìm cực đạicủa hàm log-

likelihood. Có nhiều phương pháp tìm cực đại của hàm log-likelihoodnhư các phương
pháp lặp (IIS, GIS), các phương pháp tối ưu số (phương pháp dựa trênvector gradient như
phương pháp gradient liên hợp, quasi-Newton …) và L-BFGs cóthể phục vụ cho ước
lượng tham số mô hình. Trong các phương pháp tìm cực trị hàmlog-likelihood này,
phương pháp L-BFGs được đánh giá là vượt trội và có tốc độ hộitụ nhanh nhất.
HVTH: Phan Thị Ngọc Tuyết Vân - 14871114 Trang 19
Đồ án môn Nguyên Lý Chương Trình Dịch

Tài liệu tham khảo
[1] Nguyễn Quang Châu- Phan Thị Tươi- Cao Hoàng Trụ, (2006),“Gán nhãn từ
loại cho tiếng việt dựa trên văn phong và tính toán xác suất”, Tạp chí phát triển KH&CN,
tập 9(số 2).
[2] Nguyễn Thị Minh Huyền - Vũ Xuân Lương - Lê Hồng Phương, (2003), “Sử
dụng bộ gán nhãn từ loại xác suất qtag cho văn bản tiếng việt”, Kỷ yếu Hội thảo
ICT.rda’03.
HVTH: Phan Thị Ngọc Tuyết Vân - 14871114 Trang 20

TÌM HIỂU VẤN ĐỀGÁN NHÃN VĂN BẢN TIẾNG VIỆT VÀ MỘT SỐ PHƯƠNG PHÁP GÁN NHÃN VĂN BẢN

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về