Nhận dạng và phân loại các thực thể có tên cho văn bản tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (21.07 MB, 61 trang )

Đ ẠI H Ọ C QUỐC GIA HÀ NỘI
****

NHẬN DẠNG VÀ PHÂN LOẠI CÁC THựC THẺ CÓ TÊN
CHO VẪN BẢN TIÉNG VIỆT

M ã số: Q C .09.08

C hủ nhiệm đề tài: Phạm Bảo Sơn

Ị

0AIMOC QỊ1'* G 'c Hí. f\: 1
l.\ ■ It V* «*-• 1- 'n\» Iho »if N

ỒOOb 0 0 0 0 0 4 -1

Hà N ộ i - 2 0 1 0

Ket-noi.com
Ket-noi.com kho
kho tai
tai lieu
lieu mien
mien phi
phi

M ỤC LỤC
BÁO CÁO TỔNG KẾT...............................................................................................................................................2

1. Giới th iệ u ................................................................................................................................................ 2
2. Thách thứ c............................................................................................................................................... 3
3. Tổng quan các vấn đề nghiên c ứ u ..................................................................................................... 4
3.1 Các phương pháp phổ b iể n ...........................................................................................................4
3.2 G iới thiệu về G A T E .......................................................................................................................5
4. Xây dựng C orpus cho tiếng V iệt........................................................................................................7
5. Xây dựng hệ thống N E R cho tiếng V iệ t......................................................................................... 9
5.1. Tiền xử l ý ................................................................................................................................... 10
5.2. B ộ từ đ iể n ................................................................................................................................... 11
5.3. Bộ lu ậ t......................................................................................................................................... 12
6. Thực n g h iệ m ......................................................................................................................................14
6.1 Các bước tiến hành thực ngh iệm ........................................................................................... 14
6.2. K ết quả thực n g h iệ m ................................................................................................................15
7. Kết lu ậ n ............................................................................................................................................... 18
Tài liệu tham k h ả o ................................................................................................................................19

11

Danh sách những người tham gia thực hiện đề tài (học hàm, học vị, cơ quan công tác)

Chủ trì đề tài:
•

TS. Phạm Bảo Sơn

Những người thực hiện:
H ọ và tên

TT

H ọc vị

Cơ quan công tác

1

Bùi Thế Duy

TS

Trường ĐHCN

2

Lê A nh C ường

TS

Trường ĐHCN

3

N guyễn B á Đ ạt

CN

Trường ĐHCN

4

N guyễn Q uốc Đạt

CN

Trường ĐHCN

5

N guyễn Q uốc Đại

CN

Trường ĐHCN

Ket-noi.com
Ket-noi.com kho
kho tai
tai lieu
lieu mien
mien phi
phi

Danh mục các hình

Hình 3.1 - Kiến trúc tổng quát của GATE............................................................................................................... 6
Hình 4.1 - Mô hỉnh các bước phát triển của hệ thống.............................................................................................8
Hình 5.1 - Mô tả chi tiết hệ thống nhận dạng thực thể trong văn bản tiếng V iệt..................................................9
Hình 5.2 - Một ví dụ cho quá trình nhận dạng thông minh...................................................................................14

IV

Danh mục các bảng số liệu

Bảng 6.1 - Kết quả nhận dạng trên tập huấn luyện............................................................................................. 15
Bàng 6.2 - Bàng kết quả nhận dạng trên tập kiểm ừ a ......................................................................................... Ị 6
Bảng 6.3 - Kêt quả nhận dạng trên tập kiểm ừa với tiêu chí “lòng” ( lenientevaluation)................................. 17
Bàng 6.4 - Kết quả thực nghiệm cùa một số hệ thốngnhận dạng thực thể trong vănbản tiểng Việt................. 17

V

Ket-noi.com
Ket-noi.com kho
kho tai
tai lieu
lieu mien
mien phi
phi

1

T ó m tắ t c á c k ế t q u ả n g h iê n c ứ u c h ín h c ủ a đ ề tà i

Kêt quà vé khoa học (những đóng góp của đề tài, các công trình khoa học đã công bố)

2 bài báo đăng tại các hội nghị quốc tế chuyên ngành (đăng bởi IEEE CS)
• Dang Due Pham , G iang Binh Tran and Son Bao Pham. “A Hybrid Approach to

Vietnamese Word Segmentation using Part o f Speech tags ”, Proceedings o f The first
International Conference on Knowledge and Systems Engineering (KSE 2009).

• Dai Quoc Nguyen, Dat Quoc Nguyen and Son Bao Pham. “A Vietnamese Question

Answering S y s t e m Proceeding o f The first International Conference on Knowledge and
Systems Engineering (KSE 2009).

Két quả phục vụ thực tế (các sản phấm công nghệ, khả năng áp dụng thực tế)
Chúng tôi đã nghiên cứu và phát triển m ột hệ thống nhận dạng thực thể có tên cho tiếng
Việt đạt kết quả khá khả quan, song song với đó là một bộ dữ liệu đã được gán nhãn chuẩn và
tài liệu định nghĩa các loại thực thể. Tất cả hệ thống và các tài liệu liên quan sẽ được m ở cho
cộng đồng sử dụng và phát triển.

Kết quả đào tạo (sẻ lượng sinh viên, số lượng học viên cao học, nghiên cứu sinh tham gia
thực hiện làm việc trong đề tài, so khóa luận, luận vân đã hoàn thành và bảo vệ)

3 khóa luận tốt nghiệp CNTT:
'•

Dat B a N guyen, "Named Entity Recognition fo r Vietnamese ”, Khóa luận tốt nghiệp

đại học, Trường Đại học Công Nghệ, 2009.
• Dai Q uoc N guyen, “Phương pháp xây dựng hệ thong hỏi đáp tiếng Việt dựa trên

O ntology”, Khóa luận tốt nghiệp đại học, Trường Đại học Công Nghệ, 2009.
• Dat Quoc N guyên, “Phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt ”,
Khóa luận tốt nghiệp đại học, Trường Đại học C ông N ghệ, 2009.

Kết quả nâng cao tiềm lực khoa học (năng cao trình độ cán bộ và trang thiết bị hợc phần

mềm đã xây dựng được giao nộp đưa vào sử dụng tại đơn vị):
Nâng cao năng lực chuyên môn cùa cán bộ phòng thí nghiệm về các lĩnh vực xử lý ngôn n»ừ
tự nhiên và trí tuệ nhân tạo.

BÁO CÁO TỔNG KẾT
1. G ió i th iệu
Với sự bùng nổ của nguồn dữ liệu trên Internet, những bài toán về xử lý thông tin như: trích
chọn thông tin, tóm tát nội dung văn bản v .v ... ra đời như một nhu cầu tất yếu. Bài toán nhận
dạng thực thể là m ột bài toán khá cơ bản trong nhóm các bài toán trích chọn thông tin. N ó có
nhiệm vụ tìm kiểm và rút ra những thông tin liên quan đến thực thể (m ột đối tượng hoặc một
tập hợp đối tượng của thế giới tự nhiên) trong văn bản, thông thường là loại thực thể. Có thế
tùy theo từng bài toán, từng lĩnh vực cụ thể, người ta đưa ra danh sách những loại thực thể
được nhận dạng khác nhau. Các hệ thống nhận dạng thực thể trong văn bản [4], [8] thường
nhận một số loại thực thể:
•

Thực thể chỉ người (Person).

•

Thực thể chỉ tổ chức (O rganization).

•

Thực thể chỉ địa điểm (Location).

•

Thực thể chỉ ngày (Date).

•

Thực thể chỉ thời gian (Time).

•

Thực thể chi các đơn vị tiền tệ (M oney).

•

Thực thể chi phần tràm (Percent).

Trong đó, loại thực thể chi ngày (D ate), thực thể chỉ thời gian (Tim e), thực thể chi các
đcm vị tiền tệ (M oney), thực thể chi phần trăm (Percent) thường ít m ang tính nhập nhầng,
không khó để nhận dạng. N goài ra tùy từng lĩnh vực, người ta cỏ thể chú ý thêm vào những
loại thực thể khác đặc thù. Ví dụ hệ thống nhận dạng thực thể trong văn bản với lĩnh vực y tế
[14]

sẽ nhận những thực thể chỉ tên thuốc, hoặc c á c io ạ i bệnh v .v ... như những loại thực thể

chính.
Là một bài toán khá quan trọng và cơ bàn nhưng hiện nay vẫn chưa có nhiều nghiên cứu
về bài toán nhận dạng thực thể trong văn bản đối với tiếng Việt. Hơn nữa những hệ thống
hiện thời không phải là nguồn m ở nên rất khó để tiếp cận sứ dụng và phát triển [4], [11].
Chính vì vậy chúng tôi quyết định xây dựng m ột hệ thống nhận dạng thực thể sử dụng hệ
luật cho văn bản tiếng Việt trên nguồn m ở của khung làm việc G A TE (General A rchitecture
for Text E ngineering)1. Toàn bộ hệ thống sẽ được m ở cho cộng đồng sử dụng và phát triển.

1 Website chính thức của GATE: htìp://gate.ac.uk/downỉoad/index.html

2

Ket-noi.com
Ket-noi.com kho
kho tai
tai lieu
lieu mien
mien phi
phi

Song song với việc phát triển hệ thống, chúng tôi cũng xây dựng m ột bộ tài liệu bao gồm:
định nghĩa các thực thể, các loại thực thể, cùng với m ột tập dừ liệu được gán nhãn chuẩn cho
bài toán nhận dạng thực thể trong văn bản tiếng Việt.
2. T h á ch th ứ c
Có những thách thức m à phải vượt qua để giải quyết được bài toán này:
•

Tiếng V iệt m ang nhiều đặc trưng ngôn ngữ riêng khiến nó trở nên phức tạp so với
tiếng A nh và m ộ t số ngôn ngữ khác. N hững khó khăn đó xuất phát từ một trong
những đặc điểm sau:
o

Phân biệt các từ không xác định bằng dấu cách bởi m ột từ có thể bao gồm nhiều
âm tiết và chỉ mỗi âm tiết mới phân cách nhau bởi dấu cách. Điều này dẫn đến
nhập nhằng ữ o n g phân đoạn từ tiếng V iệt. Ví dụ: “Học sinh học sinh học ” có thể
được phân đoạn từ thành “Học sinh học sin h ỳiọ c ” hoặc cũng có thể là “Học_sinh

học sinh học
o

N gữ pháp V iệt N am phức tạp cùng với hiện tượng đồng âm khác nghĩa, từ dồng
nghĩa hay đảo trật tự câu và các phép tu từ dẫn đến nhập nhằng trong xác định ý
nghĩa của câu, từ.

•

Chưa có corpus (tập cơ sở dữ liệu gán nhãn tiếng V iệt) công bố với kích thước đủ lớn
để tiến hành thí nghiệm và đánh giá hiệu năng của phương pháp.

•

Chưa có nhiều nghiên cứu tiền đề về vấn đề phát nhận dạng thực thể có tên trong văn
bản tiếng Việt.

•

Đặc thù tiếng V iệt khó có thể áp dụng ngay những kết quả nghiên cứu trên thế giới
với tiếng A nh, Ả -R ập để đạt được kết quả cao.

3

3. T ổ n g q u a n các v ấ n đ ề n g h iên cứ u
3.1 Các phưong pháp phổ biến
Có ba hướng tiếp cận chính cho bài toán nhận dạng thực thể trong văn bản: hướng tiếp cận
sử dụng hệ luật được xây dựng bởi chuyên gia [4], [9], hướng tiếp cận sử dụng các phương
pháp học máy [8] và hướng tiếp cận lai [5].
Sử dụng chuyên gia xây dựng hệ luật là phương pháp truyền thống, có thể nói là được áp
dụng sớm nhất trong các bài toán xử lý ngôn ngữ tự nhiên nói chung và bài toán nhận dạng

thực thể trong văn bản nói riêng. Hệ luật là m ột tập hợp các luật do con người đặt ra nhằm
những mục đích nhất định, ở đây là việc nhận dạng các thực thể trong văn bản. Một hệ thống
nhận dạng thực thể sử dụng hệ luật thông thường sỗ có các các thành phần chính như: từ loại
(danh từ, động từ v.v...)> ngữ cảnh (từ đứng trước, từ đứng sau v .v ...) và một số thuộc tính
(viết hoa, viết thường v .v ...) kết hợp với m ột bộ từ điển để viết thành các luật [3]. Ví dụ với
câu sau đây:

“President Bush said M onday’s talks will include discussion on security, a timetable
fo r Ư.Sforces to leave Iraq."
Trong ví dụ này tò “B ush” đứng sau từ “President” sẽ được nhận là một tên người (Person),
“Iraq” đứng sau động từ “leave” sẽ dược nhận là tên chi địa điểm (Location). M USE (M ulti
source entity finder) được phát triển trên nền GATE, là hệ thống nhận dạng thực thể có tên
dựa trên hệ luật thu được kết quả khá cao 9 3 -9 4 % [9]. Đối với tiếng Việt, hệ thống VN-KỈM
cũng thu được những kết quả khá khả quan khoảng 81% cho các loại tên: O rganization,
Location, Person, D ate, Tim e, M oney and Percent [4],
Các phương pháp học máy như: máy vector hồ trợ (SVM ), cây quyết định, mô hình
m arkov ẩn, CRF v .v ... thường xuyên được áp dụng và thu được kết quả khá cao trong các
bài toán về xử lý ngôn ngữ tự nhiên. Với hệ thống nhận dạng thực thể trong văn bàn sử dụng
các phương pháp học m áy, vấn đề nhận dạng thực thể (N ER - N am ed Entities Recognition)
được chuyển đối thành bài toán phân loại. Đ ầu tiên sử dụng mô hình

IOB đếgán nhãn cho

các từ theo tiêu chí:
•

I: nếu từ nằm trong cụm thực thể đang xét.

•

O: nếu từ nằm ngoài cụm thực thể đang xét.

•

B: nếu từ là vị trí bát đầu cụm thực thể đang xét.
4

Ket-noi.com
Ket-noi.com kho
kho tai
tai lieu
lieu mien
mien phi
phi

Sau đó dựa trên những thông tin về nhãn cùa từ thu được qua m ô hình IOB, cùng với từ
loại và loại thực thể (nam ed entity) v .v ... để trích chọn đặc trưng làm đầu vào cho các mô
hình phân loại sử dụng các phương pháp học máy.
Đối với tiếng Việt, m ột trong những nghiên cứu đầu tiên là của tác giả N guyễn với hệ
thống nhận dạng thực thể trong văn bản dựa trên m ô hình Conditional R andom Fields (CRF)
để xác định 8 loại thực thể: thực thể chỉ người (Person), thực thể chỉ địa danh (Location),
thực thể chi tổ chức (O rganization), phần trăm, thời gian (Tim e), số (N um ber), tiền tệ
(M oney) [11]. Tác giả tiến hành thực nghiệm sử dụng công cụ FlexC R Fs2, sử dụng dữ liệu
gồm 50 bài báo lĩnh vực kinh doanh (khoảng gần 1400 câu) lấy từ

nguồn báo điện tử

vnexpress. Biểu đồ ở hình 2.1 thể hiện kết quả cùa 10 lần thử nghiệm với F-m easure trung
bình khoảng 8 0 - 8 1 %.

“Hệ thống lai” là hệ thống kết hợp giữa hai hướng tiếp cận truyền thống, là sử dụng hệ
luật và các phương pháp học máy, nhằm sử dụng được ưu điểm cùa cà hai hướng tiếp cận
này. Tuy chưa có m ột nghiên cứu nào về hướng tiếp cận này đối với tiếng Việt, nhưng cũng
đã có m ột vài nghiên cứu đạt kết quả khá khả quan với tiếng Trung Quốc được xem là khá
gần gũi với tiếng Việt. Sirhari và X. Fang cùng đưa ra những hệ thống lai kết hợp giữa các
phương pháp học máy và hệ luật [16], [5]. Đặc biệt hệ thống của X. Fang đã thu được những
kết quả khá cao cho văn bản tiếng Trung. Tuy chưa có nhiều nghiên cứu về hướng tiếp cận
này cho bài toán nhận dạng thực thể trong văn bàn tiếng Việt, nhưng với những kết quả khả
quan như vậy có thể nó sẽ là hướng quan trọng trong tương lai.
3.2 Giới thiệu về G ATE
GATE là m ột khung làm việc m ã nguồn m ở cho các bài toán xử lý văn bản do nhóm giáo sư
Cunningham thuộc trường đại học Sheffield - Anh phát triển. Có thể dow nload phiên bản
mới nhất của G A TE m iễn phí tại địa chi: 7do\vnload/index.htm ỉ.
Mô hình kiến trúc tổng quát của G A TE được m ô tả trong hình 3.1. T rong đó:
•

Tầng hiển thị (ID E GUI Layer): có nhiệm vụ hiển thị giao diện trực quan tương tác
với người dùng.

•

Tầng ứng dụng (A pplication Layer): gồm các ứng dụng khác nhau như bộ A N N IE (có
sẵn trong G A TE) hay các thành phần tích hợp (Plugin) mới v .v ...
2

' - website chính thức của công cụ FlexCRFs.

5

•

Tầng xử lý định dạng văn bản (D ocum ent Form at layer): có nhiệm vụ xử lv cho từng
định dạng văn bản khác nhau.

•

Tầng dữ liệu (C orpus Layer): Kho tài liệu gồm nhiều thành phần khác nhau như: tập
dữ liệu (C orpus) chứa các văn bản (D ocum ent), nội dung văn bản (D ocum ent
Content) gồm các bộ nhãn (A nnotation Set), nhãn (A nnotation) gồm các đặc trưng
(Feature M ap) (các khái niệm sẽ được giải thích rõ trong m ục 3.2).

•

Tầng xử lý (Processing Layer): G ồm các thành phần xử lý khác nhau như: tách từ
(w ord segm entation), gán nhãn từ loại (POS), nhận dạng thực thể (NE) v .v ...

•

Tầng nguồn ngôn ngữ (Language R esource Layer): gồm các kho dừ liệu khác nhau
như: tập từ điển (gazetteers), tập từ vựng (lexicon) v.v ...

•

Tầng lưu trữ (D ataStore Layer): L un trữ dữ liệu ờ các dạng khác nhau.

Hình 3.1 - Kiển trúc tồng quái cùa GA TE

6

Ket-noi.com
Ket-noi.com kho
kho tai
tai lieu
lieu mien
mien phi
phi

Trong nghiên cứu này, chúng tôi sẽ tập trung nghiên cứu vào tầng dữ liệu (corpus), tầng
nguồn ngôn ngữ (gazetteer) và tầng xử lý (w ord segm entation, part o f speech, nam ed entity
recognition).
4. X â y d ự n g C o r p u s ch o tiế n g V iệt
Tham khảo từ m ột số tài liệu liên quan [7], chúng tôi quyết định đưa ra danh sách các loại
thực thể có tên sẽ được nhận dạng: Person, O rganization, Facility, Location, N ationality, and
Religion. Các loại tên khác như: Percent, M oney, D ate có thể khá dễ dàng để nhận ra và các
hệ thống hiện thời cũng đã đạt được những kết quả rất tốt nên sẽ không được đề cập tới trong
nghiên cứu này của chúng tôi.
N goài ra khi nhận dạng thực thể trong văn bản ta phải đảm bảo quy tắc: không có các tên
lồng nhau. M ột tên m ới chỉ được nhận khi tên cũ đã kết thúc (không bao giờ có hai tên có
phần chung). Trong trường hợp có sự lồng nhau giữa các tên, chỉ một tên dài nhất được nhận
(longest m atching - dài thì thắng).
Ví dụ trong câu:

“Phòng Giáo dục hicyện M ỹ Đức đang họp giao ban. ”
ta chỉ nhận “Phòng G iáo dục huyện Mỳ Đ ức” là thực thể chỉ các tổ chức (O rganization) và
bỏ qua thực thể chỉ địa điểm “Mỹ Đ ức” .
Tuy không cần th iết có m ột tập dữ liệu được gán nhãn lớn để dùng trong giai đoạn huấn
luyện như những hệ thống sử dụng các phương pháp học máy, nhưng với mục đích xây dựng
thêm một bộ dữ liệu chuẩn, cùng với những khó khăn trong vấn đề nhập nhằng ngôn ngữ khi

viết luật, chúng tôi quyết định xây dựng song song hệ thống nhận dạng thực thể và tập dữ
liệu được gán nhân chuẩn, trong đó tập văn bản ban đầu được lấy tò đề tài: “Nghiên cứu phát

triển một số sản phẩm thiết yếu về xử lý tiếng nói và vân bàn tiếng Việt” , mã so KCO 1.01 /0610. Quá trình phát triển đồng thời hai thành phần như vậy mang lại rất nhiều lợi ích như:
•

T iết kiệm thời gian và công sức so với việc hoàn toàn gán nhãn bằng tay cho tập dữ
liệu.

•

Quá trình chuẩn hóa lại tập thực thể được nhận sai của hệ thống đem lại cho chúng tôi
nhiều kinh nghiệm để hoàn thiện bộ luật cũng như bộ từ điển trong hệ thống.

M ô hình của hệ thống được mô tả quá trình phát triển của hệ thống trong hình 4.1.

7

Update

Hình 4.1 - Mô hình các bước phát triển cùa hệ thống

Đ ầu tiên chúng tôi xây dựng rất nhanh một hệ thống nhận dạng thực thể sử dụng bộ luật
Jape cho văn bản tiếng Việt có thể dùng được. Sau khi hệ thống đã hình thành, chúng tôi sử
dụng nó để gán nhãn tự động cho văn bản (m ột tập văn bản). Tập văn bản được gán nhãn

tự

động này còn m ang nhiều lỗi, được chúng tôi chuẩn hóa thành những văn bản được gán nhãn

chuẩn và thêm nó vào tập dừ liệu (corpus). Tuy đã tiết kiệm được khá nhiều thời gian và
công sức nhờ m ô hình gán nhãn tự động nhưng việc chuẩn hóa lại cũng gặp phải một số khó
khăn như:
•

M ang tính chủ quan, dễ m ắc sai sót.

•

N hiều trư ờng hợp nhập nhằng rất khó để phân loại.

Chính vì những lý do trên, chúng tôi chia ra làm hai đội, gán nhãn lại độc lập với nhau.
Sau đó sử dụng bộ công cụ Coltech.N E.tool do nhóm tự xây dựng dựa trên các bộ công cụ
8

Ket-noi.com
Ket-noi.com kho
kho tai
tai lieu
lieu mien
mien phi
phi

quản lý chất lượng của G A TE (A nnotation Diff, Corpus B enchm ark tool) để so khớp và
thong nhất. Q uá trình chuẩn hóa và phân tích lỗi giúp chúng tôi tiếp tục hoàn thiện hệ thống
nhận dạng thực thể. Các bước cứ được tiến hành như vậy cho đến khi hệ thống nhận dạng
thực thể đạt hiệu quả như m ong muốn.
5. X â y d ự n g hệ th ố n g N E R c h o tiế n g V iệt
Chúng tôi quyết định xây dựng hệ thổng nhận dạng thực thể trong văn bản tiếng Việt như

một thành phần tích hợp (Plugin) trên GATE nhàm tận dụng những un điểm m à GATE m ang
lại. Tham khảo kiến trúc của bộ A N N IE (một thành phần tích hợp có sằn trong G A TE)
chúng tôi đưa ra kiến trúc hệ thống như hình 5.1.

Hình 5.1 - Mô tả chi tiết hệ thống nhận dạng thực thể trong vãn bản tiếng Việt

Hệ thống bao gồm 4 phần chính:
•

Bộ tách tò

•

Bộ gán nhãn từ loại

•

Bộ từ điển

•

Bộ luật

Ta có thể hình dung m ột cách tổng quan các bước hoạt động của hệ thống như sau: trước
tiên, văn bản được tách từ và gán nhãn tò loại. Sau đó bộ tò điển hoạt động tìm ra một lớp
9

các thực thể bàng phép so khớp (m atching). Cuối cùng bộ luật nhận dạng lại các thực thể,
gán nhãn cho từng thực thể trong văn bản, và trả ra kết quả.

5.1. Tiền xử lý
M ột nét đặc trưng rất khác biệt của tiếng V iệt so với tiếng Anh đó là vấn đề tách từ (word
segm entation). Trong tiếng Anh các từ được phân biệt bởi dấu trống, tuy nhiên từ trong tiếng
Việt thì không như vậy. M ột từ có thể bao gồm một, hai, ba hoặc nhiều hơn các tiếng. M ột
tiếng có thể liên kết với từ đứng trước nó, hoặc đứng sau nó để tạo thành từ. Ví dụ như câu:

“Học sinh học sinh học."
Có thể tách câu trên như sau:
“ Học_sinh học sinhỳiọc. "
hay

“Học sinh học sinh học.''''

N hư vậy tiếng “sinh” có thể kết hợp với tiếng “H ọc” đứng trước nó để tạo thành từ “Học
sinh”, hay nó còn có thể kết hợp với tiếng “học” đứng sau nó để tạo thành từ “sinh_học”.
Quay trở lại bài toán nhận dạng thực thể trong văn bản tiếng Việt, đương nhiên thực thể phải
là từ, hoặc cụm từ m ang ý nghĩa. C húng ta không thể nhận m ột cụm các tiếng không m ang
m ột ý nghĩa gì làm thực thể. Vậy yêu cầu đầu tiên của giai đoạn tiền xử lý cho bài toán nhận
dạng thực thể là bài toán tách từ trong tiếng Việt. M ột hệ thống nhận dạng thực thể chi có thể
tốt khi có m ột bộ tách từ hoạt động tốt. Lấy câu sau đây làm ví dụ:

“Anh Hùng lái xe trên đại lộ 5. ”
Nếu bộ tách từ hoạt động chính xác, câu đó sẽ được tách thành:

“Anh Hùng lái_xe trên đại_lộ 5.”
T ừ “H ùng” đứng sau tiền tố nhận dạng “A nh” sẽ được nhận là thực thể chi người <Person>
và chính xác. Tuy nhiên nếu bộ tách từ hoạt động không chính xác và câu được tách thành:

“Anh H ùng lái_xe trên đại_lộ 5.”
Khi đó trong tập các từ hoàn toàn không có tò “H ùng” và việc nhận ra “H ùng” là thực thể

tên người sẽ trở nên rất khó khăn.
N goài yêu cầu bắt buộc về m ột bộ tách từ, chúng tôi còn sử dụng thêm bộ gán nhãn từ
loại trong giai đoạn tiền xử lý cúa hệ thống, nhàm cung cấp được nhiều thống tin cho các giai
đoạn xử lý tiếp theo. C húng tôi đóng gói bộ W S& PT.2IN 1.4V N (Phạm 2009) thành plugin
10

Ket-noi.com
Ket-noi.com kho
kho tai
tai lieu
lieu mien
mien phi
phi

C oltech.N LP.tokenizer trong khung làm việc G A TE. N hờ đó bộ tách từ và gán nhãn từ loại
có thể dễ dàng thay đổi, cải tiến m à không làm ảnh hưởng đến kiến trúc của hệ thống.
5.2. Bộ từ điển
Bộ từ điển (V N Egazetteer) được tạo từ nhiều từ điển với các tiêu chí khác nhau, nhằm nhận
dạng được m ột lớp các thực thể nhờ quá trinh so khớp, cũng như cung cấp những thông tin
cần thiết cho quá trình nhận dạng trong bộ luật. M ồi từ điển gồm các từ m ang cùng m ột ý
nghĩa nào đó, có thể là chứa các thực thể cùng loại như: tên người, tên tổ chức v .v ... hay
chứa các từ, cụm từ đóng những vai trò giống nhau về m ặt cú pháp, ngừ nghĩa, hoặc chi đơn
giản là để sử dụng cho m ột luật nào đó trong bộ luật. Bộ từ điển được chúng tôi xây dựng
nhờ những kinh nghiệm có được trong quá trình gán nhãn bằng tay, và vẫn đang được tiếp
tục phát triển.
Có thể chia bộ tò điển thành những nhóm sau:
•

N hững từ điển chứa các tên các thực thể được nhận dạng

o

T ừ điển tên người:
■ C hứa các tên đầy đủ: Hồ Chí M inh, N guyễn Tấn D ũng v .v ...
■ C hứa các tên viết tắt: Sơn, Duy, Đại, Đ ạt v .v ...
■ C hứa các tên đặc biệt: Bà Trưng, Bà Triệu v .v ...

o

T ừ điển tên tổ chức: chứa tên các tổ chức như OPEC, G8, G7 v .v ...

o

T ừ điển tên địa điếm: gồm 3 từ điển nhỏ
’ ■ T ừ điển tên nước: V iệt N am , Pháp, C anada v .v ...
■ T ừ điển tên các thành phố trên thế giới: NevvYork, Paris v .v ...
■ T ừ điển tên các vùng miền: m iền Bắc, m iền Anh, châu Á v .v ...

•

o

T ừ điển tên các công trình đặc biệt như: Kim tự tháp, B igB en v .v ...

o

T ừ điển

tên các tổ chức tôn giáo: Hội Phật Giáo, T hiên Chúa G iáo v .v ...

N hững từ điển dùng cho việc nhận dạng trong bộ luật:
o

T ừ điển

các từ đứng trước tên người: anh, cô, chú, ông v .v ...

o

T ừ điển

các động từ thường đứng sau tên người: cười, khóc, nóiv .v ...

o

Từ điển các từ đứng trước tên tổ chức: công ty, tập đoàn, bệnh viện v .v ...

o

Từ điển các từ đứng trước tên địa điểm: đảo, biển, thành phố, quận, huyện
v .v ...

•

o

Từ điển các tò đứng trước thực thể chỉ quốc gia: người, chính phủ v .v .. .

o

Từ điển các từ đứng trước các công trình: cầu, tòa nhà, càng v .v ...

Từ điển chứa các từ gây ra sự nhập nhằng:
o

Từ điển các từ nhập nhằng giữa tổ chức và công trình như: Lầu Nẳm Góc, N hà
Trắng v .v ...

o

Từ điển các từ nhập nhằng giữa tên người, tên địa điểm và quốc gia: Anh, Mỹ,
Nga, N hật v .v ...

5.3. Bộ luật
Song song với quá trình xây dựng bộ từ điển (V N Egazetteer) chúng tôi tiến hành xây dụng
bộ luật (V N Etransducer) - thành phần quan trọng nhất trong hệ thống của chúng tôi. Bộ

luật

sử dụng các thông tin do các thành phần khác ữong hệ thống (bộ tách từ, bộ gán nhãn từ loại,
bộ tò điển) cung cấp để nhận dạng các thực thể (thực thể và loại thực thể). Có thể m ô tả các
bước hoạt động của bộ luật đo chúng tôi xây dựng như sau:
•

Tiền xử lý: loại bỏ các nhãn “Lookup” không cần thiết, hoặc có thể đưa những thông
tin sai cho quá trình nhận dạng.

•

X ử lý
o

N hận dạng các thực thể chi công trình <Facility> và các thực thể chi tổ
<O rganization>

o

Nhận dạng các thực thể chỉ địa điểm <Location> và các thực thể thuộc về quốc gia
<N ationality>

o

N hận dạng các thực thể chi các tổ chức tôn giáo <Religion>

o

N hận dạng các thực thể chi người <Person>

o

Sử dụng ngữ cảnh và quá trình nhận dạng thông minh.

12

Ket-noi.com
Ket-noi.com kho
kho tai
tai lieu

lieu mien
mien phi
phi

Bước đầu tiên của bộ luật là loại bỏ đi những nhãn Lookup chi là tiếng không phải là từ,
không m ang đúng ngữ nghĩa trong văn cảnh. Ví dụ trong câu:

“Thị trường Việt Nam thật ảm đảm trong thời kỳ khủng hoảng”.
Tiếng “ trường ” trong trư ờng hợp này không thể được hiểu theo nghĩa “trường học” vì nó
nằm ừ ong từ “thị trư ờng” . Vì vậy annotation Lookup ở tiếng “trư ờ n g ” sẽ bị xóa bỏ để tránh
nhập nhằng trong quá trình nhận dạng tiếp theo. N goài ra trong phần tiền xử lý, chúng tôi
cũng đồng thời tạo ra những annotation mới - N am ePhrase - gộp những từ, cụm từ viết hoa
ở cạnh nhau để thuận tiện cho việc nhận dạng.
Trong các bước tiếp theo, các cặp Facility và O rganization, L ocation và N ationality m ang
nhiều sự nhập nhằng được xử lý. Q uá trình này chưa sử dụng các yếu tố ngừ cành vì thế vẫn
còn nhiều lỗi trong quá trình nhận dang.
Tên người ỉà m ột trong những loại thực thể khó được nhận dạng nhất, bời bất kỳ từ nào
cũng có thể được dùng như m ột tên người. D ưới đây là m ột luật đơn giản được sử dụng để
nhận dạng tên người:

Rule: PersonA fterTitle
(
{Lookup .m ajorTupe == “titIeperson”}({N am ePhrase}):nam e
)-->
:nam e.Person = {kind = “Person” , sure = “90” , rule = “PersonA fterT itle” }

N goài ra chúng tôi đã áp dụng khá nhiều kỹ thuật nhằm tăng độ chính xác đối với loại
thực thể này.
Cuối cùng chúng tôi sử dụng các yếu tố ngữ cành vào quá trình nhận dạng. Ví dụ đoạn văn

“Bà Nùng vừa hút tẩu thuốc vừa kể: "Đời thằng A Lưới khổ lẳm. Nhà chẳng còn ai, lao
động quần quật cả năm mà vẫn không đủ ăn. Không biết đời nó bao giờ mới có vợ. " Ẩy thế
mà niềm vui bất ngờ đã đến với A Lưới, anh gặp Hoa, cô giảo miền xuôi m ới lên bàn.''
N hờ có cụm “thằng A L ư ới” nên “A L ưới” được nhận là thực thể chỉ người với độ chắc chấn
cao. N hờ đó từ “A L ưới” ở câu dưới cũng được nhận là thực thể chi người. Hình 5.2 là kết
quả chạy của hệ thống đối với đoạn văn trên.

13

ỄỈGA1I 4.n

l . u i l 'l ỉ ì ’, 2

^ " ’^ ~ ìv ịí7 ~ “
4Ệ? GATE document_00018 I
Iĩ # r
* Applications

■ A n n o ta tio n S e ts I

tesl

Bà H v ử a húi tíu tnuấc vử» k ỉ: T)đl trtỉng H

I
Nhà ehẳno còn
*1, lao đíno quần quật c i n im mà v ỉn khíng 90 in. KMng biết đđl nó bao
g li mỂrt có yợ "Ấy mế m ì niềm vul b ít n g đ đ ỉ đến VỚI m u anh gặp
cỏ giáo miền ÍUỎI mớl lên bén.

I i f f Languid* Resources

doclest

r SM H BBi
n n n a n s

test

►

O r ig in a l m a r i o ip t

Proc«»ing Rstourcst
VNEtransducer_D001i
N , VNEoazett»8<_00018
- \

Cottech.NLP.toksnlze

$

Document Re je t PR_

Hata «tortt»
MlmeTyps
docNewUriBType
oale SourceURL

inioJD:

Document Editor

Hình 5.2 - M ột ví dụ cho quá trình nhận dạng thông minh

6. T h ự c n g h iệm
6.1 Các bước tiến hành thực nghiệm
•

Bước 1: Sử dụng hệ thống nhận dạng thực thể trong văn bản tiếng Việt do chúng tôi
xây dựng để tự động nhận dạng và gán nhãn cho

các thực thể.

• Bước 2: So sánh tập dữ liệu được gán nhãn tự động và tập dữ liệu chuẩn được gán
nhãn bằng tay, qua đó đưa ra các thông số đánh giá chất lượng cùa hệ thống
(Precision, Recall, F-m easure). Trong đó:

o Precision = (N I / N 2) X 100%
o

Recall = (N I / N 3 ) x 100%

o

F-m easure = 2 X (Precision X R e c a ll) / (Precision + Recall) X 100%

o

N 1: Số thực thể được nhận dạng chính xác.

Ký hiệu:

14

Ket-noi.com
Ket-noi.com kho
kho tai
tai lieu
lieu mien
mien phi
phi

o N2: T ổng số thực thể được nhận ra.
o

N 3 : Số thực thể thực tế

6.2. Kết quả thực nghiệm
Chúng tôi đánh giá kết quả thực nghiệm qua hai tiêu chí:
Tiêu chí chặt (strict): m ột thực thể được nhận dạng đúng khi

•

trùng khớp hoàn toàn (về

vị trí), và cùng kiểu với thực thể trong tập dừ liệu chuẩn.
•

Tiêu chí lỏng (lenient): m ột thực thể được nhận dạng đúng

khinó có phần chung và

cùng kiểu với thực thể trong tập dữ liệu chuẩn.
Với tiêu chí đánh giá chặt, ta thu được các kết quả sau:
Ket quả nhận dạng trên tập huấn luyện (bảng 6.1) mới chi dừng lại ờ F-m easure đạt 89.90% ,
hứa hẹn chúng tôi sẽ còn cải tiến được nhiều trong tương lai.

Bảng 6.1 - Kết quả nhận dạng trên tập huấn luyện

Sô thực

Sô thực

SỐ

thể được

thể được

thực thể

nhận

nhận

dạng

đúng

Precision

Rccaỉl

F-measure

Person

548

470

457

97.23 %

83.39 %

89.78 %

O rganization

100

85

80

94.11 %

80.00 %

86.48 %

Location

272

255

244

95.68 %

89.70 %

92.59 %

Nationality

87

84

72

85.71 %

82.75 %

84.21 %

Facility

78

76

69

90.78 %

88.46 %

89.61 %

Religion

18

18

18

1 00.00%

1 0 0 .0 0 %

100.00%

1103

988

940

9 5 .1 4 %

85.22 %

89.90 %

All

15

Bảng 6.2 - Bảng kết quả nhận dạng trên lập kiểm tra

Sô thực

Sô thực

SỐ

thể được

thể được

thực thể

nhận

nhận

dạng

đúng

Precision

Recall

F-measure

Person

370

285

263

92.28 %

7 1 .0 8 %

80.30 %

O rganization

48

33

25

75.75 %

52.08 %

6 1 .7 2 %

Location

260

239

222

92.88 %

85.38 %

88.97 %

Nationality

82

68

56

82.35 %

68.29 %

74.66 %

Facility

40

33

29

87.87 %

7 2 .5 0 %

79.45 %

Religion

20

19

19

10 0 .0 0 %

9 5 .0 0 %

97.43 %

All

820

677

614

90.69 %

74.87 %

82.03 %

Trong khi đó, trên tập kiểm tra kết quả thu được cũng khá khả quan: F-m easure đạt
82.03% (bảng 6.2). Tuy nhiên, bên cạnh những loại thực thể có kết quả nhận dạng rất tốt
như: thực thể chi các tổ chức tôn giáo <Religion> (F-m easure: 97.43% ), thực thế chi địa
điểm (F-m easure: 88.97% ) v .v ... thì loại thực thể chỉ tổ chức <O rganization> lại thu được
kết quả khá khiêm tốn F-m easure: 61.72%. Sở đĩ có điều này là vì tên các tổ chức của Việt

N am đôi khi khá dài, khó nhận diện, đặc biệt khi chủng không được viết hoa. Ví dụ câu sau:

"Công ty Hợp tác lao động nước ngoài - L O D , thuộc Bộ GTVT. "
C âu trên gồm 3 thực thể chỉ tổ chức: “Công ty Hợp tác lao động nước ngoài”, “LOD” và “Bộ
G TV T” . Tuy nhiên hệ thống chi nhận được thực thể “C ông ty H ợp tác” (nhận sai) và “Bộ
G TV T” (nhận đúng). Tuy nhận sai nhưng việc nhận ra m ột phần cùa thực thể “Công ty Hợp
tác lao động nước n goài” cũng có ý nghĩa, bởi thật khó để nhận được thực thể này. Chúng tôi
thử đánh giá lại chất lượng của hệ thống theo tiêu chí “lỏng” hơn (lenient evaluation). Ket
quả thu được như sau:

16

Ket-noi.com
Ket-noi.com kho
kho tai
tai lieu
lieu mien
mien phi
phi

Bảng 6.3 - Két quả nhận dạng trên tập kiểm tra với tiêu chí “lỏng” ( lenient valuation)

Sô thực

Sô thực

Số thực

thể được

thể được

thể

nhận

nhận

dạng

đúng

Precision

Recall

F-measure

Person

370

285

266

93.33 %

7 1 .8 9 %

8 1 .2 2 %

Organization

48

33

30

90.90 %

62.50 %

74.07 %

Location

260

239

224

93.72 %

86.15 %

89.77 %

N ationality

82

68

57

83.82 %

69.51 %

76.00 %

Facility

40

33

31

93.93 %

77.50 %

84.93 %

Religion

20

19

19

100.00%

95.00 %

97.43 %

All

820

677

627

92.61 %

76.46 %

83.76 %

Rõ ràng trong khi hầu như các kết quả nhận dạng thực thể khác không tăng nhiều, thì kết
quả nhận dạng các thực thể chỉ tổ chức đã tăng đáng kể (F-m easure từ 61.72% lên 74.07%).
B ảng 6.4 thể hiện kết quả của những hệ thống nhận dạng thực thể trong văn bản tiếng Việt

hiện tại (N guyễn 2005, C ao 2007). Tuy không cùng so sánh trên m ột tập kiểm tra, nhưng với
những kết quả tương đương (F-m easure: 82.03% ), cùng rất nhiều hướng cải tiến: m ở rộng bộ
từ điển, cải tiến bộ luật để sử dụng tốt hơn những yếu tố văn cảnh v .v .. . chúng tôi tin rằng hệ
thống của chúng tôi sẽ là nền tàng để phát triển thành những hệ thống nhận dạng thực thể
trong văn bản tiếng V iệt đạt hiệu quả cao.
Bảng 6 .4 - Kết quả thực nghiệm cùa một số hệ thống nhộn dạng thực thể trong văn bàn tiếng Việt

Precision

Recall

F-measure

81.85%

79.35%

80.53%

Hệ thông V N -K IM IE [4]

81.37%

81.37%

81.37%

Hệ thông N E R for V ietnam ese

90.69 %

74.87 %

82.03 %

Hệ thống nhận dạng thực thể sử dụng
CRF [11]

17

7. K ế t lu ận
Trong nghiên cửu này, chúng tôi đã xây dựng được m ột hệ thống nhận dạng thực thể có tên
trong văn bản tiếng V iệt đạt kết quả khá khả quan (82% ). Ngoài ra chúng tôi cũng đã xây
dựng được m ột tập dữ liệu đã được gán nhãn chuẩn tiếng Việt và m ột tài liệu đĩnh nghĩa và
phân loại các loại thực thể có tên. T ất cả hệ thống và những tài liệu liên quan sê được mở
cho cộng đồng sử dụng và phát triển.

I

C^I

I1M 1NỤ1

Ị rPỤN-V- U iu l IHQN G IIN ỉ H ự VIỆN

ị

Ọ Ọ O ỷO O O O O ±l
18

Ket-noi.com
Ket-noi.com kho
kho tai
tai lieu
lieu mien
mien phi
phi

T ài liệu th am k h ả o
1.

■

Bikel, D., Miller, s., Schwartz, R., Weischedel, R.: A High- Perform ance Learning Naraefinder. Proceedings o f the Fifth Conference on Applied Natural Language Processing, pp
194-201 (1998)

2.

Borthwick, A., Sterling, J., Agichtein, E., Grishman, R.: Exploiting Diverse Knowledge
Sources via Maximum Entropy in Named Entity Recognition. Proceedings o f the
Sixth Workshop on Very Large Corpora, Montreal, Canada (1998)

3.

Budi, I., Bressan, s.: Association Rules Mining for Name Entity Recognition. Proceedings
of the Fourth International Conference on Web Information Systems Engineering (2003)

4.

Nguyen, V.T.T., Cao, T.H.: Automatic Extraction of Vietnamese Named-Entities on the
Web. Proceedings o f the Journal o f New Generation Computing, Ohmsha, Ltd. and
Springer (2007)

5.

Fang, X., Sheng, H.: A Hybrid Approach for Chinese Named Entity Recognition
Proceedings o f the Fifth International Conference on Discovery Science (2002)

6.

Kim, J., Kang, I., Choi, K.: Unsupervised Named Entity Classification Models and their
Ensembles. Proceedings of the Nineteenth International Conference on Computational
Linguistics (2002)

7.

Mai, T. D.: Named Entity Guideline for Vietnamese. Bachelor thesis, College of
Technology, Vietnam National University, Hanoi (2008)

8.

Mansouri, A., Affendey, L., Mamat, A.: Named Entity Recognition Using a New Fuzzy
S upport V ector M achine. Proceedings of the International Journal of Computer Science
and Network Security, IJCSNS, vol. 8, n. 2, pg. 320-325 (2008)

9.

Maynard, D., Tablan, V., Ursu, c ., Cunningham, H., Wilks, Y.: Named Entity Recognition

from Diverse Text Types. Proceedings Recent Advances in Natural Language Processing
2001 Conference, Tzigov Chark, Bulgaria (2001)

10.

Maynard, D., Bontcheva, K., Cunningham, H.: Tow ards a Semantic Extraction of Named
Entities. Proceedings Recent Advances in Natural Language Processing, Borovets,
Bulgaria (2003)

11.

Nguyen, T.C., Tran, O.T., Phan, H.X., Ha, T.Q.: Named Entity Recognition in Vietnamese
Free-Text and Web Documents Using Conditional Random Fields. Proceedings of the
Eighth Conference on Some Selection Problems of Information Technology and
Telecommunication, Hai Phong, Viet Nam (2005)
19

12.

Nguyen, T.P., Vu, L.X., Nguyen,

Nguyen, H.V., Le, P.H.: Building a Large

Syntactically-A nnotated C orpus of Vietnamese. Proceedings of the Third Linguistic
Annotation Workshop (LAW) at ACL-IJCNLP 2009 (2009)
13.

Pastra, K., Maynard, D., Hamza, o ., Cunningham, H., Wilks, Y.: How Feasible is the Reuse
of G ram m ars for Named Entity Recognition?. Proceedings o f the Conference on

Language Resources and Evaluation (LREC’02) (2002)

14.

Pham, T., Kawazoe, A., Dinh, D., Collier, N.: Construction of Vietnamese C orpora for
Named Entity Recognition. Conference RIA02007, Pittsburgh PA, U.S.A. May 30-June
1, 2007 - Copyright C.I.D. Paris, France (2007)

15.

Pham, D.D., Tran, G.B., Pham, S.B.: Vietnamese Word Segmentation Using Part of
Speech Tags. Proceedings of the First International Conference on Knowledge and
Systems Engineering, Hanoi, Vietnam (2009)

16.

Srihari, R., Niu, c ., Li, w.:

A Hybrid Approach for Named Entity and Sub-Type

Tagging. Proceedings o f the Sixth Conference on Applied Natural Language Processing
(2000)
17.

Wu, Y., Fan, T., Lee, Y., Yen, s.: Extracting Nam ed Entities Using Support Vector
Machines. Proceedings of the International Workshop on Knowledge Discovery in Life
Science Literature (2006)

20

Nhận dạng và phân loại các thực thể có tên cho văn bản tiếng việt

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về