Nhận dạng và phân loại các thực thể có tên cho văn bản tiếng Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (20.99 MB, 61 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
****
NHẬN DẠNG VÀ PHÂN LOẠI CÁC THựC THẺ CÓ TÊN
CHO VẪN BẢN TIÉNG VIỆT
Mã số: QC.09.08
Chủ nhiệm đề tài: Phạm Bảo Sơn
Ị 0AIMOC QỊ1'* G'c Hí. f\: 1
l.\ ■ It V* «*-• 1- 'n\» Iho »if N
Ồ O O b 0 0 0 0 0 4 - 1
Hà N ộ i-2 0 1 0
MỤC LỤC
BÁO CÁO TỔNG KẾT 2
1. Giới th iệ u 2
2. Thách thức 3
3. Tổng quan các vấn đề nghiên cứu 4
3.1 Các phương pháp phổ biển 4
3.2 Giới thiệu về G A TE 5
4. Xây dựng Corpus cho tiếng Việt 7
5. Xây dựng hệ thống NER cho tiếng V iệ t 9
5.1. Tiền xử lý 10
5.2. Bộ từ đ iể n 11
5.3. Bộ luậ t 12
6. Thực ng hiệm 14
6.1 Các bước tiến hành thực nghiệm 14
6.2. Kết quả thực ng hiệm 15
7. Kết luận 18
Tài liệu tham k h ả o 19
11
Danh sách những người tham gia thực hiện đề tài (học hàm, học vị, cơ quan công tác)
Chủ trì đề tài:
• TS. Phạm Bảo Sơn

Những người thực hiện:
TT
Họ và tên
Học vị
Cơ quan công tác
1
Bùi Thế Duy
TS
Trường ĐHCN
2 Lê Anh Cường
TS
Trường ĐHCN
3
Nguyễn Bá Đạt
CN
Trường ĐHCN
4
Nguyễn Q uốc Đạt
CN
Trường ĐHCN
5 Nguyễn Quốc Đại
CN
Trường ĐHCN
Danh mục các hình
Hình 3.1 - Kiến trúc tổng quát của GATE 6
Hình 4.1 - Mô hỉnh các bước phát triển của hệ thống 8
Hình 5.1 - Mô tả chi tiết hệ thống nhận dạng thực thể trong văn bản tiếng Việt 9
Hình 5.2 - Một ví dụ cho quá trình nhận dạng thông minh 14
IV
Danh mục các bảng số liệu

Bảng 6.1 - Kết quả nhận dạng trên tập huấn luyện 15
Bàng 6.2 - Bàng kết quả nhận dạng trên tập kiểm ừa Ị 6
Bảng 6.3 - Kêt quả nhận dạng trên tập kiểm ừa với tiêu chí “lòng” ( lenient evaluation)

17
Bàng 6.4 - Kết quả thực nghiệm cùa một số hệ thống nhận dạng thực thể trong văn bản tiểng Việt

17
V
1 T ó m tắt cá c kết qu ả n gh iên cứ u ch ín h của đ ề tài
Kêt quà vé khoa học (những đóng góp của đề tài, các công trình khoa học đã công bố)
2 bài báo đăng tại các hội nghị quốc tế chuyên ngành (đăng bởi IEEE CS)
• Dang Due Pham, Giang Binh Tran and Son Bao Pham. “A Hybrid Approach to
Vietnamese Word Segmentation using Part o f Speech tags”, Proceedings o f The first
International Conference on Knowledge and Systems Engineering (KSE 2009).
• Dai Quoc Nguyen, Dat Quoc Nguyen and Son Bao Pham. “A Vietnamese Question
Answering S y s t e m Proceeding o f The first International Conference on Knowledge and
Systems Engineering (KSE 2009).
Két quả phục vụ thực tế (các sản phấm công nghệ, khả năng áp dụng thực tế)
Chúng tôi đã nghiên cứu và phát triển một hệ thống nhận dạng thực thể có tên cho tiếng
Việt đạt kết quả khá khả quan, song song với đó là một bộ dữ liệu đã được gán nhãn chuẩn và
tài liệu định nghĩa các loại thực thể. Tất cả hệ thống và các tài liệu liên quan sẽ được mở cho
cộng đồng sử dụng và phát triển.
Kết quả đào tạo (sẻ lượng sinh viên, số lượng học viên cao học, nghiên cứu sinh tham gia
thực hiện làm việc trong đề tài, so khóa luận, luận vân đã hoàn thành và bảo vệ)
3 khóa luận tốt nghiệp CNTT:
'• Dat Ba Nguyen, "Named Entity Recognition for Vietnamese ”, Khóa luận tốt nghiệp
đại học, Trường Đại học Công Nghệ, 2009.
• Dai Quoc Nguyen, “Phương pháp xây dựng hệ thong hỏi đáp tiếng Việt dựa trên
Ontology”, Khóa luận tốt nghiệp đại học, Trường Đại học Công Nghệ, 2009.

• Dat Quoc Nguyên, “Phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt ”,
Khóa luận tốt nghiệp đại học, Trường Đại học Công Nghệ, 2009.
Kết quả nâng cao tiềm lực khoa học (năng cao trình độ cán bộ và trang thiết bị hợc phần
mềm đã xây dựng được giao nộp đưa vào sử dụng tại đơn vị):
Nâng cao năng lực chuyên môn cùa cán bộ phòng thí nghiệm về các lĩnh vực xử lý ngôn n»ừ
tự nhiên và trí tuệ nhân tạo.
BÁO CÁO TỔNG KẾT
1. G iói thiệu
Với sự bùng nổ của nguồn dữ liệu trên Internet, những bài toán về xử lý thông tin như: trích
chọn thông tin, tóm tát nội dung văn bản v.v ra đời như một nhu cầu tất yếu. Bài toán nhận
dạng thực thể là một bài toán khá cơ bản trong nhóm các bài toán trích chọn thông tin. Nó có
nhiệm vụ tìm kiểm và rút ra những thông tin liên quan đến thực thể (một đối tượng hoặc một
tập hợp đối tượng của thế giới tự nhiên) trong văn bản, thông thường là loại thực thể. Có thế
tùy theo từng bài toán, từng lĩnh vực cụ thể, người ta đưa ra danh sách những loại thực thể
được nhận dạng khác nhau. Các hệ thống nhận dạng thực thể trong văn bản [4], [8] thường
nhận một số loại thực thể:
• Thực thể chỉ người (Person).
• Thực thể chỉ tổ chức (Organization).
• Thực thể chỉ địa điểm (Location).
• Thực thể chỉ ngày (Date).
• Thực thể chỉ thời gian (Time).
• Thực thể chi các đơn vị tiền tệ (Money).
• Thực thể chi phần tràm (Percent).
Trong đó, loại thực thể chi ngày (Date), thực thể chỉ thời gian (Time), thực thể chi các
đcm vị tiền tệ (Money), thực thể chi phần trăm (Percent) thường ít mang tính nhập nhầng,
không khó để nhận dạng. Ngoài ra tùy từng lĩnh vực, người ta cỏ thể chú ý thêm vào những
loại thực thể khác đặc thù. Ví dụ hệ thống nhận dạng thực thể trong văn bản với lĩnh vực y tế
[14] sẽ nhận những thực thể chỉ tên thuốc, hoặc cácio ại bệnh v.v như những loại thực thể
chính.
Là một bài toán khá quan trọng và cơ bàn nhưng hiện nay vẫn chưa có nhiều nghiên cứu

về bài toán nhận dạng thực thể trong văn bản đối với tiếng Việt. Hơn nữa những hệ thống
hiện thời không phải là nguồn mở nên rất khó để tiếp cận sứ dụng và phát triển [4], [11].
Chính vì vậy chúng tôi quyết định xây dựng một hệ thống nhận dạng thực thể sử dụng hệ
luật cho văn bản tiếng Việt trên nguồn m ở của khung làm việc GATE (General Architecture
for Text Engineering)1. Toàn bộ hệ thống sẽ được mở cho cộng đồng sử dụng và phát triển.
1 Website chính thức của GATE: htìp://gate.ac.uk/downỉoad/index.html
2
Song song với việc phát triển hệ thống, chúng tôi cũng xây dựng một bộ tài liệu bao gồm:
định nghĩa các thực thể, các loại thực thể, cùng với một tập dừ liệu được gán nhãn chuẩn cho
bài toán nhận dạng thực thể trong văn bản tiếng Việt.
2. Thách thức
Có những thách thức mà phải vượt qua để giải quyết được bài toán này:
• Tiếng Việt mang nhiều đặc trưng ngôn ngữ riêng khiến nó trở nên phức tạp so với
tiếng Anh và m ột số ngôn ngữ khác. Những khó khăn đó xuất phát từ một trong
những đặc điểm sau:
o Phân biệt các từ không xác định bằng dấu cách bởi một từ có thể bao gồm nhiều
âm tiết và chỉ mỗi âm tiết mới phân cách nhau bởi dấu cách. Điều này dẫn đến
nhập nhằng ữong phân đoạn từ tiếng Việt. Ví dụ: “Học sinh học sinh học ” có thể
được phân đoạn từ thành “Học sinh học sinhỳiọc” hoặc cũng có thể là “Học_sinh
học sinh học
o Ngữ pháp Việt Nam phức tạp cùng với hiện tượng đồng âm khác nghĩa, từ dồng
nghĩa hay đảo trật tự câu và các phép tu từ dẫn đến nhập nhằng trong xác định ý
nghĩa của câu, từ.
• Chưa có corpus (tập cơ sở dữ liệu gán nhãn tiếng Việt) công bố với kích thước đủ lớn
để tiến hành thí nghiệm và đánh giá hiệu năng của phương pháp.
• Chưa có nhiều nghiên cứu tiền đề về vấn đề phát nhận dạng thực thể có tên trong văn
bản tiếng Việt.
• Đặc thù tiếng Việt khó có thể áp dụng ngay những kết quả nghiên cứu trên thế giới
với tiếng Anh, Ả-Rập để đạt được kết quả cao.
3

3. Tổng quan các vấn đề nghiên cứu
3.1 Các phưong pháp phổ biến
Có ba hướng tiếp cận chính cho bài toán nhận dạng thực thể trong văn bản: hướng tiếp cận
sử dụng hệ luật được xây dựng bởi chuyên gia [4], [9], hướng tiếp cận sử dụng các phương
pháp học máy [8] và hướng tiếp cận lai [5].
Sử dụng chuyên gia xây dựng hệ luật là phương pháp truyền thống, có thể nói là được áp
dụng sớm nhất trong các bài toán xử lý ngôn ngữ tự nhiên nói chung và bài toán nhận dạng
thực thể trong văn bản nói riêng. Hệ luật là một tập hợp các luật do con người đặt ra nhằm
những mục đích nhất định, ở đây là việc nhận dạng các thực thể trong văn bản. Một hệ thống
nhận dạng thực thể sử dụng hệ luật thông thường sỗ có các các thành phần chính như: từ loại
(danh từ, động từ v.v )> ngữ cảnh (từ đứng trước, từ đứng sau v .v ) và một số thuộc tính
(viết hoa, viết thường v.v ) kết hợp với một bộ từ điển để viết thành các luật [3]. Ví dụ với
câu sau đây:
“President Bush said Monday’s talks will include discussion on security, a timetable
for Ư.Sforces to leave Iraq."
Trong ví dụ này tò “Bush” đứng sau từ “President” sẽ được nhận là một tên người (Person),
“Iraq” đứng sau động từ “leave” sẽ dược nhận là tên chi địa điểm (Location). MUSE (Multi
source entity finder) được phát triển trên nền GATE, là hệ thống nhận dạng thực thể có tên
dựa trên hệ luật thu được kết quả khá cao 93-94% [9]. Đối với tiếng Việt, hệ thống VN-KỈM
cũng thu được những kết quả khá khả quan khoảng 81% cho các loại tên: Organization,
Location, Person, Date, Time, Money and Percent [4],
Các phương pháp học máy như: máy vector hồ trợ (SVM), cây quyết định, mô hình
markov ẩn, CRF v.v thường xuyên được áp dụng và thu được kết quả khá cao trong các
bài toán về xử lý ngôn ngữ tự nhiên. Với hệ thống nhận dạng thực thể trong văn bàn sử dụng
các phương pháp học máy, vấn đề nhận dạng thực thể (NER - N amed Entities Recognition)
được chuyển đối thành bài toán phân loại. Đầu tiên sử dụng mô hình IOB đế gán nhãn cho
các từ theo tiêu chí:
• I: nếu từ nằm trong cụm thực thể đang xét.
• O: nếu từ nằm ngoài cụm thực thể đang xét.
• B: nếu từ là vị trí bát đầu cụm thực thể đang xét.

4
Sau đó dựa trên những thông tin về nhãn cùa từ thu được qua mô hình IOB, cùng với từ
loại và loại thực thể (named entity) v.v để trích chọn đặc trưng làm đầu vào cho các mô
hình phân loại sử dụng các phương pháp học máy.
Đối với tiếng Việt, một trong những nghiên cứu đầu tiên là của tác giả Nguyễn với hệ
thống nhận dạng thực thể trong văn bản dựa trên mô hình Conditional Random Fields (CRF)
để xác định 8 loại thực thể: thực thể chỉ người (Person), thực thể chỉ địa danh (Location),
thực thể chi tổ chức (Organization), phần trăm, thời gian (Time), số (Number), tiền tệ
(Money) [11]. Tác giả tiến hành thực nghiệm sử dụng công cụ FlexCRFs2, sử dụng dữ liệu
gồm 50 bài báo lĩnh vực kinh doanh (khoảng gần 1400 câu) lấy từ nguồn báo điện tử
vnexpress. Biểu đồ ở hình 2.1 thể hiện kết quả cùa 10 lần thử nghiệm với F-measure trung
bình khoảng 8 0 -8 1 %.
“Hệ thống lai” là hệ thống kết hợp giữa hai hướng tiếp cận truyền thống, là sử dụng hệ
luật và các phương pháp học máy, nhằm sử dụng được ưu điểm cùa cà hai hướng tiếp cận
này. Tuy chưa có một nghiên cứu nào về hướng tiếp cận này đối với tiếng Việt, nhưng cũng
đã có một vài nghiên cứu đạt kết quả khá khả quan với tiếng Trung Quốc được xem là khá
gần gũi với tiếng Việt. Sirhari và X. Fang cùng đưa ra những hệ thống lai kết hợp giữa các
phương pháp học máy và hệ luật [16], [5]. Đặc biệt hệ thống của X. Fang đã thu được những
kết quả khá cao cho văn bản tiếng Trung. Tuy chưa có nhiều nghiên cứu về hướng tiếp cận
này cho bài toán nhận dạng thực thể trong văn bàn tiếng Việt, nhưng với những kết quả khả
quan như vậy có thể nó sẽ là hướng quan trọng trong tương lai.
3.2 Giới thiệu về GATE
GATE là một khung làm việc mã nguồn mở cho các bài toán xử lý văn bản do nhóm giáo sư
Cunningham thuộc trường đại học Sheffield - Anh phát triển. Có thể download phiên bản
mới nhất của GATE miễn phí tại địa chi: 7do\vnload/index.htmỉ.
Mô hình kiến trúc tổng quát của GATE được mô tả trong hình 3.1. Trong đó:
• Tầng hiển thị (IDE GUI Layer): có nhiệm vụ hiển thị giao diện trực quan tương tác
với người dùng.
• Tầng ứng dụng (Application Layer): gồm các ứng dụng khác nhau như bộ ANNIE (có
sẵn trong GATE) hay các thành phần tích hợp (Plugin) mới v.v

' - website chính thức của công cụ FlexCRFs.
2
5
• Tầng xử lý định dạng văn bản (Document Format layer): có nhiệm vụ xử lv cho từng
định dạng văn bản khác nhau.
• Tầng dữ liệu (Corpus Layer): Kho tài liệu gồm nhiều thành phần khác nhau như: tập
dữ liệu (Corpus) chứa các văn bản (Document), nội dung văn bản (Document
Content) gồm các bộ nhãn (Annotation Set), nhãn (Annotation) gồm các đặc trưng
(Feature M ap) (các khái niệm sẽ được giải thích rõ trong mục 3.2).
• Tầng xử lý (Processing Layer): Gồm các thành phần xử lý khác nhau như: tách từ
(word segmentation), gán nhãn từ loại (POS), nhận dạng thực thể (NE) v.v
• Tầng nguồn ngôn ngữ (Language Resource Layer): gồm các kho dừ liệu khác nhau
như: tập từ điển (gazetteers), tập từ vựng (lexicon) v.v
• Tầng lưu trữ (D ataStore Layer): Lun trữ dữ liệu ờ các dạng khác nhau.
Hình 3.1 - Kiển trúc tồng quái cùa GA TE
6
Trong nghiên cứu này, chúng tôi sẽ tập trung nghiên cứu vào tầng dữ liệu (corpus), tầng
nguồn ngôn ngữ (gazetteer) và tầng xử lý (word segmentation, part o f speech, named entity
recognition).
4. X ây dự ng C o rpus cho tiếng Việt
Tham khảo từ một số tài liệu liên quan [7], chúng tôi quyết định đưa ra danh sách các loại
thực thể có tên sẽ được nhận dạng: Person, Organization, Facility, Location, Nationality, and
Religion. Các loại tên khác như: Percent, Money, Date có thể khá dễ dàng để nhận ra và các
hệ thống hiện thời cũng đã đạt được những kết quả rất tốt nên sẽ không được đề cập tới trong
nghiên cứu này của chúng tôi.
Ngoài ra khi nhận dạng thực thể trong văn bản ta phải đảm bảo quy tắc: không có các tên
lồng nhau. Một tên mới chỉ được nhận khi tên cũ đã kết thúc (không bao giờ có hai tên có
phần chung). Trong trường hợp có sự lồng nhau giữa các tên, chỉ một tên dài nhất được nhận
(longest matching - dài thì thắng).
Ví dụ trong câu:

“Phòng Giáo dục hicyện M ỹ Đức đang họp giao ban. ”
ta chỉ nhận “Phòng Giáo dục huyện Mỳ Đức” là thực thể chỉ các tổ chức (Organization) và
bỏ qua thực thể chỉ địa điểm “Mỹ Đức”.
Tuy không cần thiết có một tập dữ liệu được gán nhãn lớn để dùng trong giai đoạn huấn
luyện như những hệ thống sử dụng các phương pháp học máy, nhưng với mục đích xây dựng
thêm một bộ dữ liệu chuẩn, cùng với những khó khăn trong vấn đề nhập nhằng ngôn ngữ khi
viết luật, chúng tôi quyết định xây dựng song song hệ thống nhận dạng thực thể và tập dữ
liệu được gán nhân chuẩn, trong đó tập văn bản ban đầu được lấy tò đề tài: “Nghiên cứu phát
triển một số sản phẩm thiết yếu về xử lý tiếng nói và vân bàn tiếng Việt”, mã so KCO 1.01 /06-
10. Quá trình phát triển đồng thời hai thành phần như vậy mang lại rất nhiều lợi ích như:
• Tiết kiệm thời gian và công sức so với việc hoàn toàn gán nhãn bằng tay cho tập dữ
liệu.
• Quá trình chuẩn hóa lại tập thực thể được nhận sai của hệ thống đem lại cho chúng tôi
nhiều kinh nghiệm để hoàn thiện bộ luật cũng như bộ từ điển trong hệ thống.
Mô hình của hệ thống được mô tả quá trình phát triển của hệ thống trong hình 4.1.
7
Update
Hình 4.1 - Mô hình các bước phát triển cùa hệ thống
Đầu tiên chúng tôi xây dựng rất nhanh một hệ thống nhận dạng thực thể sử dụng bộ luật
Jape cho văn bản tiếng Việt có thể dùng được. Sau khi hệ thống đã hình thành, chúng tôi sử
dụng nó để gán nhãn tự động cho văn bản (một tập văn bản). Tập văn bản được gán nhãn tự
động này còn mang nhiều lỗi, được chúng tôi chuẩn hóa thành những văn bản được gán nhãn
chuẩn và thêm nó vào tập dừ liệu (corpus). Tuy đã tiết kiệm được khá nhiều thời gian và
công sức nhờ m ô hình gán nhãn tự động nhưng việc chuẩn hóa lại cũng gặp phải một số khó
khăn như:
• Mang tính chủ quan, dễ mắc sai sót.
• Nhiều trường hợp nhập nhằng rất khó để phân loại.
Chính vì những lý do trên, chúng tôi chia ra làm hai đội, gán nhãn lại độc lập với nhau.
Sau đó sử dụng bộ công cụ Coltech.NE.tool do nhóm tự xây dựng dựa trên các bộ công cụ
8

quản lý chất lượng của GATE (Annotation Diff, Corpus Benchmark tool) để so khớp và
thong nhất. Quá trình chuẩn hóa và phân tích lỗi giúp chúng tôi tiếp tục hoàn thiện hệ thống
nhận dạng thực thể. Các bước cứ được tiến hành như vậy cho đến khi hệ thống nhận dạng
thực thể đạt hiệu quả như mong muốn.
5. X ây dựn g hệ th ống N E R cho tiếng Việt
Chúng tôi quyết định xây dựng hệ thổng nhận dạng thực thể trong văn bản tiếng Việt như
một thành phần tích hợp (Plugin) trên GATE nhàm tận dụng những un điểm mà GATE mang
lại. Tham khảo kiến trúc của bộ ANNIE (một thành phần tích hợp có sằn trong GATE)
chúng tôi đưa ra kiến trúc hệ thống như hình 5.1.
Hình 5.1 - Mô tả chi tiết hệ thống nhận dạng thực thể trong vãn bản tiếng Việt
Hệ thống bao gồm 4 phần chính:
• Bộ tách tò
• Bộ gán nhãn từ loại
• Bộ từ điển
• Bộ luật
Ta có thể hình dung một cách tổng quan các bước hoạt động của hệ thống như sau: trước
tiên, văn bản được tách từ và gán nhãn tò loại. Sau đó bộ tò điển hoạt động tìm ra một lớp
9
các thực thể bàng phép so khớp (matching). Cuối cùng bộ luật nhận dạng lại các thực thể,
gán nhãn cho từng thực thể trong văn bản, và trả ra kết quả.
5.1. Tiền xử lý
Một nét đặc trưng rất khác biệt của tiếng Việt so với tiếng Anh đó là vấn đề tách từ (word
segmentation). Trong tiếng Anh các từ được phân biệt bởi dấu trống, tuy nhiên từ trong tiếng
Việt thì không như vậy. Một từ có thể bao gồm một, hai, ba hoặc nhiều hơn các tiếng. Một
tiếng có thể liên kết với từ đứng trước nó, hoặc đứng sau nó để tạo thành từ. Ví dụ như câu:
“Học sinh học sinh học."
Có thể tách câu trên như sau:
“Học_sinh học sinhỳiọc. "
hay
“Học sinh học sinh học.''''

Như vậy tiếng “sinh” có thể kết hợp với tiếng “Học” đứng trước nó để tạo thành từ “Học
sinh”, hay nó còn có thể kết hợp với tiếng “học” đứng sau nó để tạo thành từ “sinh_học”.
Quay trở lại bài toán nhận dạng thực thể trong văn bản tiếng Việt, đương nhiên thực thể phải
là từ, hoặc cụm từ mang ý nghĩa. Chúng ta không thể nhận một cụm các tiếng không mang
một ý nghĩa gì làm thực thể. Vậy yêu cầu đầu tiên của giai đoạn tiền xử lý cho bài toán nhận
dạng thực thể là bài toán tách từ trong tiếng Việt. Một hệ thống nhận dạng thực thể chi có thể
tốt khi có m ột bộ tách từ hoạt động tốt. Lấy câu sau đây làm ví dụ:
“Anh Hùng lái xe trên đại lộ 5. ”
Nếu bộ tách từ hoạt động chính xác, câu đó sẽ được tách thành:
“Anh Hùng lái_xe trên đại_lộ 5.”
Từ “Hùng” đứng sau tiền tố nhận dạng “Anh” sẽ được nhận là thực thể chi người <Person>
và chính xác. Tuy nhiên nếu bộ tách từ hoạt động không chính xác và câu được tách thành:
“Anh Hùng lái_xe trên đại_lộ 5.”
Khi đó trong tập các từ hoàn toàn không có tò “Hùng” và việc nhận ra “Hùng” là thực thể
tên người sẽ trở nên rất khó khăn.
Ngoài yêu cầu bắt buộc về một bộ tách từ, chúng tôi còn sử dụng thêm bộ gán nhãn từ
loại trong giai đoạn tiền xử lý cúa hệ thống, nhàm cung cấp được nhiều thống tin cho các giai
đoạn xử lý tiếp theo. Chúng tôi đóng gói bộ WS&PT.2IN1.4VN (Phạm 2009) thành plugin
10
Coltech.NLP.tokenizer trong khung làm việc GATE. Nhờ đó bộ tách từ và gán nhãn từ loại
có thể dễ dàng thay đổi, cải tiến mà không làm ảnh hưởng đến kiến trúc của hệ thống.
5.2. Bộ từ điển
Bộ từ điển (VNEgazetteer) được tạo từ nhiều từ điển với các tiêu chí khác nhau, nhằm nhận
dạng được một lớp các thực thể nhờ quá trinh so khớp, cũng như cung cấp những thông tin
cần thiết cho quá trình nhận dạng trong bộ luật. Mồi từ điển gồm các từ mang cùng một ý
nghĩa nào đó, có thể là chứa các thực thể cùng loại như: tên người, tên tổ chức v.v hay
chứa các từ, cụm từ đóng những vai trò giống nhau về mặt cú pháp, ngừ nghĩa, hoặc chi đơn
giản là để sử dụng cho m ột luật nào đó trong bộ luật. Bộ từ điển được chúng tôi xây dựng
nhờ những kinh nghiệm có được trong quá trình gán nhãn bằng tay, và vẫn đang được tiếp
tục phát triển.

Có thể chia bộ tò điển thành những nhóm sau:
• Những từ điển chứa các tên các thực thể được nhận dạng
o Từ điển tên người:
■ Chứa các tên đầy đủ: Hồ Chí Minh, Nguyễn Tấn Dũng v .v
■ Chứa các tên viết tắt: Sơn, Duy, Đại, Đạt v .v
■ Chứa các tên đặc biệt: Bà Trưng, Bà Triệu v.v
o Từ điển tên tổ chức: chứa tên các tổ chức như OPEC, G8, G7 v .v
o Từ điển tên địa điếm: gồm 3 từ điển nhỏ
’ ■ Từ điển tên nước: Việt Nam, Pháp, Canada v .v
■ Từ điển tên các thành phố trên thế giới: NevvYork, Paris v .v
■ Từ điển tên các vùng miền: miền Bắc, miền Anh, châu Á v.v
o Từ điển tên các công trình đặc biệt như: Kim tự tháp, BigBen v .v
o Từ điển tên các tổ chức tôn giáo: Hội Phật Giáo, Thiên Chúa Giáo v .v
• Những từ điển dùng cho việc nhận dạng trong bộ luật:
o Từ điển các từ đứng trước tên người: anh, cô, chú, ông v .v
o Từ điển các động từ thường đứng sau tên người: cười, khóc, nói v .v
o Từ điển các từ đứng trước tên tổ chức: công ty, tập đoàn, bệnh viện v.v
o Từ điển các từ đứng trước tên địa điểm: đảo, biển, thành phố, quận, huyện
v.v
o Từ điển các tò đứng trước thực thể chỉ quốc gia: người, chính phủ v.v
o Từ điển các từ đứng trước các công trình: cầu, tòa nhà, càng v .v
• Từ điển chứa các từ gây ra sự nhập nhằng:
o Từ điển các từ nhập nhằng giữa tổ chức và công trình như: Lầu Nẳm Góc, Nhà
Trắng v.v
o Từ điển các từ nhập nhằng giữa tên người, tên địa điểm và quốc gia: Anh, Mỹ,
Nga, Nhật v.v
5.3. Bộ luật
Song song với quá trình xây dựng bộ từ điển (VNEgazetteer) chúng tôi tiến hành xây dụng
bộ luật (VNEtransducer) - thành phần quan trọng nhất trong hệ thống của chúng tôi. Bộ luật
sử dụng các thông tin do các thành phần khác ữong hệ thống (bộ tách từ, bộ gán nhãn từ loại,

bộ tò điển) cung cấp để nhận dạng các thực thể (thực thể và loại thực thể). Có thể mô tả các
bước hoạt động của bộ luật đo chúng tôi xây dựng như sau:
• Tiền xử lý: loại bỏ các nhãn “Lookup” không cần thiết, hoặc có thể đưa những thông
tin sai cho quá trình nhận dạng.
• Xử lý
o Nhận dạng các thực thể chi công trình <Facility> và các thực thể chi tổ
<Organization>
o Nhận dạng các thực thể chỉ địa điểm <Location> và các thực thể thuộc về quốc gia
<Nationality>
o Nhận dạng các thực thể chi các tổ chức tôn giáo <Religion>
o Nhận dạng các thực thể chi người <Person>
o Sử dụng ngữ cảnh và quá trình nhận dạng thông minh.
12
Bước đầu tiên của bộ luật là loại bỏ đi những nhãn Lookup chi là tiếng không phải là từ,
không mang đúng ngữ nghĩa trong văn cảnh. Ví dụ trong câu:
“Thị trường Việt Nam thật ảm đảm trong thời kỳ khủng hoảng”.
Tiếng “trường” trong trường hợp này không thể được hiểu theo nghĩa “trường học” vì nó
nằm ừong từ “thị trường” . Vì vậy annotation Lookup ở tiếng “trường” sẽ bị xóa bỏ để tránh
nhập nhằng trong quá trình nhận dạng tiếp theo. Ngoài ra trong phần tiền xử lý, chúng tôi
cũng đồng thời tạo ra những annotation mới - NamePhrase - gộp những từ, cụm từ viết hoa
ở cạnh nhau để thuận tiện cho việc nhận dạng.
Trong các bước tiếp theo, các cặp Facility và Organization, Location và Nationality mang
nhiều sự nhập nhằng được xử lý. Quá trình này chưa sử dụng các yếu tố ngừ cành vì thế vẫn
còn nhiều lỗi trong quá trình nhận dang.
Tên người ỉà một trong những loại thực thể khó được nhận dạng nhất, bời bất kỳ từ nào
cũng có thể được dùng như một tên người. Dưới đây là một luật đơn giản được sử dụng để
nhận dạng tên người:
Rule: PersonAfterTitle
(
{Lookup .majorTupe == “titIeperson”}({NamePhrase}):name

) >
:name.Person = {kind = “Person” , sure = “90” , rule = “PersonAfterTitle” }
Ngoài ra chúng tôi đã áp dụng khá nhiều kỹ thuật nhằm tăng độ chính xác đối với loại
thực thể này.
Cuối cùng chúng tôi sử dụng các yếu tố ngữ cành vào quá trình nhận dạng. Ví dụ đoạn văn
“Bà Nùng vừa hút tẩu thuốc vừa kể: "Đời thằng A Lưới khổ lẳm. Nhà chẳng còn ai, lao
động quần quật cả năm mà vẫn không đủ ăn. Không biết đời nó bao giờ mới có vợ. " Ẩy thế
mà niềm vui bất ngờ đã đến với A Lưới, anh gặp Hoa, cô giảo miền xuôi mới lên bàn.''
Nhờ có cụm “thằng A Lưới” nên “A Lưới” được nhận là thực thể chỉ người với độ chắc chấn
cao. Nhờ đó từ “A Lưới” ở câu dưới cũng được nhận là thực thể chi người. Hình 5.2 là kết
quả chạy của hệ thống đối với đoạn văn trên.
13
Hata «tortt»
MlmeTyps
docNewUriBType
oale SourceURL inioJD:
Document Editor
ỄỈGA1I 4.n l.u il 'l ỉ ì ’, 2
^ " ’^ ~ ìv ịí7 ~ “
ĩ r
I # * Applications
tesl
I i f f Languid* Resources
doclest
test
Proc«»ing Rstourcst
VNEtransducer_D001i
N , VNEoazett»8<_00018
- \ Cottech.NLP.toksnlze
$ Document Re je t PR_

4Ệ? GATE document_00018 I
■ A nn ota tio n S ets I
Bà H v ử a húi tíu tnuấc vử» kỉ: T)đl trtỉng H I Nhà ehẳno còn
*1, lao đíno quần quật c i nim mà vỉn khíng 90 in. KMng biết đđl nó bao
g li mỂrt có yợ "Ấy mế m ì niềm vul bít ng đđỉ đến VỚI m u anh gặp
cỏ giáo miền ÍUỎI mớl lên bén.
r S M H B B i
n n n a n s
► O r ig in a l m a r io i p t
Hình 5.2 - Một ví dụ cho quá trình nhận dạng thông minh
6. T hự c nghiệm
6.1 Các bước tiến hành thực nghiệm
• Bước 1: Sử dụng hệ thống nhận dạng thực thể trong văn bản tiếng Việt do chúng tôi
xây dựng để tự động nhận dạng và gán nhãn cho các thực thể.
• Bước 2: So sánh tập dữ liệu được gán nhãn tự động và tập dữ liệu chuẩn được gán
nhãn bằng tay, qua đó đưa ra các thông số đánh giá chất lượng cùa hệ thống
(Precision, Recall, F-measure). Trong đó:
o Precision = (NI / N2) X 100%
o Recall = (NI /N 3 )x 100%
o F-measure = 2 X (Precision X R eca ll) / (Precision + Recall) X 100%
Ký hiệu:
o N 1: Số thực thể được nhận dạng chính xác.
14
o N2: Tổng số thực thể được nhận ra.
o N 3: Số thực thể thực tế
6.2. Kết quả thực nghiệm
Chúng tôi đánh giá kết quả thực nghiệm qua hai tiêu chí:
• Tiêu chí chặt (strict): một thực thể được nhận dạng đúng khi trùng khớp hoàn toàn (về
vị trí), và cùng kiểu với thực thể trong tập dừ liệu chuẩn.
• Tiêu chí lỏng (lenient): một thực thể được nhận dạng đúng khi nó có phần chung và

cùng kiểu với thực thể trong tập dữ liệu chuẩn.
Với tiêu chí đánh giá chặt, ta thu được các kết quả sau:
Ket quả nhận dạng trên tập huấn luyện (bảng 6.1) mới chi dừng lại ờ F-measure đạt 89.90%,
hứa hẹn chúng tôi sẽ còn cải tiến được nhiều trong tương lai.
Bảng 6.1 - Kết quả nhận dạng trên tập huấn luyện
SỐ
thực thể
Sô thực
thể được
nhận
dạng
Sô thực
thể được
nhận
đúng
Precision
Rccaỉl
F-measure
Person
548
470 457 97.23 %
83.39 % 89.78 %
Organization
100
85
80
94.11 % 80.00 % 86.48 %
Location
272 255 244
95.68 % 89.70 % 92.59 %

Nationality
87
84 72 85.71 % 82.75 % 84.21 %
Facility
78
76 69 90.78 %
88.46 % 89.61 %
Religion
18
18 18 100.00%
100.00% 100.00%
All
1103 988
940 95.14 % 85.22 % 89.90 %
15
Bảng 6.2 - Bảng kết quả nhận dạng trên lập kiểm tra
SỐ
thực thể
Sô thực
thể được
nhận
dạng
Sô thực
thể được
nhận
đúng
Precision Recall F-measure
Person
370 285 263 92.28 % 71.08 % 80.30 %
Organization

48 33 25 75.75 %
52.08 %
61.72%
Location
260
239
222 92.88 %
85.38 %
88.97 %
Nationality
82
68 56 82.35 % 68.29 % 74.66 %
Facility
40 33 29
87.87 %
72 .50%
79.45 %
Religion
20
19 19
100.00%
95 .0 0% 97.43 %
All
820
677 614
90.69 %
74.87 %
82.03 %
Trong khi đó, trên tập kiểm tra kết quả thu được cũng khá khả quan: F-measure đạt
82.03% (bảng 6.2). Tuy nhiên, bên cạnh những loại thực thể có kết quả nhận dạng rất tốt

như: thực thể chi các tổ chức tôn giáo <Religion> (F-measure: 97.43%), thực thế chi địa
điểm (F-measure: 88.97% ) v .v thì loại thực thể chỉ tổ chức <Organization> lại thu được
kết quả khá khiêm tốn F-measure: 61.72%. Sở đĩ có điều này là vì tên các tổ chức của Việt
Nam đôi khi khá dài, khó nhận diện, đặc biệt khi chủng không được viết hoa. Ví dụ câu sau:
"Công ty Hợp tác lao động nước ngoài - L O D , thuộc Bộ GTVT. "
Câu trên gồm 3 thực thể chỉ tổ chức: “Công ty Hợp tác lao động nước ngoài”, “LOD” và “Bộ
GTVT”. Tuy nhiên hệ thống chi nhận được thực thể “Công ty Hợp tác” (nhận sai) và “Bộ
GTVT” (nhận đúng). Tuy nhận sai nhưng việc nhận ra một phần cùa thực thể “Công ty Hợp
tác lao động nước ngoài” cũng có ý nghĩa, bởi thật khó để nhận được thực thể này. Chúng tôi
thử đánh giá lại chất lượng của hệ thống theo tiêu chí “lỏng” hơn (lenient evaluation). Ket
quả thu được như sau:
16
Bảng 6.3 - Két quả nhận dạng trên tập kiểm tra với tiêu chí “lỏng” ( lenient valuation)
Số thực
thể
Sô thực
thể được
nhận
dạng
Sô thực
thể được
nhận
đúng
Precision Recall
F-measure
Person
370 285 266
93.33 % 7 1.89% 81.22%
Organization
48 33

30
90.90 % 62.50 % 74.07 %
Location
260 239
224
93.72 % 86.15 % 89.77 %
Nationality
82 68 57 83.82 %
69.51 % 76.00 %
Facility
40 33 31 93.93 % 77.50 %
84.93 %
Religion
20 19 19
100.00% 95.00 %
97.43 %
All
820
677 627
92.61 % 76.46 %
83.76 %
Rõ ràng trong khi hầu như các kết quả nhận dạng thực thể khác không tăng nhiều, thì kết
quả nhận dạng các thực thể chỉ tổ chức đã tăng đáng kể (F-measure từ 61.72% lên 74.07%).
Bảng 6.4 thể hiện kết quả của những hệ thống nhận dạng thực thể trong văn bản tiếng Việt
hiện tại (Nguyễn 2005, Cao 2007). Tuy không cùng so sánh trên một tập kiểm tra, nhưng với
những kết quả tương đương (F-measure: 82.03%), cùng rất nhiều hướng cải tiến: mở rộng bộ
từ điển, cải tiến bộ luật để sử dụng tốt hơn những yếu tố văn cảnh v.v chúng tôi tin rằng hệ
thống của chúng tôi sẽ là nền tàng để phát triển thành những hệ thống nhận dạng thực thể
trong văn bản tiếng Việt đạt hiệu quả cao.
Bảng 6 .4 - Kết quả thực nghiệm cùa một số hệ thống nhộn dạng thực thể trong văn bàn tiếng Việt

Precision Recall
F-measure
Hệ thống nhận dạng thực thể sử dụng
CRF [11]
81.85% 79.35% 80.53%
Hệ thông VN-KIM IE [4]
81.37% 81.37%
81.37%
Hệ thông NER for Vietnam ese
90.69 %
74.87 %
82.03 %
17
7. K ế t luận
Trong nghiên cửu này, chúng tôi đã xây dựng được một hệ thống nhận dạng thực thể có tên
trong văn bản tiếng Việt đạt kết quả khá khả quan (82%). Ngoài ra chúng tôi cũng đã xây
dựng được một tập dữ liệu đã được gán nhãn chuẩn tiếng Việt và một tài liệu đĩnh nghĩa và
phân loại các loại thực thể có tên. Tất cả hệ thống và những tài liệu liên quan sê được mở
cho cộng đồng sử dụng và phát triển.
I C^I I1M 1NỤ1
Ị rPỤN-V- U iu l IHQN G IIN ỉ H ự VIỆN
ị Ọ Ọ O ỷ O O O O O ± l
18
Tài liệu tham kh ảo ■
1. Bikel, D., Miller, s., Schwartz, R., Weischedel, R.: A High- Performance Learning Narae-
finder. Proceedings of the Fifth Conference on Applied Natural Language Processing, pp
194-201 (1998)
2. Borthwick, A., Sterling, J., Agichtein, E., Grishman, R.: Exploiting Diverse Knowledge
Sources via Maximum Entropy in Named Entity Recognition. Proceedings of the
Sixth Workshop on Very Large Corpora, Montreal, Canada (1998)

3. Budi, I., Bressan, s.: Association Rules Mining for Name Entity Recognition. Proceedings
of the Fourth International Conference on Web Information Systems Engineering (2003)
4. Nguyen, V.T.T., Cao, T.H.: Automatic Extraction of Vietnamese Named-Entities on the
Web. Proceedings of the Journal of New Generation Computing, Ohmsha, Ltd. and
Springer (2007)
5. Fang, X., Sheng, H.: A Hybrid Approach for Chinese Named Entity Recognition
Proceedings of the Fifth International Conference on Discovery Science (2002)
6. Kim, J., Kang, I., Choi, K.: Unsupervised Named Entity Classification Models and their
Ensembles. Proceedings of the Nineteenth International Conference on Computational
Linguistics (2002)
7. Mai, T. D.: Named Entity Guideline for Vietnamese. Bachelor thesis, College of
Technology, Vietnam National University, Hanoi (2008)
8. Mansouri, A., Affendey, L., Mamat, A.: Named Entity Recognition Using a New Fuzzy
Support Vector Machine. Proceedings of the International Journal of Computer Science
and Network Security, IJCSNS, vol. 8, n. 2, pg. 320-325 (2008)
9. Maynard, D., Tablan, V., Ursu, c., Cunningham, H., Wilks, Y.: Named Entity Recognition
from Diverse Text Types. Proceedings Recent Advances in Natural Language Processing
2001 Conference, Tzigov Chark, Bulgaria (2001)
10. Maynard, D., Bontcheva, K., Cunningham, H.: Towards a Semantic Extraction of Named
Entities. Proceedings Recent Advances in Natural Language Processing, Borovets,
Bulgaria (2003)
11. Nguyen, T.C., Tran, O.T., Phan, H.X., Ha, T.Q.: Named Entity Recognition in Vietnamese
Free-Text and Web Documents Using Conditional Random Fields. Proceedings of the
Eighth Conference on Some Selection Problems of Information Technology and
Telecommunication, Hai Phong, Viet Nam (2005)
19
12. Nguyen, T.P., Vu, L.X., Nguyen, Nguyen, H.V., Le, P.H.: Building a Large
Syntactically-Annotated Corpus of Vietnamese. Proceedings of the Third Linguistic
Annotation Workshop (LAW) at ACL-IJCNLP 2009 (2009)
13. Pastra, K., Maynard, D., Hamza, o., Cunningham, H., Wilks, Y.: How Feasible is the Reuse

of Gram m ars for Named Entity Recognition?. Proceedings of the Conference on
Language Resources and Evaluation (LREC’02) (2002)
14. Pham, T., Kawazoe, A., Dinh, D., Collier, N.: Construction of Vietnamese Corpora for
Named Entity Recognition. Conference RIA02007, Pittsburgh PA, U.S.A. May 30-June
1, 2007 - Copyright C.I.D. Paris, France (2007)
15. Pham, D.D., Tran, G.B., Pham, S.B.: Vietnamese Word Segmentation Using Part of
Speech Tags. Proceedings of the First International Conference on Knowledge and
Systems Engineering, Hanoi, Vietnam (2009)
16. Srihari, R., Niu, c., Li, w.: A Hybrid Approach for Named Entity and Sub-Type
Tagging. Proceedings of the Sixth Conference on Applied Natural Language Processing
(2000)
17. Wu, Y., Fan, T., Lee, Y., Yen, s.: Extracting Named Entities Using Support Vector
Machines. Proceedings of the International Workshop on Knowledge Discovery in Life
Science Literature (2006)
20

Nhận dạng và phân loại các thực thể có tên cho văn bản tiếng Việt

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về