Trích rút thông tin cá nhân từ văn bản tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.54 MB, 70 trang )

Trích rút thông tin cá nhân từ văn bản tiếng Việt

MỤC LỤC
LỜI CAM ĐOAN .............................................................................................4
LỜI CẢM ƠN ...................................................................................................5
BẢNG TỪ VIẾT TẮT......................................................................................6
DANH MỤC CÁC BẢNG ...............................................................................7
DANH MỤC CÁC HÌNH ................................................................................7
CHƢƠNG 1: MỞ ĐẦU .................................................................................8
1.1

Lý do chọn đề tài ..........................................................................................8

1.2

Mục đích và phạm vi ...................................................................................8

1.2.1 Mục đích nghiên cứu ..................................................................................8
1.2.2 Phạm vi nghiên cứu ....................................................................................9
1.3

Nội dung nghiên cứu....................................................................................9

1.4

Bố cục luận văn ..........................................................................................10

1.5

Ý nghĩa của luận văn .................................................................................10

CHƢƠNG 2: MÔ TẢ BÀI TOÁN VÀ HƢỚNG GIẢI QUYẾT .............12
2.1

Khái quát về trích rút thông tin ...............................................................12

2.1.1 Bài toán trích rút thông tin .......................................................................12
2.1.2 Kiến trúc của hệ thống trích rút thông tin ................................................13
2.2

Bài toán trích rút thông tin cá nhân ........................................................15

2.3

Phƣơng pháp giải quyết bài toán trích rút thông tin cá nhân ...............18

2.3.1 Bài toán trích rút thực thể .........................................................................19
2.3.2 Bài toán trích rút mối quan hệ ..................................................................21
2.4

Ứng dụng của bài toán trích rút thông tin cá nhân ................................22

2.5

Phƣơng pháp đánh giá kết quả ................................................................23

CHƢƠNG 3: TRÍCH RÚT THỰC THỂ VÀ TRÍCH RÚT QUAN HỆ .25
3.1

Trích rút thực thể ......................................................................................25

3.1.1 Một số hướng tiếp cận giải quyết bài toán trích rút thực thể ...................25
Nguyễn Cao Cường

1

Luận văn Thạc sỹ

Trích rút thông tin cá nhân từ văn bản tiếng Việt
3.1.2 Mô hình trường ngẫu nhiên có điều kiện .................................................31
3.2

TRÍCH RÚT QUAN HỆ ...........................................................................36

3.2.1 Một số hướng tiếp cận giải quyết bài toán trích rút thực thể ...................36
3.2.2 Các đặc trưng được sử dụng trong trích rút quan hệ ................................37
3.2.3 Biểu thức chính qui ..................................................................................37
3.2.4 Ứng dụng biểu thức chính qui để trích rút quan hệ..................................39
CHƢƠNG 4: THIẾT KẾ VÀ XÂY DỰNG CHƢƠNG TRÌNH .............45
4.1

Kiến trúc của hệ thống ..............................................................................45

4.2

Tiền xử lý ....................................................................................................46

4.3

Bộ trích rút thực thể dựa trên mô hình CRF ..........................................46

4.4

Các đặc trƣng cho quá trình học máy .....................................................47

4.4.1
4.4.2
4.4.3
4.4.4
4.5

Đặc trưng ngữ cảnh ..................................................................................47
Đặc trưng từ điển ......................................................................................48
Đặc trưng chính tả ....................................................................................49
Đặc trưng chính quy và từ loại .................................................................50
Hậu xử lý ....................................................................................................50

4.5.1 Xử lý đồng tham chiếu đến thực thể người ..............................................51
4.5.2 Chỉnh sửa nhãn .........................................................................................57
4.6

Trích rút quan hệ .......................................................................................57

4.7

Quản lý thông tin cá nhân .........................................................................58

4.8

Cài đặt, thử nghiệm và đánh giá ..............................................................58

4.8.1 Một số t y ch n trong bộ công cụ FlexCRFs ..........................................58
4.8.2 Kết quả trích rút thông tin ........................................................................59
4.8.3 Nhận xét ...................................................................................................60
CHƢƠNG 5: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ..........................61
5.1

Các kết quả đạt đƣợc trong luận văn ......................................................61

5.1.1 Về lý thuyết ..............................................................................................61
5.1.2 Về thực nghiệm ........................................................................................61
5.1.3 Nhận xét ...................................................................................................61

Nguyễn Cao Cường

2

Luận văn Thạc sỹ

Trích rút thông tin cá nhân từ văn bản tiếng Việt

5.2

Hƣớng phát triển .......................................................................................62

PHỤ LỤC 1: TẬP DỮ LIỆU .........................................................................63
PHỤ LỤC 2: MỘT SỐ GIAO DIỆN CHƢƠNG TRÌNH ..........................65
TÀI LIỆU THAM KHẢO .............................................................................68

Nguyễn Cao Cường

3

Luận văn Thạc sỹ

Trích rút thông tin cá nhân từ văn bản tiếng Việt

LỜI CAM ĐOAN
Tôi xin cam đoan, luận văn tốt nghiệp Thạc sỹ này là công trình nghiên cứu
của bản thân tôi dưới sự hướng dẫn của PGS. TS. Lê Thanh Hương. Các kết quả
trong luận văn tốt nghiệp là trung thực, không phải sao chép toàn văn của bất kỳ
công trình nào khác. Tôi xin chịu hoàn toàn trách nhiệm về nội dung quyển luận văn
này.
Tác giả

Nguyễn Cao Cường

Nguyễn Cao Cường

4

Luận văn Thạc sỹ

Trích rút thông tin cá nhân từ văn bản tiếng Việt

LỜI CẢM ƠN
Luận văn được hoàn thành tại trường Đại h c Bách khoa Hà Nội. Để hoàn

thành luận văn này, tác giả đã nhận được sự chỉ bảo tận tình, c ng những yêu cầu
nghiêm khắc của PGS. TS Tiến sĩ Lê Thanh Hương, người đã truyền đạt rất nhiều
kiến thức quí báu cũng như những kinh nghiệm nghiên cứu khoa h c trong suốt thời
gian tác giả theo h c và nghiên cứu.
Tác giả xin chân thành gửi lời biết ơn đến Ban lãnh đạo Viện Công nghệ thông
tin và Truyền thông, Viện Đào tạo Sau đại h c và Bộ môn Hệ thống Thông tin,
thuộc trường Đại h c Bách khoa Hà Nội đã tạo điều kiện thuận lợi trong quá trình
h c tập, nghiên cứu và hoàn thành luận văn.
Với năng lực hạn chế của bản thân cũng như những nguyên nhân chủ quan,
khách quan, luận văn không tránh những thiếu sót. Tác giả rất mong được sự góp ý
của quý thầy cô, các bạn bè và đồng nghiệp để luận văn được hoàn thiện hơn.
Cuối c ng, tác giả muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những
người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện luận
văn.
Tác giả

Nguyễn Cao Cường.

Nguyễn Cao Cường

5

Luận văn Thạc sỹ

Trích rút thông tin cá nhân từ văn bản tiếng Việt

BẢNG TỪ VIẾT TẮT

Viết tắt

Tiếng Anh

Tiếng Việt

CRFs

Conditional Random Fields

Các trường ngẫu nhiên có điều
kiện

HMM

Hidden Markov Model

Mô hình Markov n

Maximum Entropy Markov

Mô hình Markov cực đại hóa

Model

entropy

IE

Information Extraction

Trích rút thông tin

RE

Relation Extraction

Trích rút quan hệ

SVM

Support Vector Machine

Máy véctơ hỗ trợ

SDS

Single-Document Sumarization

Tóm tắt đơn văn bản

MDS

Multi-Document Summarization

Tóm tắt đa văn bản

Noun Phrase

Cụm danh từ

MEMM

NP

Nguyễn Cao Cường

6

Luận văn Thạc sỹ

Trích rút thông tin cá nhân từ văn bản tiếng Việt

DANH MỤC CÁC BẢNG
Bảng 2-1: Các giá trị đánh giá một hệ thống trích rút thực thể .........................24
Bảng 4-1: Mẫu ngữ cảnh về từ vựng: ....................................................................47
Bảng 4-2: Các từ điển đƣợc sử dụng .....................................................................48
Bảng 4-3: Các đặc trƣng chính tả ..........................................................................49
Bảng 4-4: Đặc trƣng chính qui và từ loại ..............................................................50
Bảng 4-5: Định dạng tên thực thể ..........................................................................51
Bảng 4-6: Các tham số trong quá trình hu n luyện nhận dạng thực thể ..........58
Bảng 4-7: Đánh giá mức nhãn – Lần thực nghiệm cho kết quả tốt nh t ...........59
Bảng 4-8: Đánh giá mức cụm từ – Lần thực nghiệm cho kết quả tốt nh t ......59
Bảng 4-9: Kết quả trích rút quan hệ .....................................................................60

DANH MỤC CÁC HÌNH
Hình 2-1: Ví dụ về trích rút thông tin ...................................................................13
Hình 2-2: Kiến trúc của hệ thống trích rút thông tin ..........................................14
Hình 2-3: Trích rút thông tin cá nhân từ văn bản tiểu sử phi c u trúc .............16
Hình 2-4: Phân c p các câu theo tác giả Sérgio Flipe ..........................................18

Hình 3-1: Đồ thị có hƣớng mô tả mô hình HMM ................................................27
Hình 3-2: V n đề “label bias” ................................................................................30
Hình 3-3: Đồ thị vô hƣớng mô tả CRFs ................................................................32
Hình 4-1: Kiến trúc hệ thống trích rút thông tin cá nhân ...................................45
Hình 4-2: Trích rút thực thể sử dụng CRF...........................................................47
Hình 4-3: Quá trình hậu xử lý ...............................................................................51
Hình 4-4: Xử lý đồng tham chiếu...........................................................................56

Nguyễn Cao Cường

7

Luận văn Thạc sỹ

Trích rút thông tin cá nhân từ văn bản tiếng Việt

CHƢƠNG 1:

MỞ ĐẦU

1.1 Lý do chọn đề tài
Hiện nay, sự b ng nổ của Internet và phát triển mạnh mẽ của công nghệ thông
tin – truyền thông, khả năng tiếp cận thông qua máy tính được kết nối Internet với
khối lượng lớn các kho dữ liệu văn bản khắp nơi trên thế giới là rất lớn. Tuy nhiên,
chính khối lượng dữ liệu quá lớn có thể làm người d ng bị “chìm ngập” trong thông
tin hoặc mất quá nhiều thời gian để có được thông tin mong muốn. Vấn đề này được
quan tâm giải quyết trong các hệ thống trích rút thông tin theo miền ứng dụng cụ
thể.
Một lượng lớn các tài liệu chứa các thông tin về cá nhân tiếp tục được tạo ra

và xuất bản hàng ngày trên internet. Các thông tin này luôn chiếm một vị trí quan
tr ng trong các máy tìm kiếm dữ liệu cũng như các trang web và thu hút sự quan
tâm của người d ng, các nhà nghiên cứu cũng như của các nhà phát triển dịch vụ
web. Nếu các thông tin này được trích rút tự động và lưu trữ trong các cơ sở dữ liệu
có cấu trúc thì chúng sẽ hỗ trợ tốt cho các nghiên cứu về con người và các lĩnh vực
liên quan như quảng cáo, nghiên cứu thị trường, thiết kế sản ph m và đánh giá thói
quen người d ng.
Ý thức được những lợi ích mà các bài toán trích rút thông tin cá nhân, đồng
thời phát triển cho ngôn ngữ tiếng Việt, tác giả đã ch n hướng nghiên cứu nhằm
giải quyết bài toán trích rút thông tin cá nhân từ văn bản tiếng Việt làm đề tài luận
văn của mình.

1.2 Mục đích và phạm vi
1.2.1 Mục đích nghiên cứu
Thông qua nghiên cứu đề tài “Trích rút thông tin cá nhân từ văn bản tiếng
Việt”, tác giả mong muốn đạt một số kết quả:

Nguyễn Cao Cường

8

Luận văn Thạc sỹ

Trích rút thông tin cá nhân từ văn bản tiếng Việt
 Nghiên cứu các phương pháp trích rút thông tin từ đó lựa ch n một phương
pháp ph hợp với bài toán.
 Xây dựng một hệ thống trích thông tin về cá nhân từ văn bản tiếng Việt
được lấy từ trang web wikipedia ().
1.2.2 Phạm vi nghiên cứu

Luận văn tập trung vào việc trích rút thông tin của cá nhân từ văn bản phi cấu
trúc tiếng Việt trên trang web , với giả định 01 văn bản chỉ
đề cập đến thông tin của một người. Các văn bản này sẽ được tiền xử lý trước khi
thực hiện trích rút thông tin. Hệ thống sẽ trích rút từ văn bản phi cấu trúc này 04
thực thể: tên người, tên tổ chức, tên địa điểm, ngày tháng và từ đó, tìm mối quan hệ
giữa thực thể người với các thực thể còn lại: ngày sinh (tên người-ngày tháng), nơi
sinh (tên người – địa điểm), công việc (tên người-tên tổ chức), sống ở (tên ngườitên địa điểm), quan hệ gia đình (tên người-tên người). Cuối c ng, hệ thống trích sẽ
đưa ra bảng dữ liệu gồm các mẫu thông tin về từng cá nhân được lưu trong cơ sở dữ
liệu.
Ví dụ:
Lê Công Vinh (sinh ngày 10 tháng 12 năm 1985) tại Quỳnh Lâm, Quỳnh Lưu,
Nghệ An, là một cầu thủ bóng đá Việt Nam hiện đang thi đấu cho câu lạc bộ Sông
Lam Nghệ An.
Sẽ được trích rút như sau:
1.H tên: Lê Công Vinh.
2. Ngày sinh: 10 tháng 12 năm 1985.
3. Nơi sinh: Quỳnh Lâm, Quỳnh Lưu, Nghệ An.
4. Công việc: Cầu thủ bóng đá, Câu lạc bộ Sông Lam Nghệ An.

1.3 Nội dung nghiên cứu
Trong luận văn này, để giải quyết bài toán trích rút thông tin cá nhân, tác giả
nghiên cứu phương pháp trích rút thực thể sử dụng trường ngẫu nhiên có điều kiện.

Nguyễn Cao Cường

9

Luận văn Thạc sỹ

Trích rút thông tin cá nhân từ văn bản tiếng Việt
Đồng thời nghiên cứu và áp dụng phương pháp trích rút mối quan hệ dựa trên các
luật và biểu thức chính quy.
Bên cạnh đó, tác giả cũng nghiên cứu về kiến trúc, mô hình hệ thống, phương
pháp kỹ thuật để xây dựng hệ thống trích rút thông tin cá nhân được lấy từ trang
web wikipedia.

1.4 Bố cục luận văn
Bố cục của luận văn gồm 5 chương và phụ lục:
Chương 1 giới thiệu về động cơ, mục tiêu và phạm vi nghiên cứu, những đóng
góp chính và cấu trúc của luận văn.
Chương 2 giới thiệu tổng quan về bài toán trích rút thông tin, bài toán trích rút
thông tin cá nhân và các bài toán liên quan là bài toán trích rút thực thể và bài toán
trích rút mối quan hệ, đề xuất phương pháp giải quyết bài toán trích rút thông tin cá
nhân cũng như ứng dụng của bài toán này và phương pháp đánh giá kết quả
Chương 3 trình bày một số phương pháp trích rút thực thể và trích rút quan hệ
từ đó ch n ra phương pháp thích hợp áp dụng cho bài toán trích rút thực thể từ văn
bản tiếng Việt. Luận văn sử dụng phương pháp tiếp cận sử dụng CRF. Trình bày
khái quát về biểu thức chính qui (Regulary Expression) và ứng dụng để trích rút
quan hệ giữa các thực thể.
Chương 4 trình bày thiết kế và xây dựng hệ thống trích rút thông tin cá nhân
từ trang web tiếng Việt wikipedia. Trình bày các kết quả đạt cài đặt thử nghiệm và
đánh giá.
Chương 5 tổng kết lại các kết quả đạt được của luận văn và đề xuất các hướng
nghiên cứu trong tương lai của luận văn.

1.5 Ý nghĩa của luận văn
Với kết quả đã đạt được, luận văn đã mang lại một số kết quả nghiên cứu nhất
định trong việc trích rút thực thể, trích rút quan hệ đặc biệt là kết phương pháp CRF,
các luật đồng tham chiếu về tên và biểu thức chính qui để giải quyết bài toán cụ thể.

Nguyễn Cao Cường

10

Luận văn Thạc sỹ

Trích rút thông tin cá nhân từ văn bản tiếng Việt
Đồng thời, luận văn cũng xây dựng một hệ thống trích rút thông tin cá nhân
trên trang web wikipedia. Nguồn thông tin được trích rút này có thể sử dụng cho
các hệ thống thông tin khác như hệ thống hỏi đáp về tiểu sử cá nhân.

Nguyễn Cao Cường

11

Luận văn Thạc sỹ

Trích rút thông tin cá nhân từ văn bản tiếng Việt

CHƢƠNG 2:

MÔ TẢ BÀI TOÁN VÀ HƢỚNG GIẢI QUYẾT

2.1 Khái quát về trích rút thông tin
2.1.1 Bài toán trích rút thông tin
Hiện nay, có rất nhiều định nghĩa về trích rút thông tin, trên cơ sở nghiên cứu
các nghiên cứu liên quan, có thể định nghĩa “Trích rút thông tin” (IE - Information
Extraction) là quá trình phát hiện các thực thể/tên, các mối quan hệ và các sự kiện

từ văn bản bán có cấu trúc, bán cấu trúc hay phi cấu trúc; và chuyển chúng sang
dạng thể hiện có cấu trúc (VD: cơ sở dữ liệu).
Việc trích rút ra các thông tin có cấu trúc từ các nguồn dữ liệu không cấu trúc
là một công việc nhiều khó khăn và đã thu hút được sự quan tâm của nhiều các nhà
nghiên cứu trong hai thập kỉ qua. Bắt nguồn từ cộng đồng các nhà xử lý ngôn ngữ
tự nhiên, IE đã nhanh chóng được quan tâm chú ý bởi những cộng động khác nhau
bao gồm h c máy, truy vấn thông tin (Information Retrieval), cơ sở dữ liệu, web và
phân tích văn bản.
Có nhiều mức độ trích rút thông tin từ văn bản như: trích rút thực thể (Named
Entity Recognition – NER), trích rút quan hệ giữa các thực thể (Relation Extraction
- RE), phân giải đồng tham chiếu (Co-Reference Resolution)…Các kĩ thuật được sử
dụng trong trích rút thông tin gồm có: Phân đoạn, phân lớp, kết hợp và phân cụm.
Kết quả của một hệ thống trích ch n thông tin thường là các mẫu (template)
chứa một số lượng xác định các trường (slots) đã được điền thông tin.

Nguyễn Cao Cường

12

Luận văn Thạc sỹ

Trích rút thông tin cá nhân từ văn bản tiếng Việt

October 14, 2002, 4:00 a.m. PT
For years, Microsoft Corporation CEO Bill Gates
railed against the economic philosophy of opensource software with Orwellian fervor,
denouncing its communal licensing as a "cancer"
that stifled technological innovation.
Today, Microsoft claims to "love" the

open-source concept, by which software
code is made public to encourage
improvement and development by
outside programmers. Gates himself
says Microsoft will gladly disclose its
crown jewels--the coveted code behind
the Windows operating system--to select
customers.
"We can be open source. We love the
concept of shared source," said Bill
Veghte, a Microsoft VP. "That's a superimportant shift for us in terms of code
access.“
Richard Stallman, founder of the
Free Software Foundation, countered
saying…

IE

NAME
Bill Gates
Bill Veghte
Richard Stallman

TITLE
ORGANIZATION
CEO
Microsoft
VP
Microsoft
founder Free Soft..

Hình 2-1: Ví dụ về trích rút thông tin
IE có nhiều ứng dụng rộng rãi và hữu ích. Trên thế giới IE được ứng dụng khá
nhiều vào việc trích ch n thông tin trên Internet. Các ứng dụng thực tế ví dụ: Hỗ
trợ, tư vấn mua hàng; chăm sóc khách hàng; tìm kiếm câu trả lời cho các hệ thống
hỏi đáp; theo dõi thông tin về các dịch bệnh; theo dõi các sự kiện khủng bố; tham
gia vào hệ thống quản lý thông tin cá nhân….Gần đây IE đặc biệt được chú tr ng
trong lĩnh vực y h c. Đã có khá nhiều nghiên cứu được tiến hành nhằm ứng dụng IE
vào việc trích rút các thực thể trong y h c như tên các protein và gene.
2.1.2 Kiến trúc của hệ thống trích rút thông tin
MUC (Message Understanding Conferences ) [7] thì hệ thống trích rút thông
tin có các thao tác chính như sau:

Nguyễn Cao Cường

13

Luận văn Thạc sỹ

Trích rút thông tin cá nhân từ văn bản tiếng Việt

Hệ thống trích rút
thông tin
Văn bản đầu vào
Tiền xử lý
Trích rút thực thể
Giải quyết đồng tham chiếu
Xây dựng mẫu phần tử
Xây dựng mẫu quan hệ

Trích rút quan hệ

Đưa ra mẫu kịch bản
Mẫu trích rút
Hình 2-2: Kiến trúc của hệ thống trích rút thông tin
Mục tiêu của luận văn là bài toán trích rút thực thể và trích rút mối quan hệ
giữa các thực thể. Các bài toán đó sẽ được phân tích kỹ hơn ở Phần 2.3 và các
chương sau.
Kiến trúc của hệ thống trích rút là cơ sở để xây dựng hệ thống trích rút thông
tin cá nhân. Do đó phần này sẽ giải thích cơ bản về kiến trúc của hệ thống trích rút
thông tin.
2.1.2.1 Tiền xử lý dữ liệu
Văn bản đầu vào trước khi đến bước nhận dạng thực thể phải được tiền xử lý,
bao gồm các bước: Tách câu, tách từ, gán nhãn từ loại và phân cụm.
2.1.2.2 Nhận dạng thực thể
Nhận dạng tên thực thể (Named Entity Recognition – NER) là việc tìm và
phân loại các thực thể như tên, địa danh, thời gian, tổ chức… có trong văn bản (xem
thêm mục 2.3).
Nguyễn Cao Cường

14

Luận văn Thạc sỹ

Trích rút thông tin cá nhân từ văn bản tiếng Việt
2.1.2.3 Giải quyết đồng tham chiếu
Giải quyết đồng tham chiếu (Coreference Resolution – CO) là việc nhận dạng
các đồng tham chiếu giữa các thực thể bằng cách kết hợp những thông tin mô tả

nằm rải rác trên văn bản tới các thực thể mà nó tham chiếu. Thao tác này mang tính
chất hỗ trợ cho các thao tác khác. Nó ít bị ảnh hưởng bởi người d ng, loại văn bản,
hay lĩnh vực.
Ví dụ :
Anh Nguyễn Huy Tiến là kiến trúc sư. Hàng ngày, anh Tiến đến cơ quan
trên đường Nguyễn Du làm việc.
Ở đây từ “Nguyễn Huy Tiến” và “Tiến” đều c ng nói đến một đối tượng là
“Nguyễn Huy Tiến”. “Tiến” là một tham chiếu đến thực thể người là “Nguyễn Huy
Tiến”.
2.1.2.4 Trích rút mối quan hệ
Dò tìm mối quan hệ (Relation detection) là quá trình tìm ra tất cả các mối quan
hệ giữa các thực thể trong câu bằng cách xây dựng tập luật để trích rút hoặc cũng có
thể dựa trên một mô hình h c máy (như CRFs, HMM…). Kết quả của quá trình dò
tìm mối quan hệ phụ thuộc rất nhiều vào việc xác định các thực thể trong câu cũng
như độ phức tạp của mẫu câu (xem thêm mục 2.3.2).

2.2 Bài toán trích rút thông tin cá nhân
Bài toán trích rút thông tin cá nhân (Personal Information Extraction) là việc
trích rút ra các thông tin quan tâm về cá nhân từ một nguồn dữ liệu bán cấu trúc hay
không cấu trúc (ví dụ: văn bản, trang web…) và chuyển chúng sang dạng biểu diễn
có cấu trúc (ví dụ: cơ sở dữ liệu). Bài toán trích rút thông tin cá nhân tương tự như
bài toán trích rút thông tin về tiểu sử (Biograhphical Information Extraction). Trích
rút thông tin cá nhân là một bài toán hẹp của trích rút thông tin trong đó các thông
tin cần trích rút tập trung vào một các cá nhân cụ thể.

Nguyễn Cao Cường

15

Luận văn Thạc sỹ

Trích rút thông tin cá nhân từ văn bản tiếng Việt

Lê Công Vinh

Lê Công Vinh (sinh ngày 10 tháng 12 năm 1985) tại Quỳnh Lâm,Quỳnh
Lưu, Nghệ An, là một cầu thủ bóng đá Việt Nam hiện đang thi đấu cho câu lạc
bộ Sông Lam Nghệ An và đội tuyển bóng đá quốc gia Việt Nam ở vị trí tiền
đạo. Anh từng 3 lần nhận danh hiệu Quả bóng vàng Việt Nam vào các năm
2004, 2006, 2007. Em gái là Lê Khánh Chi

Tên

Lê
Công
Vinh

Tên

Lê Công Vinh
Ngà 10/12/199
Ngày sinh
10/12/1996
y sinh 6
Nơi sinh
Quỳnh Lâm, Quỳnh
Lưu, Nghệ
Nơi
QuỳnhAn

sinhChi Lâm,
Quan hệ gia đình
Em gái là Lê Khánh
Quỳnh
Ngh
Công việc
Thi đấu cho câu lạc
bộ Sông
Lam Nghệ An và đội
Lưu,
Nghệ
ề Nam
tuyển quốc gia Việt
…….
nghiệp An
thủ
Côn Cầu
bóng đá
g việc
Hình 2-3: Trích rút thông tin cá nhân
từ văn bản tiểu sử phi c u trúc
đấu
…… Thi
câuđến
lạc bài toán trích rút
Hiện nay có khá nhiều công trình nghiên. cứu liêncho
quan
bộ
Sông
thông tin cá nhân bao gồm:

Lam Nghệ
An và đội
 Tác giả J. Cowie [9] sử dụng các câu truy vấn đầu vào để tạo ra các
tuyển quốc
thông tin tiểu sử (Biography).
gia
Việt
Nam
 Tác giả Turk J Elec [27] sử dụng biểu thức chính qui và các hệ luật để
điền vào các mẫu thông tin về cá nhân.
 Tác giả L. Zhou [11] sử dụng mô hình xác xuất Bayes (NB) dựa trên
các đặc trưng về từ vựng, ngữ cảnh, thực thể để phân loại câu vào một

Nguyễn Cao Cường

16

Luận văn Thạc sỹ

Trích rút thông tin cá nhân từ văn bản tiếng Việt
trong 10 loại câu liên quan đến tiểu sử, ví dụ: thông tin cố định (ngày
sinh, ngày mất,..), danh tiếng, tính cách, giáo dục, công việc,….
 Đồng tác giả N. Garera và D. Yarowsky [17] đã phát triển hệ thống có
khả năng trích rút 7 trường thông tin cơ bản (ngày sinh, ngày mất, nơi
sinh, quốc tịch, nghề nghiệp, giới tính và tôn giáo ) thông qua việc sử
dụng 6 kỹ thuật để khai thác các lớp thông tin khác nhau. Các kĩ thuật
này bao gồm: ngữ cảnh bắt buộc một phần (partially Untethered
Contextual Patterns), dựa trên vị trí (position-based), các thuộc tính của
các thực thể xảy ra đồng thời (Attributes of Co-occurring Entities), mô

tả sơ lược chủ đề ngữ cảnh mở rộng (broad-context topical proles), tự
sửa các thuộc tính (inter-attribute correlations), giới hạn độ tuổi người
với mục đích rút g n các số sai.
 Tác giả Fadi Biadsy [4] sử dụng phương pháp tiếp cận không giám sát
và kỹ thuật tóm tắt đa văn văn bản để tạo các văn bản tiểu sử. Tác giả
này áp dụng mô hình véc tơ hỗ trợ (Support vector machine - SVM) để
phân loại các câu thành một trong 2 loại câu thuộc tiểu sử và câu không
thuộc tiểu sử. Dữ liệu được thu thập từ trang web Wikipedia.
 Tác giả Sérgio Flipe [24] đề xuất mô hình trích rút các thông tin tiểu sử
bằng cách sử dụng các mô hình trường ngẫu nhiên có điều kiện (CRF),
xác xuất Bayes NB và mô hình máy véc tơ hỗ trợ (SVM) để phân loại
các câu trong văn bản tiểu sử thành một trong 19 loại câu, thuộc ba cấp
độ: cấp độ 0 (tiểu sử, không tiểu sử), cấp độ 1 (các điểm cá nhân không
thay đổi, các đặc điểm cá nhân có thể thay đổi, các loại khác, đặc điểm
về quan hệ cá nhân, các sự kiện cá nhân) và cấp độ 2 (ngày và nơi sinh,
thông tin về bố mẹ,….).

Nguyễn Cao Cường

17

Luận văn Thạc sỹ

Trích rút thông tin cá nhân từ văn bản tiếng Việt

Hình 2-4: Phân c p các câu theo tác giả Sérgio Flipe
Các tác giả N. Garera và D. Yarowsky [17] cho rằng các nghiên cứu về bài
toán trích rút thông tin cá nhân có thể được phân chia thành hai dạng chính sau:
 Dạng 1: Xác định và trích rút các câu chứa thông tin cá nhân và xử lý

chúng như là một hệ thống tóm tắt.
 Dạng 2: Trích rút các thông tin chi tiết của của cá nhân (VD: Ngày sinh,
nơi sinh, bố mẹ…).
Trong khuôn khổ của luận văn, tác giả tập trung nghiên cứu vào hệ thống trích
rút thông tin cá nhân Dạng 2 với mục đích trích rút ra các thông tin cụ thể của cá
nhân bao gồm: Tên người, ngày sinh, ngày mất, nơi sinh, quan hệ gia đình, thông
tin về công việc (nghề nghiệp, làm việc cho tổ chức). Dữ liệu được thu thập từ trang
web tiếng Việt Wikipedia.

2.3 Phƣơng pháp giải quyết bài toán trích rút thông tin cá nhân
Để giải quyết bài toán trích rút thông tin cá nhân từ văn bản tiếng Việt áp dụng
trên trang web Wikipedia, tác giả đề xuất phương pháp như sau: trích rút các thực

Nguyễn Cao Cường

18

Luận văn Thạc sỹ

Trích rút thông tin cá nhân từ văn bản tiếng Việt
thể từ văn bản sau đó trích rút quan hệ của thực thể người đề cập chính đến văn bản
với các thực thể khác để tìm ra các thông tin chi tiết của thực thể người này. Như
vậy, tác giả sẽ giải quyết hai bài toán chính sau:
 Trích rút thực thể từ văn bản phi cấu trúc.
 Trích rút quan hệ giữa các thực thể.
Nội dung cụ thể của hai bài toán này sẽ được trình bày ở các phần tiếp theo.
2.3.1 Bài toán trích rút thực thể
2.3.1.1 Định nghĩa bài toán
Trích rút thực thể (Named Entity Recognition - NER) là việc tìm kiếm và

phân lớp các từ, cụm từ trong văn bản vào các nhóm thực thể đã được xác định
trước như: tên người, địa danh, tổ chức, ngày tháng, tỷ lệ…
Hội thảo MUC [7] đã phân bài toán NER thành ba loại:
- Trích rút tên các thực thể bao gồm: tên người, tên tổ chức, tên địa điểm.
- Nhận dạng các biểu thức thời gian như “9-2-2000”, “09/02/2000”,
”10h:20’”,…
- Trích rút các biểu thức số, như “5%”, “1m”, “15kg”,…
Ví dụ: Cho một đoạn văn bản:
Anh Nguyễn Quốc Hùng sinh ngày 05/07/1974tại Đà Nẵng. Hôm nay , anh
Hùng đi thành phố Hồ Chí Minh.
Chúng ta muốn đoạn văn bản trên được đánh dấu như sau:
Anh Nguyễn Quốc Hùng </per> sinh ngày <time> 05/07/1974
</time> tại <loc> Đà Nẵng </loc>. Hôm nay , anh Hùng </per> đi <loc>
thành phố Hồ Chí Minh </loc>.
Bài toán trích rút thực thể là bài toán đơn giản nhất trong số các bài toán trích
rút thông tin. Tuy nhiên, NER là bước cơ bản, quan tr ng trước khi tính đến việc
giải quyết các bài toán phức tạp hơn trong lĩnh vực này. Rõ ràng trước khi có thể
xác định được các quan hệ giữa các thực thể ta phải xác định được đâu là các thực
thể tham gia vào mối quan hệ đó. Lúc đầu NER được coi là một thao tác đơn giản
trong IE, nhưng ngày nay nó có một vai trò quan tr ng quyết định đến các vấn đề
khác có độ phức tạp cao hơn như như truy vấn thông tin (Information Retrieval-IR)
hay các hệ hỏi đáp (Question Answering Systems - QA).
Nguyễn Cao Cường

19

Luận văn Thạc sỹ

Trích rút thông tin cá nhân từ văn bản tiếng Việt

Có nhiều phương pháp được đề xuất để giải quyết cho bài toán trích rút thực
thể được chia thành hai nhóm: nhóm các phương pháp dựa trên tri thức và nhóm các
phương pháp dựa trên kỹ thuật h c máy . Có rất nhiều phương pháp h c máy như
các mô hình markov n (Hidden Markov Models - HMM), các mô hình Markov cực
đại hóa Entropy (Maximum Entropy Markov Models- MEMM) và mô hình
Conditional Random Field (CRF).
Trong luận văn này, tác giả sẽ tập trung vào kỹ thuật h c máy sử dụng trường
ngẫu nhiên có điền kiện.
2.3.1.2 Mô hình hóa bài toán nhận biết các loại thực thể
Bài toán nhận biết loại thực thể trong văn bản là tìm câu trả lời cho các câu
hỏi: ai?, bao giờ?, ở đâu?, bao nhiêu?... Đây là một trường hợp cụ thể của bài toán
gán nhãn cho dữ liệu dạng chuỗi, trong đó (trừ nhãn O – “khác”) thì mỗi một nhãn
gồm một tiếp đầu ngữ B-(bắt đầu một tên thực thể X) hoặc I-(bên trong một tên
thực thể) kết hợp với tên nhãn. Luận văn sẽ chỉ tập trung trích rút bốn loại thực thể
là: con người (nhãn Per), địa điểm (nhãn Loc), thời gian (nhãn Time) và tổ chức
(nhãn Org). Như vậy, chúng ta có tổng cộng 2*4 + 1 = 9 nhãn (B-per, I-per, B-loc,
I-loc, B-org, B-Time, I-Time, I-org, O) trong bài toán gán nhãn của mình.
Để gán nhãn thực thể cho các câu tiếng Việt, mỗi câu được coi là một chuỗi
quan sát. Mỗi phần tử của chuỗi quan sát tương ứng với một từ tiếng Việt. Bài toán
trích rút thực thể trở thành bài toán gán nhãn một trong bảy nhãn trên cho mỗi phần
tử trong dãy quan sát. Ví dụ, đối với chuỗi “đồng chí Nguyễn Văn Bình”, thông qua
bộ tách từ thu được “đồng chí” là một từ, “Nguyễn Văn Bình” là một từ ([đồng chí]
[Nguyễn Văn Bình]). Khi đó cách gán nhãn đúng cho chuỗi gồm 2 quan sát này là:
O B-PER.
2.3.1.3 Một số khó khăn trong bài toán trích rút thực thể với tiếng Việt
Đối với Tiếng Việt, có một số khó khăn chính trong việc giải quyết bài toán
trích rút thực thể như sau:
a. Nhập nhằng

Nguyễn Cao Cường

20

Luận văn Thạc sỹ

Trích rút thông tin cá nhân từ văn bản tiếng Việt
Trong tiếng Việt, thường xảy ra tình huống nhập nhằng giữa các kiểu thực thể
khác nhau (c ng một tên nhưng có kiểu thực thể khác nhau trong các ngữ cảnh khác
nhau).
Ví dụ: “Nghệ An chơi tấn công cởi mở, cống hiến cho 2 vạn khán giả trên
sân bữa tiệc bóng đá đẹp mắt với cơn mưa bàn thắng”.
- Ở đây “Nghệ An” là kiểu thực thể một tổ chức. Tuy nhiên trong câu sau:
“Học sinh Nghệ An có truyền thống hiếu học”.
- Thì “Nghệ An” lại là 1 thực thể kiểu địa điểm.
Sự nhập nhằng này xảy ra là do trong tiếng Việt một số từ thường bị cắt bỏ đi
nhưng người nghe, người đ c vẫn hiểu được ý nghĩa đầy đủ của câu. Đối với ví dụ
của ta ở trên, câu đầy đủ tương ứng phải là:
“Học sinh ở Nghệ An vốn có truyền thống hiếu học”.
b. Nằm ngoài bảng từ vựng
Trong ngôn ngữ tiếng Anh hoặc tiếng Pháp, các thực thể thường được đặt tên
bằng những từ nằm ngoài bảng từ vựng. Tuy nhiên, trong ngôn ngữ tiếng Việt, các
thực thể thường có tên nằm trong bảng từ vựng, làm cho việc nhận dạng thực thể có
tên trở nên khó khăn hơn.
Ví dụ:
“Em đi đến trường mẫu giáo Họa Mi”.
Ở đây, “Họa Mi” là tên của một thực thể kiểu tổ chức, nhưng từ “h a mi”
cũng xuất hiện trong từ điển tiếng Việt với ý nghĩa là tên của một loài chim. Sự xuất
hiện này của từ “h a mi” trong từ điển có thể làm cho máy bỏ qua không xét đến
thực thể “trường mẫu giáo Họa Mi” trong câu trên.

2.3.2 Bài toán trích rút mối quan hệ
2.3.2.1 Định nghĩa bài toán
Trích rút mối quan hệ (Relation Extraction - RE) là việc xác định các mối
quan hệ giữa các cặp thực thể trong văn bản.
Ví dụ: Mối quan hệ giữa “tên người” và “tên tổ chức” có thể là quan hệ “làm
việc tại”, mối quan hệ giữa “tên người” và “tên địa điểm” có thể là “sống ở”…..

Nguyễn Cao Cường

21

Luận văn Thạc sỹ

Trích rút thông tin cá nhân từ văn bản tiếng Việt
Trích rút mối quan hệ tương đối khác so với trích rút thực thể. Trong khi
trích rút thực thể quan tâm đến 1 chuỗi các từ và được trình bày như các nhãn thực
thể thì trích rút mối quan hệ nêu ra sự liên kết giữa các thực thể này với nhau.
2.3.2.2 Trích rút mối quan hệ trong bài toán trích rút thông tin cá nhân
Mục đích của luận văn là trích rút ra các thông tin liên quan đến thực thể tên
người cần quan tâm gồm: Tên, ngày sinh, ngày mất, nơi sinh, quan hệ gia đình,
công việc. Mỗi văn bản tiếng Việt thu thập từ trang web Wikipedia đều nói về một
người nhất định và trong câu đầu tiên của văn bản đều chứa thông tin về tên thực
thể người quan tâm.
Trong bài toán này, bước đầu tiên của khi trích rút mối quan hệ giữa các thực
thể sẽ là trích rút thực thể tên người mà văn bản tập trung đề cập đến. Các bước tiếp
theo sẽ là trích rút các thực thể có mối quan hệ với thực thể tên người này. Mối
quan hệ ở đây được hiểu là “ngày sinh” (quan hệ giữa tên người và ngày tháng),
“ngày mất” (quan hệ giữa tên người và ngày tháng), “nơi sinh” (quan hệ giữa tên
người và địa điểm), “quan hệ gia đình” (quan hệ giữa tên người và tên người),

“công việc” (quan hệ giữa tên người và tổ chức).
Sau khi văn bản được nhận dạng thực thể, tác giả sẽ sử dụng các luật, từ điển
và biểu thức chính qui để nhận ra mối quan hệ trên.

2.4 Ứng dụng của bài toán trích rút thông tin cá nhân
Một hệ thống trích rút thông tin cá nhân tốt có thể được ứng dụng trong nhiều
lĩnh vực khác nhau. Một số trong các ứng dụng đó bao gồm:
 Hệ thống hỏi đáp: Hệ thống hỏi đáp tự động là hệ thống được xây dựng
để thực hiện việc tự động tìm kiếm chính xác câu trả lời từ một tập lớn các
tài liệu cho câu hỏi thay vì đưa ra danh sách các tài liệu (Silva, 2009 [26]
và Tsur et al., 2004 [27] ). Hệ hỏi đáp có thể trả lời các câu hỏi được đưa ra
bằng ngôn ngữ tự nhiên dựa trên nguồn tri thức.
VD: Với câu hỏi: Pele sinh năm nào? Sẽ nhận được câu trả lời là: Ngày 5
tháng 11 năm 1964.
Nguyễn Cao Cường

22

Luận văn Thạc sỹ

Trích rút thông tin cá nhân từ văn bản tiếng Việt
 Hệ thống tóm tắt: Hệ thống tóm tắt sẽ đưa ra thông tin tóm tắt về tiểu sử
của cá nhân từ một hoặc nhiều văn bản thay vì đưa ra danh sách các văn
bản.
 Hỗ trợ hệ thống tìm kiếm: Hệ thống tìm kiếm thông tin nhận đầu vào là
các từ khóa và trả về tập tài liệu có chứa các từ khóa đó. Số lượng kết quả
trả về của các máy tìm kiếm (một loại hệ thống tìm kiếm thông tin) thường
là rất lớn có khi lên tới hàng nghìn trang Web. Khi tích hợp hệ thống trích
rút thông tin cá nhân vào hệ thống tìm kiếm thì với các từ khóa là người

c ng với các thuộc tính như ngày sinh, công việc. Thì hệ thống tìm kiếm sẽ
trả về kết quả sát với yêu cầu một cách nhanh chóng và chính xác.

2.5 Phƣơng pháp đánh giá kết quả
Hệ thống trích rút thực thể được đánh giá chất lượng thông qua ba độ đo: độ
chính xác P (precision), độ bao phủ R (recall) và độ đo F (F-messure).
Độ chính xác Recall (R): là phân số thể hiện tỷ lệ thông tin được rút trích
đúng. Bao nhiêu phần trăm thông tin được rút là đúng. Tỷ lệ giữa số lượng câu trả
lời đúng tìm thấy với tổng số câu trả lời đúng có thể.
Độ tin cậy Precision (P): là độ đo hay phân số thể hiện khả năng tin cậy của
thông tin được trích xuất. Tỷ lệ giữa tổng số câu trả lời đúng tìm thấy với tổng số
câu trả lời tìm thấy.
Ba độ đo này được tính toán theo các công thức sau (mỗi kiểu thực thể ứng
với một bộ các độ đo này):

Nguyễn Cao Cường

23

Luận văn Thạc sỹ

Trích rút thông tin cá nhân từ văn bản tiếng Việt
Ý nghĩa của các giá trị correct, incorrect, missing và spurious được định
nghĩa như sau:
Bảng 2-1: Các giá trị đánh giá một hệ thống trích rút thực thể
Giá trị

Ý nghĩa

Correct

Số trường hợp được gán đúng.

Incorrect

Số trường hợp bị gán sai.

Missing

Số trường hợp bị thiếu

Spurious

Số trường hợp thừa

Ví dụ: Giả sử hệ thống gán nhãn cụm từ “Hồ Chí Minh” là “B_PER I_PER
O”. Ở mức độ nhãn, hệ thống gán đúng được 2 trong số 3 nhãn ví thế độ chính xác
sẽ là 2/3. Ở mức độ cụm từ, ta muốn cả cụm này được đánh dấu là tên người hay
chuỗi nhãn tương ứng phải là “B_PER I_PER I_PER”, độ chính xác khi xét ở mức
độ cụm từ sẽ là 0/1 (thực tế có một cụm tên thực thể nhưng hệ thống không đánh
dấu đúng được cụm nào).
Trong chương này, các thông tin khái quát về trích rút thông tin đã được trình
bày c ng với bài toán trích rút thông tin cá nhân. Tác giả đã đưa ra phương pháp
giải quyết bài toán trích rút thông tin cá nhân dựa trên giải quyết hai bài toán là trích
rút thực thể và trích rút quan hệ. Trong các chương tiếp theo, tác giả sẽ trình bày
phương pháp giải quyết bài toán đầu tiên là bài toán trích rút thực thể.

Nguyễn Cao Cường

24

Luận văn Thạc sỹ

Trích rút thông tin cá nhân từ văn bản tiếng Việt

CHƢƠNG 3:

TRÍCH RÚT THỰC THỂ VÀ TRÍCH RÚT
QUAN HỆ

Có nhiều phương pháp tiếp cận khác nhau để giải quyết bài toán trích rút thực
thể và trích rút mối quan hệ giữa các thực thể, chương này sẽ giới thiệu một số
hướng tiếp cận như vậy c ng với những ưu nhược điểm của chúng từ đó lý giải tại
sao hệ thống trích rút thông tin cá nhân trong văn bản tiếng Việt lại được xây dựng
dựa trên phương pháp CRFs và biểu thức chính qui.

3.1 Trích rút thực thể
3.1.1 Một số hƣớng tiếp cận giải quyết bài toán trích rút thực thể
3.1.1.1 Cách tiếp cận thủ công
Nội dung chính của hướng tiếp cận này là sử dụng các luật được tạo ra bởi con
người một cách thủ công .Trên thế giới có nhiều hệ thống áp dụng hướng tiếp cận
thủ công để giải quyết bài toán trích rút thực thể. Thông thường trong hệ thống sẽ
có rất nhiều luật.
Trên thực tế, các luật xây dựng đều chứa một số lượng lớn các ngoại lệ. Thậm
chí ngay cả khi người thiết kế tìm cách giải quyết hết các ngoại lệ mà h nghĩ đến
thì vẫn tồn tại những trường hợp chỉ xuất hiện khi hệ thống được đưa vào thực tế.
Hơn nữa, việc xây dựng một hệ thống trích rút dựa trên các luật là rất tốn công sức.
Thông thường, để xây dựng một hệ thống luật như vậy đòi hỏi công sức vài tháng từ

một lập trình viên với nhiều kinh nghiệm về ngôn ngữ h c. Thời gian này còn lớn
hơn khi chúng ta muốn chuyển sang lĩnh vực khác hay sang ngôn ngữ khác.
Để giải quyết các hạn chế này cần phải xây dựng một hệ thống bằng cách nào
đó có thể “tự h c”. Điều này sẽ giúp giảm bớt sự tham gia của các chuyên gia ngôn
ngữ và làm tăng tính khả chuyển cho hệ thống. Các hệ thống h c máy (được trình
bầy dưới đây) ra đời đáp ứng các yêu cầu đó.

Nguyễn Cao Cường

25

Luận văn Thạc sỹ

Trích rút thông tin cá nhân từ văn bản tiếng việt

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về