Tải bản đầy đủ (.pdf) (64 trang)

Trích rút thực thể trong văn bản tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1018.95 KB, 64 trang )

Trích rút thực thể trong văn bản tiếng Việt

MỤC LỤC
MỤC LỤC ............................................................................................................... 1
LỜI CAM ĐOAN .................................................................................................... 4
LỜI CẢM ƠN .......................................................................................................... 5
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT ................................................... 6
DANH MỤC CÁC BẢNG ...................................................................................... 7
DANH MỤC HÌNH VẼ .......................................................................................... 8
CHƢƠNG I: TỔNG QUAN .................................................................................... 9
1.1 Lý do chọn đề tài ........................................................................................... 9
1.2 Mục đích nghiên cứu ................................................................................... 10
1.3 Nội dung nghiên cứu ................................................................................... 10
1.4 Bố cục luận văn ........................................................................................... 11
1.5 Ý nghĩ của luận văn..................................................................................... 12
CHƢƠNG II TỔNG QUAN VỀ TRÍCH RÚT THỰC THỂ ................................ 13
2.1 Tổng quan về trích rút thông tin .................................................................. 13
2.1.1 Bài toán trích rút thông tin ................................................................... 13
2.1.2 Khái niệm trích rút thông tin .............................................................. 14
2.1.3 Các phƣơng pháp trích rút thông tin .................................................... 15
2.1.4 Thành phần hệ thống trích rút thông tin .............................................. 18
1


Trích rút thực thể trong văn bản tiếng Việt

2.1.5 Các ứng dụng liên quan ...................................................................... 23
2.1.6 Phƣơng pháp đánh giá ........................................................................ 27
2.2 Trích rút thực thể trong văn bản tiếng Việt ................................................. 29
2.2.1 Bài toán trích rút thực thể .................................................................... 29
2.2.2 Kiến trúc hệ thống trích rút thực thể .................................................... 31


2.2.3 Hƣớng tiếp cận giải quyết bài toán NER ............................................. 33
2.2.4 Một số ứng dụng thực tế ...................................................................... 35
2.3 Ứng dụng trích rút thực thể vào bài toán hỏi đáp ....................................... 36
2.3.1 Bài toán hỏi đáp ................................................................................... 36
2.3.2 Hƣớng tiếp cận cho bài toán hỏi đáp ................................................... 38
CHƢƠNG III BÀI TOÁN TRÍCH RÚT THÔNG TIN BẤT ĐỘNG SẢN ......... 39
3.1 Bài toán trích rút thông tin bất động sản ..................................................... 39
3.1.1 Mô tả bài toán ...................................................................................... 39
3.1.2 Phƣơng pháp giải quyết ....................................................................... 41
3.2 Ứng dụng trích rút thông tin vào bài toán hỏi đáp thông tin bất động sản . 49
3.2.1 Bài toán hỏi đáp thông tin BĐS ........................................................... 49
3.2.2 Phƣơng pháp giải quyết ....................................................................... 50
4. THỰC NGHIỆM VÀ ĐÁNH GIÁ .................................................................. 55
4.1 Tập dữ liệu .................................................................................................. 55

2


Trích rút thực thể trong văn bản tiếng Việt

4.2 Đánh giá kết quả hệ thống trích rút thông tin ............................................. 56
4.3 Đánh giá kết quả hệ thống hỏi đáp .............................................................. 57
4.4 Các khó khăn ............................................................................................... 58
CHƢƠNG V TỔNG KẾT .................................................................................... 60
5.1 Các kết quả đạt đƣợc ................................................................................... 60
5.2 Hƣớng nghiên cứu tiếp theo ........................................................................ 60
TÀI LIỆU THAM KHẢO ..................................................................................... 62

3



Trích rút thực thể trong văn bản tiếng Việt

LỜI CAM ĐOAN
Tôi xin cam đoan Luận Văn là công trình nghiên cứu của bản thân tôi dƣới sự
hƣớng dẫn của PGS. TS. Lê Thanh Hƣơng. Các kết quả nêu trong Luận Văn là trung
thực, không phải là sao chép toàn văn của bất kỳ công trình nào khác. Tôi xin chịu
hoàn toàn trách nhiệm về nội dung quyển luận văn này.
Tác giả

Đặng Thị Phƣơng

4


Trích rút thực thể trong văn bản tiếng Việt

LỜI CẢM ƠN
Để hoàn thành luận văn này, tác giả đã nhận đƣợc sự hƣớng dẫn tận tình cũng
nhƣ những yêu cầu nghiêm khắc của PGS.TS. Lê Thanh Hƣơng, ngƣời đã truyền đạt
rất nhiều kiến thức cũng nhƣ kinh nghiệm trong quá trình nghiên cứu hoàn thành luận
văn này. Tác giả xin gửi lời cảm ơn chân thành tới cô.
Xin gửi lời cảm ơn chân thành tới tất cả các thầy cô Viện Công nghệ Thông tin,
Ban lãnh đạo Viện Công nghệ Thông tin, Viện đào tạo Sau đại học và Bộ môn Hệ
thống Thông tin thuộc trƣờng Đại học Bách Khoa Hà Nội đã giảng dạy và tạo điều
kiện thuận lợi trong quá trình nghiên cứu và hoàn thành luận văn.
Với năng lực hạn chế của bản thân cũng nhƣ những nguyên nhân chủ quan và
khách quan, luận văn không tránh khỏi những thiếu sót. Tác giả rất mong đƣợc sự góp
ý của quý thầy cô, các bạn bè và đồng nghiệp để luận văn đƣợc hoàn thiện hơn.
Tác giả


Đặng Thị Phƣơng

5


Trích rút thực thể trong văn bản tiếng Việt

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
BĐS

Bất động sản

CO

Co-reference

CRF

Conditional Random Field

GATE

General Architecture for Text Engineering

IE

Information Extraction

MUC


Message Understanding Conference

NE

Named Entity

NER

Named Entity Recognition

NLP

Natural Language Processing

QA

Question Answering

ST

Scenario TemPlates

SVM

Support Vector Machines

TE

Template Elements


TR

Template Relations

6


Trích rút thực thể trong văn bản tiếng Việt

DANH MỤC CÁC BẢNG
Bảng 1. Bảng gợi ý hƣớng tiếp cận xây dựng hệ thống IE ................................... 18
Bảng 2. Độ chính xác các module IE .................................................................... 23
Bảng 3. Độ chính xác hệ thống NER trong các ngôn ngữ .................................... 31
Bảng 4: Môi trƣờng cài đặt.................................................................................... 55
Bảng 5. Danh sách công cụ phần mềm ................................................................. 56
Bảng 6. Bảng đo độ chính xác ............................................................................... 57

7


Trích rút thực thể trong văn bản tiếng Việt

DANH MỤC HÌNH VẼ
Hình 1. Mô hình xây dựng IE theo hƣớng tiếp cận dựa trên tri thức .................... 16
Hình 2. Mô hình xây dựng IE theo học máy ......................................................... 17
Hình 3. Các thao tác chính của hệ thống trích rút ................................................ 19
Hình 4. Ví dụ trích rút thông tin theo quy trình .................................................... 22
Hình 5. Ứng dụng IE trong tìm kiếm thông tin ..................................................... 24
Hình 6. Ứng dụng IE trong hệ thống hỏi đáp ........................................................ 26

Hình 7. Hệ thống tìm kiếm bài báo khoa học Citeseer.......................................... 27
Hình 8. Kiến trúc hệ thống NER ........................................................................... 31
Hình 9. Ví dụ hệ thống hỏi đáp ............................................................................. 37
Hình 10. Ví dụ thông tin rao vặt bán cấu trúc ....................................................... 40
Hình 11. Mô hình trích rút thông tin BĐS ............................................................ 42
Hình 12. Mô hình trích rút LOC sử dụng NER Stanford ..................................... 45
Hình 13. Hệ thống hỏi đáp thông tin BĐS ............................................................ 50
Hình 14. Mô hình hệ thống hỏi đáp BĐS .............................................................. 51
Hình 15. Sơ đồ khối trích rút thông tin từ câu hỏi................................................. 52
Hình 16. Mô hình bộ trích rút kêt quả ................................................................... 54
8


Trích rút thực thể trong văn bản tiếng Việt

CHƢƠNG I: TỔNG QUAN
1.1 Lý do chọn đề tài
Ngày nay, với sự phát triển nhanh chóng của hệ thống công nghệ thông tin nói
chung và của internet nói riêng đã sinh ra một khối lƣợng khổng lồ dữ liệu dƣới dạng
siêu văn bản. Việc khai thác các thông tin từ nguồn dữ liệu đó vừa là cơ hội nhƣng
cũng đầy thách thức. Trích rút thông tin nói chung và trích rút thực thể nói riêng là một
giải pháp để khai thác, chuyển thông tin trong văn bản bán hay không cấu trúc về dạng
có cấu trúc phục vụ nhu cầu tìm hiểu thông tin của ngƣời dùng.
Thời gian vừa qua, các nghiên cứu về trích rút thông tin đã có rất nhiều thành tựu có
ý nghĩa vô cùng to lớn phục vụ cuộc sống. Đã có nhiều giải pháp đƣợc áp dụng trên
nhiều lĩnh vực khác nhau. Cùng với sự phát triển nhƣ vũ bão của thị trƣờng bất động
sản trong thời gian gần đây, nhu cầu tìm kiếm và trích rút các thông tin bất động sản
ngày càng cần thiết và có ý nghĩa lớn phục vụ cuộc sống.
Thông tin về bất động sản tồn tại dƣới dạng bản tin trên các trang web khác nhau
có cấu trúc không giống nhau. Các thông tin này chủ yếu là bán cấu trúc hoặc không có

cấu trúc. Vì vậy quá trình tổng hợp, thống kê và tìm kiếm thông tin bất động sản là một
khó khăn đối ngƣời dùng. Trƣớc nhu cầu đó, tác giả đã lựa chọn đề tài này với mong
muốn xây dựng hệ thống có thể trích rút các thông tin quan trọng về bất động sản phục
vụ nhu cầu tìm kiếm theo mô hình hỏi đáp thân thiện với ngƣời dùng.

9


Trích rút thực thể trong văn bản tiếng Việt

1.2 Mục đích nghiên cứu
Thông qua đề tài “Trích rút thực thể trong văn bản tiếng Việt”, tác giả mong
muốn đạt đƣợc một số mục đích nhƣ sau:
-

Tìm hiểu tổng quan về trích rút thông tin nói chung và cụ thể là trích rút thực
thể trong tiếng Việt.

-

Xây dựng hệ thống trích rút thông tin cơ bản về bất động sản từ bản tin trên
các trang web khác nhau. Hệ thống này với mục đích có thể trích rút nhanh
chóng các thông tin bất động sản trên thị trƣờng phục vụ nhu cầu tìm kiếm
thông tin của ngƣời dùng.

-

Dựa trên các kết quả đƣợc trích rút, xây dựng hệ thống hỏi đáp thân thiện với
ngƣời dùng đáp ứng nhu cầu tìm kiếm thông tin bất động sản.


1.3 Nội dung nghiên cứu
Luận văn này sẽ tập trung vào việc trích rút thực thể từ văn bản bán và phi cấu
trúc thuộc lĩnh vực bất động sản trên môi trƣờng Web. Các tập dữ liệu thử nghiệm
đƣợc thu thập từ các trang web giao bán bất động sản phổ biến hiện nay.
Để thực hiện trích rút thông tin, luận văn sẽ sử dụng kết hợp các phƣơng pháp
trích rút dựa trên luật, từ điển và trích rút dựa trên học máy. Tùy từng đối tƣợng trích
rút cụ thể sẽ có phƣơng pháp riêng cho phù hợp để thu đƣợc kết quả tốt nhất. Đã có rất
nhiều kết quả của việc xử lý ngôn ngữ Tiếng Việt đạt đƣợc thành tựu với độ chính xác
cao, cũng nhƣ các công cụ hỗ trợ quá trình trích rút, nên hệ thống này đƣợc xây dựng
dựa trên một số các kết quả và công cụ đó.

10


Trích rút thực thể trong văn bản tiếng Việt

1.4 Bố cục luận văn
Bố cục luận văn cụ thể nhƣ sau:
Chương I: Tổng quan
Chƣơng này giới thiệu tổng quan lý do chọn để tài, mục tiêu, bố cục, nội dung và
ý nghĩ của luận văn.
Chƣơng II: Tổng quan về trích rút thông tin
Trong trƣơng này, tác giả giới thiệu tổng quan về cơ sở lý thuyết trích rút thông
tin, trích rút thực thể: các phƣơng pháp tiếp cận, kiến trúc hệ thống và nghiên cứu ứng
dụng thực tế.
Chương III: Bài toán trích rút thực thể trong văn bản tiếng Việt
Chƣơng này giới thiệu bài toán trích rút thông tin bất động sản, mô hình xây dựng
hệ thống, các phƣơng pháp áp dụng.
Chương IV: Thực nghiệm và đánh giá
Mô tả hệ thống thực nghiệm, đánh giá kết quả thực nghiệm, khó khăn hạn chế của

ứng dụng.
Chương V: Tổng kết
Tổng kết một số kết quả đạt đƣợc và định hƣớng phát triển luận văn trong tƣơng
lai.

11


Trích rút thực thể trong văn bản tiếng Việt

1.5 Ý nghĩ của luận văn
Sau đây là một số kết quả đạt đƣợc trong luận văn:
-

Luận văn đã tập trung tìm hiểu về trích rút thông tin và trích rút thực thể
trong văn bản tiếng Việt, các phƣơng pháp và kiến trúc chung của hệ thống.

-

Áp dụng bài toán trích rút thực thể vào lĩnh vực bất động sản để trích rút các
thông tin cơ bản từ các bản tin bán cấu trúc và phi cấu trúc trên web, phục vụ
nhu cầu tìm kiếm của ngƣời dùng.

-

Xây dựng mô hình hỏi đáp thân thiện với ngƣời dùng để phục vụ việc tìm
kiếm thông tin của ngƣời dùng.

Với những kết quả đã đạt đƣợc, luận văn đã mang lại một số kết quả nghiên cứu
nhất định, đồng thời mở ra hƣớng nghiên cứu cho nhiều lĩnh vực khác.


12


Trích rút thực thể trong văn bản tiếng Việt

CHƢƠNG II: TỔNG QUAN VỀ TRÍCH RÚT THỰC THỂ
Trong chƣơng này, luận văn sẽ trình bày lý thuyết về trích rút thông tin, trích rút
thực thể, áp dụng trích rút thực thể vào bài toán hỏi đáp, kiến trúc hệ thống, các hƣớng
tiếp cận và ứng dụng thực tế.

2.1 Tổng quan về trích rút thông tin
2.1.1 Bài toán trích rút thông tin
Đứng trƣớc một kho dữ liệu mà thông tin quan tâm nằm rải rác trên các văn bản,
bài toán đặt ra là làm thế nào để lấy đƣợc hết các thông tin quan tâm một cách nhanh
nhất, phù hợp nhất phục vụ nhu cầu ngƣời dùng? Đây chính là lý do chính cho bài toán
trích rút thông tin ra đời nhằm trích rút ra các thông tin có cấu trúc từ các nguồn dữ liệu
khác nhau. Trích rút thông tin không đòi hỏi hệ thống phải đọc hiểu toàn bộ nội dung
của văn bản, nhƣng phải có khả năng phân tích văn bản và tìm kiếm các thông tin liên
quan mà hệ thống mong muốn đƣợc tìm thấy.
Việc trích rút thông tin là việc khó khăn và thu hút sự quan tâm đông đảo của
cộng đồng các nhà nghiên cứu trong suốt hơn hai thập kỉ vừa qua. Đầu tiên là sự quan
tâm của cộng đồng các nhà xử lý ngôn ngữ tự nhiên, sau đó là đông đảo các nhà nghiên
cứu về truy vấn thông tin, cơ sở dữ liệu, phân tích văn bản, . . . Hai hội nghị quan trọng
đối với các nghiên cứu về trích rút thông tin là: Automatic Content Extraction (ACE)
và Messge Understanding Conference (MUC).
Bài toán trích rút thông tin đƣợc áp dụng trong nhiều lĩnh vực nhằm trích rút dữ
liệu từ nhiều nguồn khác nhau, có thể là từ thƣ viện các tài liệu, các mẫu tin trên web,
từ email, . . . Dữ liệu chủ yếu ở dạng bán cấu trúc hoặc không cấu trúc và thƣờng đƣợc
lấy từ các trang web trên internet, qua các kỹ thuật phân tích, khai thác dữ liệu để trích

13


Trích rút thực thể trong văn bản tiếng Việt

rút các mẫu thông tin hữu ích. Ví dụ với việc cấu trúc lại thông tin từ tin quảng cáo, tin
bán hàng trên internet có thể giúp hỗ trợ tƣ vấn, định hƣớng ngƣời dùng khi mua sắm.
Việc trích rút và cấu trúc lại các mẫu tin tìm ngƣời, tìm việc sẽ giúp cho quá trình phân
tích thông tin nghề nghiệp, xu hƣớng công việc hỗ trợ cho ngƣời tìm việc cũng nhƣ nhà
tuyển dụng.
2.1.2 Khái niệm trích rút thông tin
Hiện nay có rất nhiều định nghĩa khác nhau về trích rút thông tin. Sau đây là các
định nghĩa đƣợc dùng phổ biến trên internet liên quan đến trích rút thông tin:
-

Theo những chuyên gia về trích rút thông tin của GATE [16] thì những hệ
thống trích rút thông tin sẽ tiến hành phân tích văn bản nhằm trích ra những
thông tin cần thiết theo các dạng đƣợc định nghĩa trƣớc. Các thông tin có thể
là sự kiện, các thực thể hay các mối quan hệ.

-

Theo Eikvil(1999) [12]: Trích rút thông tin là việc xác định và trích rút các
đối tƣợng, sự kiện hay mối quan hệ trong một văn bản ngôn ngữ tự nhiên và
chuyển đổi nó thành đối tƣợng có cấu trúc.

-

Theo tiến sĩ Alexander Yates [1] ở trƣờng đại học Washington thì trích rút
thông tin là quá trình truy vấn những thông tin cấu trúc từ những văn bản

không cấu trúc.

Nhƣ vậy có thể hiểu trích rút thông tin là quá trình phát hiện các thông tin có cấu
trúc từ văn có cấu trúc, bán cấu trúc hay phi cấu trúc sau đó lƣu trữ dƣới dạng dữ liệu
có cấu trúc (ví dụ: cơ sở dữ liệu, file xml, file text có định dạng, ...). Trích rút thông tin
là một kỹ thuật, lĩnh vực nghiên cứu có liên quan đến truy vấn thông tin, khai thác dữ
liệu, cũng nhƣ xử lý ngôn ngữ tự nhiên .
Các nghiên cứu hiện nay liên quan đến trích rút thông tin văn bản tập trung vào:
14


Trích rút thực thể trong văn bản tiếng Việt

-

Trích rút thực thể có tên (Named Entity Recognition): việc trích rút ra các
thực thể có tên tập trung vào các phƣơng pháp nhận diện các đối tƣợng, thực
thể nhƣ: tên ngƣời, tên công ty, tên tổ chức, một địa danh, nơi chốn. . .

-

Trích rút quan hệ (Relationship Extraction): cần xác định mối quan hệ giữa
các thực thể đã nhận biết từ tài liệu.

2.1.3 Các phƣơng pháp trích rút thông tin
Để giải quyết bài toán trích rút thông tin, có rất nhiều hƣớng xử lý nhƣng có thể
chia thành hai phƣơng pháp chính [5,8] là dựa vào tri thức và dựa vào học máy.
a. Hƣớng tiếp cận dựa trên tri thức
Có rất nhiều hệ thống trích rút trên thế giới đƣợc xây dựng dựa trên hƣớng tiếp
cận này, ví dụ [8]: AutoSlog(Riloff, 1993), Crystal (Soderland, 1995), iASA(Tang,

2005b), . . . Hƣớng tiếp cận này mang dấu ấn bới những chuyên gia về ngôn ngữ, họ
chính là một thành phần của hệ thống IE và đƣợc gọi là “knowlegde engineer “ [5].
Đặc điểm của việc xây dựng hệ thống theo hƣớng tiếp cận này là hệ thống luật đƣợc
xây dựng bằng tay hoàn toàn phụ thuộc vào kinh nghiệm riêng của từng ngƣời trong
từng lĩnh vực, các mẫu hay các luật đƣợc tạo ra và đƣợc kiểm duyệt một cách kỹ lƣỡng
có quy mô bởi các “knowlegde engineer”. Với các hệ thống xây dựng theo hƣớng này,
ngoài việc đòi hỏi phải có kiến thức cụ thể và kỹ năng cần thiết về lĩnh vực, hệ thống
còn yêu cầu những kiến thức đó phải đủ lớn bao trùm miền tri thức để có thể trích rút
đƣợc đầy đủ và chính xác.
Để xây dựng một hệ thống có hiệu suất cao thƣờng những quy tắc luôn đƣợc
kiểm định nhiều lần, đƣợc sửa lặp đi lặp lại để tối ƣu hệ thống. Có thể mô hình hóa
việc xây dựng này theo hình sau:
15


Trích rút thực thể trong văn bản tiếng Việt

Kho tài liệu chƣa
gán nhãn

Tập luật ban đầu
(R)

NER Áp dụng luật
thủ công

Xây dựng

knowlegde engineer


Kiểm soát

Cập nhật tập luật
(Thêm, sửa xóa)

Hình 1. Mô hình xây dựng IE theo hƣớng tiếp cận dựa trên tri thức

Với cách tiếp cận này thì hệ thống hoạt động theo một chu trình. Để xây dựng
một hệ thống hoạt động tốt đòi hỏi luôn luôn có sự tƣơng tác giữa ngƣời viết luật và hệ
thống cùng với kho tài liệu huấn luyện và tập luật luôn luôn đƣợc cập nhật để cho hệ
thống có thể hoạt động tốt nhất.
b. Hƣớng tiếp cận dựa trên mô hình học máy
Với hệ thống IE đƣợc xây dựng theo hƣớng tiếp cận dựa trên tri thức thì chu
trình kiểm tra và sửa lỗi gặp rất nhiều khó khăn và phụ thuộc vào nhiều yếu tố nhƣ:
loại ngôn ngữ, thời gian và khả năng viết luật.
Để khắc phục giới hạn trên, phải xây dựng một mô hình bằng cách nào đó có thể
tự học đƣợc. Với mô hình này sẽ giúp giảm bớt sự tham gia của các chuyên gia ngôn
ngữ và làm tăng tính linh hoạt cho hệ thống. Phƣơng pháp này chủ yếu dựa vào học
máy thống kê. Có rất nhiều phƣơng pháp học máy nhƣ mô hình Markov ẩn (Hidden
16


Trích rút thực thể trong văn bản tiếng Việt

Markov Models-HMM), các mô hình Markov cực đại hóa Entropy (Maximum Markov
Models – MEMM), mô hình các trƣờng ngẫu nhiên có điều kiện ( Conditional Random
Fields – CRF), phƣơng pháp máy vector hỗ trợ ( Support Vector Machine –SVM)...
Các đặc điểm phải kể đến của việc xây dựng hệ thống IE theo hƣớng học máy là
không cần một ngƣời nào đó hiểu biết về việc viết luật nhƣ thế nào. Điều cần thiết ở
đây là một ngƣời nào đó biết đƣợc miền ứng dụng và hiểu đƣợc những thông tin cần

trích rút. Khi dữ liệu huấn luyện đƣợc chú thích, thuật toán huấn luyện chạy và sinh ra
những thông tin học đƣợc hay còn gọi là model để phục vụ cho quá trình trích chọn tự
động sau này. Các thuật học sẽ dựa trên dữ liệu để tự học và thu đƣợc một model, dựa
trên model này nó sẽ trích chọn các thông tin trên dữ liệu mới. Mô hình với hƣớng tiếp
cận này đƣợc mô tả nhƣ sau:

Dữ liệu huấn
luyện

Thuật toán học

Model

Hình 2. Mô hình xây dựng IE theo học máy

Với hệ thống IE xây dựng hƣớng này phải tập trung vào việc tạo ra dữ liệu huấn
luyện. Khi đó thông qua việc quy định thuật toán học, hệ thống có thể tự học mà không
cần sự can thiệp của bất kỳ chuyên gia nào. Tuy vậy việc xây dựng và lƣu trữ tập dữ
liệu huấn luyện rất khó và chi phí cao vì để hệ thống có thể thực hiện tốt thì yêu cầu tập

17


Trích rút thực thể trong văn bản tiếng Việt

huấn luyện phải nhiều. Khi thêm hoặc xóa các thuộc tính trích rút thì cần phải thay đổi
trên toàn tập huấn luyện. Vì thế đó cũng là hệ quả dẫn đến việc khó sửa đổi.
Nhƣ vậy trƣớc khi xây dựng một hệ thống trích rút, tùy vào công việc và những
điều kiện đã có, ta có thể xây dựng hệ thống theo hƣớng các mô hình học máy hoặc
theo hƣớng tiếp cận dựa tri thức.

Sau đây là một so sánh giữa hai phƣơng pháp [5]:
Dựa trên luật

Dựa trên học máy

 Các trƣờng trích rút có quy luật.

 Có thể áp dụng với các trƣờng trích

 Cần tập luật, từ điển, kỹ năng viết

rút không có quy luật.
 Cần bộ DL huấn luyện đƣợc gán

luật, có tri thức về lĩnh vực trích rút
 Không cần bộ DL huấn luyện

nhãn

 Không xử lý đƣợc các trƣờng hợp

 Khi bộ DL huấn luyện có kích
thƣớc lớn (đủ tốt) thì hệ thống có

ngoài tập luật
 Khi tập luật phủ hết các trƣờng hợp

độ chính xác cao

thì hệ thống có độ chính xác cao


Bảng 1. Bảng so sánh trích rút theo luật và học máy

2.1.4 Thành phần hệ thống trích rút thông tin
Mặc dù hệ thống trích rút thông tin đƣợc xây dựng với nhiều phƣơng pháp khác
nhau áp dụng cho các bài toán khác nhau, nhƣng đều có các thành phần chính giống
nhau. Theo MUC-7 [10,17] hệ thống trích rút thông tin có các thành phần chính nhƣ sau:

18


Trích rút thực thể trong văn bản tiếng Việt

Hệ thống trích rút thông tin
Văn bản
đầu vào
Tiền xử lý
Trích rút thực thể
Giải quyết đồng tham chiếu
Xây dựng mẫu phần tử
Xây dựng mẫu quan hệ

Trích rút quan hệ

Đƣa ra mẫu kịch bản
Mẫu trích rút
Hình 3. Các thao tác chính của hệ thống trích rút

Qua mô hình trên có thể thấy, hệ thống trích rút bao gồm các khối cơ bản: tiền xử
lý, trích rút thực thể, giải quyết đồng tham chiếu, xây dựng mẫu phần tử, xây dựng mẫu

quan hệ, đƣa ra mẫu kịch bản. Tùy thuộc vào từng ngôn ngữ, từng bài toán cụ thể mà
có thể thêm hoặc bớt một vài khối trên.
a. Tiền xử lý
Quá trình tiền xử lý gồm nhiều thao thác, sau đây là một số thao tác cụ thể. Với
mỗi hệ thống có thể bao gồm toàn bộ hoặc một số thao tác sau [5]:
-

Nhận biết định dạng văn bản: Với một văn bản đầu vào nói chung, hệ thống
phải nhận biết định dạng tài liệu là gì: file word, file dạng html, . ..
19


Trích rút thực thể trong văn bản tiếng Việt

-

Tách câu: Một văn bản đầu vào qua module này sẽ đƣợc tách thành các câu.
Có thể dựa vào các dấu hiệu kết thúc câu để tách, ví du nhƣ dấu “.”, dấu “?”,
dầu “!”.

-

Tách từ: Mỗi câu lại đƣợc tách thành các từ. Với các ngôn ngữ nhƣ tiếng
Anh, tiếng Pháp. . . việc tách từ đơn giản dựa vào khoảng kí tự trắng. Ví dụ
với một chuỗi đầu vào là “ công nghệ thông tin “, khi quy định khoảng trắng
là để phân tách các từ, thì qua module này chuỗi câu trên sẽ đƣợc tách thành
4 từ nhƣ sau [công, nghệ, thông, tin].

-


Phân đoạn từ: Với một số ngôn ngữ nhƣ tiếng Trung hay tiếng Nhật, không
có ranh giới rõ ràng phân tách giữa các từ, nên việc tách từ khá phức tạp, vì
vậy phải có module phân đoạn từ để tách đƣợc rõ ràng và chính xác các từ.

-

Gán nhãn từ loại: Các từ sau khi đƣợc phân tích hình thái sẽ đƣợc gán nhãn
từ loại dựa vào từ điển từ. Mỗi từ sẽ đƣợc gán một nhãn về từ loại bằng cách
sử dụng từ điển nhãn đƣợc định nghĩa sẵn. Thông thƣờng nhất sẽ có các
nhãn sau: N(danh từ), V(động từ), Adj(tính từ), Pre(giới từ), . . .
Ví dụ: Với đầu vào là câu đã đƣợc tách thành các từ:
Steve/Job/introduces/the/ Iphone/6/
Sau khi gán nhãn sẽ có dạng
Steve –N /Job – N /introduces - V/the - N/ Iphone- N /6- N /

b. Trích rút thực thể ( Named Entity Recognition – NER)
Hay còn gọi là nhận dạng thực thể có tên ( NER). Module này thực hiện nhận
dạng và trích rút các lớp thực thể nhƣ: tên ngƣời (PER), địa điểm(LOC), ngày(DATE),
. . .Việc nhận dạng thực thể có thể có độ chính xác lên tới 97% với tiếng Anh.
20


Trích rút thực thể trong văn bản tiếng Việt

c. Giải quyết đồng tham chiếu ( Co reference – CO)
Một đối tƣợng có thể xuất hiện trong một văn bản với nhiều tên khác nhau. Vì
vậy bài toán đặt ra là cần xác định chính xác các trƣờng hợp cùng tham chiếu tới một
đối tƣợng. Nhận dạng đồng tham chiếu giữa các thực thể bằng cách kết hợp những
thông tin mô tả nằm rải rác trên văn bản tới các thực thể mà nó tham chiếu tới. Các
quan hệ đồng tham chiếu đƣợc phân loại nhƣ sau:

- Quan hệ đồng nhất
Chủ tịch Hồ Chí Minh sinh ngày 19/05/1890 mất ngày 02/09/1969 tại Hà Nội.
Người sinh ra trong một gia đình nhà nho yêu nƣớc lớn lên ở một địa phƣơng có truyền
thống yêu nƣớc anh dũng.
- Quan hệ bộ phận
Nam và An là đôi bạn thân. Họ cùng sinh ra từ một vùng quê nghèo Miền Trung
- Quan hệ cùng chủng loại
Camry và Inova là hai dòng xe nổi tiếng của Toyota
d. Xây dựng mẫu phần từ (Template Element – TE)
Xây dựng các mẫu thông tin mô tả tới thực thể đã đƣợc trích rút. Module này
đƣợc xây dựng dựa trên quá trình trích rút thực thể và giải quyết đồng tham chiếu, từ
đó sẽ đƣa ra một khuôn mẫu thông tin chung cho các thực thể. Về cơ bản đó cũng nhƣ
các bản ghi trong cơ sở dữ liệu.
e. Xây dựng mẫu quan hệ ( Templete Relation - TR)
21


Trích rút thực thể trong văn bản tiếng Việt

Module này thực hiện tìm và trích rút ra quan hệ giữa các thực thể.
f. Đƣa ra mẫu kịch bản ( Scenario Template - ST)
ST là nguyên mẫu định dạng đầu ra của hệ thống IE. Chúng ràng buộc các thực
thể TE với nhau trong sự kiện hay mối quan hệ. Điều chỉnh các kết quả TE và TR cho
phù hợp với các kịch bản sự việc cụ thể. Đây là môt nhiệm vụ khó của IE.
Sau đây là một ví dụ cụ thể về quá trình trích rút thông tin từ một đoạn tin:
The shiny red

NE: Trích rút ra các thực thể: “rocket”,

rocket was fired on


“Tuesday”, “Dr. Head”, “We Build Rockets”

Tuesday. It is the

Inc
CO: “It” - “rocket”, “Dr.Head”- “Dr.Big

brainchild of Dr. Big

Head” có quan hệ đồng tham chiếu cũng có

Head. Dr. Head is a
staff scientist at We
We Build Rockets Inc
Build Rockets Inc.

ham
TE: “rocket” có thuộc tính là “shiny red” và
Head „s "brainchild"
TR: Quan hệ giữa các thực thể: “Dr. Head”
làm việc cho “We Build Rockets”
ST: Sự kiện phóng tên lửa

Hình 4. Ví dụ trích rút thông tin theo quy trình

Với mỗi module trong quá trình trích rút lại có khó khăn riêng và độ chính xác
cũng khác nhau tùy thuộc vào miền dữ liệu, ngôn ngữ. Sau đây là một số thống kê
trung bình về độ chính xác tối đa của mỗi module theo J. H. Wang [10] thực hiện vào
năm 2008:


22


Trích rút thực thể trong văn bản tiếng Việt

Module

Độ chính xác tối đa

NER

97% ( Tiếng Anh)

CO

60-70%

TE

80%

TR

75-80%

ST

60%


Bảng 2. Độ chính xác các module trong IE

2.1.5 Các ứng dụng liên quan
Trích rút thông tin đƣợc ứng dụng rộng rãi vào nhiều lĩnh vực từ kinh tế tới chính
trị, từ khoa học tới đời sống xã hội, . . . Các ứng dụng thực tế nhƣ trích rút thông tin về
việc làm, giá cả sản phầm, dịch bệnh, thời tiết, thông tin ngƣời điều hành các tập đoàn
doanh nghiệp, . . .
IE đƣợc áp dụng nhiều trong quá trình tìm kiếm thông tin phục vụ việc tối ƣu kết
quả tìm kiếm. Ví dụ với hệ thống hỗ trợ việc làm, khi ngƣời dùng có nhu cầu tìm kiếm
một công việc dùng Goolge Search thì rõ ràng công cụ Google Search Engine không
thật sự hiểu và đáp ứng đƣợc các yêu cầu tìm kiếm của ngƣời dùng. Những thông tin
ngƣời dùng thực sự quan tâm nhƣ: các công ty nào có tuyển dụng chức danh hay một
nghề nghiệp nào đó, thông tin về các công ty cần tuyển dụng, liên hệ với ai, chế độ
chính sách của mỗi công ty nhƣ thế nào, những thông tin phản hồi, ý kiến nhận xét từ
các nhân viên đã và đang làm tại các công ty ra sao. Tất cả những thông tin nhƣ vậy
cần thiết phải đƣợc trích rút, tổng hợp và tƣ vấn cho ngƣời dùng một cách có hệ thống.
Hay trong lĩnh vực du lịch, ví dụ, một ngƣời dùng muốn tìm kiếm thông tin về các nhà
hàng trên đƣờng Nguyễn Du ở Hà nội, kết quả tìm kiếm sẽ cho ra rất nhiều nhà hàng
trên đƣờng Nguyễn Du ở Hà nội, Sài Gòn, Đà Nẵng, . . . Do hệ thống tìm theo các từ
23


Trích rút thực thể trong văn bản tiếng Việt

khóa trong đó có 2 từ khóa “Nhà hàng”, “Nguyễn Du”. Để cải thiện kết quả chúng ta
tích hợp thêm hệ thống trích rút mối quan hệ vào hệ thống tìm kiếm để loại bỏ đi kết
quả không mong muốn. Trong trƣờng hợp này, thông tin về nhà hàng trên đƣờng
Nguyễn Du ở Sài Gòn, Đà Nẵng sẽ không đƣợc hiển thị trên kết quả tìm kiếm. Do đó
kết quả tìm kiếm sẽ chính xác hơn.
Hãy tìm những nhà hàng

trên đƣờng Nguyễn Du ở
Hà nội?

- Đƣờng Nguyễn Du ở Hà Nội
- Có nhà hàng
Đặt câu hỏi

Trả lời

- Sen Hà Thành
- Sứ
...

Hình 5. Ứng dụng IE trong tìm kiếm thông tin

IE là công cụ hỗ trợ của Web ngữ nghĩa. Web ngữ nghĩa là các trang Web có thể
biểu diễn dữ liệu có khả năng kết hợp, phân lớp và khả năng suy diễn trên dữ liệu đó.
Sự thành công của các Web ngữ nghĩa phụ thuộc vào khả năng của các ontology cũng
nhƣ sự phát triển của các trang Web đƣợc chú giải bởi các siêu dữ liệu tuân theo các
ontology này. Trong khi những lợi ích mà Web ngữ nghĩa đem lại rất lớn thì việc xây
dựng các ontology một cách thủ công là hết sức khó khăn. Vì lý do này, các công cụ
trích rút thông tin tự động từ các trang Web để “làm đầy” các ontology nhƣ hệ thống
nhận biết các loại thực thể là hết sức cần thiết.
24


Trích rút thực thể trong văn bản tiếng Việt

IE ứng dụng vào các hệ thống hỏi đáp QA (Question Answering) tự động dựa vào
kết quả trả về của máy tìm kiếm. IE hỗ trợ hệ thống trả lời câu hỏi tự động. Trong hệ

thống hỏi đáp tự động, việc sử dụng hệ thống trích rút mối quan hệ giữa các thực thể
đóng vai trò quan trọng. Hệ thống hỏi đáp có thể biết tên của một ngƣời và đƣa ra các
thông tin liên quan đến ngƣời đó (địa chỉ, chức vụ, cơ quan làm việc….), hệ thống hỏi
đáp có thể cho biết các thông tin về các địa danh du lịch và đƣa ra các thông tin liên
quan về địa danh đó nhƣ các bãi biển, khu nghỉ dƣỡng… Xem xét một ví dụ dƣới đây:
Ví dụ ngƣời dùng cần hỏi “Ai là ngƣời sáng lập Facebook? ”, kết quả trả về từ các
search engine rất nhiều và hệ thống phải tìm cách trích ra câu trả lời mà ngƣời dùng
mong chờ, đó là “Mark Zuckerberg” . Khi ngƣời dùng gửi một câu hỏi đến hệ thống
có dạng nhƣ: “Quảng Ninh có những đảo nào? “. Hệ thống sẽ phân tích câu hỏi và đƣa
ra thực thể “Quảng Ninh”, mối quan hệ “có_đảo” giữa một địa điểm và một hay nhiều
bãi biển nào đó. Dựa trên những thông tin này hệ thống sẽ trích rút tất cả mối quan hệ
“có_đảo” có liên quan đến thực thể địa điểm ”Quảng Ninh” trong tập các văn bản lƣu
trữ trong hệ thống. Câu trả lời mà hệ thống đƣa ra cho ngƣời dùng chính là tên các hòn
đảo có trong mối quan hệ “có_đảo” đã đƣợc trích rút ở trên.
Quảng Ninh có những
hòn đảo nào?

- Quảng Ninh
- Có đảo
Đặt câu hỏi

Trả lời
- Đảo Cô Tô
- Đảo Quan Lạn
- Đảo Tuần Châu
...

25



×