Tải bản đầy đủ (.docx) (99 trang)

Xây dựng hệ thống trích chọn tên riêng cho văn bản tiếng việt bằng phương pháp học thống kê luận văn ths công nghệ thông tin 1 01 10

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (797.14 KB, 99 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ QUYÊN

XÂY DỰNG HỆ THỐNG TRÍCH CHỌN TÊN RIÊNG
CHO VĂN BẢN TIẾNG VIỆT BẰNG PHƯƠNG PHÁP
HỌC THỐNG KÊ

LUẶN VĂN THẠC SĨ


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ QUYÊN

XÂY DỰNG HỆ THỐNG TRÍCH CHỌN TÊN RIÊNG
CHO VĂN BẢN TIẾNG VIỆT BẰNG PHƯƠNG PHÁP
HỌC THỐNG KÊ

Ngành: Công nghệ thông tin
Mã số: 10110

LUẶN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS. Nguyễn Lê Minh

HÀ NỘI - 2007




1

MỤC LỤC
Mục lục……………………………………………………………………………...1
Danh mục các từ viết tắt…………………………………………………………….5
Danh mục bảng biểu………………………………………………………………...6
Danh mục hình vẽ…………………………………………………………………...7
Chương I TỔNG QUAN.................................................................................................................... 8
I.1 Lược sử về trích chọn thông tin........................................................................................... 8
I.1.1 Tính cần thiết của trích chọn thông tin..................................................................... 8
I.1.2 IE với ngôn ngữ tự nhiên............................................................................................... 9
I.1.3 Một số hệ IE trong thời kỳ đầu................................................................................. 10
I.2 Xây dựng các hệ trích chọn thông tin............................................................................. 12
I.2.1 Phương pháp xây dựng hệ trích chọn thông tin................................................. 12
I.2.2 Kiến trúc của hệ trích chọn thông tin..................................................................... 17
I.3 Phương pháp đánh giá hệ thống........................................................................................ 22
I.4 Bài toán trích chọn tên riêng.............................................................................................. 24
I.5 Kết luận...................................................................................................................................... 25
Chương II CÁC KIẾN THỨC NỀN TẢNG VỀ HỌC THỐNG KÊ.............................. 26
II.1 Mô hình Markov ẩn (HMMs).......................................................................................... 26
II.1.1 Tổng quan về HMMs.................................................................................................. 26
II.1.2 Thuật toán gán nhãn triagram HMMs.................................................................. 31
II.1.3 Một số hạn chế của HMMs...................................................................................... 33
II.2 Conditional Random Field trong bài toán trích chọn thông tin...........................34
II.2.1 Từ HMMs đến CRFs.................................................................................................. 35
II.2.2 Định nghĩa CRF............................................................................................................ 36
II.2.3 Thuật toán gán nhãn cho dữ liệu dạng chuỗi..................................................... 40
Thuâṭtoán GIS........................................................................................................................... 45

Thuâṭtoán IIS............................................................................................................................. 46
II.2.4 Các phương pháp tối ưu số....................................................................................... 47
Kĩ thuật tối ưu số bậc một..................................................................................................... 47
Kĩ thuâṭtối ưu sốbâcc̣ hai......................................................................................................... 48
II.2.5 CRF có thể giải quyết được các vấn đề lable bias........................................... 50
II.3 Perceptron trong bài toán trích chọn thông tin.......................................................... 52


2

II.3.1 Thuật toán percepton................................................................................................... 52
II.3.2 Vectơ đặc trưng cục bộ và toàn cục....................................................................... 55
II.3.3 Thuật toán perceptron cho bài toán gán nhãn dữ liệu dạng chuỗi.............56
II.3.4 Biến thể của thuật toán perceptron trong bài toán gán nhãn dữ liệu dạng
chuỗi.............................................................................................................................................. 58
II.3.5 Chứng minh tính hội tụ của thuật toán perceptron.......................................... 63
II.4 Kết luận..................................................................................................................................... 70
Chương III XÂY DỰNG HỆ THỐNG TRÍCH CHỌN TÊN RIÊNG CHO VĂN
BẢN TIẾNG VIỆT............................................................................................................................ 71
III.1 Môi trường thưcc̣ nghiêm................................................................................................... 71
Phần cứng.................................................................................................................................... 71
Phần mềm.................................................................................................................................... 71
Dữliêụ thưcc̣ nghiêm................................................................................................................. 71
III.2 Hê tc̣ hống trích chọn tên riêng cho tiếng Viêṭ............................................................ 72
III.3 Các tham số huấn luyện và đánh giá thực nghiệm................................................. 72
III.3.1 Huấn luyện.................................................................................................................... 72
III.3.2 Kiểm tra.......................................................................................................................... 75
III.4 Lưạ choṇ các thuôcc̣ tinh.́ ................................................................................................... 75
III.4.1 File huấn luyện............................................................................................................ 76
III.4.2 File mẫu:........................................................................................................................ 78

III.5 Kết quảthưcc̣ nghiêm........................................................................................................... 80
Kết quảcủa 10 lần thử nghiêm............................................................................................. 80
Lần thưcc̣ nghiêm cho kết quảtốt nhất............................................................................... 80
Trung binh̀ 10 lần thưcc̣ nghiêm............................................................................................. 81

Nhâṇ xét....................................................................................................................................... 82
KẾT LUẬN.......................................................................................................................................... 85
Tài liệu tham khảo …………………………………………………………….…. 89


3

MỞ ĐẦU
Trích chọn tên riêng là một bước cơ bản trong trích chọn thông tin từ văn
bản và xử lý ngôn ngữ tự nhiên . Nó được ứng dụng nhiều trong các lĩnh vực như
dịch tự động , tóm tắt văn bản , hiểu ngôn ngữtư nc̣ hiên, nhâṇ biết tên thưcc̣ thểtrong
sinh/y hocc̣ vàđăcc̣ biêṭứng dungc̣ trong viêcc̣ tich́ hơpc̣ tư đc̣ ôngc̣ các đối tươngc̣ , thưcc̣ thể
từ môi trường Web vào các ontology ngữnghiã vàcác cơ sởtri thức .
Trong luâṇ văn này, tôi trinh̀ bày một số giải pháp cho bài toán trích chọn
tên riêng cho các văn bản tiếng Viêṭtrên môi trường Web . Sau khi xem xét các
hướng tiếp câṇ khác nhau , tôi choṇ phương pháp tiếp câṇ hocc̣ thống kê để tiến hành
xây dựng hệ trích chọn tên riêng cho Văn bản tiếng Việt. Ưu điểm của phương pháp
học thống kê là: dễ thu thập dữ liệu, dễ mô tả đối tượng trích chọn, và có hiệu năng
phù hợp với yêu cầu đặt ra cho luận văn. Hệ trích chọn tên riêng cho văn bản tiếng
Việt này được xây dựng dựa trên mô hinh ̀ Condi tional Random Fields (CRFLaferty, 2001) và thuật toán perceptron cho bài toán gán nhãn dữ liệu dạng chuỗi
(M.Collins, 2002). Điểm manḥ của CRF và perceptron là nó có khả năng xử lý dữ
liêụ cótinh́ chất chuỗi , có thể tích hợp hàng trăm nghìn thậm chí hàng triệu đặc
điểm từ dữliêụ hết sức đa dangc̣ nhằm hỗtrơ cc̣ ho quátrinh ̀ huấn luyện. Thưcc̣ nghiêm
trên các văn bản tiếng Viêṭcho thấy kết quảđaṭđươcc̣ rất khảquan.
Luận văn được tổ chức thành ba chương như sau:



Chương 1 Tổng quan

Chương này mô tả khái quát về bài toán và cách thức xây dựng hệ trích
chọn thông tin. Trong đó đề cập đến lược sử, tính thực tiễn của hệ trích chọn thông
tin, kiến trúc cơ bản của hệ, các phương pháp xây dựng của hệ và cách lựa chọn
phương pháp phù hợp trong từng trường hợp cụ thể. Đồng thời trong phần này của
luận văn cũng đề cập đến sơ lược về bài toán trích chọn tên riêng và hướng bài toán
đến việc xây dựng hệ thống trích chọn tên riêng dựa trên phương pháp học thống kê


Chương 2 Các kiến thức nền tảng về học thống kê


4

Chương này đề cập đến một số phương pháp học thống kê như: HMMs,
CRFs, và perceptron. Tác giả trình bày từ khái niệm, cách thức đến các ưu nhược
điểm của từng phương pháp, từ đó hướng sự tập trung việc xây dựng hệ trích chọn
tên riêng cho văn bản tiếng Việt vào CRFs và thuật toán perceptron trong chương 3.


Chương 3 Xây dựng một hệ trích chọn tên riêng sử dụng học thống kê

Chương này mô tả cách thức xây dựng một hệ trích chọn tên riêng trong
văn bản tiếng Việt sử dụng công cụ CRF++ của Taku Kudo và đưa ra một số kết
quả thực nghiệm của mô hình xây dựng được.



5

DANH MỤC TỪ VIẾT TẮT

Từhoăcc̣ cuṃ từ
Conditional Random Field
Mô hinh Markov ẩn
̀
Information Extraction
Information Retrieval
Nature Language Processing
Message Understanding
Conferencens
Part-Of-Speech
Named Entities Recognition
Maximum Entropy Markov Model
Supported Vector Machine


6

DANH MỤC BẢNG BIỂU
Bảng 1: Một số tiêu chí cần xem xét để lựa chọn phương pháp xây dựng....17
Bảng 2: Các tham số trong quá trình huấn luyện đối với thuật toán CRF...74
Bảng 3: Các tham số trong quá trình huấn luyện đối với thuật toán MIRA 74
Bảng 4: Các thuộc tính chính tả của từ........................................................... 77
Bảng 5: Đánh giámức cụm từ - Lần thưcc̣ nghiêṃ cho kết quảtốt nhất với
thuật
toán perceptron........................................................................................................ 80
Bảng 6: Đánh giámức nhãn - Lần thưcc̣ nghiêṃ cho kết quảtốt nhất với thuật

toán perceptron........................................................................................................ 81
Bảng 7: Đánh giátrung binh̀ 10 lần thưcc̣ nghiêṃ với thuật toán perceptron..........................81
Bảng 8: Đánh giámức cụm từ - Lần thưcc̣ nghiêṃ cho kết quảtốt nhất với
thuật
toán crf………........................................................................................................ 82
Bảng 9: Đánh giámức nhãn - Lần thưcc̣ nghiêṃ cho kết quảtốt nhất với thuật
toán crf………........................................................................................................ 83
Bảng 10: Đánh giátrung binh̀ 10 lần thưcc̣ nghiêṃ với thuật toán crf..................................83


7

DANH MỤC HÌNH VẼ
Hình 1: Các bước cơ bản trong một hệ trích chọn thông tin.........................18
Hình 2: Cụ thể hóa các bước cơ bản của một hệ trích chọn thông tin..........18
Hình 3: Mô hình Markov ẩn............................................................................ 28
Hình 4: Dạng đồ thị của thuật toán Viterbi..................................................... 30
Hình 5: Đồ thị vô hướng mô tả CRF................................................................ 37
Hình 6: Vấn đề“label bias”............................................................................... 50
Hình 7: Mạng perceptron................................................................................. 53
Hình 8: Thuật toán perceptron........................................................................ 57
Hình 9: Thuật toán voted-perceptron.............................................................. 59
Hình 10: Một cách thể hiện khác của thuật toán perceptron........................... 64
Hình 11: Cấu trúc hê c̣thống trích chọn tên riêng.............................................. 72
Hình 12: Mô tả một chuỗi quan sát trong file huấn luyện...............................78
Hình 13: File mẫu của hệ thống......................................................................... 80
Hình 14: Giá trị ba độ đo Precision, Recall, F-measure qua 10 lần thưcc̣ nghiêṃ
với thuật toán perceptron......................................................................................... 80
Hình 15: Giá trị ba độ đo Precision, Recall, F-measure qua 10 lần thưcc̣ nghiêṃ
với thuật toán crf..................................................................................................... 82

Hình 16: So sánh độ chính xác của hai thuật toán perceptron và crf..............84


8

Chương I

TỔNG QUAN

Phần này sẽ trình bày tổng quan về bài toán trích chọn thông tin, bao gồm
sự cần thiết của trích chọn thông tin, kiến trúc xây dựng và các bước cơ bản của một
hệ trích chọn thông tin, cuối cùng là một vài bài toán ứng dụng phổ biến trong trích
chọn thông tin.

I.1 Lược sử về trích chọn thông tin
I.1.1 Tính cần thiết của trích chọn thông tin
Hiện nay dữ liệu văn bản ở dạng điện tử có nhiều hơn bao giờ hết, nhưng
rất nhiều trong số đó chưa được sử dụng. Không ai có thể đọc, hiểu và tổng hợp
hàng terabyte văn bản hàng ngày. Các nhà nghiên cứu mong muốn đưa ra các cách
khám phá, quản lý thông tin này. Các phương pháp phổ biến nhất là phương pháp
thu thông tin (IR) và phương pháp lọc thông tin [4]. Một phương pháp mới phát
triển có liên quan đó là phương pháp trích chọn thông tin (IE), đây chính là phương
pháp được đề cập đến trong luận văn. Có thể xem hệ IE như hệ kết hợp mang lại
thông tin hữu ích từ những trường lớn của thông tin thô. Với một lượng lớn thông
tin hữu ích tiềm tàng, hệ IE có thể chuyển thông tin thô, tiến hành lọc và làm giảm
nhỏ văn bản gốc. Ví dụ như các nhà phân tích tài chính đầu tư sản xuất các thiết bị
bán dẫn thì họ cần phải biết một số điều sau:
 Loại hoá chất nào lựa chọn để làm các lớp cách điện
 Độ dày của các lớp này
 Nhiệt độ mà tại đó các lớp này được hình thành.

 Ai sử dụng quy trình này

Những thông tin này thông thường có sẵn trên các báo hoặc các tạp chí và
hệ IE có thể thu thập những bài báo có các đoạn liên quan. IE bắt đầu với những
đoạn văn bản, sau đó chuyển chúng về dạng thông tin sẵn sàng cho việc phân loại


9

và phân tích. Nó tách các phân đoạn văn bản liên quan, sau đó gắn những thông tin
này thành một dạng chặt chẽ. Ví dụ, một bài báo bàn về khí hoá học, nhiệt độ, các
công đoạn và các đặc tả vật liệu nhưng chỉ một hoặc hai thành phần có thể làm
người phân tích quan tâm. Mục tiêu của việc nghiên cứu là xây dựng hệ thống tìm
kiếm và liên kết các thông tin liên quan trong khi đó bỏ qua các dữ liệu ngoài hay
không liên quan. IE có nhiều ứng dụng tiềm năng. Ví dụ như những thông tin không
cấu trúc có thể được chuyển đổi đưa vào các hệ cơ sở dữ liệu truyền thống và người
sử dụng có thể lấy bằng các truy vấn chuẩn. Giả sử ta muốn ghi lại lợi nhuận của
các công ty lâm nghiệp ở Mỹ để so sánh chúng với các công ty của châu Âu. Các
thông tin liên quan bao gồm: tên công ty, công ty thuộc nước nào, có thuộc lĩnh vực
lâm nghiệp hay không, tổng lợi nhuận và lợi nhuận hiện thời của công ty. Một hệ IE
lưu lại tất cả các thông tin liên quan đến lĩnh vực này, cập nhật cơ sở dữ liệu từ tất
cả các nguồn có sẵn. Vì thế nó có thể phát hiện được các xu hướng ngay khi có
thông báo mới. Về mặt lý thuyết, các hệ IE có thể xử lý các sự kiện mới, bao gồm
các cuộc họp của những nhân vật quan trọng, thông tin về các công ty mới, các
thông báo về sản phẩm mới. Tuy nhiên, các hệ thống IE hiện nay chỉ có thế xử lý
trên một số dạng văn bản nhất định với độ chính xác nào đó.

I.1.2 IE với ngôn ngữ tự nhiên
Trên quan điểm của xử lý ngôn ngữ tự nhiên (NLP), IE hấp dẫn bởi nhiều
lý do, trong đó có:

 Công việc trích chọn được định nghĩa tốt
 IE sử dụng văn bản ngôn ngữ thực
 IE giải quyết các vấn đề khó và thú vị của NLP
 Hiệu năng của IE có thể so sánh với hiệu năng của con người trên cùng một

công việc
Trên thực tế, các hệ IE được đánh giá và so sánh với các lợi ích tiêu chuẩn
của con người là cơ hội tốt cho các nhà nghiên cứu NLP. Chính phủ hỗ trợ tài chính


10

cho việc tổ chức semina MUCs hàng năm và cho ARPA‟s Tipster Text Program. Ở
đó các nhóm nghiên cứu và các tổ chức của chính phủ tìm cách nâng cao các công
nghệ IR và IE với hy vọng là sẽ có những ứng dụng thực tiễn trong thời gian ngắn.
Cùng với những quan tâm tích cực về IE, một câu hỏi lớn đối với tất cả
các thành viên của cộng đồng NLP đó là liệu IE đủ hấp dẫn đối với các nguồn lực
và các tài năng để hướng tới việc phát triển phần mềm ứng dụng thực tiễn từ con số
không đến những nghiên cứu NLP dài hạn. Nhằm chỉ ra vấn đề này, đã có một cuộc
khảo sát với những người tham dự MUC-4 năm 1992. Những trích dẫn được lựa
chọn từ cuộc khảo sát đó đã được công khai lần đầu tiên. Với cùng suy nghĩ, việc
duy trì những hệ IE là yếu tố quan trọng trong việc khuyến khích những nhà nghiên
cứu NLP để đi từ những hệ thống quy mô nhỏ và dữ liệu nhân tạo cho đến hệ thống
lớn xử lý trên ngôn ngữ tự nhiên của con người. Một vấn đề vẫn tồn tại trong các
trường phái nghiên cứu khác nhau đó là sự khác biệt giữa trích chọn văn bản và
trích chọn tri thức. Trích chọn tri thức cũng phải đối mặt với rất nhiều vấn đề như
các hệ IE. Nhưng các hệ trích chọn tri thức cố gắng làm giảm cơ sở luật hoặc mô
hình miền trên cơ sở của kỹ thuật văn bản. Những việc này còn bao gồm cả một
thành phần học máy được đưa vào thành phần NLP. Cơ sở tri thức cần trích chọn
thường được thiết kế theo hướng hệ chuyên gia hoặc hệ suy diễn tình huống. Hiểu

một cách thông thường thì hướng này có tham vọng hơn so hệ IE đã nêu trong phần
này.

I.1.3 Một số hệ IE trong thời kỳ đầu
Các hệ IE đã sớm được phát triển từ khoảng những năm 1970. Sau đây là
một vài ứng dụng trong thời kỳ đầu của các hệ IE:
 Một trong những hệ IE đầu tiên được Gerald deJong xây dựng. Hệ này xử lý

trên những văn bản không giới hạn chủ đề. Với dữ liệu nguồn là các bức điện
tín, chương trình của deJong gọi là FRUMP, xử lý các điện tín này bằng cách
sử dụng các kịch bản đơn giản được thiết kế nhằm xử lý nội dung của bản
tin. Với mỗi bản tin, FRUMP tìm một kịch bản liên quan dựa trên các từ


11

khoá và phân tích khái niệm câu. FRUMP là một hệ hướng ngữ nghĩa sử
dụng các kỳ vọng miền cụ thể cho các mô tả sự kiện dựa trên tri thức kịch
bản.
 Một dự án có từ trước năm 1970 trích chọn những thông tin có ích từ văn

bản. Dự án có tên là Linguistic String Project, giám đốc dự án là Naomi
Sager tại đại học New York được American Medical Association tài trợ.
Công việc là tìm cách chuyển các thông tin bệnh nhân (ở dạng tiếng Anh) về
một định dạng phù hợp và sử dụng như đầu vào của hệ quản trị cơ sở dữ liệu
truyền thống có tên Conference on Data Systems Languages (CODASYL).
 Năm 1980, DaSilva và Dwiggins trích chọn các thông tin bay của vệ tinh từ

các báo cáo sinh ra bởi hệ thống giám sát toàn cầu. Nhưng hệ này có hạn chế
với các câu riêng lẻ và thiếu một phương thức về việc trích các miêu tả sự

kiện hoàn chỉnh.
 Zarri bắt đầu làm việc với các hệ IE từ đầu những năm 1980. Văn bản được

sử dụng mô tả các hoạt động minh hoạ khác nhau về lịch sử Pháp. Hệ này
tìm kiếm và trích chọn các thông tin về các mối quan hệ và các cuộc gặp gỡ
giữa các nhân vật lịch sử.
Những điểm khác nhau chính của những hệ thống phát triển trong những
năm 1980 và 1990 là độ lớn về mặt thời gian và công sức để thu thập các tài liệu
liên quan. Từ đó tạo ra những tập các mẫu biểu (hay các khoá) để lập nên các tập
thử nghiệm bao gồm các văn bản và các đáp số đúng đi kèm. Ví dụ, việc phát triển
một văn bản và khóa đi kèm của nó bằng phân tích con người cho miền vi điện tử
Tipster rất tốn kém và phức tạp. Những tài nguyên bao gồm văn bản và các khóa đi
kèm đã tạo ra hệ IE đặc biệt đáng để chú ý so với các hệ hướng tác vụ xử lý ngôn
ngữ tự nhiên. Các mẫu biểu này có thể được sử dụng để đánh giá hiệu năng của các
hệ thống IE, song song cùng với việc quan trọng là phát triển những hệ thống này.


12

I.2 Xây dựng các hệ trích chọn thông tin
I.2.1 Phương pháp xây dựng hệ trích chọn thông tin
Có hai phương pháp cơ bản để thiết kế các hệ IE là: Phương pháp máy tri
thức (Knowledge Enginering)và Phương pháp học tự động.
Phương pháp máy tri thức được đặc trưng bởi sự phát triển của văn phạm
được sử dụng bởi một thành tố của hệ IE nhờ một "kĩ sư tri thức", tức là một người
biết rõ về hệ IE. Với hình thức thể hiện các luật cho hệ thống đó, và sau đó, hoặc tự
mình, hoặc có tham khảo tới một chuyên gia trong lĩnh vực ứng dụng để viết các
luật cho thành phần hệ IE đánh dấu hay trích chọn thông tin khan hiếm. Thường thì
kĩ sư tri thức sẽ truy cập tới tập mẫu có kích thước trung bình về các văn bản miền
liên quan (một tập mẫu có kích thước trung bình bao gồm tất cả những gì mà một

người thông thường có thể kiểm chứng được), và trực giác của anh ta/cô ta. Kĩ năng
của kĩ sư tri thức đóng vai trò quan trọng, nó ảnh hưởng trực tiếp đến hiệu năng của
toàn bộ hệ thống.
Ngoài việc đòi hỏi kĩ năng và tri thức chi tiết về một hệ IE cụ thể, phương
pháp máy tri thức thường cũng đòi hỏi phải mất nhiều công sức. Để xây dựng một
hệ thống hiệu suất cao thường phải thực hiện quá trình lặp trong đó tập luật được
biết trước. Hệ thống thực hiện việc chạy trên một tập mẫu học các văn bản, và kết
quả đầu ra được kiểm tra để thấy được các luật được phát sinh dưới mức hoặc quá
mức ở đâu. Kĩ sư tri thức khi đó sẽ thực hiện các thay đổi/chỉnh sửa luật thích hợp,
và lặp lại quá trình này.
Phương pháp huấn luyện tự động thì khác. Không cần thiết phải có ai đó
biết rõ tri thức chi tiết về cách hoạt động của hệ IE, hay về cách viết các luật cho nó.
Chỉ cần có người biết đủ về miền và tác vụ lấy một tập mẫu, và chú giải các văn bản
thích hợp cho thông tin được trích chọn. Thông thường, các chú giải sẽ tập trung
vào một khía cạnh cụ thể của việc xử lý của hệ thống. Thí dụ, một bộ nhận biết tên
riêng có thể được huấn luyện bằng cách chú giải một tập mẫu các văn bản với các


13

tên miền liên quan phù hợp. Thành phần đồng tham chiếu có thể được huấn luyện
với một tập mẫu chỉ thị tới các lớp tương đương đồng tham chiếu cho từng văn bản.
Một khi tập mẫu phù hợp đã được chú giải, thuật toán huấn luyện sẽ được
chạy và cho ra kết quả thông tin mà một hệ thống có thể khai thác trong việc phân
tích các văn bản mới. Một cách khác để đạt được dữ liệu huấn luyện là tương tác
với người dùng trong quá trình xử lý văn bản. Người sử dụng được phép chỉ ra khi
nào các giả thuyết của hệ thống về văn bản là đúng, và nếu không, hệ thống sẽ chỉnh
sửa các luật của nó để thích ứng với các thông tin mới.
Đối với các nhà khoa học thì các hệ huấn luyện tự động dường như hấp dẫn
hơn nhiều. Bởi rõ ràng, để thực hiện theo phương pháp máy tri thức, đòi hỏi phải có

sự hiểu biết tường tận đến tri thức miền, điều này chính là điểm hạn chế, làm cho
phương pháp máy tri thức trở nên ít hấp dẫn với các nhà khoa học trong lĩnh vực tin
học. Dựa trên các tính đúng đắn của lý thuyết về phương pháp thống kê, người ta có
thể đo chính xác các hiệu quả của chúng bằng một hàm của chất lượng dữ liệu đầu
vào, chúng giữ được sự độc lập miền tương đối, và không dựa vào bất cứ thứ gì
không thể đo đếm được như là "kĩ năng của một kĩ sư tri thức".
Tuy nhiên, không nên đánh lừa trực giác và sự tinh thông của con người.
Những người ủng hộ phương pháp máy tri thức đang chỉ ra rằng, có thể đạt được
hiệu năng cao hơn nhờ vào các hệ thủ công, đặc biệt là khi dữ liệu huấn luyện là dữ
liệu thưa.
Điều này có thể dẫn tới các tranh cãi vô ích giữa những trường phái của hai
cách tiếp cận xem cách nào là "trội hơn". Thực ra, mỗi cách tiếp cận đều có những
ưu nhược điểm riêng, và cần được ứng dụng vào tình huống thích hợp để tận dụng
những ưu điểm của từng cách.
Như ta đã chỉ ra, phương pháp máy tri thức có ưu điểm của nó là cho tới bây
giờ, các hệ chạy tốt nhất cho các tác vụ trích chọn thông tin đều được làm thủ công.
Mặc dù các hệ huấn luyện tự động đã tiến gần tới cấp độ của các hệ thủ công như
trong các đánh giá MUC, thì các ưu điểm liên quan đến sự khéo léo của con người


14

trong việc tiên liệu trước các mẫu không nhìn thấy trong tập mẫu, và trong việc cấu
trúc các luật ở mức tổng quát đúng mực vẫn tạo cho các hệ thống đó ưu điểm nhỏ
nhưng rất đáng kể. Kinh nghiệm cũng cho thấy, với một hệ thống được thiết kế
đúng đắn cho trước, một sinh viên đại học chưa ra trường cũng có thể viết các luật
trích chọn sau khoảng một tuần huấn luyện. Do vậy, "sự tinh thông về hệ IE" không
phải là vật cản lớn như ai đó nghĩ.
Những điểm mạnh, yếu của các tiếp cận huấn luyện tự động là bù trừ với
những điểm mạnh, yếu của phương pháp máy tri thức. Thay vì tập trung vào việc

sản xuất ra các luật, cách tiếp cận huấn luyện tự động tập trung vào sản xuất dữ liệu
huấn luyện. Các thống kê tập mẫu hay các luật sau đó được dẫn xuất tự động từ các
dữ liệu huấn luyện, và được dùng để xử lý các dữ liệu mới. Miễn là ai đó thành thạo
miền sẵn dùng cho chú giải các văn bản, các hệ thống có thể được tuỳ biến về miền
cụ thể mà không cần sự can thiệp từ phía bất kỳ nhà phát triển nào. Nhận biết tên là
một tác vụ lý tưởng cho cách tiếp cận huấn luyện tự động bởi vì rất dễ để có thể tìm
ra các chú giải nhằm sản xuất lượng lớn các dữ liệu huấn luyện - hầu hết mọi người
đều trực giác biết rằng một "tên công ty" là gì.
Nhược điểm của cách tiếp cận huấn luyện tự động cũng xoay quanh yếu tố
phải dựa trên dữ liệu huấn luyện. Dữ liệu huấn luyện có thể được cung cấp không
đủ, có thể rất khó hay tốn kém mới có được. Đôi khi người ta mong có thể phát triển
một hệ trích chọn cho các chủ đề mà có rất ít các thí dụ liên quan trong tập mẫu.
Những tình huống như thế đề cao trực giác của con người trong thiết kế các luật.
Nếu các quan hệ cần tìm là phức tạp hay mang tính kĩ thuật thì các chú giải rất khó
tìm, và cũng rất khó để sản xuất đủ các dữ liệu được chú giải cho một tập mẫu huấn
luyện tốt.
Thậm chí ngay cả đối với các miền đơn giản như miền các tên riêng, luôn có
vùng rộng lớn các trường hợp biên mà các hướng dẫn chú giải cần phải được phát
triển. Thí dụ, khi diễn giải các tên công ty, thì liệu có thể xem các tổ chức phi lợi
nhuận như các trường đại học, hay Hội Chữ thập đỏ là "các công ty"? Không có câu


15

trả lời đúng cho những câu hỏi như vậy; câu trả lời cần phải được quy định và cần
được hiểu rõ ràng bởi mọi bộ chú giải. Điều này ngụ ý rằng, cần chú trọng đảm bảo
chất lượng của dữ liệu hơn là số lượng dữ liệu. Hầu như không thể có được các hệ
thống chất lượng cao thực sự với các dữ liệu huấn luyện không nhất quán. Điều này
ám chỉ rằng việc thu thập dữ liệu huấn luyện còn tốn kém hơn là người ta tưởng.
Thực tế, với rất nhiều miền, thì việc thu thập dữ liệu huấn luyện cũng tốn kém, thậm

chí tốn kém hơn về mặt thời gian và nhân sự, như là việc viết các luật.
Một vấn đề cần quan tâm khác là ảnh hưởng của việc chuyển đặc tả trên viết
luật hay trên tác vụ huấn luyện. Rõ ràng việc đặc tả các luật trích chọn không là tập
rời rạc như thoạt nghĩ. Thông thường, người dùng cuối sẽ phát hiện ra sau một vài
trải nghiệm rằng, họ muốn một giải pháp cho một vấn đề có liên quan và hơi khác
một chút. Ảnh hưởng khác nhau của nó tới các hệ thống máy tri thức và huấn luyện
tự động phụ thuộc vào việc các đặc tả này được thay đổi chính xác như thế nào. Giả
sử một bộ nhận biết tên được phát triển cho các chữ hoa và chữ thường. Sau đó
người dùng quyết định rằng rất cần thiết phải xử lý các văn bản có cùng dạng chữ
(chữ hoa hoặc chữ thường). Các hệ huấn luyện tự động có thể nhanh chóng thích
ứng với thay đổi này. Người ta chỉ việc ánh xạ tập mẫu huấn luyện tất cả thành chữ
hoa và chạy lại giải thuật huấn luyện là xong. Một hệ thống dựa trên luật phụ thuộc
rất nhiều vào kinh nghiệm thực tế và đôi khi, việc thay đổi như trên có thể dẫn đến
việc phải viết lại hoàn toàn giải thuật huấn luyện. Giả sử ta có một đặc tả ban đầu
nhằm trích chọn các địa danh được quy định theo pháp lý chính trị, đó là tên vùng
miền nào đó. Sau đó, ta lại muốn nhận biết tên các đỉnh núi, các dòng sông, và các
hồ. Nhà viết luật có thể thích ứng với thay đổi này bằng việc sinh ra các luật phụ trợ
và thêm chúng vào trong cơ sở dữ liệu luật. Các hệ thống huấn luyện tự động phải
đối mặt với một nhiệm vụ khó khăn hơn nhiều, đó là phải chú giải lại tất cả các dữ
liệu huấn luyện hiện tại sang đặc tả mới (có thể hàng triệu từ!) và rồi huấn luyện lại.
Tuy nhiên, không phải mọi mô-đun của một hệ IE đều phải tuân theo cùng
lược đồ thiết kế. Có thể tạo một hệ thống với một bộ nhận biết tên dựa trên luật học
các luật miền, hoặc là với một bộ nhận biết tên thao tác trên các luật miền sinh thủ


16

công trong trường hợp dữ liệu thưa. Ta có thể đưa ra các trường hợp để lựa chọn
giữa hai phương pháp xây dựng hệ IE trong hình 1.
Nhìn chung, người ta thường dùng hệ thống trích chọn dùng phương pháp

máy tri thức khi mà các nguồn tài nguyên ngôn ngữ như các bảng từ vựng là sẵn có,
có cả những nhà viết luật thành thạo, dữ liệu huấn luyện thưa hay chi phí cao, khi
cần thiết phải tăng hiệu suất lên một chút, và khi mà các đặc tả trích chọn ít thay đổi
theo thời gian. Các hệ huấn luyện tự động lại rất thích hợp trong trường hợp ngược
lại, khi mà các nguồn tài nguyên không sẵn có gì ngoài các văn bản thô. Các dữ liệu
huấn luyện có thể lấy dễ dàng và chi phí thấp, các tác vụ đặc tả là ổn định, và không
nhất thiết phải đạt yêu cầu hiệu suất tối đa.


17

Bảng 1:

Một số tiêu chí cần xem xét để lựa chọn phương pháp xây dựng
hệ trích chọn thông tin.

Dùng phương pháp máy tri thức khi:
Các nguồn (ví dụ như bảng từ vựng) là
sẵn có
Có người đưa ra được các luật huấn
luyện
Dữ liệu huấn luyện khó thu thập hoặc rất
tốn công sức để thu thập
Yêu cầu trích chọn có thể thay đổi theo
thời gian
Hiệu năng cao nhất có thể

I.2.2 Kiến trúc của hệ trích chọn thông tin
Mặc dù mục đích của các hệ trích chọn thông tin và phương pháp xây
dựng các hệ thống này là khác nhau, nhưng tựu chung cũng gồm các thành phần cơ

bản được mô tả trong hình I.2.
Bốn bước chính để thực hiện trích chọn thông tin được minh họa trong hình 1. Tuy
nhiên trong thực tế, đối với một số hệ thống như hệ thống chỉ thực hiện việc gán
nhãn tên (name tagger) thì có thể dừng ở bước thứ 2.

Tokenization

Morphological and
lexical processing


18

Hình 1:

Các bước cơ bản trong một hệ trích chọn thông tin.

Phụ thuộc vào yêu cầu thực tế của từng hệ thống mà các bước như trên
được cụ thể hóa thành các mô-đun như sau:

Tokenization

Morphological and
lexical processing

Syntactic Analysis

Domain Analysis

Hình 2:


Cụ thể hóa các bước cơ bản của một hệ trích chọn thông tin.

I.2.2.1 Bước cá thể hóa các thành phần của hệ thống (Tokenization)


Đây là bước rất đơn giản đối với ngôn ngữ ở các nước châu Âu, bởi nó chỉ
cần thực hiện việc phân tách các từ dựa trên các dấu cách. Tuy nhiên điều này thật
không dễ dàng đối với một số ngôn ngữ như Trung Quốc hay Việt Nam,.. bởi không


19

có sự phân tách từ một cách rõ ràng trong qui cách viết từ chính tả, và việc phân
tách này cần xem xét nhiều đến ngữ cảnh của từ. Ví dụ câu: học sinh học sinh học.
nếu để thành các từ : [học] [sinh học] [sinh học] hoặc : [học sinh] [học] [sinh học],
…. Những trường hợp nhập nhằng như vậy trong tiếng Việt và một số ngôn
ngữ khác thường xuyên xuất hiện và làm ảnh hưởng nhiều đến kết quả của những
pha thực hiện sau, nếu kết quả phân tách sai. Vì thế mô-đun phân đoạn từ là bắt
buộc đối với các hệ thống trích chọn thông tin trên các loại ngôn ngữ này.

I.2.2.2 Xử lý từ vựng và hình thái từ (Morphological and lexical processing)
Để thực hiện bước này, một số hệ thống thường sử dụng các mô-đun gán
nhãn thuộc tính khác nhau để xác định và phân loại các từ loại, các nghĩa khác nhau
của từ, hoặc tên, hoặc một số các mục từ thuộc các lớp khác nhau.
Phân tích hình thái từ (Morphological Analysis)
Nhiều hệ trích chọn thông tin đối với ngôn ngữ đơn giản về mặt cấu trúc
từ khá đơn giản, ví dụ như tiếng Anh, thì thành phần phân tích hình thái từ không
cần thiết. Đơn giản chỉ cần đưa ra danh sách tất cả các biến thể của từ đối với các từ
vựng trong từ điển.

Tuy nhiên đối với ngôn ngữ phức tạp như tiếng Đức, tiếng Việt,.. do các
dấu cách không thể hiện được sự phân tách các từ trong câu, nên việc phân tách câu
là khá nhạy cảm và đôi khi phải dựa vào cảm tính.


20

Tìm kiếm trong từ điển từ vựng (Lexical Lookup)
Công việc tiếp theo của thành phần từ vựng/ngữ nghĩa của hệ trích chọn
thông tin là tìm kiếm trong từ điển từ vựng. Câu hỏi đặt ra là cần từ điển như thế
nào. Do hệ trích chọn thông tin phải thực hiện trong các văn bản thực tế, ta có thể
đưa ra các mẫu để có thể phủ được càng nhiều trường hợp xảy ra trong ngôn ngữ
càng tốt. Hơn nữa, trong các ứng dụng ở từng lĩnh vực cụ thể, phạm vi ngôn từ
được sử dụng sẽ được hạn chế. Vì thế ta sẽ phải xem xét đến việc liệu nên mở rộng
tập từ vựng này đến đâu là hợp lý.
Có hai vấn đề ta cần quan tâm trong việc đưa ra các bộ từ điển từ vựng.
Thứ nhất là, nếu mở rộng quá nhiều từ, trong đó chứa cả những từ hiếm khi xuất
hiện trong các văn bản thuộc miền ta đang đề cập, thì chỉ làm tăng tính phức tạp của
từ điển chứ chưa chắc đã làm tăng hiệu xuất của hệ. Thứ hai là, trong rất nhiều
trường hợp, một từ có thể có nhiều nghĩa. Ví dụ, từ Đồng Tháp trong hai câu “Đồng
Tháp là tỉnh thuộc vùng Đồng bằng Sông Cửu Long” và câu “Đồng Tháp ra sân với
đội hình mạnh nhất” có hai nghĩa khác nhau. Trong câu đầu tiên, Đồng Tháp có
nghĩa là một địa danh; trong câu thứ hai, Đồng Tháp có nghĩa là một đội bóng. Vì
thế, trong thực tiễn thì việc sử dụng một từ điển nhỏ nhưng không nhập nhằng sẽ tốt
hơn một từ điển lớn, nhiều từ nhưng dễ nhập nhằng. Nếu như muốn sử dụng từ điển
lớn thì cần phải có một chiến lược xử lý trong tình huống xảy ra nhập nhằng.

I.2.2.3 Phân tích cú pháp
Trong một số hệ trích chọn thông tin, việc phân tích cú pháp một cách đơn giản là
đủ để có thể xác định cấu trúc tham số vị ngữ có thể của câu và các thành phần cấu

thành chính của câu. Tuy nhiên trong một số trường hợp, cần có sự phân tích sâu
hơn và thậm chí là phân tích một cách đầy đủ.

I.2.2.4 Phân tích miền
Mặc dù một hệ thống trích chọn thông tin có thể không cần đến hai môđun trong bước 4 là đồng tham chiếu (coreference) và trộn kết quả (merge partial


21

result). Tuy nhiên trong một số trường hợp, để đơn giản hóa việc phân tích miền và
tăng hiệu năng ta có thể sử dụng các mô-đun trên.

I.2.2.5 Kết luận
Tóm lại, các yếu tố sau sẽ tác động đến việc cần thiết phải sử dụng các mô-đun:
-

Ngôn ngữ sử dụng trong văn bản: Các ngôn ngữ như Anh, Pháp,.. không cần
đến bước xử lý việc phân tách từ và hình thái từ, nhưng một số ngôn ngữ
khác thì cần như tiếng Việt, tiếng Trung Quốc,..

-

Thể loại: Việc trích chọn thông tin từ các văn bản thuộc các thể loại khác
nhau yêu cầu các kỹ thuật khác nhau. Ví dụ, một số vấn đề thường xuất hiện
trong các văn bản không chính qui (theo cách viết văn nói) là: phân tách câu
đôi khi không chính xác; các thực thể, các đối tượng có thể được viết tắt, viết
theo lối nói lóng; các câu đôi khi không viết tuân theo các chuẩn mực về ngữ
pháp,… Rõ ràng trong những trường hợp này, pha phân tích cần có những kỹ
thuật đặc biệt hơn so với những văn bản chính qui.


-

Đặc trưng của văn bản: Các văn bản quá dài thường cần dùng đến kỹ thuật
tìm kiếm thông tin (Information Retrivel) để xác định các phần có liên quan
trong việc xử lý. Các văn bản có chứa các hình ảnh hoặc dữ liệu dạng bảng
biểu đòi hỏi một số kỹ thuật xử lý thủ công.

-

Công việc cần thực hiện: Tùy vào mục đích trích chọn khác nhau thì nhiệm
vụ thực hiện của hê thống cũng thay đổi theo. Nếu một ứng dụng yêu cầu
trích chọn thuộc tính của các thực thể, khi đó cần thực hiện việc phân tích
văn bản thành các phân đoạn biểu diễn các thuộc tính. Nếu các công việc liên
quan đến trích chọn các sự kiện, thì các mệnh đề đầu vào cần phải được phân
tích đồng thời, …
Thông thường, hệ thống trích chọn thông tin cần xử lý hàng nghìn văn bản

trong một khoảng thời gian ngắn. Vì thế, người ta phải nghĩ đến các phương pháp
hữu hạn trạng thái đơn giản và nhanh. Việc xử lý một lượng lớn các văn bản thực


22

đòi hỏi đến các kỹ thuật có tính mạnh mẽ, tức là phải đảm bảo độ chính xác tốt ngay
cả trong những trường hợp có lỗi về ngữ pháp hoặc chính tả. Đồng thời, các hệ
thống trích chọn thông tin thường là về những lĩnh vực cụ thể nào đó. Các lĩnh vực
này thường đòi hỏi những tri thức thực tế liên quan đến các hệ thống xử lý ngôn ngữ
tự nhiên, việc kết hợp các tri thức này thường sẽ cho kết quả tốt hơn trong quá trình
thực hiện trích chọn thông tin.


I.3 Phương pháp đánh giá hệ thống
Hệ thống IE truyền thống được đánh giá dựa trên các tiêu chuẩn là precision (độ
chính xác) và recall (độ hồi tưởng):
 Precision = correct answers/answers produced
o

số kết quả tìm được và đúng trên tổng số kết quả hệ thống đưa ra
(ký hiệu là P)

 Recall = correct answers/total possible correct answers
o

số kết quả tìm được và đúng /tổng số kết quả thực tế đúng
(ký hiệu là R)

Trong các hệ thống thường có sự cân bằng giữa hai đại lượng P và R do đó
giá trị trọng số trung bình F-meansure (ký hiệu là F) cũng thường xuyên được sử
dụng:
F=

( β 2 +1) P * R

(thường lấy β =1)

2

(β P+R)

Trong đó β là đại lượng biểu thị độ quan trọng trong mối liên hệ giữa P
và R.

Ví dụ: Trong hệ thống trích chọn tên riêng để nhận biết 4 loại tên riêng là: tên người
(per), tên địa danh (loc), tên tổ chức (org), cụm từ xác định thời gian (time), ta có
câu:


×