Báo cáo
Đề tài: Rút trích thơng tin từ kết quả
phân tích cú pháp
6/2011
Rút trích thơng tin từ kết quả phân tích cú pháp 2011
Mục lục
Chương I - Giới thiệu ........................................................................................................................ 6
1.
Rút trích thơng tin là gì?...................................................................................................... 6
2.
Đặt vấn đề - bài tốn: .......................................................................................................... 6
Chương II - Cơ sở lý thuyết: ............................................................................................................. 7
1.
Phân tích cú pháp: ............................................................................................................... 7
2.
Các loại phân tích cú pháp .................................................................................................. 8
2.1.
Full Parsing.................................................................................................................... 8
2.2.
Semantic Parsing ........................................................................................................... 9
2.3.
Shallow Parsing: ............................................................................................................ 9
Rút trích thơng tin ............................................................................................................. 10
3.
3.1.
Ví dụ về rút trích thơng tin .......................................................................................... 10
3.2.
Một số hệ thống rút trích thơng tin khác: .................................................................... 12
3.3.
Kĩ thuật rút trích thơng tin cơ bản: .............................................................................. 12
3.3.1.
Tổng qt................................................................................................................. 12
3.3.2.
Xây dựng cấu trúc và mơ hình ................................................................................ 13
3.3.3.
Phân tích từ vựng..................................................................................................... 14
3.3.4.
Name Recognition (Nhập nhằn tên thực thể) .......................................................... 15
3.3.5.
Cấu trúc cú pháp ...................................................................................................... 15
3.3.6.
Scenario Pattern Matching (đồng tham chiếu) ........................................................ 16
3.3.7.
Coreference Analysis (Đồng tham chiếu) ............................................................... 16
3.3.8.
Suy luận và gộp các sự kiện .................................................................................... 17
Chương III - Một số mơ hình rút trích thơng tin ............................................................................. 18
Mơ hình FASTUS ............................................................................................................. 19
1.
1.1.
Giới thiệu : ................................................................................................................... 19
1.2.
Triggering : .................................................................................................................. 19
1.3.
Noun phrase chunking(nhận diện các cụm từ) ............................................................ 20
Trang 2
Rút trích thơng tin từ kết quả phân tích cú pháp 2011
1.4.
Recognizing Patterns(nhận dạng mơ hình) .................................................................. 21
1.5.
Merging Incidents(hợp nhất các sự kiện) .................................................................... 23
Mơ hình trích chọn quan hệ trên Wikipedia tiếng Việt dựa vào cây phân tích cú pháp.... 24
2.
Đặc trưng của Wikipedia ............................................................................................. 25
2.1.
2.1.1.
Thực thể trong Wikipedia ............................................................. 25
2.1.2.
Infobox .......................................................................................... 26
2.1.3.
Mục phân loại ................................................................................ 26
Cây phân tích cú pháp tiếng Việt ................................................................................ 27
2.2.
2.2.1.
Phân tích cú pháp .......................................................................... 27
2.2.2.
Một số thành phần cơ bản của cây phân tích cú pháp tiếng Việt .. 28
2.3.
Phát biểu bài toán ........................................................................................................ 28
2.4.
Xây dựng tập dữ liệu học ............................................................................................ 28
2.4.1.
Trích chọn thơng tin trên Infox: .............................................................................. 29
2.4.2.
Tìm kiếm trên Wikipedia .............................................................. 30
2.4.3.
Mơ hình hệ thống trích chọn quan hệ: .......................................... 31
2.5.
Mơ hình trích rút mẫu quan hệ ngữ nghĩa ................................................................... 36
2.6.
Mơ hình hệ thống hỏi đáp tiếng Việt. .......................................................................... 40
Chương IV - Mơ hình bài tốn: ....................................................................................................... 43
Rút trích thơng tin từ văn bản(dựa vào kết quả phân tích cú pháp): ................................. 43
1.
2.
1.1.
Lấy ra các NNP từ văn bản.......................................................................................... 43
1.2.
Lấy nội dung từ các cặp thực thể. ................................................................................ 43
1.3.
Xây dựng khung mẫu để rút trích: ............................................................................... 44
Mơ hình ngữ liệu: .............................................................................................................. 48
Chương V - Cài đặt thực nghiệm: ................................................................................................... 51
1.
Mô tả chương trình: ........................................................................................................... 51
2.
Chuẩn bị: ........................................................................................................................... 51
Trang 3
Rút trích thơng tin từ kết quả phân tích cú pháp 2011
3.
Hoạt động của chương trình: ........................................................................................... 52
Chương VI - Kết quả đạt được và hướng phát triển: ....................................................................... 54
1.
Kết quả đạt được: .............................................................................................................. 54
2.
Khó khăn và hạn chế: ........................................................................................................ 55
3.
Kế hoạch sắp đến để hoàn thiện đề tài: ............................................................................. 55
Chương VII - Phụ lục: ..................................................................................................................... 55
Chương VIII - Tài liệu tham khảo: .................................................................................................. 56
Thuật ngữ viết tắt
Trang 4
Rút trích thơng tin từ kết quả phân tích cú pháp 2011
IE
IR
NLP
NER
Per
Loc
Org
Information Extract
Information Retrieval
Natural Language Processing
Named entity recognition
Person
Loction
Organization
Trang 5
Rút trích thơng tin từ kết quả phân tích cú pháp 2011
Chương I - Giới thiệu
1. Rút trích thơng tin là gì?
Một số ứng dụng của xử lý ngơn ngữ tự nhiên (Natural Language Processing):
Truy hồi thông tin (IR) :
o tìm kiếm, lấy các tài liệu để đáp ứng một u cầu về thơng tin nào đó.
Rút trích thông tin (IE) :
o Lấy thông tin trong một văn bản theo một khuôn mẫu, một yêu
cầu,...
Passage Retrieval:
o
lấy một phần tài liệu để đáp ứng một yêu cầu về thơng tin nào đó.
Hiểu văn bản.
Trả lời tự động.
Rút trích thơng tin là q trình lấy thơng tin từ một hoặc nhiều văn bản mà kết quả
thu được sẽ tùy theo yêu cầu cần rút trích:
Tạo bộ ngữ liệu.
Tìm kiếm thơng tin của thực thể.
Trả lời câu hỏi.
…
2. Đặt vấn đề - bài toán:
Việc rút ra các sự kiện, danh nhân, địa danh trong văn bản lịch sử là một vấn đề
cần thiết nhằm làm giảm thời gian của người đọc và giải quyết một số vấn đề như
trả lời câu hỏi, tóm tắt nội dung,...
Ngồi ra việc tìm thơng tin về các thực thể trong văn bản cũng là một vấn đề
quan trọng nhằm tiết thời gian để tìm kiếm thơng tin (web, sách báo,…). Và đa số
mọi người hay sử dụng những bộ máy tìm kiếm thơng tin trên web để làm cơng
việc đó (Google, Bing, Yahoo,…).
Luận văn được thực hiện để giải quyết quyết 2 vấn đề trên:
Trang 6
Rút trích thơng tin từ kết quả phân tích cú pháp 2011
Xây dựng một hệ thống rút trích thơng tin rút ra các sự kiện trong văn
bản lịch sử.
Xây dựng bộ dữ liệu về các tổ chức, địa danh, con người.
Chương II - Cơ sở lý thuyết:
1. Phân tích cú pháp:
Phân tích cú pháp là một trong những công cụ cơ bản của xử lý ngôn ngữ tự
nhiên, hầu hết các ứng dụng xử lý ngôn ngữ tự nhiên đều sử dụng một bộ phân
tích cú pháp trong một giai đoạn nào đó(Ví dụ: Trong các hệ thống dịch máy, đó là
các giai đoạn phân tích câu nguồn, phát sinh câu đích).
Phân tích cú pháp thường là bước đầu tiên trong q trình xử lý ngơn ngữ tự
nhiên, nó cung cấp một nền tảng vững chắc cho việc xử lý văn bản thông minh như
các hệ thống hỏi đáp, khai phá văn bản và dịch máy. Việc phân tích cú pháp câu có
thể chia làm hai mức chính. Mức thứ nhất là tách từ và xác định thông tin từ loại.
Mức thứ hai là sinh cấu trúc cú pháp cho câu dựa trên các từ và từ loại do bước
trước cung cấp.
Ví dụ 1: phân tích cú pháp câu “My dog also likes eating sausage”.
Tagging:
My/PRP$ dog/NN also/RB likes/VBZ eating/VBG sausage/NN ./.
Parser
(ROOT
(S
(NP (PRP$ My) (NN dog))
(ADVP (RB also))
(VP (VBZ likes)
(S
(VP (VBG eating)
(NP (NN sausage)))))
(. .)))
Sau khi phân tích cú pháp thì các từ đã được gắn nhãn loại vì thế sẽ giúp ích rất
nhiều cho việc rút trích thơng tin (Ví dụ: lấy ra thực thể “My dog” nhờ việc gắn
nhãn cụm My dog là NP mà chúng ta có thể dễ dàng trích xuất được).
Trang 7
Rút trích thơng tin từ kết quả phân tích cú pháp 2011
2. Các loại phân tích cú pháp
-
-
Full/Deep Parsing
Parsing with different Grammar Formalisms
o Context-Free Parsing (phân tích theo ngữ cảnh)
o Dependency Parsing
Semantic Parsing (phân tích ngữ nghĩa)
Shallow Parsing (phân tích cạn)
2.1.
Full Parsing
Parsing with different Grammar Formalisms
o Context-Free Parsing (phân tích theo ngữ cảnh
tự do)
Raamu ate an apple
S
NP
Noun
VP
NP
Verb
Det
Raamu
ate
an
ate ( raamu , apple )
Noun
Production rules
S -> NP VP
NP -> Noun
NP -> Det Noun
VP-> Verb NP
Noun -> Raamu | apple
Verb -> ate
Det -> an
Apple
Hình 1. Context-Free Parsing
o Dependency Parsing
Dependency Tree Example
JJ
NNS IN DT NNS
VBD
VBG NNS
Red figures on the screens indicated falling stocks
Hình 2. Dependency Parsing
Trang 8
Rút trích thơng tin từ kết quả phân tích cú pháp 2011
2.2.
Semantic Parsing
Dependency Tree Example
JJ
NNS IN DT NNS
VBD
VBG NNS
Red figures on the screens indicated falling stocks
Hình 3. Semantic Parsing
2.3.
Shallow Parsing:
Sentence
POS Tagging
Morpho-syntactic
Class of words
Word that can be group
Chunking
as chunks (NP,VP,…)
Relation they have
Relation finding
with the main words
(subj,obj, loc,…)
I am boy
[NP-SUBJ I /PRP] [VP am /VB] [NP-OBJ a/DT boy/NN]
Hình 4. Shallow Parsing
Trang 9
Rút trích thơng tin từ kết quả phân tích cú pháp 2011
Phân tích câu “The wiman will give Mary a book”
[The/ Det woman/NN] np-PERSON [will/MD give/VB] vp [Mary/NNP] npPERSON [a/Det book/NN] np-MATERIAL – OBJECT
Shallow parsing: tìm kiếm các quan hệ.(1)
[The woman] [will] [give Marry] [a book]
Person
Person
Material - object
Hình 5. Phân tích câu “The wiman will give Mary a book”
Áp dụng của parser :
IR: sufficient to find NPs and Vps.
IE, Tóm tắt thơng tin.
3. Rút trích thơng tin
3.1.
Ví dụ về rút trích thơng tin
FASTUS (1993)
Bridgestone Sport Co. said Friday it had set up a joint venture
in Taiwan with a local concern and a Japanese trading house to
produce golf clubs to be supplied to Japan.
The joint venture , Bridgestone Sport Taiwan Co. , capitalized
at 20 million new Taiwan dollars, with start production in
January 1990 with production of 20,000 iron and “metal
wood” clubs a month.
Trang 10
Rút trích thơng tin từ kết quả phân tích cú pháp 2011
TIE-UP-1
ACTIVITY-1
Relationship : TIE-UP
Relationship :
Entities : “Bridgestone Sport Co”
Company :
“Bridgestone Sport Taiwan Co”
“a local concern”
“a Japanese trading house”
PRODUCTION
Product :
“iron and “metal wood” clubs”
Joint Venture Company :
Start Date :
“Bridgestone Sport Taiwan Co”
Activitiy :
“DURING January 1990”
ACTIVITY-1
Hình 6. Cách rút trích thơng tin của hệ thống FASTUS
NT$200000000
Amount :
Một khuôn mẫu đã được xây dựng để rút trích thực thể và các sự kiện liên quan
đến nó.
[company]
[set up]
[Joint-Venture]
With
[company]
Với loại văn bản khác phải dùng một khuôn mẫu khác:
A German vehicle-firm executive was stabbed to death ……
………
Jusgen Pfrang, 51, reportedly stumbled upon the robbers on the
second floor of his Nanjing home early on Sunday.
The deputy general manager of Yaxing Benz, a Sino-German
joint venture that makes buses and bus chassis in nearby
Yangzhou, was hacked to death with 45 cm watermeelon knives.
……….
Trang 11
Rút trích thơng tin từ kết quả phân tích cú pháp 2011
Crime-Type: Murder
Type : Stabbing
The killed:
Name: Jusgen Pfrang
Age: 51
Profession: Deputy general manager
Location:
3.2.
Nanjing, China
Một số hệ thống rút trích thơng tin khác:
The MUC-4 Terrorism Task (1991) một hệ thống rút trích thơng tin
từ báo chí các vụ khủng bố từ Nam Mỹ.
PROTEUS (New York University).
TextPro (Doug Appelt).
3.3.
Kĩ thuật rút trích thơng tin cơ bản:
3.3.1. Tổng qt
Q trình khai thác thơng tin có hai phần chính. Đầu tiên, hệ thống rút trích những
dữ liệu "facts" từ văn bản của một tài liệu thơng qua phân tích văn bản tại chỗ.
Thứ hai, nó tích hợp những vùng dữ liệu này tạo thành các dữ liệu hơn hoặc những
dữ liệu mới. Thông qua suy luận. Sau khi dữ liệu đã được tích hợp sẽ được dịch
sang định dạng đầu ra cần thiết.
Các dữ kiện cá nhân được rút trích bằng cách tạo ra một tập các mơ hình phù hợp
với các dữ liệu thực tế. Do sự phức tạp của ngôn ngữ tự nhiên nên khó để mơ tả
các mơ hình. Vì vậy, để tạo một hệ thống xử lý ngơn ngữ tự nhiên thì cần phải phân
tích cú pháp, ngữ nghĩa, xác định nhóm từ,... của văn bản đầu vào.(3)
Trang 12
Rút trích thơng tin từ kết quả phân tích cú pháp 2011
3.3.2. Xây dựng cấu trúc và mơ hình
Document
Local text analysis
Lexical analysis
Name recognition
Partial syntactic analysis
Scenario pattern matching
Discourse analysis
Conference analysis
Inference
Template generation
Extracted templates
Hình 7. Cấu trúc một hệ thống rút trích thơng tin
Trang 13
Rút trích thơng tin từ kết quả phân tích cú pháp 2011
Kết hợp những phần tử này lại sẽ thành một cấu trúc ngữ nghĩa được gọi là các
thực thể(entities) và các sự kiện(events). Những cấu trúc này cuối cùng sẽ được
dùng để xây dựng các mẫu.
3.3.3. Phân tích từ vựng
Văn bản được đưa vào:
Sam Schwartz retired as executive vice president of the famous hot
dog manufacturer, Hupplewhite Inc, He will be succeeded by Harry
Himmel-farb.
Văn bản sẽ được phân ra làm nhiều câu. Các phần này sẽ được so
sánh với bộ từ điển( Comlex Syntax dictionary,…) nhằm xác định
các thành phần của câu và xác định loại từ.
Bộ từ điển bao gồm tên các thực thể được phân loại (Company,
person, common first names,…).(3)
EVENT
leave job
PERSON
Sam Schwartz
POSITION executive vice president
COMPANY Hupplewhite Inc
EVENT
start job
PERSON
Harry Himmelfarb
POSITION executive vice president
COMPANY Hupplewhite Inc
Các sự kiện của thực thể được rút trích
Trang 14
Rút trích thơng tin từ kết quả phân tích cú pháp 2011
3.3.4. Name Recognition (Nhập nhằn tên thực thể)
Xử lý nhập nhằng tên các thực thể là một vấn đề khá phức tạp vì đây là các tên
riêng nên chúng ta không thể biết được nghĩa của chúng, đa số chúng ta dùng từ
điển để phân loại các thực thể.
Một đoạn văn đã được phân loại các thực thể:
[name type: person Sam Schwartz] retired as executive vice president of the famous
hot dog manufacturer, [name type: company Hupplewhite Inc.] He willl be
succeded by [name type: person Harry himmelfarb].
Vấn đề nhập nhằng là khơng thể tránh khỏi.
Ví dụ 2: với câu “Humble Hoop reported …” nếu khơng có “Mr. “ chúng ta không
thể biết được “Humble Hoop” là người hay một công ty.
3.3.5. Cấu trúc cú pháp
Các đối số được rút trich trích ra thường tương ứng với cụm danh từ trong văn bản,
và các mối quan hệ để được rút trích thường tương ứng quan hệ chức năng ngữ
pháp .
Việc xác định hoàn chỉnh cấu trúc cú pháp của một câu là một nhiệm vụ khó. Có
những hệ thống khơng phân tích ra thành từng phần đơn lẻ như vậy mà phân tích
tồn bộ từng câu.(3)
Đoạn văn đã được phân tích:
[np entity: e1 Sam Schwartz] [vg retired] as [np entity: e2 executive vice president]
of [np entity: e3 the famous hot dog manufacturer], [np entity: e4 Hupplewhite] of
[np entity5: e5 He][vg will be succeeded] by [np entity: e6 Harry Himmelfarb].
Trang 15
Rút trích thơng tin từ kết quả phân tích cú pháp 2011
Entity e1
Entity e2
Entity e3
Entity e4
Entity e5
Entity e6
Type: person name:”Sam Schwatz”
Type: position value: “excutive vice president”
Type: manufacturer
Type: company name: “Hupplewhite Inc.”
Type: person
Type: person name: “Harry Himmelfarb”
3.3.6. Scenario Pattern Matching (đồng tham chiếu)
Các quá trình ở trên được dùng để xây dựng các mơ hình và dựa vào các mơ hình
này để rút trích ra các quan hệ, sự kiện,...
Ví dụ 3 : hai mơ hình cảu hai câu dưới
person retires as position
và
person is succeeded by person
[clause event: e7 Sam Schwartz retired as executive vice president of the famous
hot dog manafacturer Hupplewhite Inc.][clause event: e8 he will be succeeded by
Harry Himmelfarb].
Entity e1
Entity e2
Entity e3
Entity e5
Entity e6
Entity e7
Entity e8
Type: person name: “Sam Schwartz”
Type: position value: “executive vice president” company: e3
Type: manufacturer name: “hupplewhite Inc.”
Type: person
Type: person name: “Harry Himmelfarb”
Type: leave-job person: e1 postion:e2
Type: succeed person: e6 person2: e5
Các thực thể và sự kiện được rút trích
3.3.7. Coreference Analysis (Đồng tham chiếu)
Giải quyết vấn đại từ, danh từ, cụm từ. Ví dụ với từ “he”(e5), cần phải xác định
xem đó là ai.
Trang 16
Rút trích thơng tin từ kết quả phân tích cú pháp 2011
[np entity: e1 Sam Schwartz] [vg retired] as [ np entity: e2 executive vice president
of the famous hot dog manufacturer, Hupplewhite Inc.][np entity: e5 He][vg will be
succeeded] by [np entity: e6 Harry Himmelfarb].
Dựa vào bảng bên dưới, sẽ lấy tên thực thể tên người gần nhất trước nó.
Vị trí e1 “Sam Schwartz”
Entity e1
Entity e2
Entity e3
Entity e5
Entity e6
Event e7
Event e8
Type: person name: “Sam Schwartz”
Type: position value: “executive vice president” company: e3
Type: manufacturer name: “Hupplewhite Inc.”
Type: person
Type: person name: “Harry Himmelfarb”
Type: leave-job person: e1 position: e2
Type: succed person1: e6 person2: e5
Nếu có từ “the company” trong ví dụ trên thì nó sẽ lấy thực thể ở vị trí e3.
3.3.8. Suy luận và gộp các sự kiện
Trong nhiều trường hợp, một phần thơng tin về một sự kiện có thể “lan truyền” trên
một số câu, thông tin này cần phải được kết hợp trước khi một mẫu có thể được tạo
ra. Trong trường hợp khác, một số thông tin chỉ là tiềm ẩn, và cần được thực hiện
rõ ràng thông qua một q trình suy luận.
Ví dụ 4:
Sam was president. He was succeeded by Harry.
Chúng ta có thể suy ra được rằng “Harry” sẽ trở thành tổng thống(president).
Có thể xây dựng một hệ thống luật (System rule) như sau:
Leave-job(X-peson, Y-job) & succeed(Z-person, X-person)
=> start-job(Z-person, Y-job)
Start-job(X-person, Y-job) & succeed(X-person, Z-person)
=>Leave-job(Z-person, Y-person)
Dựa vào luật ở trên với đoạn văn bản ví dụ sẽ được kết quả như sau:
Trang 17
Rút trích thơng tin từ kết quả phân tích cú pháp 2011
Entity e1
Entity e2
Entity e3
Entity e6
Event e7
Event e8
Event e9
Type: person name: “Sam Schwartz”
Type: position value: “executive vice president” company: e3
Type: manufacturer name: “Hupplewhite Inc.”
Type: person name: “Harry Himmelfarb”
Type: leave-job person: e1 position: e2
Type: succeed person1: e6 person2: e1
Type: start-job person: e6 postion: e2
Chương III - Một số mơ hình rút trích thơng tin
Knowledg
Characterization of Texts
e
Interpretation
IE System
Passage
IR system
IR
Query
Structure
s
Of
Sentenses
NLP
Collection of Texts
IR
Text
Templates
s
Hình 8. Minh họa một hệ thống rút trích thơng tin
Trang 18
Rút trích thơng tin từ kết quả phân tích cú pháp 2011
1. Mơ hình FASTUS
1.1.
Giới thiệu (4)
Việc xử lý một số lượng lớn các văn bản tự động với tốc độ cao và chính xác là một
trong những yếu tố cần thiết trong xử lý ngôn ngữ tự nhiên.Một hệ thống truy tìm
thơng tin tốt nhất là có thể tìm đến những văn bản có lien quan một cách chính xác
và phù hợp với mối quan tâm chung.Tuy nhiên , việc lấy được các thông tin trong
văn bản được yêu cầu để giải quyết vấn đề nào đó địi hỏi rất nhiều thời gian.Vì thế
hệ thống FASTUS (viết tắt là Finite State Automata-based Text Understanding
System)được phát triển để giải quyết vấn các u cầu cho một hệ thống rút trích
thơng tin từ một cấu trúc được định nghĩa từ một văn bản với tốc độ cao và chính
xác. Hệ thống này đã được thử nghiệm tại MUC-4 đánh giá hệ thống xử lý văn
bản [SundHeim, 1992] và đã được chứng minh:
• Hiệu suất cao (44% Recall và chính xác 55% thử nghiệm trên 100 văn bản)
• Thời gian phát triển mơ hình ngắn (3 đến 5 ngày cho việc xử lý sự cố).
• Thời gian xử lý nhanh (văn bản được xử lý với tốc độ hơn 2000 từ /1 phút).
Hệ thống FASTUS bao gồm 4 bước :
-
Triggering
-
Recognizing Phrases
-
Recognizing Patterns
-
Merging Incidents.
1.2.
Triggering :
Trong 1 câu , những từ kích hoạt (triggers) sẽ được xác định . Trong 1 mơ hình
được định nghĩa có ít nhất 1 từ trigger.Nhìn chung , đây là những từ có mặt thường
xun trong 1 mơ hình.Ví dụ, trong mơ hình :
take <HumanTarget> hostage
“hostage" rather than “take" là từ trigger. Hiện tại có 253 từ trigger.
Trang 19
Rút trích thơng tin từ kết quả phân tích cú pháp 2011
Ngoài ra tên người được xác định trong các câu trước , thì trong phần cịn lại của
văn bản , những từ này xem như là những từ trigger . Điều này còn cho phép chúng
ta nhận ra ngành nghề của những nạn nhân trong những câu khác.
Ví dụ 5 :
- Hector Oqueli and Gilda Flores were assassinated yesterday.
- Gilda Flores was a member of the Democratic .Socialist Party (PSD) of
Guatemala.
Cuối cùng , qua phần này , tên đầy đủ được tìm kiếm để sau đó tham chiếu đến tên
họ được liên kết đến tên đầy đủ tương ứng. Như vậy , nếu một câu đề cập tới
"Ricardo Alfonso Castellar" nhưng khơng đề cập đến vụ bắt cóc của anh ta , trong
khi đó câu kế tiếp đề cập đến vụ bắt cóc nhưng chỉ sử dụng tên họ của người đàn
ơng đó, chúng ta có thể nhập tên đầy đủ của “Castellar” vào mẫu.Nhìn chung,việc
thực hiện FASTUS trên các mẫu tin là để minh họa về hiệu suất thực hiện của
phương pháp này .Trong mẫu tin đó , 21 trên 30 câu được kích hoạt . 13 trên 21 câu
có liên quan . 2 trên 9 câu khơng kích hoạt thực sự có liên quan.
1.3.
Noun phrase chunking(nhận diện các cụm từ)
Vấn đề của nhập nhằn cú pháp là AI(Artificial Intelligence).Đó là , ta khơng có
những hệ thống phân tích cú pháp câu tiếng anh chính xác, cho đến khi chúng ta mã
hóa được nhiều tri thức trong thế giới thực mà con người mang đến bằng ngôn ngữ
hiểu được.Ví dụ , cụm danh từ khơng thể xác định một cách tin cậy là do việc đính
kèm của cụm giới từ.Tuy nhiên cấu trúc cú pháp có thể được xác định một cách tin
cậy.Một trong số này là nhóm danh từ, có nghĩa là , danh từ đứng đầu của một cụm
danh từ cùng với nó là các determiners , và bên trái các modifiers khác.Một điều
khác là những gì ta gọi là “nhóm động từ”, có nghĩa là , động từ kèm theo là các trợ
động từ và với bất cứ trạng từ nào xen vào .Hơn nữa ,việc phân tích cú pháp để xác
định các yếu tố này cho chúng ta những thứ cần thiết trong việc nhận diện các mẫu
được quan tâm một cách chính xác.FASTUS xác định nhóm danh từ , động từ , bao
gồm cả giới từ , đại từ quan hệ , và những từ “ago” and “that”. Các cụm từ được
Trang 20
Rút trích thơng tin từ kết quả phân tích cú pháp 2011
gộp bởi cụm lớn hơn thì bị loại bỏ. Hiếm có những cụm từ trùng nhau , nhưng khi
chúng xuất hiện thì được giữ lại.Việc lựa chọn các cụm từ được gộp dài nhất có thể
dẫn đến việc phân tích thiếu chính xác trong một vài trường hợp liên quan đến sự
nhập nhằn giữa danh từ và động từ.Các hình thức thì hiện tại của những động từ
cũng giống như các danh từ tương ứng.Vì vậy một cụm danh từ có thể được xây
dựng bằng cách lấy những động từ chưa được xác định và đưa lên đầu.Vấn đề nhập
nhằn này được giải quyết đơn giản bằng phương pháp thiết lập độ ưu tiên thấp hơn
đến bất kỳ thành phần nào có động từ ở thì hiện tại.Vì nguồn văn bản cho việc này
là các bài báo về các sự kiện trong quá khứ , việc sử dụng cụm động từ ở thì hiện
tại trong câu liên quan là khá hiếm.
Thông tin từ vựng được đọc lúc biên dịch ,và một bảng băm những từ kết hợp với
sự biến đổi một số trạng thái được xây dựng.Có một danh sách bảng băm cho một
hình thức biến thể của từ.Bộ từ vựng TACICUS 20.000 từ dùng để xác định thông
tin từ vựng.Hình thái mở rộng các từ này dẫn đến 43.000 hình thái biến thể trong
bảng băm.Trong quá trình chạy ứng dụng hệ thống trên các văn bản, chỉ có việc
chuyển đổi các trạng thái được truy cập thông qua bảng băm là được nhìn thấy.
Trong mẫu tin , có 243 trên 252 cụm từ (96,4%) được xem là chính xác.Trong số 9
lỗi , 5 lỗi là do những danh từ không xác định được là động từ hay là động từ như
danh từ. 4 lỗi còn lại là những lỗi đơn giản thường thấy về code trong thời gian
phát triển.
1.4.
Recognizing Patterns(nhận dạng mơ hình)
Các đầu vào của FASTUS là danh sách các cụm từ theo thứ tự xuất hiện.Bất kỳ
thứ gì khơng bao gồm trong một cụm từ ở mệnh đề thứ 2 thì được bỏ qua trong
phần 3.Mơ hình quan tâm được mã hóa tại nơi mà việc chuyển đổi trạng thái được
thực hiện bằng cụm từ. Việc chuyển đổi trạng thái được hướng ra khỏi những từ
đầu tiên trong cụm từ.Đó là 1 thiết lập của việc chuyển đổi trạng thái được kết hợp
với mỗi cặp cụm từ đầu tiên có liên quan, chẳng hạn “mayor-NounGroup”,
“kidnapped- PassiveVerbGroup”, “killing-NounGroup”, and “killing-
Trang 21
Rút trích thơng tin từ kết quả phân tích cú pháp 2011
GerundVerbGroup”.Ngồi ra , một số từ khơng ở đầu có thể kích hoạt trạng thái
chuyển đổi.
Ví dụ 6: “bomb blast” được xem là một vụ đánh bom.
Chúng tôi thực hiện 95 mơ hình cho các ứng dụng-4 MUC. Trong số các mẫu thì
những người sau đây có liên quan đến mẫu tin.
Ví dụ 7:
killingof <HumanTarget>
<GovtO> accused <PerpOrg>
bombwasplacedby <Perp>
on <PhysicalTarget>
<Perp> attacked <HumanTarget>s
<PhysicalTarget> with <Device>
<HumanTarget> wasinjured
<HumanTarget>sbody
Khi mơ hình được cơng nhận , sự cố của các cấu trúc được xây dựng lên.
Ví dụ 8:
-Guerrilla sattacked Merino’s home in San Salvador 5 days ago with explosives.
Phù hợp với mơ hình :
<Perp> attacked <HumanTarget>s
<PhysicalTarget> in <Location>
<Date> with <Device>
Đây là nguyên nhân tạo ra sự cố trên.
Incident:ATTACK/BOMBING
Date:14Apr89
Location:ElSalvador:SanSalvador
Instr:\explosives"
Trang 22
Rút trích thơng tin từ kết quả phân tích cú pháp 2011
Perp:\guerrillas"
PTarg:\Merinoshome"
HTarg:\Merino"
Các loại sự kiện là một cuộc tấn công hoặc bị đánh bom, tùy thuộcvào thiết bị này.
Hướng giải quyết bằng cách sắp xếp đơn giản đại từ được thực hiện bởi FASTUS.
Nếu (và chỉ nếu) đại từ một xuất hiện như một con người.Mục tiêu, tiền
đề một là tìm kiếm.Nhóm danh từ đầu tiên của câu hiện tại được tìm kiếm từ
trái sang phải, lên đến bốn cụm từ trước đại từ.Tiếp theo, những câu trước đó được
tìm kiếm tương tự đối với một nhóm danh từ có thể được chấp nhận theo mẫu từ
trái qua phải,câu gần nhất ở đầu tiên.Điều này được tiếp tục cho đến khi gặp đoạn
kết, và nếu sau đó khơng có gì được tìm thấy thì hệ thống sẽ dừng lại.Một nhóm
danh từ là một tiên đề có thể chấp nhận được nếu nó có thể là mục tiêu con người
và đúng với đại từ về số lượng.Thuật toán này áp dụng 100% những trường hợp có
liên quan trong 200 thơng điệp đầu tiên khi phát triển các thiết lập.Tuy nhiên, trong
đó một ứng dụng mẫu tin khơng thành cơng.Ví dụ đó là :
- According to the police and Garcia Alvarado’s driver, who escaped unscathed, the
attorney general was traveling with two bodyguards. One of them was injured.
Thuật tốn xác định khơng chính xác “them” là “the police”.
Merging Incidents(hợp nhất các sự kiện)
1.5.
Khi sự kiện được tìm thấy chúng được kết hợp với các sự cố khác được tìm
thấy trong cùng một câu. Những phần cịn lại ở cuối q trình xử lý của câu này sau
đó được sáp nhập, nếu có thể,thì sự cố được tìm thấy trong câu trước.
Ví dụ 9: trong câu đầu tiên của tin thông điệp 48 của TST2 , các sự cố:
Incident: KILLING
Perp:
–
Trang 23
Rút trích thơng tin từ kết quả phân tích cú pháp 2011
Confid: –
HTarg: “Roberto Garcia Alvarado”
killing of Attorney General Roberto Garcia Alvarado
-
Trong khi sự cố:
Incident: INCIDENT
Perp: FMLN
Confid: Suspected or Accused by Authorities
HTarg:–
-Được tạo ra từ mệnh đề:
Salvadoran President-elect Alfredo Cristiani . . .accused the Farabundo Marti
National Liberation Front (FMLN).
Sáp nhập bị chặn nếu có loại sự cố khơng tương thích, như một vụ bắt cóc và đánh
bom. Nó cũng bị chặn nếu có ngày hoặc địa điểm khơng tương thích.
2. Mơ hình trích chọn quan hệ trên Wikipedia tiếng Việt dựa vào cây phân
tích cú pháp
Trên cơ sở phân tích ưu và nhược điểm của các phương pháp trích chọn quan hệ,
mơ hình lựa chọn phương pháp học có giám sát trích chọn quan hệ dựa trên đặc
trưng để giải quyết bài toán này. Các đặc trưng của quan hệ sẽ được lấy ra dựa trên
cây phân tích cú pháp tiếng Việt, sau đó được đưa vào bộ phân lớp sử dụng thuật
tốn SVM. Hơn nữa, để giảm cơng sức cho giai đoạn xây dựng tập dữ liệu học, các
đặc trưng của dữ liệu trên Wikipedia tiếng Việt đã được sử dụng. Vì vậy, trong
chương này, khóa luận trình bày các đặc trưng của Wikipedia, cây phân tích cú
pháp tiếng Việt và mơ hình đề xuất trích chọn quan hệ trên Wikipedia.
Trang 24
Rút trích thơng tin từ kết quả phân tích cú pháp 2011
2.1.
Đặc trưng của Wikipedia
Wikipedia gọi tắt là Wiki (phát âm như "Uy-ki"; từ tiếng Hawaii wikiwiki, có nghĩa
"nhanh"; cũng được gọi là cơng trình mở), là một loại ứng dụng xây dựng và quản
lý các trang thông tin do nhiều người cùng phát triển được đưa ra vào năm 2001 bởi
Jimmy Wales và Larry Sanger [24]. Wiki được xây dựng theo nguyên tắc phân tán:
Ai cũng có thể chỉnh sửa, thêm mới, bổ sung thông tin lên các trang tin và không
ghi lại dấu ấn là ai đã cung cấp thơng tin đó. Đây được xem là một “Bách khoa toàn
thư” – bộ tra cứu lớn nhất và phổ biến nhất trên Internet hiện nay [23].
Nhờ đặc trưng biểu diễn thông tin rất giàu ngữ nghĩa được thể hiện ở các mẫu định
dạng dữ liệu, các liên kết giữa các thực thể trang Wiki và cách phân mục các trang
Wiki mà Wikipedia trở thành một đối tượng được quan tâm đặc biệt trong lĩnh vực
khai phá dữ liệu và xử lý ngôn ngữ tự nhiên[5, 6, 13, 16, 19, 23].
2.1.1. Thực thể trong Wikipedia
Trên Wiki, một thực thể thường được liên kết tới một trang Wiki mô tả thực thể đó
(đơi khi được gọi là thực thể trang Wiki) theo cách: khi một thực thể được tạo ra
trên wiki, tác giả tạo ra một liên kết giữa thực thể và trang web Wiki mơ tả thực thể
đó, đồng thời, với mỗi thực thể xuất hiện trong trang Wiki này, liên kết tới trang
Wiki mơ tả thực thể đó cũng tạo tạo ra. Đây là một đặc trưng quan trọng của Wiki
cho phép dễ dàng xác định các thực thể. Ví dụ sau được trích ra từ trang “Đại học
Cơng nghệ, Đại học Quốc gia Hà Nội” trên Wiki , bao gồm các liên kết tới thực thể
“Đại học Quốc gia Hà Nội”, “Nguyễn Văn Hiệu”… “Trường Đại học Công nghệ
(tên tiếng Anh: University of Engineering and Technology hay UET) là một trường
đại học thuộc Đại học Quốc gia H à Nội, được Thủ tướng chính phủ quyết định
thành lập ngày 25 tháng 5 năm 2004. Đây là một mô hình đại học hiện đại. GS.
TSKH. Viện sỹ Nguyễn Văn Hiệu là Hiệu trưởng sáng lập trường.”
Trang 25