ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ QUYÊN
XÂY DỰNG HỆ THỐNG TRÍCH CHỌN TÊN RIÊNG
CHO VĂN BẢN TIẾNG VIỆT BẰNG PHƯƠNG PHÁP
HỌC THỐNG KÊ
LUẶN VĂN THẠC SĨ
HÀ NỘI - 2007
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ QUYÊN
XÂY DỰNG HỆ THỐNG TRÍCH CHỌN TÊN RIÊNG
CHO VĂN BẢN TIẾNG VIỆT BẰNG PHƯƠNG PHÁP
HỌC THỐNG KÊ
Ngành: Công nghệ thông tin
Mã số: 10110
LUẶN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. Nguyễn Lê Minh
HÀ NỘI - 2007
1
MỤC LỤC
5
6
7
8
8
8
9
10
12
12
17
22
g 24
25
26
26
26
31
33
34
35
36
40
45
46
II.2.4 47
47
48
50
52
2
52
55
56
58
63
70
71
III.1
71
71
71
71
III.2
72
III.3 72
72
75
III.4
75
76
78
III.5
80
10
80
80
10
81
82
85
. 89
3
MỞ ĐẦU
.
, ,
,
sinh/
,
.
,
.
,
t
t
tional Random Fields (CRF-
Laferty, 2001) perceptron
(M.Collins, 2002).
,
.
.
u:
Chương 1 Tổng quan
Chương 2 Các kiến thức nền tảng về học thống kê
4
.
Chương 3 Xây dựng một hệ trích chọn tên riêng sử dụng học thống kê
5
DANH MỤC TỪ VIẾT TẮT
Tư
̀
hoă
̣
c cu
̣
m tư
̀
Viê
́
t tă
́
t
Conditional Random Field
CRF
HMMs
Information Extraction
IE
Information Retrieval
IR
Nature Language Processing
NLP
Message Understanding
Conferencens
MUC
Part-Of-Speech
POS
Named Entities Recognition
NER
Maximum Entropy Markov Model
MEMM
Supported Vector Machine
SVM
6
DANH MỤC BẢNG BIỂU
Bảng 1: 17
Bảng 2: 74
Bảng 3: 74
Bảng 4: 77
Bảng 5:
-
80
Bảng 6:
-
81
Bảng 7:
t
10
81
Bảng 8:
-
82
Bảng 9:
-
83
Bảng 10:
t
10
83
7
DANH MỤC HÌNH VẼ
Hình 1: 18
Hình 2: 18
Hình 3: 28
Hình 4: 30
Hình 5: 37
Hình 6: 50
Hình 7: 53
Hình 8: 57
Hình 9: -perceptron 59
Hình 10: 64
Hình 11:
72
Hình 12: 78
Hình 13: 80
Hình 14: , Recall, F-measure qua 10
ptron 80
Hình 15: , Recall, F-measure qua 10
82
Hình 16: So s 84
8
Chương I TỔNG QUAN
,
v
I.1 Lược sử về trích chọn thông tin
I.1.1 Tính cần thiết của trích chọn thông tin
.
terabyte
thu th [4]
9
c
. V
I.1.2 IE với ngôn ngữ tự nhiên
10
u
-
.
I.1.3 Một số hệ IE trong thời kỳ đầu
:
. H
tin,
11
l Association
. N
12
I.2 Xây dựng các hệ trích chọn thông tin
I.2.1 Phương pháp xây dựng hệ trích chọn thông tin
: Phương pháp máy tri
thức Phương pháp học tự động.
. V
K
.
. H
. K
K
13
,
14
. D
-
a
15
,
. H
,
h
. S
t
. Gta
-
16
. C
17
Bảng 1: Một số tiêu chí cần xem xét để lựa chọn phương pháp xây dựng
hệ trích chọn thông tin.
Dùng phương pháp máy tri thức khi:
Dùng phương pháp học tự động khi:
bng
theo
C
Hi
I.2.2 Kiến trúc của hệ trích chọn thông tin
g
.
Tokenization
Morphological and
lexical processing
18
Hình 1: Các bước cơ bản trong một hệ trích chọn thông tin.
-
Hình 2: Cụ thể hóa các bước cơ bản của một hệ trích chọn thông tin.
I.2.2.1
Tokenization
Morphological and
lexical processing
Syntactic Analysis
Domain Analysis
Word segmentation
Part-of-speed tagging
Word sense tagging
Full Parsing
Conference
Marging Partical Result
19
, -t
I.2.2.2 )
-
Phân tích hình thái từ (Morphological Analysis)
t
t t
20
Tìm kiếm trong từ điển từ vựng (Lexical Lookup)
, Đồng Tháp Đồng
Tháp là tỉnh thuộc vùng Đồng bằng Sông Cửu LongĐồng Tháp ra sân với
đội hình mạnh nhất. T
I.2.2.3 P
T
I.2.2.4
-
21
result). T
-
I.2.2.5
-:
- Ngôn ngữ sử dụng trong văn bản:
,
- Thể loại:
; c
; c
- Đặc trưng của văn bản:
- Công việc cần thực hiện
,
22
. C
I.3 Phương pháp đánh giá hệ thống
precision
recall :
Precision = correct answers/answers produced
o
P)
Recall = correct answers/total possible correct answers
o
R)
P R
F-F
F =
2
2
( 1) *
()
PR
PR
=1)
Ví dụ:
23
[Gần] [500] [gian hàng] [của] [các] [đơn vị] [tham dự] , [đặc biệt] [hội chợ] [thu
hút] [được] [nhiều] [đại sứ quán] [và] [doanh nghiệp] ( [DN] ) [các] [nước]
[tham gia] [trưng bày] [và] [giới thiệu] [sản phẩm] , [như] : [Bỉ], [Ấn Độ],
[Israel], [Indonesia], [Trung Quốc], [Thái Lan], [Hàn Quốc], [Nhật Bản]
[Gần] [500] [gian hàng] [của] [các] [đơn vị] [tham dự] , [đặc biệt] [hội chợ] [thu
hút] [được] [nhiều] [đại sứ quán] [và] [doanh nghiệp] ( [DN] ) [các] [nước]
[tham gia] [trưng bày] [và] [giới thiệu] [sản phẩm] , [như] : <loc>[Bỉ]</loc>,
<loc>[Ấn Độ]</loc>, <loc>[Israel]</loc>, <loc>[Indonesia]</loc>,
<loc>[Trung Quốc]</loc>, <loc>[Thái Lan]</loc>, <loc>[Hàn Quốc]</loc>,
<loc>[Nhật Bản]</loc>
[Gần] [500] [gian hàng] [của] [các] [đơn vị] [tham dự] , [đặc biệt] [hội chợ] [thu
hút] [được] [nhiều] [đại sứ quán] [và] [doanh nghiệp] ( <org>[DN]</org> )
[các] [nước] [tham gia] [trưng bày] [và] [giới thiệu] [sản phẩm] , [như] :
<loc>[Bỉ]</loc>, <loc>[Ấn Độ]</loc>, <org>[Israel]</org>,
<org>[Indonesia]</org>, <loc>[Trung Quốc]</loc>, <loc>[Thái Lan]</loc>,
<loc>[Hàn Quốc]</loc>, <loc>[Nhật Bản]</loc>
:
67096 ./ P
75086 ./ R
1
710
7506701
75067011
.
) *(
.*.*)(
F