ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
VŨ THỊ LÝ
NGHIÊN CỨU PHƯƠNG PHÁP TRÍCH CHỌN
THÔNG TIN THỜI TIẾT
TỪ VĂN BẢN TIẾNG VIỆT
LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN
Hà nội, 2015
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
VŨ THỊ LÝ
NGHIÊN CỨU PHƯƠNG PHÁP TRÍCH CHỌN
THÔNG TIN THỜI TIẾT
TỪ VĂN BẢN TIẾNG VIỆT
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104
LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. Nguyễn Trí Thành
Hà nội, 2015
Lời cam đoan
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi, được thực hiện dưới sự
hướng dẫn khoa học của Phó Giáo sư, Tiến sĩ Nguyễn Trí Thành.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được công bố trong
bất kỳ công trình nào khác.
Tôi xin chịu trách nhiệm về nghiên cứu của mình
Học viên
Vũ Thị Lý.
i
MỤC LỤC
Lời cam đoan ................................................................................................................i
Danh sách các bảng .................................................................................................... iv
Danh sách hình vẽ........................................................................................................ v
Danh sách các từ viết tắt, kí hiệu, thuật ngữ ................................................................ vi
Chương 1: GIỚI THIỆU ĐỀ TÀI ................................................................................ 1
1.1. Giới thiệu đề tài ................................................................................................. 1
1.2. Ý nghĩa khoa học ............................................................................................... 3
1.3. Ý nghĩa thực tiễn ............................................................................................... 4
1.4. Ứng dụng của đề tài ........................................................................................... 4
Chương 2: BÀI TOÁN TRÍCH CHỌN THÔNG TIN THỜI TIẾT TRONG VĂN BẢN
TIẾNG VIỆT ............................................................................................................... 5
2.1. Mô tả bài toán và ý tưởng giải quyết .................................................................. 5
2.2. Xây dựng mô hình của hệ thống ........................................................................ 8
2.2.1. Thu thập dữ liệu .......................................................................................... 8
2.3.2. Tiền xử lý và gán nhãn dữ liệu................................................................... 10
2.3.3. Lựa chọn và trích chọn đặc trưng............................................................... 14
2.3.4. Trích chọn đặc trưng và xây dựng mô hình ................................................ 15
Chương 3: MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN GIẢI QUYẾT BÀI TOÁN TRÍCH
CHỌN THÔNG TIN TRONG VĂN BẢN................................................................. 17
3.1. Một số nghiên cứu về trích chọn thông tintừ các trang tin ................................ 17
3.2. Phương pháp trích chọn thông tin dựa biểu thức chính quy .............................. 21
3.3. Trích chọn thông tin dựa vào mô hình tuần tự.................................................. 23
3.3.1. Mô hình Markov ẩn ................................................................................... 23
3.3.2. Mô hình Maximum Entropy Markov ......................................................... 25
3.3.3. Trường ngẫu nhiên có điều kiện ................................................................ 27
3.4. Nhận xét .......................................................................................................... 47
3.5. Tóm tắt chương 2 ............................................................................................ 47
Chương 4: KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ ......................................... 49
4.1 Kết quả thực nghiệm......................................................................................... 49
4.1.1. Thu thập dữ liệu ........................................................................................ 49
4.1.2. Tiền xử lý dữ liệu ...................................................................................... 51
3.1.3. Lựa chọn và trích chọn đặc trưng............................................................... 61
ii
4.1.4. Mô hình và kết quả với tập dữ liệu kiểm thử.............................................. 63
4.2. Đánh giá .......................................................................................................... 65
KẾT LUẬN ............................................................................................................... 70
TÀI LIỆU THAM KHẢO ......................................................................................... 72
Tiếng Việt .............................................................................................................. 72
Tiếng Anh .............................................................................................................. 72
iii
Danh sách các bảng
Bảng 1: Mẫu dữ liệu thông tin trên website.................................................................. 5
Bảng 2: Tập các nhãn từ loại được sử dụng.................................................................. 7
Bảng 3: Bảng các nhãn đối tượng được sử dụng trong hệ thống ................................... 7
Bảng 4: Các mẫu biểu thức chính quy được sử dụng trong hệ thống .......................... 51
Bảng 5: Danh sách các tập nhãn đối tượng................................................................. 61
Bảng 6: So sánh kết quả của mô hình và mong muốn ................................................ 65
Bảng 7: Kết quả của văn bản có độ chính xác thấp..................................................... 68
iv
Danh sách hình vẽ
Hình 1: Mẫu thông tin có cấu trúc ................................................................................ 2
Hình 2: Mẫu thông tin bán cấu trúc .............................................................................. 2
Hình 3: Mẫu thông tin phi cấu trúc .............................................................................. 3
Hình 4: Ví dụ thông tin thời tiết trên trang tin tức ........................................................ 4
Hình 5: Mô hình trích chọn thông tin thời tiết .............................................................. 8
Hình 6: Hỗ trợ gán nhãn từ loại ................................................................................. 12
Hình 7: Hỗ trợ gán nhãn đối tượng ............................................................................ 14
Hình 8: Ví dụ kết quả gán nhãn đối tượng.................................................................. 14
Hình 9: Sự phân hóa cấu trúc của các loại tài liệu ...................................................... 20
Hình 10: So sánh về hiệu suất và kết quả của sử dụng luật (biểu thức chính quy) và
CRF với một số loại thực thể ..................................................................................... 22
Hình 11: Ví dụ một số biểu thức chính quy sử dụng để trích chọn một số loại thực thể
.................................................................................................................................. 22
Hình 12: Các tham số xác suất của một mô hình Markov ẩn ...................................... 24
Hình 13: Tổng quan về các mô hình xác suất: Naïve Bayes (NB), Markov ẩn (HMM),
cực đại entropy (ME), trường ngẫu nhiên có điều kiện (CRF). Các khía cạnh được
minh họa là xác suất chung hay điều kiện, dự đoán lớp đơn hay dự đoán trên dữ liệu
chuỗi. ......................................................................................................................... 27
Hình 14: Mô hình đồ thị có hướng ............................................................................. 30
Hình 15: Bộ phân loại Naïve Bayes ........................................................................... 30
Hình 16: Đồ thị độc lập và đồ thị thành phần cho mô hình Markov ẩn ....................... 31
Hình 17: Bộ phân loại cực đại Entropy ...................................................................... 32
Hình 18: Trường ngẫu nhiên có điều kiện chuỗi tuyến tính ........................................ 33
Hình 19: Một dạng kết hợp của CRF chuỗi tuyến tính. .............................................. 35
Hình 20: Ví dụ một máy trạng thái hữu hạn ngẫu nhiên ............................................. 37
Hình 21: Ví dụ của các cấu trúc của CRF .................................................................. 44
Hình 22: Ví dụ của một CRF cách quãng cho chuỗi x=(2,3,4,5,6) theo công thức… .. 46
Hình 23: Nguồn thông tin [4] ..................................................................................... 49
Hình 24: Lấy thông tin từ internet .............................................................................. 50
Hình 25: Tiền xử lý dữ liệu (1) .................................................................................. 54
Hình 26: Tiền xử lý dữ liệu (2) .................................................................................. 55
v
Danh sách các từ viết tắt, kí hiệu, thuật ngữ
Từ viết tắt
IR
IE
WI
CRF
NER
HMM
MEMM
CMM
SFSA
Ý nghĩa, mô tả
Information Retrieve: Truy vấn thông tin
Information Extract: Trích chọn thông tin
Wrapper Induction:
Condition Random Fields: Trường ngẫu nhiên có điều
kiện
Named Entity Recognition: Nhận dạng thực thể tên
Hidden Markov Model: Mô hình Markov ẩn
Maximum Entropy Markov Model: Mô hình Markov
cực đại Entropy
Conditional Markov Model: Mô hình Markov có điều
kiện
Schochatics Finite State Automaton: Máy trạng thái hữu
hạn ngẫu nhiên
vi
Chú ý
Chương 1: GIỚI THIỆU ĐỀ TÀI
1.1. Giới thiệu đề tài
Thông tin dự báo thời tiết là thông tin quan trọng cần được cập nhật hàng ngày cho
mọi người.Nó ảnh hưởng rất lớn tới cuộc sống và sinh hoạt của người dân, cơ quan và
các tổ chức.Việc dự báo thông tin gần đúng, kịp thời có vai trò vô cùng cần thiết quan
trọng. Đối với cuộc sống hàng ngày, thông tin thời tiết giúp người dân có các chuẩn bị
cần thiết trong đi lại. Đối với các ngành phụ thuộc vào thời tiết như đánh bắt thủy hải
sản, nông nghiệp thì thông tin thời tiết giúp họ có chuẩn bị phù hợp trong quá trình sản
xuất.
Do mức độ quan trọng của thông tin thời tiết, việc nghiên cứu phương pháp để trích
chọn thông tin thời tiết, từ các văn bản, trang tin tức hàng ngày giúp ích cho rất nhiều
người. Phạm vi của luận văn là nghiên cứu phương pháp trích chọn thông tin thời tiết
từ các văn bản, trang tin tức tiếng Việt. Các thông tin thời tiết hiện nay có sẵn ở rất
nhiều trang tin tức tiếng Việt, và được trình bày với nhiều dạng khác nhau [4]. Thông
tin thời tiết có thể ở dạng có cấu trúc (bảng thông tin về lượng mưa, hoặc nhiệt độ ở
các vùng miền trong cùng một thời điểm – Hình 1: Mẫu thông tin có cấu trúc), hoặc
phi cấu trúc (như dạng bản tin tóm tắt, hoặc chi tiết thông tin thời tiết của một vùng
miền tại một thời điểm – Hình 3: Mẫu thông tin phi cấu trúc), hoặc có thể ở dạng bán
cấu trúc (danh sách các thông tin thời tiết chung chung, gồm cả nhiệt độ, độ ẩm, tình
trạng nắng mưa của một số vùng miền – Hình 2: Mẫu thông tin bán cấu trúc). Ngoài
ra, thông tin thời tiết còn có thể được cung cấp không đầy đủ (một số thông tin không
có), hoặc không đồng bộ (các đơn vị đo có thể khác nhau). Do đó, nhiệm vụ trích chọn
thông tin khá phức tạp khi sự hoán đổi của các thuộc tính và lỗi đánh máy xảy ra trong
quá trình đưa tin lên các trang tin.
1
Hình 1: Mẫu thông tin có cấu trúc
Hình 2: Mẫu thông tin bán cấu trúc
2
Hình 3: Mẫu thông tin phi cấu trúc
Mục tiêu của luận văn là xây dựng một hệ thống bán tự động, nhằm lấy thông tin từ
các trang bản tin, và sau đó đưa vào hệ thống xử lý dữ liệu đầu vào, và xây dựng mô
hình để trích chọn các thông tin thời tiết. Từ mô hình đó, các bản tin có thể được đưa
vào và hệ thống sẽ cho ra kết quả liệt kê các đối tượng thời tiết mà chúng ta quan tâm.
1.2. Ý nghĩa khoa học
Việc trích chọn thông tin thời tiết có ý nghĩa lớn về mặt khoa học.Từ các thông tin thời
tiết được chọn lọc bởi mô hình, chúng có thể được dùng để thống kê và lưu trữ lại làm
cơ sở tham khảo về sau.Việc lưu trữ thông tin thời tiết và các thông tin liên quan (thời
gian xảy ra, địa điểm xảy ra các hiện tượng thời tiết), có ích cho việc đánh giá và đưa
ra con số để xem xét thực tế. Ngoài ra, việc lưu trữ các thông tin thời tiết thay vì văn
bản giúp chúng ta giảm thiểu kích thước bản tin cần được lưu trữ. Các thông tin đó có
thể được thể hiện hoặc lưu trữ theo đối tượng, và do đó việc lưu trữ là dễ dàng và có
thể truy cập lại một cách nhanh chóng theo các tiêu chí khác nhau.
Các thông tin sau khi được trích chọn có thể lưu trữ theo dạng đối tượng, với các thuộc
tính khác nhau (đối tượng thông tin lượng mưa có thể gồm địa điểm, thời điểm, số đo
lượng mưa, đơn vị đo) và được lưu trữ dạng cơ sở dữ liệu rất dễ dàng. Khi được lưu
trữ ở dạng phù hợp, việc truy vấn thông tin để thống kê hoặc báo cáo cũng rất nhanh
chóng và tiện lợi. Từ đó giúp các nhà quản lý và hoạch định có cái nhìn tổng quan và
xây dựng biện pháp phòng tránh các thiên tai một cách hiệu quả.
Việc rút ngắn bản tin cũng giúp cho tin nhắn được truyền đi hoặc thông báo vô cùng
tiện lợi. Với kích thước bản tin đầy đủ, người dùng có thể phải mất thời gian để chọn
lọc các thông tin cần thiết, và khó sử dụng khi nhắn tin khi mà điện thoại di động được
3
sử dụng rất phổ biến như hiện tại. Các bản tin ngắn giúp các tổ chức gửi thông tin dễ
dàng và nhanh chóng hơn.
1.3. Ý nghĩa thực tiễn
Các thông tin thời tiết hiện nay được cung cấp miễn phí và rất đa dạng ở các trang tin
tức tiếng việt.Mọi người có thể bắt gặp các thông tin thời tiết được cập nhật ở một góc
nhỏ, do đó nguồn thông tin cho bài toán này là miễn phí và có sẵn.
Hình 4: Ví dụ thông tin thời tiết trên trang tin tức
Với kết quả của hệ thống, thông tin thời tiết có thể được cập nhật nhanh chóng hơn,
tiện lợi hơn cho những người có nhu cầu. Thay vì vào các trang tin và tìm sâu hơn khi
chúng ta quan tâm, hệ thống có thể cung cấp cho người dùng các thông tin cần thiết
một cách tập trung và cụ thể.
1.4. Ứng dụng của đề tài
Từ các thông tin thời tiết được trích chọn, chúng có thể được cung cấp cho người dân
và những người quan tâm một cách kịp thời.Người dân có thể đăng ký nhận tin nhắn
thời tiết mà họ quan tâm.Ví dụ, khi sinh sống ở khu vực nào đó, họ có thể chỉ quan
tâm tới tình hình thời tiết về nơi mà họ sinh sống, hoặc các loại bản tin cảnh báo đặc
biệt. Hệ thống xây dựng trên các thông tin được trích chọn có thể thực hiện việc lọc tin
theo từng loại thuộc tính để cung cấp cho người dùng một cách tự động và ngay khi có
tin tức mà họ cần biết.
Đối với các hệ thống dự báo thời tiết, các thông tin được trích chọn sẽ làm cơ sở để họ
xây dựng thêm, ví dụ như mô hình hóa các thông tin lên bản đồ một cách trực quan,
sinh động.Các thông tin thời tiết cung cấp cho hệ thống thông tin địa lý (GIS) sẽ giúp
cho người dùng có cái nhìn tổng quan rất sinh động, và chi tiết.
4
Chương 2: BÀI TOÁN TRÍCH CHỌN THÔNG TIN THỜI TIẾT
TRONG VĂN BẢN TIẾNG VIỆT
2.1. Mô tả bài toán và ý tưởng giải quyết
Bài toán trích chọn thông tin thời tiết cũng như nhiều bài toán trích chọn thông tin
khác, gồm các bước chính: thu thập dữ liệu từ các trang tin, xử lý dữ liệu để tăng hiệu
suất của hệ thống trích chọn thông tin, xây dựng mô hình để trích chọn thông tin một
cách bán tự động, và cuối cùng là kiểm nghiệm và đánh giá mô hình.
Phần trích chọn đặc trưng và xây dựng mô hình trong luận văn này sẽ được thực hiện
theo mô hình CRF. Chương 3 sẽ đi giới thiệu các cách tiếp cận trong bài toán trích
chọn thông tin và lý do tại sao hệ thống tiến hành thực nghiệm trên mô hình này, do
những ưu điểm về mặt cơ sở lý thuyết so với các mô hình còn lại. Mặc dù với thông tin
dữ liệu cụ thể trong bài toán này có thể đạt được bằng một trong các cách còn lại,
nhưng về mặt tổng quan thì sẽ cần phải kiểm nghiệm một cách rộng rãi hơn trước khi
quyết định áp dụng và ứng dụng kết quả trong ứng dụng thực tế.
Bước thu thập dữ liệu từ các trang tin được thực hiện bởi các công cụ đã rất tiện lợi và
chia sẻ rộng rãi ngày nay [4, 23]. Việc thu thập thông tin được tiến hành với sự hỗ trợ
của nguồn mở và cần người dùng can thiệp để loại bỏ các thông tin hoặc các trang tin
không liên quan, không cần thiết.
Sau đó, nguồn thông tin phải được xử lý làm sạch, với đầy đủ các bước của tiền xử lý
dữ liệu trong khai phá dữ liệu, gồm làm sạch dữ liệu
Bảng 1: Mẫu dữ liệu thông tin trên website
I.BẢNG 1: SỐ LIỆU MỰC NƯỚC VÀ LƯU LƯỢNG TRÊN CÁC SÔNG CHÍNH Ở
TRUNG, NAM BỘ VÀ TÂY NGUYÊN
Sông
Trạm
Yếu tố đo
Thực đo
tuần
Mã
Cả
Tả
Trạch
Thu Bồn
Trà
Khúc
Kôn
Ba
Cái N.T
ĐăkBla
Srêpôk
Tiền
Lý Nhân
Yên Thượng
Thượng Nhật
H
Q
Q
245 <145cm
45.2 <69%
2.7 <37%
255 <140cm
55 <67%
2.5 <47%
Nông Sơn
Trà Khúc
Q
H
145 >93%
93 <60cm
130 >75%
90 <66cm
Bình Tường
Củng Sơn
Đồng Trăng
KonTum
Bản Đôn
Tân Châu
Q
Q
Q
Q
Q
Hmax
47.2
4.5
18.7
59
133
44
4.2
19
63
125
5
So sánh
TBNN
<5%
<83%
<46%
<25%
>21cm
Dự
báo
So sánh với
TBNN
<8%
<83%
<47%
<28%
>31cm
Hmin
Hmax
Hmin
-3 >6cm
146 >54cm
-6 >10cm
Hậu
Châu Đốc
Ghi
chú:
Yếu tố đo: H: mực nước (cm), Q: Lưu lượng ( m3/s)
-5 <2cm
135 >38cm
-12 >2cm
Hmax: mực nước cao nhất tuần
Hmin: mực nước thấp nhất tuần
Dữ liệu được thu thập không hoàn chỉnh (ví dụ trong bảng 1, dữ liệu cho sông Kôn bị
thiếu), nhiễu (có lỗi, hoặc các giá trị ngoại lai mà không như mong đợi), và không
thống nhất (ví dụ: giá trị cột so sánh có 2 loại đơn vị khác nhau, và chỉ số cho cùng
loại đơn vị đó cũng khác nhau). Dữ liệu không hoàn chỉnh, nhiễu, và không thống nhất
là các thuộc tính phổ biến của các cơ sở dữ liệu và kho dữ liệu lớn, và thực tế. Dữ liệu
không hoàn chỉnh có thể xảy ra vì một số lý do. Thuộc tính mà chúng ta quan tâm có
thể không phải lúc nào cũng sẵn có, như thông tin về sông Kôn.Dữ liệu liên quan có
thể không được ghi lại vì hiểu lầm, hoặc bởi vì lỗi của thiết bị.
Các bộ dữ liệu trùng lặp cũng cần phải được làm sạch.Các thủ tục làm sạch dữ liệu
thực hiện việc làm sạch bằng cách điền các giá trị thiếu, làm trơn dữ liệu nhiễu, nhận
dạng và loại bỏ các giá trị ngoại lai, và giải quyết sự không thống nhất.Dữ liệu không
sạch có thể gây nhầm lẫn cho quá trình khai phá.Mặc dù hầu hết các thủ tục khai phá
dữ liệu có một vài bước để giải quyết với dữ liệu không hoàn chỉnh hoặc nhiễu, nhưng
chúng không đủ mạnh.Vì vậy, một bước tiền xử lý dữ liệu hữu ích là để lọc dữ liệu
qua các thủ tục làm sạch dữ liệu.
Các giá trị bị thiếu: Nếu biết trước được có nhiều bộ mà thiếu các giá trị cho một vài
thuộc tính, thì các giá trị bị thiếu có thể được điền lại bởi nhiều phương pháp khác
nhau như được mô tả như sau
1) Loại bỏ thông tin: Thường sử dụng phương pháp này khi nhãn cho lớp đó bị
thiếu (giả sử nhiệm vụ khai phá bao gồm cả việc phân loại hoặc mô tả). Cách
này không hiệu quả, trừ khi bộ đó có một vài thuộc tính có giá trị bị thiếu. Đặc
biệt khi tỉ lệ giá trị thiếu cho mỗi thuộc tính chiếm một phần đáng kể.
2) Điền giá trị còn thiếu bằng tay: Nói chung, phương pháp tiếp cận này tốn thời
gian và không khả thi trong trường hợp tập dữ liệu lớn với nhiều giá trị bị thiếu
3) Sử dụng biến toàn cục để điền vào giá trị thiếu: Thay thế toàn bộ giá trị thiếu
bằng một hằng số giống nhau, như nhãn “Không biết” hoặc “-∞”. Nếu giá trị
được thay thế là “Không biết”, chương trình khai phá có thể nghĩ sai rằng
chúng tạo ra khái niệm thú vị, đáng quan tâm, vì tất cả chúng đều có 1 giá trị
chung là “Không biết”. Vì vậy, mặc dù phương pháp này đơn giản, nó không
được khuyến nghị nên dùng.
4) Sử dụng trung bình thuộc tính để điền vào giá trị còn thiếu
5) Sử dụng trung bình thuộc tính cho tất cả các mẫu thuộc về cùng một lớp như
các bản ghi hiện có
6
6) Sử dụng giá trị có khả năng nhất để điền vào giá trị bị thiếu.
Trong hệ thống được xây dựng bởi phạm vi luận văn này, thông tin bị thiếu như bảng
trên là ít, do vậy chúng sẽ được bỏ qua.
Tách từ và gán nhãn dữ liệu, được thực hiện bằng tay và có sự hỗ trợ của công cụ giúp
cho người huấn luyện quyết định được dễ dàng hơn. Quá trình gán nhãn và tách từ
được chia thành 2 bước: tách từ và gán nhãn từ loại, và sau đó gán nhãn đối tượng.
Các từ loại thì sẽ được phân chia với các loại từ cơ bản như bảng sau
Bảng 2: Tập các nhãn từ loại được sử dụng
Nhãn
từ loại
NN
Giải thích
Ví dụ
Danh từ thường
NC
NP
Danh từ chỉ loại
Danh từ riêng
VB
JJ
PP
D
AD
IN
CC
UH
RB
X
Symbols
Động từ
Tính từ
Đại từ
Định từ và số từ
Phụ từ
Giới từ
Liên từ
Thán từ
Trợ từ
Thì ra, những, mà, …
Các từ không phân loại
BĐ1, KKL, …
Các kí tự đặc biệt như: >, <, ‘,’,
‘:’
Cơn bão, gió, không khí, ngày,
11/05/2015, …
Mùa, cơn, đợt, miền, khu,…
T.P Hồ Chí Minh, Hà Nội, Đà Nẵng, El
Nino, ….
Có, có thể, nên, là, làm, theo dõi,…
Mạnh, yếu, lạnh, ít, nhiều
Đây, nay, bây giờ
Một, vài, hai,….
Đã, đang, cũng, vẫn, thường, …
Do, vì, ở, cùng, với
Và, cùng, còn, thì
Bảng các nhãn đối tượng được quan tâm gồm có
Bảng 3: Bảng các nhãn đối tượng được sử dụng trong hệ thống
Nhãn đối tượng
Ví dụ
Thứ Năm, 22/01/2015, 23:17
10km, 1000km, 12km
180mm, 11,5m
(m 3 /s), (m3/s)
29,94m, 0,8m
DATETIME
LENGTH
RAINFALL_MEA
FLOWSPEED
WATER_LEVEL
7
LOCATION
WEATHER
Đà Nẵng, Bắc Bộ, Lai Châu
mưa bão, nhiệt đới, áp thấp nhiệt đới,
không khí lạnh
Lượng mưa
86%, 91%
m/s, 10km
19°C, 1,5oC, 41 0 C, 39
RAINFALL
HUMIDITY_PERCENTAGE
WINDSPEED
TEMPERATURE
Website/Internet
Thu thập dữ liệu
Tiền xử lý
Lựa chọn thuộc tính
đặc trưng
Trích chọn đặc trưng và
Xây dựng mô hình
Kết quả và đánh giá
Hình 5: Mô hình trích chọn thông tin thời tiết
2.2. Xây dựng mô hình của hệ thống
2.2.1. Thu thập dữ liệu
Nguồn thông tin cho bài toán có thể là các trang tin về thời tiết. Tuy nhiên, trong phạm
vi luận văn, nguồn thông tin chủ yếu được lấy từ trang thông tin của Trung tâm dự báo
khí tượng thủy văn trung ương [4].
Website của trung tâm dự báo thời tiết được trình bày thành các phần gồm có menu
chính, khung chuyển trang (thanh các mục lục ở bên trái), chính giữa là các thông tin
chi tiết về các bản tin, và các liên kết ở cuối trang. Thông tin trong trang tin được trình
bày chủ yếu ở dạng văn bản tiếng việt, minh họa bằng hình vẽ.Một số thông tin được
trình bày ở dạng bảng hoặc danh sách.
8
Trong quá trình thu thập dữ liệu, các thông tin về hình ảnh và thẻ html sẽ được loại bỏ.
Thông tin lấy về sẽ được lưu trữ ở file mở rộng là html nhưng nội dung sẽ là các câu tiếng
Việt hoặc tiếng Anh. Ngoài ra, các định dạng về xuống dòng, các phần khác nhau, đường
kẻ, độ đậm nhạt hoặc các mục lục được in đậm cũng sẽ không còn thông tin.
Ví dụ một phần của trang thông tin được lấy về như sau:
/Web/vi-VN/74/18/68/30/3/0/qa/Default.aspx TRUNG TÂM DỰ BÁO KHÍ
TƯỢNG THỦY VĂN TRUNG ƯƠNG Thứ Sáu, 30/01/2015, 21:54 (GMT+7) Thư
nội bộ | Văn bản pháp quy | Liên kết website | Diễn đàn | ENGLISH Trang chủ
Giới Thiệu Sơ đồ tổ chức Chức năng nhiệm vụ Tin tức - Sự kiện Khí tượng Thời
tiết đất liền 24H Thời tiết biển 24H Biểu tượng Thời tiết Dư báo 10 ngày Dự báo
tháng Dự báo mùa Thời tiết nguy hiểm Bão - Áp thấp nhiệt đới Không khí lạnh
Nắng nóng Khu vực Hà Nội Khu vực Trung Trung Bộ Thời tiết nguy hiểm trên
biển Thuỷ Văn Dự báo hạn ngắn Hệ thống sông Bắc Bộ Hệ thống sông Trung và
Nam Bộ Dự báo hạn vừa Hệ thống sông Bắc Bộ Hệ thống sông Trung và Nam Bộ
Dự báo tháng Hệ thống sông Bắc Bộ Hệ thống sông Trung và Nam Bộ Dự báo mùa
Hệ thống sông Bắc Bộ Hệ thống sông Trung và Nam Bộ Dự báo mô hình Hệ thống
sông Bắc Bộ Hệ thống sông Trung và Nam Bộ Thủy văn biển Dự báo sóng Nước
dâng do bão Thủy triều Dự báo dòng chảy Bản tin cảnh báo Thủy văn đặc biệt Tin
Lũ Hệ thống sông Bắc Bộ Hệ thống sông Trung và Nam Bộ Thông báo Cạn Hệ
thống sông Bắc Bộ Hệ thống sông Trung và Nam Bộ T.B Xả nước chống hạn Hệ
thống sông Bắc Bộ Hệ thống sông Trung và Nam Bộ Phổ biến kiến thức KTTV
Bão & ATNĐ Mưa lớn Mưa đá Dông Tố, lốc, vòi rồng Sương mù Sương muối Gió
khô nóng Gió mùa, không khí lạnh Lũ lớn Lũ quét, sạt lở đất Hạn hán Các kỷ lục về
KTTV Thế giới Khí tượng Thủy văn Việt Nam Khí tượng Thủy văn Hỏi đáp về
KTTV Khí tượng Thủy văn Nghiên cứu khoa học Dự án Đề tài Tổng kết tình hình
KTTV Thời tiết hiện tại : Đà Nẵng 22°C Hải Phòng 17°C Nha Trang 25°C Pleiku
19°C Sơn La 22°C T.P Hồ Chí Minh 25°C Hà Nội 17°C Việt Trì 17°C Vinh 21°C
Cập nhật lúc: : 19h - 30/01/2015 Ảnh Radar Ảnh Vệ tinh Sản phẩm mô hình Bản đồ
thủy văn Liên kết -- Liên kết -- Bộ tài nguyên và môi trường Trung tâm khí tượng
thủy văn quốc gia Trang dự báo của Cơ quan Khí tượng Nhật bản Trang dự báo của
Cơ quan Khí tượng Hồng Kông Trang dự báo của Hải Quân Mỹ Sim so dep Tin tuc
Tin nhanh Doc bao sim so dep Sản phẩm mô hình dự báo Dự báo hạn ngắn Dự báo
hạn vừa Dự báo tháng Dự báo mùa
Có thể thấy thông tin ở các phần đã bị trộn lẫn với nhau.Phần đường liên kết tới các
trang, hình ảnh sẽ không được lưu lại.
Thông tin giữa các phần không được phân biệt rõ ràng nên việc tách các thông tin
không liên quan cần có xử lý cẩn thận và tùy từng trường hợp.
9
2.3.2. Tiền xử lý và gán nhãn dữ liệu
2.3.2.1 Loại bỏ các thông tin không liên quan
Trong các bản tin tiếng Việt từ internet, có thể thấy có rất nhiều thông tin không liên
quan chứa trong các bản tin này.Để loại bỏ những thông tin không liên quan, hệ thống
sẽ sử dụng các biểu thức chính quy để chỉ lọc các thông tin về thời tiết – đối tượng
chính mà hệ thống quan tâm.Một số tệp tin không chứa các thông tin thời tiết liên
quan, hoặc các trang thông tin tiếng Anh, cũng sẽ được loại bỏ.Việc kiểm tra trước khi
loại bỏ được thực hiện bằng sự hỗ trợ của công cụ hệ thống, và có thể cần sự kiểm tra
lại của người quản lý/người dùng của hệ thống.
Việc sử dụng biểu thức chính quy sẽ làm nổi bật các thông tin thời tiết, và cùng với sự
giám sát của người dùng, sẽ loại bỏ các thông tin không liên quan để lưu các thông tin
còn lại vào để xử lý bước tiếp theo.Tuy nhiên, các biểu thức chính quy đôi khi không
thể lọc hết các thông tin đó, do vậy người dùng cũng phải xem xét và cập nhật lại các
biểu thức, luật để sử dụng cho các lần sau.
Tại bước này, người huấn luyện hệ thống cũng phải xử lý các thông tin trùng lặp ở các
bản tin.Đôi khi, do quá trình lấy dữ liệu không thể so sánh và lọc hết dữ liệu, nên
người huấn luyện hệ thống phải kiểm tra xem dữ liệu được cập nhật ở các thời điểm
giống nhau cũng cần được loại bỏ.
Sau bước 1 này, chúng ta sẽ có danh sách các tập tin được đánh số duy nhất, và chứa
nội dung là các bản tin về thời tiết, loại bỏ các bản tin trùng lặp (tuy nhiên, các bản tin
khác nhau vẫn có thể còn trùng nhau, sẽ được tiếp tục xem xét và xử lý ở bước tiếp
theo).
2.3.2.2 Tách từ và làm sạch dữ liệu
Đầu vào của bước này, là tập tin các bản tin tiếng Việt về thời tiết và xử lý ban đầu.
Tuy nhiên, trong quá trình gán nhãn và xem xét, tại bước này, người huấn luyện vẫn
cần phải xử lý các thông tin sau
Định dạng của dữ liệu bị sai khác, lỗi của người đưa tin trong quá trình đánh máy
thông tin, hoặc do nguồn cung cấp thông tin không chính xác, không hỗ trợ.
Thông tin bị thiếu, ví dụ các thông tin không có sẵn tại thời điểm đó, hoặc không thể
xác định được chính xác.Nếu lượng thông tin này ít và không có cơ sở dữ liệu để khôi
phục thì phải chấp nhận trường hợp không có dữ liệu (để trống trong trường hợp này).
Ngoài ra, nếu các thông tin bị thiếu mà có khả năng khôi phục lại được (theo kinh
nghiệm của người sử dụng, hoặc do các thông tin hỗ trợ là đáng tin cậy) thì chúng có
thể được điền vào giá trị mà đáng tin nhất. Ví dụ, nếu thông tin nhiệt độ mà thiếu đơn
vị đo, thì người quản lý có thể dựa vào mà điển độ C hoặc độ F, hoặc giá trị trong dải
cho phép.
10
Công việc tách từ được thực hiện bằng tay sẽ mất rất nhiều thời gian, do đó hệ thống
có sử dụng từ điển có sẵn, sau đó sẽ tìm các từ xuất hiện trong cơ sở dữ liệu, do đó sẽ
tách giúp người dùng và phần quyết định sẽ do người duy trì hệ thống đánh giá và
chọn lựa giá trị phù hợp nhất [3]. Sau khi dữ liệu được gán nhãn xong, hệ thống có
chức năng cập nhật lại các từ được tách và từ loại tương ứng.Nếu từ đã tồn tại trong cơ
sở dữ liệu rồi, thì xác suất xuất xuất hiện của từ đó trong từ điển sẽ tăng lên, ngược lại
thì sẽ thêm một mục trong từ điển và khởi tạo tần suất xuất hiện là 1. Ví dụ một phần
trong từ điển tách từ và từ loại tương ứng như sau
sáng NN:1
nhỏ JJ:1
vài D:2
hửng VB:1
đông_bắc NN:5
cấp NN:13
Tỉnh NC:2
Ngày NN:2
bắc NN:2
tây_bắc NN:2
rải_rác JJ:1
rải_rác NN:1
tại IN:1
phía_nam NN:2
Phía_bắc NN:1
phía_bắc NN:1
Ngoài ra, việc tách từ hoặc tách câu cũng cần phải dựa vào sự đánh giá của người quản
lý hệ thống. Do quá trình thu thập dữ liệu, loại bỏ các thông tin không liên quan có thể
làm mất định dạng hoặc khó phân biệt câu, đoạn liên kết với nhau, nên quá trình này
cần sự xem xét cẩn thận, hoặc đôi khi phải đối chiếu lại bản gốc từ bước thu thập. Do
đó, quá trình tách từ và xem xét nội dung mất thời gian và công sức của người xây
dựng, huấn luyện mô hình.
Công việc tách từ đôi khi cũng không thống nhất bởi chính người sử dụng hệ thống. Ví
dụ, “mùa đông”, “phía đông” có thể được coi như là một từ, hoặc tách riêng thành 2
mục khác nhau là “mùa”/“phía”, “đông”. Để đảm bảo và nâng cao độ chính xác của
mô hình, quá trình tách từ nên có sự hỗ trợ của công cụ hoặc cần một người hiểu biết
về ngôn ngữ tốt, và có sự thống nhất trong quá trình xây dựng mô hình.
11
2.3.2.3 Gán nhãn dữ liệu
Gán nhãn từ loại cho các từ
Việc gán nhãn từ loại và nhãn đối tượng được thực hiện chủ yếu bằng tay, và có sự hỗ
trợ một phần từ hệ thống.Với các từ trong từ điển [3], hệ thống sẽ giúp liệt kê các từ
loại cùng với tần suât để người dùng đánh giá. Ngoài ra, các từ chưa tồn tại sẽ được
gán nhãn đơn giản bằng cách thực hiện gán nhãn nhờ context menu như minh họa:
Hình 6: Hỗ trợ gán nhãn từ loại
Gán nhãn đối tượng
Việc gán nhãn đối tượng cũng được xem xét đánh giá bởi người dùng, quản lý hệ
thống. Với các nhãn đối tượng, hệ thống giúp đánh giá bằng cách sử dụng luật:
-Nếu các mục từ có dạng mẫu nhiệt độ, hệ thống sẽ gán nhãn S_TEMPERATURE cho
mục thông tin đó
-Các mục có từ loại là NP thì sẽ được gán nhãn là S_LOCATION, tuy nhiên có một
vài điểm vẫn còn cần phải xem xét và kiểm tra lại, ví dụ nếu có 2 đến 3 mục liên tiếp
có từ loại là NP, thì lúc đó chúng nên được ghép thành một đối tượng LOCATION
duy nhất, khi đó thứ tự của chúng nên là
12
<mục từ 1>//NP//B_LOCATION
<mục từ 2>//NP//M_LOCATION
<mục từ 3>//NP//E_LOCATION
(Giả sử có 3 mục từ liên tiếp, hệ thống sẽ trợ giúp bằng cách gán nhãn đối tượng của
chúng như sau:
<mục từ 1>//NP//S_LOCATION
<mục từ 2>//NP//S_LOCATION
<mục từ 3>//NP//S_LOCATION
)
Với trường hợp các từ đơn thì việc gán nhãn đối tượng có tiền tố S_<tên nhãn>, có
nghĩa là bản thân từ đó là một đối tượng được xem xét. Ngoài ra, nếu một số từ ghép
với nhau mới tạo thành một đối tượng cần xem xét, quan tâm thì khi đó cách gán từ
loại cho đối tượng được thực hiện như sau
-Từ bắt đầu của đối tượng có tiền tố là B_<tên nhãn>
-Từ kết thúc của đối tượng có tiền tố là E_<tên nhãn>
-Các từ ở vị trí giữa, sẽ có tiền tố là M_<tên nhãn>
Một đối tượng gồm nhiều thành phần được gán nhãn có thể không có thành phần nhãn
M_<tên nhãn> hoặc có nhiều hơn 1 thành phần được gán nhãn M_<tên nhãn>.
Với các từ không được trợ giúp, người dùng cũng có thể thực hiện đơn giản bằng cách
sử dụng menu trợ giúp như hình minh họa:
13
Hình 7: Hỗ trợ gán nhãn đối tượng
Sau đó, từ sẽ được cập nhật nhãn đối tượng
Hình 8: Ví dụ kết quả gán nhãn đối tượng
2.3.3. Lựa chọn và trích chọn đặc trưng
Do sử dụng chương trình mã nguồn mở CRFSharp [23], chương trình sẽ sử dụng một
mẫu file để tạo ra tập các đặc trưng từ dữ liệu huấn luyện và kiểm thử. Trong đó mỗi
dòng trong file mẫu sẽ gồm tiền tố, định danh và xâu mô tả luật. Xâu mô tả luật chính
14
là hướng dẫn để CRFSharp sử dụng để tạo ra các đặc trưng cho mô hình.Mẫu đặc
trưng đơn giản nhất là
{“%x[row,col]”}
Dòng là offset giữa token đang được xem xét hiện tại và token đặc trưng được xem xét
ở dòng đó. Các đặc trưng kết hợp cũng được hỗ trợ, ví dụ {“%x[row1, col1]/%x[row2,
col2]”}.
Tập các luật trong file mẫu được sử dụng trong chương trình:
# Unigram
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[-1,0]/%x[0,0]
U05:%x[0,0]/%x[1,0]
U06:%x[-1,0]/%x[1,0]
U07:%x[-1,1]
U08:%x[0,1]
U09:%x[1,1]
U10:%x[-1,1]/%x[0,1]
U11:%x[0,1]/%x[1,1]
U12:%x[-1,1]/%x[1,1]
U13:C%x[-1,0]/%x[-1,1]
U14:C%x[0,0]/%x[0,1]
U15:C%x[1,0]/%x[1,1]
# Bigram
B
2.3.4. Trích chọn đặc trưng và xây dựng mô hình
Mô hình được xây dựng với tập dữ liệu được lựa chọn và chuẩn bị từ bước trên, và sử
dụng thư viện CRFSharp để xây dựng mô hình. Các lựa chọn về đặc trưng được tuân
theo mẫu trong file mẫu của thư viện.
15
Quá trình xây dựng tập các đặc trưng từ các văn bản sẽ được thực hiện bằng cách xây
dựng mảng dữ liệu, trong đó có bản thân từ trong các văn bản và từ loại tương ứng.Tập
các đặc trưng có dạng
featureSet = {
{0,0} [“TRUNG TÂM”] {0,1} [“NN”]
{0,0} [“DỰ BÁO”]
{0,1} [“VB”]
{0,0} [“KHÍ TƯỢNG”]
{0,1} [“NN”]
{0,0} [“THỦY VĂN”]
{0,1} [“NN”]
…
}
Các tham số để xây dựng mô hình sẽ được sử dụng lại, thừa kế từ thư viện này.
16
Chương 3: MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN GIẢI QUYẾT
BÀI TOÁN TRÍCH CHỌN THÔNG TIN TRONG VĂN BẢN
3.1. Mộtsố nghiên cứu về trích chọn thông tintừ các trang tin
Với sự tăng trưởng bùng nổ và phổ biến của web thì lượng thông tin trên internet ngày
nay đã vô cùng lớn [19]. Tuy nhiên, do sự không đồng nhất và thiếu cấu trúc của các
nguồn thông tin web, việc truy cập tới lượng thông tin khổng lồ này gặp nhiều khó
khăn và giới hạn. Các ứng dụng khai phá web phức tạp, như các robot so sánh giá mua
sắm, yêu cầu sự bảo trì tốn kém để giải quyết các định dạng dữ liệu khác nhau.Để tự
động hóa quá trình chuyển đổi các trang dang dạng dữ liệu có cấu trúc, rất nhiều công
sức được bỏ ra trong lĩnh vực trích chọn thông tin. Không giống như truy vấn thông tin
(IR), chỉ tập trung vào làm sao nhận ra các tài liệu liên quan từ một tập tài liệu có
trước, trích chọn thông tin (IE) tạo ra các dữ liệu có cấu trúc để tiếp tục xử lý, một
nhiệm vụ vô cùng quan trọng cho rất nhiều ứng dụng khai phá dữ liệu và các công cụ
tìm kiếm.
Một nhiệm vụ trích chọn thông tin được định nghĩa bởi các thông tin đầu vào và mục
đích trích chọn. Thông tin đầu vào có thể là văn bản phi cấu trúc được viết bằng ngôn
ngữ tự nhiên, hoặc các tài liệu bán cấu trúc phổ biến trên web như bảng hoặc các danh
sách được đánh mục lục hoặc số. Kết quả trích chọn có thể là một quan hệ/tổ hợp ktuple (trong đó k là số lượng thuộc tính trong một bản ghi), hoặc có thể là đối tượng
phức tạp với dữ liệu được phân cấp hoặc tổ chức.Với một số nhiệm vụ trích chọn, một
thuộc tính có thể không có hoặc nhiều thể hiện trong một bản ghi.Khó khăn của một
nhiệm vụ trích chọn thông tin có thể vô cùng phức tạp khi rất nhiều sự hoán đổi của
các thuộc tính hoặc lỗi đánh máy xảy ra trong tài liệu đầu vào.
Chương trình thực hiện việc trích chọn thông tin thường được gọi là extractor-bộ trích
chọn hoặc wrapper-bộ đóng gói.Khái niệm wrapper được định nghĩa là một thành
phần trong một hệ thống tích hợp thông tin nhằm mục đích cung cấp một giao diện
truy vấn thống nhất truy cập tới nhiều nguồn thông tin khác nhau. Trong một hệ thống
tích hợp thông tin, một bộ đóng gói là một chương trình đóng gói nguồn thông tin sao
cho hệ thống tích hợp thông tin có thể truy cập nguồn thông tin mà không cần thay đổi
cơ chế trả lời truy vấn cốt lõi. Trong trường hợp mà nguồn thông tin là một web
server, một bộ đóng gói phải truy vấn tới web server để thu thập các trang kết quả
thông qua giao thức HTTP, thực hiện trích chọn thông tin để trích ra nội dung trong tài
liệu html, và cuối cùng là tích hợp vào nguồn dữ liệu. Trong đó, thành phần trích chọn
thông tin nhận được mối quan tâm nhiều nhất và một vài nguồn sử dụng khái niệm bộ
đóng gói để nói tới chương trình trích chọn.Vì vậy hai thuật ngữ bộ trích chọn và bộ
đóng gói có thể thay thế cho nhau.
Một bộ trích chọn thường thực hiện thủ tục khớp mẫu (một dạng của máy hữu hạn
trạng thái) dựa trên một tập các luật trích chọn. Phạm vi, độ phức tạp của thủ tục này
17