Tải bản đầy đủ (.pdf) (20 trang)

DSpace at VNU: Nghiên cứu phương pháp trích chọn thông tin thời tiết từ văn bản tiếng Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (480.02 KB, 20 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

VŨ THỊ LÝ

NGHIÊN CỨU PHƢƠNG PHÁP TRÍCH CHỌN
THÔNG TIN THỜI TIẾT
TỪ VĂN BẢN TIẾNG VIỆT

LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN

Hà nội, 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

VŨ THỊ LÝ

NGHIÊN CỨU PHƢƠNG PHÁP TRÍCH CHỌN
THÔNG TIN THỜI TIẾT
TỪ VĂN BẢN TIẾNG VIỆT

Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104

LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN
NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS. TS. Nguyễn Trí Thành

Hà nội, 2015




Lời cam đoan
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi, đƣợc thực hiện dƣới sự
hƣớng dẫn khoa học của Phó Giáo sƣ, Tiến sĩ Nguyễn Trí Thành.
Các số liệu, kết quả nêu trong luận văn là trung thực và chƣa từng đƣợc công bố trong
bất kỳ công trình nào khác.
Tôi xin chịu trách nhiệm về nghiên cứu của mình
Học viên

Vũ Thị Lý.

i


MỤC LỤC
Lời cam đoan ................................................................................................................... i
Danh sách các bảng ....................................................................................................... iv
Danh sách hình vẽ............................................................................................................v
Danh sách các từ viết tắt, kí hiệu, thuật ngữ.................................................................. vi
Chƣơng 1: GIỚI THIỆU ĐỀ TÀI....................................................................................1
1.1. Giới thiệu đề tài .....................................................................................................1
1.2. Ý nghĩa khoa học ..................................................................................................3
1.3. Ý nghĩa thực tiễn ...................................................................................................4
1.4. Ứng dụng của đề tài ..............................................................................................4
Chƣơng 2: BÀI TOÁN TRÍCH CHỌN THÔNG TIN THỜI TIẾT TRONG VĂN BẢN
TIẾNG VIỆT ...................................................................................................................5
2.1. Mô tả bài toán và ý tƣởng giải quyết ....................................................................5
2.2. Xây dựng mô hình của hệ thống ...........................................................................8
2.2.1. Thu thập dữ liệu ..............................................................................................8

2.3.2. Tiền xử lý và gán nhãn dữ liệu .....................................................................10
2.3.3. Lựa chọn và trích chọn đặc trƣng ................. Error! Bookmark not defined.
2.3.4. Trích chọn đặc trƣng và xây dựng mô hình .. Error! Bookmark not defined.
Chƣơng 3: MỘT SỐ PHƢƠNG PHÁP TIẾP CẬN GIẢI QUYẾT BÀI TOÁN TRÍCH
CHỌN THÔNG TIN TRONG VĂN BẢN ................... Error! Bookmark not defined.
3.1. Một số nghiên cứu về trích chọn thông tintừ các trang tin Error! Bookmark not
defined.
3.2. Phƣơng pháp trích chọn thông tin dựa biểu thức chính quy .... Error! Bookmark
not defined.
3.3. Trích chọn thông tin dựa vào mô hình tuần tự .... Error! Bookmark not defined.
3.3.1. Mô hình Markov ẩn ...................................... Error! Bookmark not defined.
3.3.2. Mô hình Maximum Entropy Markov ........... Error! Bookmark not defined.
3.3.3. Trƣờng ngẫu nhiên có điều kiện ................... Error! Bookmark not defined.
3.4. Nhận xét .............................................................. Error! Bookmark not defined.
3.5. Tóm tắt chƣơng 2 ................................................ Error! Bookmark not defined.
Chƣơng 4: KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ ......... Error! Bookmark not
defined.
4.1 Kết quả thực nghiệm ............................................ Error! Bookmark not defined.
4.1.1. Thu thập dữ liệu ............................................ Error! Bookmark not defined.
ii


4.1.2. Tiền xử lý dữ liệu.......................................... Error! Bookmark not defined.
3.1.3. Lựa chọn và trích chọn đặc trƣng ................. Error! Bookmark not defined.
4.1.4. Mô hình và kết quả với tập dữ liệu kiểm thử Error! Bookmark not defined.
4.2. Đánh giá .............................................................. Error! Bookmark not defined.
KẾT LUẬN ................................................................... Error! Bookmark not defined.
TÀI LIỆU THAM KHẢO .............................................................................................11
Tiếng Việt...................................................................................................................11
Tiếng Anh...................................................................................................................11


iii


Danh sách các bảng
Bảng 1: Mẫu dữ liệu thông tin trên website ....................................................................5
Bảng 2: Tập các nhãn từ loại đƣợc sử dụng ....................................................................7
Bảng 3: Bảng các nhãn đối tƣợng đƣợc sử dụng trong hệ thống ....................................7
Bảng 4: Các mẫu biểu thức chính quy đƣợc sử dụng trong hệ thống Error! Bookmark
not defined.
Bảng 5: Danh sách các tập nhãn đối tƣợng ................... Error! Bookmark not defined.
Bảng 6: So sánh kết quả của mô hình và mong muốn .. Error! Bookmark not defined.
Bảng 7: Kết quả của văn bản có độ chính xác thấp ....... Error! Bookmark not defined.

iv


Danh sách hình vẽ
Hình 1: Mẫu thông tin có cấu trúc ...................................................................................2
Hình 2: Mẫu thông tin bán cấu trúc .................................................................................2
Hình 3: Mẫu thông tin phi cấu trúc .................................................................................3
Hình 4: Ví dụ thông tin thời tiết trên trang tin tức ..........................................................4
Hình 5: Mô hình trích chọn thông tin thời tiết ................................................................8
Hình 6: Hỗ trợ gán nhãn từ loại ..................................... Error! Bookmark not defined.
Hình 7: Hỗ trợ gán nhãn đối tƣợng ............................... Error! Bookmark not defined.
Hình 8: Ví dụ kết quả gán nhãn đối tƣợng .................... Error! Bookmark not defined.
Hình 9: Sự phân hóa cấu trúc của các loại tài liệu ........ Error! Bookmark not defined.
Hình 10: So sánh về hiệu suất và kết quả của sử dụng luật (biểu thức chính quy) và
CRF với một số loại thực thể......................................... Error! Bookmark not defined.
Hình 11: Ví dụ một số biểu thức chính quy sử dụng để trích chọn một số loại thực thể

....................................................................................... Error! Bookmark not defined.
Hình 12: Các tham số xác suất của một mô hình Markov ẩnError! Bookmark not
defined.
Hình 13: Tổng quan về các mô hình xác suất: Naïve Bayes (NB), Markov ẩn (HMM),
cực đại entropy (ME), trƣờng ngẫu nhiên có điều kiện (CRF). Các khía cạnh đƣợc
minh họa là xác suất chung hay điều kiện, dự đoán lớp đơn hay dự đoán trên dữ liệu
chuỗi. ............................................................................. Error! Bookmark not defined.
Hình 14: Mô hình đồ thị có hƣớng ................................ Error! Bookmark not defined.
Hình 15: Bộ phân loại Naïve Bayes .............................. Error! Bookmark not defined.
Hình 16: Đồ thị độc lập và đồ thị thành phần cho mô hình Markov ẩn ................ Error!
Bookmark not defined.
Hình 17: Bộ phân loại cực đại Entropy ......................... Error! Bookmark not defined.
Hình 18: Trƣờng ngẫu nhiên có điều kiện chuỗi tuyến tínhError! Bookmark not
defined.
Hình 19: Một dạng kết hợp của CRF chuỗi tuyến tính. Error! Bookmark not defined.
Hình 20: Ví dụ một máy trạng thái hữu hạn ngẫu nhiênError!
Bookmark
not
defined.
Hình 21: Ví dụ của các cấu trúc của CRF ..................... Error! Bookmark not defined.
Hình 22: Ví dụ của một CRF cách quãng cho chuỗi x=(2,3,4,5,6) theo công thức…
....................................................................................... Error! Bookmark not defined.
Hình 23: Nguồn thông tin [4] ........................................ Error! Bookmark not defined.
Hình 24: Lấy thông tin từ internet ................................. Error! Bookmark not defined.
Hình 25: Tiền xử lý dữ liệu (1)...................................... Error! Bookmark not defined.
Hình 26: Tiền xử lý dữ liệu (2)...................................... Error! Bookmark not defined.

v



Danh sách các từ viết tắt, kí hiệu, thuật ngữ
Từ viết tắt
IR
IE
WI
CRF
NER
HMM
MEMM
CMM
SFSA

Ý nghĩa, mô tả
Information Retrieve: Truy vấn thông tin
Information Extract: Trích chọn thông tin
Wrapper Induction:
Condition Random Fields: Trƣờng ngẫu nhiên có điều
kiện
Named Entity Recognition: Nhận dạng thực thể tên
Hidden Markov Model: Mô hình Markov ẩn
Maximum Entropy Markov Model: Mô hình Markov
cực đại Entropy
Conditional Markov Model: Mô hình Markov có điều
kiện
Schochatics Finite State Automaton: Máy trạng thái hữu
hạn ngẫu nhiên

vi

Chú ý



Chƣơng 1: GIỚI THIỆU ĐỀ TÀI
1.1. Giới thiệu đề tài
Thông tin dự báo thời tiết là thông tin quan trọng cần đƣợc cập nhật hàng ngày cho
mọi ngƣời. Nó ảnh hƣởng rất lớn tới cuộc sống và sinh hoạt của ngƣời dân, cơ quan và
các tổ chức. Việc dự báo thông tin gần đúng, kịp thời có vai trò vô cùng cần thiết quan
trọng. Đối với cuộc sống hàng ngày, thông tin thời tiết giúp ngƣời dân có các chuẩn bị
cần thiết trong đi lại. Đối với các ngành phụ thuộc vào thời tiết nhƣ đánh bắt thủy hải
sản, nông nghiệp thì thông tin thời tiết giúp họ có chuẩn bị phù hợp trong quá trình sản
xuất.
Do mức độ quan trọng của thông tin thời tiết, việc nghiên cứu phƣơng pháp để trích
chọn thông tin thời tiết, từ các văn bản, trang tin tức hàng ngày giúp ích cho rất nhiều
ngƣời. Phạm vi của luận văn là nghiên cứu phƣơng pháp trích chọn thông tin thời tiết
từ các văn bản, trang tin tức tiếng Việt. Các thông tin thời tiết hiện nay có sẵn ở rất
nhiều trang tin tức tiếng Việt, và đƣợc trình bày với nhiều dạng khác nhau [4]. Thông
tin thời tiết có thể ở dạng có cấu trúc (bảng thông tin về lƣợng mƣa, hoặc nhiệt độ ở
các vùng miền trong cùng một thời điểm – Hình 1: Mẫu thông tin có cấu trúc), hoặc
phi cấu trúc (nhƣ dạng bản tin tóm tắt, hoặc chi tiết thông tin thời tiết của một vùng
miền tại một thời điểm – Hình 3: Mẫu thông tin phi cấu trúc), hoặc có thể ở dạng bán
cấu trúc (danh sách các thông tin thời tiết chung chung, gồm cả nhiệt độ, độ ẩm, tình
trạng nắng mƣa của một số vùng miền – Hình 2: Mẫu thông tin bán cấu trúc). Ngoài
ra, thông tin thời tiết còn có thể đƣợc cung cấp không đầy đủ (một số thông tin không
có), hoặc không đồng bộ (các đơn vị đo có thể khác nhau). Do đó, nhiệm vụ trích chọn
thông tin khá phức tạp khi sự hoán đổi của các thuộc tính và lỗi đánh máy xảy ra trong
quá trình đƣa tin lên các trang tin.

1



Hình 1: Mẫu thông tin có cấu trúc

Hình 2: Mẫu thông tin bán cấu trúc

2


Hình 3: Mẫu thông tin phi cấu trúc
Mục tiêu của luận văn là xây dựng một hệ thống bán tự động, nhằm lấy thông tin từ
các trang bản tin, và sau đó đƣa vào hệ thống xử lý dữ liệu đầu vào, và xây dựng mô
hình để trích chọn các thông tin thời tiết. Từ mô hình đó, các bản tin có thể đƣợc đƣa
vào và hệ thống sẽ cho ra kết quả liệt kê các đối tƣợng thời tiết mà chúng ta quan tâm.

1.2. Ý nghĩa khoa học
Việc trích chọn thông tin thời tiết có ý nghĩa lớn về mặt khoa học. Từ các thông tin
thời tiết đƣợc chọn lọc bởi mô hình, chúng có thể đƣợc dùng để thống kê và lƣu trữ lại
làm cơ sở tham khảo về sau. Việc lƣu trữ thông tin thời tiết và các thông tin liên quan
(thời gian xảy ra, địa điểm xảy ra các hiện tƣợng thời tiết), có ích cho việc đánh giá và
đƣa ra con số để xem xét thực tế. Ngoài ra, việc lƣu trữ các thông tin thời tiết thay vì
văn bản giúp chúng ta giảm thiểu kích thƣớc bản tin cần đƣợc lƣu trữ. Các thông tin đó
có thể đƣợc thể hiện hoặc lƣu trữ theo đối tƣợng, và do đó việc lƣu trữ là dễ dàng và
có thể truy cập lại một cách nhanh chóng theo các tiêu chí khác nhau.
Các thông tin sau khi đƣợc trích chọn có thể lƣu trữ theo dạng đối tƣợng, với các thuộc
tính khác nhau (đối tƣợng thông tin lƣợng mƣa có thể gồm địa điểm, thời điểm, số đo
lƣợng mƣa, đơn vị đo) và đƣợc lƣu trữ dạng cơ sở dữ liệu rất dễ dàng. Khi đƣợc lƣu
trữ ở dạng phù hợp, việc truy vấn thông tin để thống kê hoặc báo cáo cũng rất nhanh
chóng và tiện lợi. Từ đó giúp các nhà quản lý và hoạch định có cái nhìn tổng quan và
xây dựng biện pháp phòng tránh các thiên tai một cách hiệu quả.
Việc rút ngắn bản tin cũng giúp cho tin nhắn đƣợc truyền đi hoặc thông báo vô cùng
tiện lợi. Với kích thƣớc bản tin đầy đủ, ngƣời dùng có thể phải mất thời gian để chọn

lọc các thông tin cần thiết, và khó sử dụng khi nhắn tin khi mà điện thoại di động đƣợc
3


sử dụng rất phổ biến nhƣ hiện tại. Các bản tin ngắn giúp các tổ chức gửi thông tin dễ
dàng và nhanh chóng hơn.

1.3. Ý nghĩa thực tiễn
Các thông tin thời tiết hiện nay đƣợc cung cấp miễn phí và rất đa dạng ở các trang tin
tức tiếng việt. Mọi ngƣời có thể bắt gặp các thông tin thời tiết đƣợc cập nhật ở một góc
nhỏ, do đó nguồn thông tin cho bài toán này là miễn phí và có sẵn.

Hình 4: Ví dụ thông tin thời tiết trên trang tin tức
Với kết quả của hệ thống, thông tin thời tiết có thể đƣợc cập nhật nhanh chóng hơn,
tiện lợi hơn cho những ngƣời có nhu cầu. Thay vì vào các trang tin và tìm sâu hơn khi
chúng ta quan tâm, hệ thống có thể cung cấp cho ngƣời dùng các thông tin cần thiết
một cách tập trung và cụ thể.

1.4. Ứng dụng của đề tài
Từ các thông tin thời tiết đƣợc trích chọn, chúng có thể đƣợc cung cấp cho ngƣời dân
và những ngƣời quan tâm một cách kịp thời. Ngƣời dân có thể đăng ký nhận tin nhắn
thời tiết mà họ quan tâm. Ví dụ, khi sinh sống ở khu vực nào đó, họ có thể chỉ quan
tâm tới tình hình thời tiết về nơi mà họ sinh sống, hoặc các loại bản tin cảnh báo đặc
biệt. Hệ thống xây dựng trên các thông tin đƣợc trích chọn có thể thực hiện việc lọc tin
theo từng loại thuộc tính để cung cấp cho ngƣời dùng một cách tự động và ngay khi có
tin tức mà họ cần biết.
Đối với các hệ thống dự báo thời tiết, các thông tin đƣợc trích chọn sẽ làm cơ sở để họ
xây dựng thêm, ví dụ nhƣ mô hình hóa các thông tin lên bản đồ một cách trực quan,
sinh động. Các thông tin thời tiết cung cấp cho hệ thống thông tin địa lý (GIS) sẽ giúp
cho ngƣời dùng có cái nhìn tổng quan rất sinh động, và chi tiết.


4


Chƣơng 2: BÀI TOÁN TRÍCH CHỌN THÔNG TIN THỜI TIẾT
TRONG VĂN BẢN TIẾNG VIỆT
2.1. Mô tả bài toán và ý tƣởng giải quyết
Bài toán trích chọn thông tin thời tiết cũng nhƣ nhiều bài toán trích chọn thông tin
khác, gồm các bƣớc chính: thu thập dữ liệu từ các trang tin, xử lý dữ liệu để tăng hiệu
suất của hệ thống trích chọn thông tin, xây dựng mô hình để trích chọn thông tin một
cách bán tự động, và cuối cùng là kiểm nghiệm và đánh giá mô hình.
Phần trích chọn đặc trƣng và xây dựng mô hình trong luận văn này sẽ đƣợc thực hiện
theo mô hình CRF. Chƣơng 3 sẽ đi giới thiệu các cách tiếp cận trong bài toán trích
chọn thông tin và lý do tại sao hệ thống tiến hành thực nghiệm trên mô hình này, do
những ƣu điểm về mặt cơ sở lý thuyết so với các mô hình còn lại. Mặc dù với thông tin
dữ liệu cụ thể trong bài toán này có thể đạt đƣợc bằng một trong các cách còn lại,
nhƣng về mặt tổng quan thì sẽ cần phải kiểm nghiệm một cách rộng rãi hơn trƣớc khi
quyết định áp dụng và ứng dụng kết quả trong ứng dụng thực tế.
Bƣớc thu thập dữ liệu từ các trang tin đƣợc thực hiện bởi các công cụ đã rất tiện lợi và
chia sẻ rộng rãi ngày nay [4, 23]. Việc thu thập thông tin đƣợc tiến hành với sự hỗ trợ
của nguồn mở và cần ngƣời dùng can thiệp để loại bỏ các thông tin hoặc các trang tin
không liên quan, không cần thiết.
Sau đó, nguồn thông tin phải đƣợc xử lý làm sạch, với đầy đủ các bƣớc của tiền xử lý
dữ liệu trong khai phá dữ liệu, gồm làm sạch dữ liệu
Bảng 1: Mẫu dữ liệu thông tin trên website
I.BẢNG 1: SỐ LIỆU MỰC NƢỚC VÀ LƢU LƢỢNG TRÊN CÁC SÔNG CHÍNH Ở
TRUNG, NAM BỘ VÀ TÂY NGUYÊN
Sông

Trạm


Yếu tố đo

Thực đo
tuần


Cả
Tả
Trạch
Thu Bồn
Trà
Khúc
Kôn
Ba
Cái N.T
ĐăkBla
Srêpôk
Tiền

Lý Nhân
Yên Thƣợng
Thƣợng Nhật

H
Q
Q

245 <145cm
45.2 <69%

2.7 <37%

255 <140cm
55 <67%
2.5 <47%

Nông Sơn
Trà Khúc

Q
H

145 >93%
93 <60cm

130 >75%
90 <66cm

Bình Tƣờng
Củng Sơn
Đồng Trăng
KonTum
Bản Đôn
Tân Châu

Q
Q
Q
Q
Q

Hmax

47.2
4.5
18.7
59
133

44
4.2
19
63
125

5

So sánh
TBNN

<5%
<83%
<46%
<25%
>21cm

Dự
báo

So sánh với
TBNN


<8%
<83%
<47%
<28%
>31cm


Hmin
Hmax
Hmin

-3 >6cm
146 >54cm
-6 >10cm

Hậu

Châu Đốc

Ghi
chú:

Yếu tố đo: H: mực nƣớc (cm), Q: Lƣu lƣợng ( m3/s)

-5 <2cm
135 >38cm
-12 >2cm

Hmax: mực nƣớc cao nhất tuần

Hmin: mực nƣớc thấp nhất tuần

Dữ liệu đƣợc thu thập không hoàn chỉnh (ví dụ trong bảng 1, dữ liệu cho sông Kôn bị
thiếu), nhiễu (có lỗi, hoặc các giá trị ngoại lai mà không nhƣ mong đợi), và không
thống nhất (ví dụ: giá trị cột so sánh có 2 loại đơn vị khác nhau, và chỉ số cho cùng
loại đơn vị đó cũng khác nhau). Dữ liệu không hoàn chỉnh, nhiễu, và không thống nhất
là các thuộc tính phổ biến của các cơ sở dữ liệu và kho dữ liệu lớn, và thực tế. Dữ liệu
không hoàn chỉnh có thể xảy ra vì một số lý do. Thuộc tính mà chúng ta quan tâm có
thể không phải lúc nào cũng sẵn có, nhƣ thông tin về sông Kôn. Dữ liệu liên quan có
thể không đƣợc ghi lại vì hiểu lầm, hoặc bởi vì lỗi của thiết bị.
Các bộ dữ liệu trùng lặp cũng cần phải đƣợc làm sạch. Các thủ tục làm sạch dữ liệu
thực hiện việc làm sạch bằng cách điền các giá trị thiếu, làm trơn dữ liệu nhiễu, nhận
dạng và loại bỏ các giá trị ngoại lai, và giải quyết sự không thống nhất. Dữ liệu không
sạch có thể gây nhầm lẫn cho quá trình khai phá. Mặc dù hầu hết các thủ tục khai phá
dữ liệu có một vài bƣớc để giải quyết với dữ liệu không hoàn chỉnh hoặc nhiễu, nhƣng
chúng không đủ mạnh. Vì vậy, một bƣớc tiền xử lý dữ liệu hữu ích là để lọc dữ liệu
qua các thủ tục làm sạch dữ liệu.
Các giá trị bị thiếu: Nếu biết trƣớc đƣợc có nhiều bộ mà thiếu các giá trị cho một vài
thuộc tính, thì các giá trị bị thiếu có thể đƣợc điền lại bởi nhiều phƣơng pháp khác
nhau nhƣ đƣợc mô tả nhƣ sau
1) Loại bỏ thông tin: Thƣờng sử dụng phƣơng pháp này khi nhãn cho lớp đó bị
thiếu (giả sử nhiệm vụ khai phá bao gồm cả việc phân loại hoặc mô tả). Cách
này không hiệu quả, trừ khi bộ đó có một vài thuộc tính có giá trị bị thiếu. Đặc
biệt khi tỉ lệ giá trị thiếu cho mỗi thuộc tính chiếm một phần đáng kể.
2) Điền giá trị còn thiếu bằng tay: Nói chung, phƣơng pháp tiếp cận này tốn thời
gian và không khả thi trong trƣờng hợp tập dữ liệu lớn với nhiều giá trị bị thiếu
3) Sử dụng biến toàn cục để điền vào giá trị thiếu: Thay thế toàn bộ giá trị thiếu
bằng một hằng số giống nhau, nhƣ nhãn “Không biết” hoặc “-∞”. Nếu giá trị
đƣợc thay thế là “Không biết”, chƣơng trình khai phá có thể nghĩ sai rằng
chúng tạo ra khái niệm thú vị, đáng quan tâm, vì tất cả chúng đều có 1 giá trị

chung là “Không biết”. Vì vậy, mặc dù phƣơng pháp này đơn giản, nó không
đƣợc khuyến nghị nên dùng.
4) Sử dụng trung bình thuộc tính để điền vào giá trị còn thiếu
5) Sử dụng trung bình thuộc tính cho tất cả các mẫu thuộc về cùng một lớp nhƣ
các bản ghi hiện có
6


6) Sử dụng giá trị có khả năng nhất để điền vào giá trị bị thiếu.
Trong hệ thống đƣợc xây dựng bởi phạm vi luận văn này, thông tin bị thiếu nhƣ bảng
trên là ít, do vậy chúng sẽ đƣợc bỏ qua.
Tách từ và gán nhãn dữ liệu, đƣợc thực hiện bằng tay và có sự hỗ trợ của công cụ giúp
cho ngƣời huấn luyện quyết định đƣợc dễ dàng hơn. Quá trình gán nhãn và tách từ
đƣợc chia thành 2 bƣớc: tách từ và gán nhãn từ loại, và sau đó gán nhãn đối tƣợng.
Các từ loại thì sẽ đƣợc phân chia với các loại từ cơ bản nhƣ bảng sau
Bảng 2: Tập các nhãn từ loại đƣợc sử dụng
Nhãn
từ loại
NN

Giải thích

Ví dụ

Danh từ thƣờng

NC
NP

Danh từ chỉ loại

Danh từ riêng

VB
JJ
PP
D
AD
IN
CC
UH
RB
X
Symbols

Động từ
Tính từ
Đại từ
Định từ và số từ
Phụ từ
Giới từ
Liên từ
Thán từ
Trợ từ
Thì ra, những, mà, …
Các từ không phân loại
BĐ1, KKL, …
Các kí tự đặc biệt nhƣ: >, <, „,‟,
„:‟

Cơn bão, gió, không khí, ngày,

11/05/2015, …
Mùa, cơn, đợt, miền, khu,…
T.P Hồ Chí Minh, Hà Nội, Đà Nẵng, El
Nino, ….
Có, có thể, nên, là, làm, theo dõi,…
Mạnh, yếu, lạnh, ít, nhiều
Đây, nay, bây giờ
Một, vài, hai,….
Đã, đang, cũng, vẫn, thƣờng, …
Do, vì, ở, cùng, với
Và, cùng, còn, thì

Bảng các nhãn đối tƣợng đƣợc quan tâm gồm có
Bảng 3: Bảng các nhãn đối tƣợng đƣợc sử dụng trong hệ thống
Nhãn đối tƣợng

Ví dụ
Thứ Năm, 22/01/2015, 23:17
10km, 1000km, 12km
180mm, 11,5m
(m 3 /s), (m3/s)
29,94m, 0,8m

DATETIME
LENGTH
RAINFALL_MEA
FLOWSPEED
WATER_LEVEL
7



Đà Nẵng, Bắc Bộ, Lai Châu
mƣa bão, nhiệt đới, áp thấp nhiệt đới,
không khí lạnh
Lƣợng mƣa
86%, 91%
m/s, 10km
19°C, 1,5oC, 41 0 C, 39

LOCATION
WEATHER
RAINFALL
HUMIDITY_PERCENTAGE
WINDSPEED
TEMPERATURE

Website/Internet

Thu thập dữ liệu

Tiền xử lý

Lựa chọn thuộc tính
đặc trƣng
Trích chọn đặc trƣng và
Xây dựng mô hình

Kết quả và đánh giá
(text)


Hình 5: Mô hình trích chọn thông tin thời tiết

2.2. Xây dựng mô hình của hệ thống
2.2.1. Thu thập dữ liệu
Nguồn thông tin cho bài toán có thể là các trang tin về thời tiết. Tuy nhiên, trong phạm
vi luận văn, nguồn thông tin chủ yếu đƣợc lấy từ trang thông tin của Trung tâm dự báo
khí tƣợng thủy văn trung ƣơng [4].
Website của trung tâm dự báo thời tiết đƣợc trình bày thành các phần gồm có menu
chính, khung chuyển trang (thanh các mục lục ở bên trái), chính giữa là các thông tin
chi tiết về các bản tin, và các liên kết ở cuối trang. Thông tin trong trang tin đƣợc trình
bày chủ yếu ở dạng văn bản tiếng việt, minh họa bằng hình vẽ. Một số thông tin đƣợc
trình bày ở dạng bảng hoặc danh sách.
8


Trong quá trình thu thập dữ liệu, các thông tin về hình ảnh và thẻ html sẽ đƣợc loại bỏ.
Thông tin lấy về sẽ đƣợc lƣu trữ ở file mở rộng là html nhƣng nội dung sẽ là các câu tiếng
Việt hoặc tiếng Anh. Ngoài ra, các định dạng về xuống dòng, các phần khác nhau, đƣờng
kẻ, độ đậm nhạt hoặc các mục lục đƣợc in đậm cũng sẽ không còn thông tin.
Ví dụ một phần của trang thông tin đƣợc lấy về nhƣ sau:
/Web/vi-VN/74/18/68/30/3/0/qa/Default.aspx TRUNG TÂM DỰ BÁO KHÍ
TƢỢNG THỦY VĂN TRUNG ƢƠNG Thứ Sáu, 30/01/2015, 21:54 (GMT+7) Thƣ
nội bộ | Văn bản pháp quy | Liên kết website | Diễn đàn | ENGLISH Trang chủ
Giới Thiệu Sơ đồ tổ chức Chức năng nhiệm vụ Tin tức - Sự kiện Khí tƣợng Thời
tiết đất liền 24H Thời tiết biển 24H Biểu tƣợng Thời tiết Dƣ báo 10 ngày Dự báo
tháng Dự báo mùa Thời tiết nguy hiểm Bão - Áp thấp nhiệt đới Không khí lạnh
Nắng nóng Khu vực Hà Nội Khu vực Trung Trung Bộ Thời tiết nguy hiểm trên
biển Thuỷ Văn Dự báo hạn ngắn Hệ thống sông Bắc Bộ Hệ thống sông Trung và
Nam Bộ Dự báo hạn vừa Hệ thống sông Bắc Bộ Hệ thống sông Trung và Nam Bộ
Dự báo tháng Hệ thống sông Bắc Bộ Hệ thống sông Trung và Nam Bộ Dự báo mùa

Hệ thống sông Bắc Bộ Hệ thống sông Trung và Nam Bộ Dự báo mô hình Hệ thống
sông Bắc Bộ Hệ thống sông Trung và Nam Bộ Thủy văn biển Dự báo sóng Nƣớc
dâng do bão Thủy triều Dự báo dòng chảy Bản tin cảnh báo Thủy văn đặc biệt Tin
Lũ Hệ thống sông Bắc Bộ Hệ thống sông Trung và Nam Bộ Thông báo Cạn Hệ
thống sông Bắc Bộ Hệ thống sông Trung và Nam Bộ T.B Xả nƣớc chống hạn Hệ
thống sông Bắc Bộ Hệ thống sông Trung và Nam Bộ Phổ biến kiến thức KTTV
Bão & ATNĐ Mƣa lớn Mƣa đá Dông Tố, lốc, vòi rồng Sƣơng mù Sƣơng muối Gió
khô nóng Gió mùa, không khí lạnh Lũ lớn Lũ quét, sạt lở đất Hạn hán Các kỷ lục về
KTTV Thế giới Khí tƣợng Thủy văn Việt Nam Khí tƣợng Thủy văn Hỏi đáp về
KTTV Khí tƣợng Thủy văn Nghiên cứu khoa học Dự án Đề tài Tổng kết tình hình
KTTV Thời tiết hiện tại : Đà Nẵng 22°C Hải Phòng 17°C Nha Trang 25°C Pleiku
19°C Sơn La 22°C T.P Hồ Chí Minh 25°C Hà Nội 17°C Việt Trì 17°C Vinh 21°C
Cập nhật lúc: : 19h - 30/01/2015 Ảnh Radar Ảnh Vệ tinh Sản phẩm mô hình Bản đồ
thủy văn Liên kết -- Liên kết -- Bộ tài nguyên và môi trƣờng Trung tâm khí tƣợng
thủy văn quốc gia Trang dự báo của Cơ quan Khí tƣợng Nhật bản Trang dự báo của
Cơ quan Khí tƣợng Hồng Kông Trang dự báo của Hải Quân Mỹ Sim so dep Tin tuc
Tin nhanh Doc bao sim so dep Sản phẩm mô hình dự báo Dự báo hạn ngắn Dự báo
hạn vừa Dự báo tháng Dự báo mùa

Có thể thấy thông tin ở các phần đã bị trộn lẫn với nhau. Phần đƣờng liên kết tới các
trang, hình ảnh sẽ không đƣợc lƣu lại.
Thông tin giữa các phần không đƣợc phân biệt rõ ràng nên việc tách các thông tin
không liên quan cần có xử lý cẩn thận và tùy từng trƣờng hợp.
9


2.3.2. Tiền xử lý và gán nhãn dữ liệu
2.3.2.1 Loại bỏ các thông tin không liên quan
Trong các bản tin tiếng Việt từ internet, có thể thấy có rất nhiều thông tin không liên
quan chứa trong các bản tin này. Để loại bỏ những thông tin không liên quan, hệ thống

sẽ sử dụng các biểu thức chính quy để chỉ lọc các thông tin về thời tiết – đối tƣợng
chính mà hệ thống quan tâm. Một số tệp tin không chứa các thông tin thời tiết liên
quan, hoặc các trang thông tin tiếng Anh, cũng sẽ đƣợc loại bỏ. Việc kiểm tra trƣớc
khi loại bỏ đƣợc thực hiện bằng sự hỗ trợ của công cụ hệ thống, và có thể cần sự kiểm
tra lại của ngƣời quản lý/ngƣời dùng của hệ thống.
Việc sử dụng biểu thức chính quy sẽ làm nổi bật các thông tin thời tiết, và cùng với sự
giám sát của ngƣời dùng, sẽ loại bỏ các thông tin không liên quan để lƣu các thông tin
còn lại vào để xử lý bƣớc tiếp theo.Tuy nhiên, các biểu thức chính quy đôi khi không
thể lọc hết các thông tin đó, do vậy ngƣời dùng cũng phải xem xét và cập nhật lại các
biểu thức, luật để sử dụng cho các lần sau.
Tại bƣớc này, ngƣời huấn luyện hệ thống cũng phải xử lý các thông tin trùng lặp ở các
bản tin. Đôi khi, do quá trình lấy dữ liệu không thể so sánh và lọc hết dữ liệu, nên
ngƣời huấn luyện hệ thống phải kiểm tra xem dữ liệu đƣợc cập nhật ở các thời điểm
giống nhau cũng cần đƣợc loại bỏ.
Sau bƣớc 1 này, chúng ta sẽ có danh sách các tập tin đƣợc đánh số duy nhất, và chứa
nội dung là các bản tin về thời tiết, loại bỏ các bản tin trùng lặp (tuy nhiên, các bản tin
khác nhau vẫn có thể còn trùng nhau, sẽ đƣợc tiếp tục xem xét và xử lý ở bƣớc tiếp
theo).
2.3.2.2 Tách từ và làm sạch dữ liệu
Đầu vào của bƣớc này, là tập tin các bản tin tiếng Việt về thời tiết và xử lý ban đầu.
Tuy nhiên, trong quá trình gán nhãn và xem xét, tại bƣớc này, ngƣời huấn luyện vẫn
cần phải xử lý các thông tin sau
Định dạng của dữ liệu bị sai khác, lỗi của ngƣời đƣa tin trong quá trình đánh máy
thông tin, hoặc do nguồn cung cấp thông tin không chính xác, không hỗ trợ.
Thông tin bị thiếu, ví dụ các thông tin không có sẵn tại thời điểm đó, hoặc không thể
xác định đƣợc chính xác. Nếu lƣợng thông tin này ít và không có cơ sở dữ liệu để khôi
phục thì phải chấp nhận trƣờng hợp không có dữ liệu (để trống trong trƣờng hợp này).
Ngoài ra, nếu các thông tin bị thiếu mà có khả năng khôi phục lại đƣợc (theo kinh
nghiệm của ngƣời sử dụng, hoặc do các thông tin hỗ trợ là đáng tin cậy) thì chúng có
thể đƣợc điền vào giá trị mà đáng tin nhất. Ví dụ, nếu thông tin nhiệt độ mà thiếu đơn

vị đo, thì ngƣời quản lý có thể dựa vào mà điển độ C hoặc độ F, hoặc giá trị trong dải
cho phép.
10


TÀI LIỆU THAM KHẢO
Tiếng Việt
1. Nguyễn Trí Thành. Bài giảng về khai phá dữ liệu, K17HTTT, Đại học Công Nghệ,
Đại học Quốc Gia Hà Nội, 2010-2011.
2.Hà Quang Thụy, Bài giảng về Khai phá dữ liệu và kho dữ liệu, K17HTTT, Đại học
Công Nghệ, Đại học Quốc Gia Hà Nội, 2010-2011.
3. Website Kho dữ liệu gán nhãn từ loại tiếng
Việt.
4. Website Trung tâm dự báo
khí tƣợng thủy văn trung ƣơng.

Tiếng Anh
5. Li, Yunyao, et al. "Regular expression learning for information extraction."
Proceedings of the Conference on Empirical Methods in Natural Language Processing.
Association for Computational Linguistics, 2008.
6. J.Lafferty, A.McCallum, and F.Pereira. “Conditional random fields: probalistic
models for segmenting and labeling sequence data”. In Proc. ICML, pages 282290,2001.
7. William W. Cohen, Andrew McCallum. Slides “Information Extraction from the
World Wide Web”, KDD 2003.
8. Jenny Rose Finkel. “Named Entity Recognition and the Standford NER Software”
slides. Standford University. March 09, 2007.
9. Ian Fette. “Combining n-gram based statistics with traditional methods for named
entit recognition”. School of Computer Science, Carnegie Mellon University, 2007.
10. McCallum, Andrew, Dayne Freitag, and Fernando CN Pereira. “Maximum
Entropy Markov Models for Information Extraction and Segmentation.” ICML. Vol.

17. 2000.
11. Dan Klein and Chris Manning. “Maxent models, Conditional Estimation, and
Optimization” slides. Standford Universtiy. HLT-NAACL 2003 and ACL 2003
Tutorial.
12. Sarawagi, Sunita, and William W. Cohen. “Semi-markov conditional random
fields for information extraction.” Advances in Neural Information Processing
Systems. 2004.

11


13. Charles Sutton, Andrew McCallum. “An introduction to Conditional Random
Fields for Relational Learning”. Introduction to Statistical Relational Learning, page
93-130.
14. Yasemin Altun, Alex J. Smola, Thomas Hoffmann. “Exponential Families for
Conditional Random Fields”. AUAI Press Arlington, Virginial, US 2004. ISBN:09749039-0-6, Page 2-9.
15. Walter F.Mascarenhas. “The BFGS method with exact line searches fails for nonconvex objective functions”. Mathematical Programming, January 2004, Volume 99,
Issue 1, pp 49-61.
16. Mark Johnson. “A brief introduction to Conditional Random Fields”. Macqurie
University. 2010.
17. Trevor Cohn. “Conditional Random Fields” Slide. ALTW 2005. December 2013.
18. Roman Klinger, Katrin Tomanek. “Classical Probalistic Models and Conditional
Random Fields.” Algorithm Engineering Report TR07-2-013, ISSN 1864-4503.
19. Chia-Hui Chang, Mohammed Kayed, Moheb Ramzy Girgis, Khaled Shaalan. “A
survey of Web information extraction systems”, IEEE Transactions on Knowledge and
Data Engineering, TKDE-0475- 1104.R3
20. Website The natural language processing courses.
21. Website Papers about natural
processing language techniques and applications, CRFs.
22. Website The Standford Natural

Language Processing Group.
23. Website Conditional Random Fields implemented
by .NET (C#)
24. Website Open source Web Crawler for Java.

12



×