Tải bản đầy đủ (.pptx) (71 trang)

MÔ HÌNH VÀ THUẬT GIẢI CHO HỆ HỖ TRỢ TÌM KIẾM THÔNG TIN THEO NGỮ NGHĨA TRÊN CÁC BÁO ĐIỆN TỬ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.57 MB, 71 trang )

MÔ HÌNH VÀ THUẬT GIẢI CHO HỆ HỖ TRỢ
TÌM KIẾM THÔNG TIN THEO NGỮ NGHĨA
TRÊN CÁC BÁO ĐIỆN TỬ
Đại học quốc gia thành phố hồ chí minh
TrườNG đại học công nghệ thông tin
GVHD: PGS-TS. Đỗ Văn Nhơn
Học viên: Hồ Long Vân
MSHV: CH1101056
TP. Hồ Chí Minh, 02/2015
1
MỞ ĐẦU

Sự tăng lên nhanh chóng số lượng báo điện tử dẫn tới việc truy xuất thông tin của người dùng trở nên
phức tạp. các hệ thống tìm kiếm ra đời.

Các hệ thống tìm kiếm chủ yếu dựa trên từ khóa.

Một hướng tiếp cận mới trong việc tìm kiếm là dựa trên ngữ nghĩa.

Hướng tới xây dựng hệ hỗ trợ tìm kiếm tin bài theo ngữ nghĩa trên các báo điện tử.
2
NỘI DUNG
I.
TỔNG QUAN VỀ ĐỀ TÀI
II.
MỘT SỐ MÔ HÌNH
III.
CÁC VẤN ĐỀ, THUẬT GIẢI
IV.
ỨNG DỤNG, THỬ NGHIỆM
V.


KẾT LUẬN, HƯỚNG PHÁT TRIỂN
3
I. TỔNG QUAN VỀ ĐỀ TÀI
1. Thực trạng, nhu cầu xây dựng hệ hỗ trợ tìm kiếm thông tin
2. Thu thập thông tin
3. Tìm kiếm thông tin theo ngữ nghĩa
4. Phát hiện sự trùng lắp thông tin
5. Mục tiêu và giới hạn đề tài
4
I.1. THỰC TRẠNG, NHU CẦU XÂY DỰNG HỆ HỖ TRỢ TÌM KIẾM THÔNG
TIN
-
Sự phát triển nhanh chóng của báo điện tử thu hút một lượng lớn độc giả.
-
Hàng ngàn các trang báo điện tử ở Việt Nam ra đời, đem lại kho tin tức khổng lồ.
khó khăn trong việc kiểm soát nội dung, kiểm tra tính đúng đắn của các trang báo.
5
I.2. THU THẬP THÔNG TIN
-
Một số hệ thống thu thập tin tức và tổng hợp tin như: HueCIT-NewsFinder, Báo Mới, Google
News, News 360, Fark, Pulse, Feedly,…
-
Để xây dựng những hệ thống tổng hợp tin tức, việc cần làm trước tiên là thu thập được những
trang tin. Có 2 phương pháp thu thập phổ biến là Crawler và RSS.
6
I.3.
TÌM KIẾM THÔNG TIN THEO NGỮ NGHĨA
-
Các hệ thống tìm kiếm thông tin hiện nay phần lớn vẫn dựa trên từ khóa và mức độ phổ biến của tài
liệu.

-
Hướng tiếp cận mới dựa trên tri thức hoặc xử lý ngữ nghĩa.
-
Tiếp cận dựa trên Ontology được xem là hiện đại và phù hợp cho việc thiết kế biểu diễn, xử lý nội dung
tài liệu.
-
Một số mô hình biểu diễn cho tài liệu như mạng ngữ nghĩa, đồ thị khái niệm CGs, đồ thị hình sao, đồ thị
tần số, đồ thị khoảng cách…
7
I.4. PHÁT HIỆN SỰ TRÙNG LẮP THÔNG TIN
-
Các bộ máy tìm kiếm ra đời hỗ trợ hiệu quả cho việc tìm kiếm thông tin.
-
Có rất nhiều kết quả trùng lắp. phát hiện sự trùng lắp thông tin
hiệu quả là rất quan trọng, đặc biệt đối với những ứng dụng có dữ liệu lớn.
8
I.5. MỤC TIÊU, GIỚI HẠN ĐỀ TÀI
-
Đưa ra mô hình chung cho hệ thống tìm kiếm tin bài theo ngữ nghĩa trên báo điện tử.
-
Giải quyết các vấn đề:

Tìm hiểu các kỹ thuật giúp cho việc thu thập tin bài

Nghiên cứu mô hình Ontology mô tả tri thức lĩnh vực, tìm hiểu các phương pháp biểu diễn ngữ nghĩa
liên quan đến nội dung tin bài

Nghiên cứu và đề xuất kỹ thuật rút trích các keyphrase một cách hiệu quả
9
I.5. MỤC TIÊU, GIỚI HẠN ĐỀ TÀI

-
Giải quyết các vấn đề:

Đưa ra các vấn đề và thuật toán cho việc tìm kiếm ngữ nghĩa.

Giải quyết bài toán tìm kiếm theo chủ đề.

Liệt kê các tin bài không trùng lắp cho bài toán điểm tin.
-
Xây dựng hệ hỗ trợ tìm kiếm tin bài trên các báo điện tử: hỗ trợ thu thập và quản lý tin bài; hỗ trợ tìm
kiếm tin bài theo ngữ nghĩa, tìm kiếm theo từ khóa, và tìm kiếm theo chủ đề cần quan tâm; điểm tin hằng
ngày.
10
I.5. MỤC TIÊU, GIỚI HẠN ĐỀ TÀI
-
Thu thập các trang báo điện tử chính thống như: báo “Tuổi Trẻ Online”, báo “VNEXPRESS”, báo “Dân
Trí”…
-
Xây dựng thử nghiệm một hệ hỗ trợ tìm kiếm tin bài cho một lĩnh vực, cụ thể là lĩnh vực Lao động-Việc
làm.
-
Kho dữ liệu tin bài chứa các tin bài có nội dung là ngôn ngữ Tiếng Việt.
11
NỘI DUNG
I.
TỔNG QUAN VỀ ĐỀ TÀI
II.
MỘT SỐ MÔ HÌNH
III.
CÁC VẤN ĐỀ, THUẬT GIẢI

IV.
ỨNG DỤNG, THỬ NGHIỆM
V.
KẾT LUẬN, HƯỚNG PHÁT TRIỂN
12
II. MỘT SỐ MÔ HÌNH
1. Mô hình hệ thống tìm kiếm báo điện tử theo ngữ nghĩa
2. Mô hình biểu diễn tin bài
13
II.1. MÔ HÌNH HỆ THỐNG TÌM KIẾM BÁO ĐIỆN TỬ THEO NGỮ NGHĨA
Mô hình hệ thống các trang báo điện tử gồm 5 thành phần:
(E, CK_ONTO, KE_Data, Topics, Rels)
- E: tập các trang báo điện tử, cần thu thập và quản lý tin tức. Mỗi trang báo điện tử có 7 thành phần như
trong [17] đã giới thiệu, gồm: tập các thuộc tính, trang chủ, tập các trang lĩnh vực, tập các tin bài, tập cấu trúc
các trang lĩnh vực, tập cấu trúc các trang tin bài và các quan hệ nội tại.
14
II.1. MÔ HÌNH HỆ THỐNG TÌM KIẾM BÁO ĐIỆN TỬ THEO NGỮ NGHĨA
-
CK_ONTO: là một Ontology mô tả tri thức lĩnh vực.
-
Trong [4] và [22] đã giới thiệu CK_ONTO, gồm 6 thành phần:

Tập hợp K các keyphrase mô tả tri thức lĩnh vực

Tập hợp C các lớp keyphrase

Tập hợp R
KC
quan hệ giữa keyphrase và lớp


Tập hợp R
CC
quan hệ giữa các lớp

Tập hợp R
KK
quan hệ giữa các keyphrase

Một hàm gán nhãn label phân loại các keyphrase
15
II.1. MÔ HÌNH HỆ THỐNG TÌM KIẾM BÁO ĐIỆN TỬ THEO NGỮ NGHĨA

CK_ONTO
-
Áp dụng cho lĩnh vực Lao động-Việc làm, thành phần keyphrase K đã được định nghĩa lại.
-
Đưa ra cấu trúc thiết lập các keyphrase cũng như thứ tự kết hợp giữa chúng.
-
Định nghĩa tốt tập keyphrase giúp việc biểu diễn ngữ nghĩa các tin bài tốt hơn và việc rút trích keyphrase
của một tin bài chính xác, đầy đủ.
16
II.1. MÔ HÌNH HỆ THỐNG TÌM KIẾM BÁO ĐIỆN TỬ THEO NGỮ NGHĨA

CK_ONTO
Định nghĩa Keyphrase: Keyphrase là một đơn vị ngôn ngữ học cấu trúc như một từ, một từ kép, một ngữ.
Keyphrase được xem là những từ vựng hay thuật ngữ chuyên ngành biểu thị khái niệm khoa học. Nếu xét
trong 1 lĩnh vực hay chuyên ngành cụ thể, keyphrase biểu thị những khái niệm trong lĩnh vực hay chuyên
ngành đó
17
II.1. MÔ HÌNH HỆ THỐNG TÌM KIẾM BÁO ĐIỆN TỬ THEO NGỮ NGHĨA


CK_ONTO
-
Có 3 loại keyphrase: keyphrase đơn, keyphrase tổ hợp, keyphrase được bổ nghĩa.
-
Ví dụ:
Keyphrase đơn: lao động, việc làm, dân số, thất nghiệp, nghề nghiệp, lực lượng lao động…
Keyphrase tổ hợp: lao động thất nghiệp, lao động và việc làm, lao động nông thôn…
Keyphrase được bổ nghĩa: thu nhập cao, năng suất thấp, trình độ tay nghề cao…
18
II.1. MÔ HÌNH HỆ THỐNG TÌM KIẾM BÁO ĐIỆN TỬ THEO
NGỮ NGHĨA

CK_ONTO

Cấu trúc các keyphrase
Cấu trúc của keyphrase đơn:
1. pK

2. pG p pK 3. pG pK
Cấu trúc của keyphrase tổ hợp:
4. k
1
k
2
5. k
1
p

k

2
6. k
1
c

k
2
7. k
1
r

k
2
8. k
1
vp k
2
Cấu trúc của keyphrase bổ nghĩa:
9. k a 10. k r a
19
II.1. MÔ HÌNH HỆ THỐNG TÌM KIẾM BÁO ĐIỆN TỬ THEO
NGỮ NGHĨA

CK_ONTO
- k
1
, k
2
 K.
- pK  PhraseK. PhraseK là tập các cụm từ liên quan tới lĩnh vực, PhraseK ∩ K ≠ . ∅

- pG  PhraseG. PhraseG là tập các cụm từ có nghĩa nhưng không liên quan tới lĩnh vực, PhraseG ∩ K = . ∅
- p  P. P là tập các giới từ.
- c  C. C là tập các liên từ.
- r  R. R là tập các phụ từ.
- vp  VP. VP là tập các cụm động từ.
- a  A. A là tập các tính từ.
20
II.1. MÔ HÌNH HỆ THỐNG TÌM KIẾM BÁO ĐIỆN TỬ THEO
NGỮ NGHĨA

CK_ONTO
- Như vậy, để tạo thành 1 keyphrase mới, ta có các trường hợp sau:
+ Một phrase kết hợp với 1 keyphrase
+ Nhiều keyphrase cùng kết hợp với nhau
+ Một keyphrase kết hợp với 1 tính từ
- Không phải keyphrase nào cũng kết hợp được với nhau và vị trí xuất hiện của chúng cũng khác nhau trong từng cấu
trúc thiết lập.
mỗi keyphrase sẽ có 1 danh sách, gọi là danh sách thứ tự kết hợp các keyphrase.
21
II.1. MÔ HÌNH HỆ THỐNG TÌM KIẾM BÁO ĐIỆN TỬ THEO NGỮ NGHĨA
-
KE_Data: tập dữ liệu hỗ trợ rút trích keyphrase
-
Topics: tập dữ liệu lưu trữ các chủ đề quan tâm
-
Rels: quan hệ giữa tập E với các thành phần hệ thống
22
II.2. MÔ HÌNH BIỂU DIỄN TIN BÀI

Đồ thị keyphrase

nhân lực
nhân lực
công nhân
công nhân
nghề nghiệp
nghề nghiệp
lực lượng lao động
lực lượng lao động
kindOf
( A kind of)
kindOf
( A kind of)
partOf
( A part of)
partOf
( A part of)
nSyn
(Near synonym)
nSyn
(Near synonym)
23
NỘI DUNG
I.
TỔNG QUAN VỀ ĐỀ TÀI
II.
MỘT SỐ MÔ HÌNH
III.
CÁC VẤN ĐỀ, THUẬT GIẢI
IV.
ỨNG DỤNG, THỬ NGHIỆM

V.
KẾT LUẬN, HƯỚNG PHÁT TRIỂN
24
III. CÁC VẤN ĐỀ VÀ THUẬT GIẢI
1. Thu thập tin bài
2. Rút trích keyphrase
3. Tìm kiếm theo ngữ nghĩa tin bài báo điện tử
4. Tìm kiếm tin bài theo chủ đề
5. Điểm tin
25

×