Trích chọn thông tin trên web

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.94 MB, 94 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trích chọn thông tin trên Web
Giáo viên hướng dẫn: TS. Phan Xuân Hiếu
Nhóm thực hiện: Nhóm 5

NỘI DUNG
1- Tổng quan về trích chọn thông tin
2- Các mô hình trích chọn thông tin
3- Trích chọn thông tin từ văn bản
4- Trích chọn thông tin trên Web

1- Tổng quan về trích chọn thông tin
 Mô hình biểu diễn tri thức cho tài liệu văn bản
bao gồm các thành phần tri thức như:
 siêu dữ liệu mô tả nguồn gốc, cấu trúc văn bản (tiêu
đề, tác giả, nơi xuất bản, năm xuất bản, chủ đề, nơi
lưu trữ, ...)
 Các cụm từ khóa, các thực thể
 Quan hệ giữa các thực thể biểu diễn nội dung tài liệu

 Hỗ trợ truy vấn thông minh, tìm kiếm thông
tin, tài liệu liên quan từ kho tài liệu đã thu
thập, tổ chức lưu trữ.

Tổng quan về trích chọn thông tin
 Phương pháp, công cụ rút trích thông

tin văn bản như:
Rút trích từ khóa, cụm từ khóa
Rút trích thực thể (có tên, không tên)
Rút trích các mối quan hệ
Rút trích các thành phần cấu trúc,
metadata của tài liệu
 …





Tổng quan về trích chọn thông tin


Rút trích từ khóa, cụm từ khóa
 Rút trích các thuật ngữ (Terminology extraction)
 tìm kiếm các thuật ngữ chính có liên quan, thể hiện
ngữ nghĩa, nội dung, chủ đề tài liệu hay một tập các
tài liệu.



Rút trích thực thể (có tên, không tên)
 named entity recognition
 việc rút trích ra các thực thể có tên tập trung vào các
phương pháp nhận diện các đối tượng, thực thể như:
tên người, tên công ty, tên tổ chức, một địa danh, nơi
chốn

Tổng quan về trích chọn thông tin
 Các bước
Extraction

cơ

bản

của

hệ

thống

Information

 Tiền xử lý







Nhận biết định dạng tài liệu (Format detection)
Tách từ (Tokenization)
Phân đoạn từ (Word segmentation)
Giải quyết nhập nhằng ngữ nghĩa (Sense disambiguation)

Tách câu (Sentence splitting)
Gán nhãn từ loại (POS tagging)

 Nhận diện thực thể đặt tên (Named Entity Detection)
 Nhận biết thực thể (Entity detection)
 Xác định đồng tham chiếu (Coreference)

Tổng quan về trích chọn thông tin
 Các cách tiếp cận đối với phương pháp rút trích
thông tin
Tiếp cận tri thức

Tiếp cận học tự động

Dựa trên luật, mẫu được xây dựng thủ công.

Dựa trên học máy thông kê.

Được phát triển bởi những chuyên gia ngôn
ngữ, chuyên gia lĩnh vực có kinh nghiệm.

Người phát triển không cần thành thạo
ngôn ngữ, lĩnh vực.

Dựa vào trực giác, quan sát. Hiệu quả đạt được Cần một lượng lớn dữ liệu học được
tốt hơn. Việc phát triển có thể sẽ tốn nhiều thời gán nhãn tốt.
gian
Khi có sự thay đổi  có thể cần phải
Khó điều chỉnh khi có sự thay đổi

gán nhãn lại cho cả tập dữ liệu học.

Tổng quan về trích chọn thông tin
 Thuật toán KEA
 là một thuật toán trích xuất các cụm từ
khóa (keyphrases) từ dữ liệu văn bản
 Xác định danh sách các cụm ứng viên
dùng các phương pháp từ vựng học
 Tính toán giá trị đặc trưng cho mỗi ứng
viên
 Tiếp đến dùng thuật toán học máy để tiên
đoán xem các cụm ứng viên nào là các
cụm từ khóa

Thuật toán KEA
 Cụm ứng viên
 cụm ứng viên n-gram (chiều dài 1 đến 3
từ)
 dùng từ điển định nghĩa trước
 chuyển về dạng gốc của từ (stemming)

Thuật toán KEA
 Tính toán đặc trưng
 TF×IDF
 Vị trí xuất hiện đầu tiên
 gần đầu hay cuối tài liệu thì càng có khả năng trở
thành cụm từ khóa

 Chiều dài cụm
 chiều dài là 2 thường được quan tâm

 Độ tương quan
 số lượng các cụm trong danh sách các cụm ứng
viên có liên quan ngữ nghĩa với cụm đang xét.
 tính nhờ vào từ điển định nghĩa trước

Thuật toán KEA
 Huấn luyện và xây dựng mô hình
 tính toán giá trị đặc trưng cho các cụm
ứng viên
 đánh dấu những cụm nào là “cụm +” (là
cụm từ khóa) và những cụm nào là “cụm
-“ (không là cụm từ khóa).

Thuật toán KIP
 Thuật toán KIP
 Một cụm danh từ chứa những từ khóa hay cụm từ
khóa về một lĩnh vực cụ thể sẽ có khả năng trở
thành cụm từ khóa trong lĩnh vực đó.
 Một cụm danh từ càng chứa nhiều từ khóa hay
cụm từ khóa thì cụm danh từ này càng có nhiều
khả năng trở thành cụm từ khóa.
 Hệ thống xây dựng sẵn một cơ sở dữ liệu từ vựng
lưu giữ các từ khóa, cụm từ khóa về một lĩnh vực
cụ thể.

Thuật toán KIP
 Thuật toán KIP
 Và các từ khóa trong từ điển định nghĩa
trước đó sẽ dùng để tính toán điểm hay
trọng số cho một cụm danh từ.
 Từ đó quyết định cụm ứng viên nào là
cụm từ khóa dựa trên trọng số, điểm số
đã tính được cao hơn.

Thuật toán Co-ocurrence của từ
 Tư tưởng
 Frequent term được trích xuất đầu tiên.
 Một tập hợp xảy ra đồng thời trong cùng một câu
giữa mỗi term và các frequent term khác.
 Phân bố co-occurrence cho thấy tầm quan trọng
của một từ trong tài liệu.
 Nếu xác suất phân bố co-occurrence giữa term a
và frequent term bị lệch với một tập hợp con cụ
thể của frequent term, sau đó term a có thể sẽ là
một từ khóa.
 Độ lệch của sự phân

bố được đo bằng Χ2.
 Chỉ dựa vào một tài liệu duy nhất

Thuật toán Co-ocurrence của từ

 Bảng 1
 cho thấy mười term đầu tiên có tần suất
cao nhất (ký hiệu là tập hợp G) và xác
suất xảy ra

Thuật toán Co-ocurrence của từ
 Bảng 2
 một ma trận co-occurrence được tạo
bằng cách đếm tần số xuất hiện của cặp
term xuất hiện đồng thời
 term a và term b cùng xảy ra trong 30
câu trong tài liệu

Thuật toán Co-ocurrence của từ
 Nhận xét:
 term w xuất hiện độc lập với các term
xuất hiện thường xuyên trong G
 co-occurrence của term w và g là lớn hơn
dự kiến, sự phân bố bị lệch.
 Để đánh giá ý nghĩa thống kê của sự
chênh lệch, chúng tôi sử dụng thử
nghiệm χ2, rất phổ biến để đánh giá
những sự chênh giữa

các tần số dự kiến
và tần số quan

sát.

Wrapper qui nạp
 Wrapper qui nạp
 Đây là phương pháp bán tự động. Nó được đề
xuất vào khoảng năm 1995-1996.
 Trong phương pháp này thì một tập hợp các luật
trích xuất được học từ một bộ các trang đã được
gán nhãn bằng tay.
 Sau đó các luật này sẽ được dùng để trích xuất các
thành phần dữ liệu từ những trang có định dạng
tương tự.
 Một số giải thuật tiêu biểu như: Stalker[5],
WIEN[13] (được sử dụng trong máy tìm kiếm
lycos).

Trích xuất thông tin dựa vào
cây DOM

Thuật toán BTE
 Thuật toán BTE
 (Body Text Extractor)
 được phát triển bằng cách sử dụng thông tin mật
độ chữ văn bản và mật độ thẻ để đánh dấu cho
các phần khác nhau của trang web.
 Ý tưởng chính của thuật toán BTE được Aidan

Finn [7] đề xuất như sau :
 Xác định hai điểm i, j sao
tokens) dưới i và trên j là
(text-tokens) giữa i và j
rút chính là các dấu hiệu
được tách ra.

cho số thẻ HTML (tagtối đa, đồng thời số từ
là tối đa. Kết quả trích
văn bản giữa đoạn [i, j]

2- Các mô hình trích chọn thông tin
 CONDITIONAL RANDOM FIELDS
 MÔ HÌNH MARKOV ẨN

Mô hình markov ẩn

Định nghĩa

S=S1, S2, …, SN: Tập các trạng thái
 π={πi|i=1…N}: xác xuất khởi tạo cho các trạng thái
 A=a11, a12, …, aN1, … aNN: Ma trận chuyển trạng
thái aij: xác suất chuyển từ trạng thái Sisang trạng
thái Sj,
 O=o1, o2, …, oT: Chuỗi quan sát
 B={bi(ot)|i=1…N}: Phân phối xác xuất của quan sát,
xác xuất xuất hiện ot trên trạng thái Si

 S0, Send: trạng thái đặc biệt không liên quan đến
quan sát

Trích chọn thông tin trên web

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về