Tải bản đầy đủ (.pdf) (27 trang)

Nghiên cứu phương pháp tìm kiếm tài liệu dựa trên công thức toán (tóm tắt luận án tiến sĩ kỹ thuật)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.6 MB, 27 trang )

BỘ THÔNG TIN VÀ TRUYỀN THÔNG
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG
*******************

IT

CAO XN TUẤN

PT

NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIẾM
TÀI LIỆU DỰA TRÊN CƠNG THỨC TỐN
Chun ngành: Hệ thống thơng tin
Mã số:
62.48.01.04

TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT

Hà Nội, 2017


Cơng trình hồn thành tại:
Học viện Cơng nghệ Bưu chính Viễn thông

Người hướng dẫn khoa học:
1. PGS.TS. Võ Trung Hùng

IT

2. TS. Nguyễn Mạnh Hùng


Phản biện 1: PGS.TS. Nguyễn Đăng Hưng
Phản biện 2: PGS.TS. Nguyễn Tấn Khôi

PT

Phản biện 3: PGS.TS. Lê Hữu Lập

Luận án được bảo vệ trước Hội đồng cấp Học viện tại:
Học viện Cơng nghệ Bưu chính Viễn thơng
Vào lúc: 14h00, ngày 01 tháng 9 năm 2017

Có thể tìm hiểu luận án tại:
1) Thư viện Quốc gia
2) Thư viện Học viện Cơng nghệ Bưu chính Viễn thơng


1
MỞ ĐẦU
Trong những năm gần đây, cùng với sự phát triển mạnh mẽ của
mạng Internet và công nghệ Web là sự bùng nổ thông tin số. Số
lượng người sử dụng và lượng thông tin sản sinh ra trên mạng
Internet gia tăng rất nhanh. Có thể tìm thấy hầu hết thơng tin cần thiết
khi có nhu cầu. Đặc biệt, lượng thơng tin liên quan đến khoa học,
phục vụ học tập, nghiên cứu cũng gia tăng nhanh chóng và phong
phú về lĩnh vực… Các cơng cụ tìm kiếm phổ biến hiện nay như
Google, Yahoo, Bing… hỗ trợ việc tìm kiếm các dữ liệu dưới dạng
văn bản và hình ảnh, việc tìm kiếm các dữ liệu đặc biệt như cơng
thức tốn hầu như chưa thực hiện được như mong muốn.

IT


Hiện nay có nhiều công cụ cho phép soạn thảo và quản lý công
thức tốn, nhưng việc tìm kiếm cịn gặp nhiều khó khăn, do chưa có
chuẩn chung về biễn diễn và lưu trữ. Để tìm kiếm một tài liệu dựa

PT

trên cơng thức tốn, chúng ta cần có một cơ chế thống nhất để mơ tả,
biểu diễn, lưu trữ và tìm kiếm theo ngữ nghĩa tương ứng với cơng
thức đó.

Mục tiêu nghiên cứu

Mục tiêu tổng qt của đề tài là đề xuất mơ hình biểu diễn, lưu trữ
cơng thức tốn và tìm kiếm tài liệu dựa trên cơng thức tốn với nhiều
nền tảng hệ thống khác nhau: máy đơn, mạng nội bộ, trên Internet.
Mục tiêu cụ thể như sau:
(1) Đề xuất mơ hình biểu diễn và lưu trữ cơng thức tốn một cách
thống nhất, có thể chuyển đổi từ nhiều nguồn trên nhiều cơng cụ soạn
thảo và lưu trữ khác nhau.
(2) Đề xuất phương pháp chuyển đổi hai chiều các dạng biểu diễn
và lưu trữ cơng thức tốn khác nhau.


2
(3) Đề xuất phương pháp lập chỉ mục, xây dựng các Ontology tài
liệu chứa cơng thức tốn.
(4) Đề xuất kỹ thuật tìm kiếm các tài liệu chứa cơng thức tốn trên
môi trường Internet, với cả Web thông thường và Semantic Web (Web
ngữ nghĩa).

Đối tượng nghiên cứu
Phương pháp biểu diễn công thức toán trong các tài liệu lưu trữ
dưới dạng TeX/LaTeX, AMS-LaTeX, HTML, MathML…; Giải pháp
mơ hình hóa cơng thức tốn, mơ hình biểu diễn cơng thức tốn; Kỹ
thuật bóc tách và tổng hợp thơng tin từ trang Web; Mơ hình và phương
Nội dung nghiên cứu

IT

pháp tìm kiếm; Semantic Web.
Nội dung chính của luận án tập trung nghiên cứu mơ hình biểu diễn
và lưu trữ cơng thức tốn, bài tốn tìm kiếm tài liệu dựa trên cơng thức

PT

tốn. Các nội dung nghiên cứu bao gồm:

- Tổng quan về chuẩn biểu diễn, lưu trữ, cơng cụ soạn thảo và tìm
kiếm tài liệu dựa trên cơng thức tốn.

- Mơ hình biểu diễn eFormula (cơng thức tốn trực tuyến), dựa trên
OpenMath và MathML.

- Mơ hình mơ tả quan hệ ngữ nghĩa giữa eFormula và khái niệm
tốn học trong Ontology, được xây dựng trong ngơn ngữ OWL (Web
Ontology Language). Mơ hình biểu diễn và suy luận lai (hybrid logic)
cho phép tìm kiếm dựa trên ngữ nghĩa tốn học và ngữ nghĩa của cơng
thức.
- Tích hợp lưu trữ và tìm kiếm tài liệu dựa trên cơng thức toán trong
các ứng dụng khác nhau.



3
Bố cục của luận án
Luận án được trình bày thành 4 chương. Trong đó, chương 1 giới
thiệu tổng quan về tìm kiếm văn bản và cơng thức tốn. Chương 2
trình bày những nghiên cứu về biểu diễn và lưu trữ cơng thức tốn.
Chương 3 trình bày những giải pháp đề xuất về tìm kiếm tài liệu dựa
trên cơng thức tốn và chương 4 là thử nghiệm, đánh giá những kết
quả nghiên cứu của chương 2 và chương 3.
CHƯƠNG 1: TỔNG QUAN VỀ TÌM KIẾM VĂN BẢN VÀ
CƠNG THỨC TỐN
Chương này trình bày một số kết quả nghiên cứu tổng quan liên

IT

quan đến đề tài gồm: những khái niệm về văn bản và hệ thống tìm
kiếm văn bản; các vấn đề đối với lưu trữ và tìm kiếm văn bản chứa
cơng thức toán; định hướng nghiên cứu của luận án.

PT

1.1. Bài tốn tìm kiếm văn bản

Một hệ thống tìm kiếm văn bản nói chung, thường có hai phần
khá tách biệt là: (i) Phần hệ thống quản lí, lưu trữ; và (ii) phần hệ
thống tìm kiếm như Hình 1.1.

Hình 1.1. Kiến trúc tổng quan hệ thống lưu trữ và tìm kiếm văn bản



4
1.2. Tìm kiếm văn bản chứa cơng thức tốn
Mặc dù mơ hình lưu trữ và tìm kiếm văn bản như đã trình bày
trong mục 1.1 đã được áp dụng rộng rãi và được một số lượng lớn
người sử dụng chấp nhận. Tuy vậy, mơ hình này vẫn cịn gặp nhiều
khó khăn, hạn chế khi áp dụng vào bài tốn tìm kiếm văn bản chứa
cơng thức tốn. Một số khó khăn có thể kể đến như:
- Phần nội dung cơng thức tốn trong văn bản được xử lí như là
một đối tượng độc lập (chẳng hạn như hình ảnh, bảng biểu, sơ đồ,…)
được nhúng vào văn bản. Do đó, khơng thể áp dụng các kỹ thuật xử lí
văn bản vào các bước xử lí cho cơng thức tốn.
- Nội dung cơng thức toán được biểu diễn và lưu trữ trong các tài

IT

liệu khác nhau là không giống nhau. Điều này dẫn đến khó khăn
trong việc đánh chỉ mục các tài liệu chứa cơng thức tốn, gây khó
khăn trong việc tìm kiếm và xếp hạng kết quả tìm kiếm tài liệu chứa

PT

cơng thức toán.

Ký hiệu toán học là một loại văn bản định dạng đặc biệt. Nó dựa
trên các bảng chữ cái khác nhau (tiếng Hy Lạp, tiếng Do Thái,…), các
quy tắc và các bit của ký hiệu. Dưới đây là một số cách biểu diễn:
1) Biểu diễn cơng thức tốn trên Microsoft Word
Ví dụ trong Microsoft Word 2010, để hiển thị công thức 2√𝑥 , soạn
thảo bằng Equation Editor (Soạn thảo phương trình) được biểu diễn

bằng đoạn mã tương ứng { EQ \r(3,x) }
x+2017
Hoặc để hiển thị
, biểu diễn bằng đoạn mã tương ứng sau:
y+2018

{ EQ \f(x+2017, y+2018) }
2) Biểu diễn cơng thức tốn trên OpenOffice.Org
Để hiển thị 2√𝑥 , biểu diễn bằng đoạn mã tương ứng sau:
nroot{2}{x}


5
Hoặc để hiển thị

𝑥+2017
,
𝑦+2018

biểu diễn bằng đoạn mã tương ứng sau:

{x+2017} over {y+2018}
3) Biểu diễn cơng thức tốn trên Website
Để tạo cơng thức tốn trên Website, phải nhập vào đoạn mã của
LaTeX tương ứng. Sau đây là ví dụ minh hoạ:
2

Để hiển thị √x , biểu diễn bằng đoạn mã tương ứng sau:
$\sqrt[2]{x}$
Hoặc để hiển thị


𝑥+2017
, biểu diễn bằng đoạn
𝑦+2018

mã tương ứng sau:

$\frac{x+2017}{y+2018}$
Hiện nay có rất nhiều phương pháp, cách thức và tiêu chuẩn áp

IT

dụng cho việc đặc tả, biểu diễn và lưu trữ cơng thức tốn trên một
văn bản, một số phương pháp, tiêu chuẩn thường được sử dụng bằng
các ngôn ngữ đánh dấu như: TeX/LaTeX, AMS-LaTeX, HTML,
MathML... Luận án đề xuất lựa chọn sử dụng MathML làm ngôn ngữ

PT

biểu diễn và lưu trữ cơng thức tốn phục vụ cho bài tốn tìm kiếm tài
liệu chứa cơng thức tốn.

1.3. Hướng tiếp cận của luận án

Nội dung mục 1.2 đã trình bày vấn đề khơng thống nhất giữa các
hệ thống soạn thảo, biểu diễn và lưu trữ cơng thức tốn trong văn
bản. Thực tế này dẫn đến khó khăn cho việc áp dụng mơ hình biểu
diễn, lưu trữ và tìm kiếm văn bản thống nhất trong bài toán lưu trữ và
tìm kiếm văn bản chứa cơng thức tốn. Để giải quyết những khó khăn
này, có các giải pháp sau:

Giải pháp 1: Xây dựng hệ thống riêng cho bài toán lưu trữ và
tìm kiếm văn bản chứa cơng thức tốn.


6
Giải pháp 2: Cải tiến mơ hình đã có bằng cách bổ sung các hệ
thống đánh chỉ mục, tìm kiếm và xếp hạng văn bản theo các dạng lưu

IT

trữ công thức toán khác nhau. Giải pháp này thể hiện ở Hình 1.9.

Hình 1.9. Kiến trúc hệ thống theo giải pháp 2

- Giải pháp 3: Cải tiến mơ hình đã có bằng cách đề xuất chuẩn

PT

biểu diễn và lưu trữ công thức tốn chung trong văn bản và áp dụng
mơ hình truyền thống đối với dạng biểu diễn chung này. Giải pháp
này thể hiện ở Hình 1.10.

Hình 1.10. Kiến trúc hệ thống theo giải pháp 3


7
Có thể nhận thấy rằng, giải pháp 3 có các ưu điểm, đồng thời khắc
phục được các nhược điểm của giải pháp 2. Với kiến trúc hệ thống trong
Hình 1.10, có thể nhận thấy giải pháp này tinh gọn hơn, ít phải thay đổi
hơn so với giải pháp 2. Luận án sẽ chọn hướng tiếp cận theo giải pháp 3

này.
1.4. Kết luận Chương 1
Chương này đã trình bày những kết quả nghiên cứu tổng quan về quá
trình soạn thảo, biểu diễn cơng thức tốn; tìm kiếm tài liệu có chứa cơng
thức tốn. Việc soạn thảo và biểu diễn cơng thức tốn trên các cơng cụ

IT

soạn thảo và đặc biệt trên Web hiện đang là một vấn đề được quan tâm.

CHƯƠNG 2. BIỂU DIỄN VÀ LƯU TRỮ CƠNG THỨC TỐN
Nội dung chương này tập trung trình bày đề xuất mơ hình biểu diễn

PT

và lưu trữ cơng thức tốn trong văn bản, dựa trên ngôn ngữ đánh dấu
MathML. Trên cơ sở mô hình biểu diễn và lưu trữ chung đó, luận án đề
xuất giải pháp soạn thảo văn bản chứa các công thức tốn, cho phép sao
chép, chuyển đổi cơng thức tốn được lưu trữ theo các chuẩn biểu diễn
và lưu trữ khác nhau.

2.1. Mơ hình biểu diễn và tìm kiếm cơng thức tốn trong văn bản
Hiện nay, có rất nhiều cơng cụ cho phép soạn thảo cơng thức tốn
trong văn bản như Microsoft Word, OpenOffice.org Math, Acrobat,
WebEditor,… Mặc dù kết quả hiển thị các cơng thức tốn tương tự
nhau, nhưng mỗi cơng cụ soạn thảo văn bản có một chuẩn lưu trữ nội
dung riêng, đặc biệt là lưu trữ nội dung các cơng thức tốn như biểu
diễn ở Hình 2.1:



8

Hình 2.1. Mơ hình biểu diễn cơng thức tốn trong văn bản truyền thống

Thực tế này dẫn đến một số khó khăn: (1) Khơng thể sao chép
cơng thức tốn từ một công cụ soạn thảo này sang các công cụ soạn

IT

thảo khác; (2) Khó khăn khi tìm kiếm tài liệu dựa trên cơng thức tốn
được soạn thảo và lưu trữ trên các cơng cụ soạn thảo khác nhau.
Từ những khó khăn này, luận án đề xuất xây dựng một môi
trường soạn thảo, biểu diễn và lưu trữ thống nhất, cho phép sao chép,

PT

tìm kiếm, chuyển đổi giữa các chuẩn biểu diễn và lưu trữ khác nhau
một cách dễ dàng. Hình 2.2 mơ tả mơ hình đề xuất của luận án.

Hình 2.2. Mơ hình biểu diễn và lưu trữ cơng thức toán trong văn bản đề xuất


9
Theo đó, một hệ thống quản lí và tìm kiếm tài liệu chứa cơng thức
tốn có hai mức: (1) Mức quản lí cơng thức tốn trong phạm vi một
văn bản (mức thấp), (2) Mức tìm kiếm các văn bản dựa trên cơng
thức tốn (mức cao). Mức cao sẽ được trình bày chi tiết trong chương
3 của luận án. Nội dung chương này tập trung trình bày về mức thấp
trong mơ hình đề xuất.
Ở mức thấp, luận án đề xuất mơ hình biểu diễn và lưu trữ cơng

thức tốn trên cơ sở sử dụng ngơn ngữ MathML. Khi đó, các cơng
thức toán được soạn thảo, biểu diễn, lưu trữ, hiển thị theo một cách
chung, một hệ thống lưu trữ chung và một hệ thống hiển thị chung.
2.2. Biểu diễn và lưu trữ cơng thức tốn với MathML

IT

Luận án đề xuất sử dụng MathML làm ngôn ngữ biểu diễn và lưu
trữ công thức tốn, vì đây là chuẩn được đa số các công cụ soạn thảo
văn bản hiện nay hỗ trợ, đặc biệt các trình duyệt Web. Để phát triển

PT

cơng cụ soạn thảo văn bản cho phép soạn và lưu trữ công thức dưới
dạng MathML, luận án sử dụng mã nguồn mở Amaya và tích hợp
vào đó các cơng cụ để tìm kiếm và sao chép cơng thức tốn từ các
cơng cụ soạn thảo văn bản khác được phát triển trong luận án.
2.3. Soạn thảo và hiển thị cơng thức tốn với Amaya
Để soạn thảo văn bản, luận án đề xuất sử dụng mã nguồn mở
Amaya [43]. Amaya là phần mềm theo kiểu WYSIWYG. Với cơng cụ
này, người dùng có thể vừa soạn thảo, vừa xem hiển thị kết quả trên
trình duyệt. Các bộ công cụ của Amaya ở chế độ bảng lựa chọn tương
tự như Microsoft Word, OpenOffice.Org Math,... [16].
2.4. Sao chép cơng thức tốn trong Amaya
Luận án đề xuất xây dựng một chương trình thường trú và tích hợp
vào Amaya để cho phép sao chép công thức được soạn thảo từ một cơng
cụ soạn thảo khác sang trình duyệt Amaya. Mơ hình hoạt động như sau:


10


Hình 2.5. Sơ đồ quá trình chuyển đổi dữ liệu trong ClipBoard

Ý tưởng đề xuất là tiến hành sao chép cơng thức tốn dưới dạng
Text vào ClipBoard, sau đó xử lý trên ClipBoard để chuyển sang
ngôn ngữ đánh dấu MathML và dán vào Amaya.
2.5. Chuyển đổi công thức MathML với các định dạng khác

IT

Việc chuyển đổi cách biểu diễn và lưu trữ cơng thức tốn theo
chuẩn MathML sang các chuẩn khác khơng gặp nhiều khó khăn. Vấn
đề là tìm ra sự tương đương giữa MathML và chuẩn biểu diễn và lưu
tương

ứng

trong

TeX,

PT

trữ

LaTeX,

Microsoft

Word,


OpenOffice.Org... để tạo ánh xạ chuyển đổi [39].
Việc chuyển đổi từ MathML sang TeX theo mơ hình như sau:

Hình 2.8. Mơ hình chuyển đổi cơng thức từ MathML sang TeX

Đối tượng trong MathML được biểu diễn theo một cấu trúc được
qui định trong mơ hình đối tượng tài liệu (Document Object Model)
qui định bởi W3C [22]. Đối tượng này sẽ được biểu diễn dưới dạng
cây như sau:


11

Hình 2.9. Biểu diễn dạng cây của cơng thức MathML

Đối tượng trong TeX cũng được biểu diễn dưới dạng cây nhưng khác
với cây trong MathML về mặt lơ gíc. Mỗi mức của cây này tương ứng
với một nhóm trong TeX. Ví dụ: một biểu thức trong TeX $\sqrt {1-

PT

IT

\alpha} + x^{3+a}$ sẽ được biểu diễn dưới dạng cây như sau:

Hình 2.10. Biểu diễn dưới dạng cây của đối tượng TeX

2.6. Kết luận Chương 2


Chương này đề xuất mơ hình biểu diễn và lưu trữ đồng bộ cơng
thức tốn gồm hai mức: Mức thấp cho việc quản lí cơng thức tốn
trong phạm vi một văn bản. Trong mức này, luận án đề xuất MathML
được sử dụng như là chuẩn biểu diễn, lưu trữ và xử lý các cơng thức
tốn. Mơi trường soạn thảo cơng thức tốn sử dụng mã nguồn mở
Amaya, cho phép soạn thảo cơng thức tốn theo chuẩn MathML. Mơ
hình này hỗ trợ việc chuyển đổi, sao chép cơng thức tốn giữa các
dạng khác nhau vào mơi trường soạn thảo, biểu diễn và lưu trữ theo
chuẩn MathML và ngược lại.


12
CHƯƠNG 3. TÌM KIẾM TÀI LIỆU DỰA TRÊN
CƠNG THỨC TỐN
Trên cơ sở mơ hình biểu diễn ở chương 2, chương này trình bày
mơ hình tìm kiếm tài liệu, đặc biệt là các tài liệu trên môi trường
Web dựa trên công thức tốn. Phần tiếp theo liên quan đến tìm kiếm
các tài liệu trên Web thông thường và trên Semantic Web.
3.1. Bài tốn tìm kiếm tài liệu tốn học
Hầu hết các cách tiếp cận tìm kiếm dựa trên 2 thành phần chính:
một là các kỹ thuật biểu diễn thơng tin (câu truy vấn, tài liệu) và hai là
phương pháp đối sánh các cách biểu diễn này. Yêu cầu tự động hóa qui

IT

trình kiểm tra các tài liệu địi hỏi phải tính toán độ tương đồng giữa
câu truy vấn và các tài liệu. Qui trình này trả về các kết quả giống với

PT


yêu cầu khi đối sánh câu truy vấn với các tài liệu.

Hình 3.1. Mơ hình hệ thống tìm kiếm thơng tin


13
3.2. Tìm kiếm các tài liệu có chứa cơng thức tốn
- Mơ hình đề xuất

Nội dung phần này trình bày giải pháp tìm kiếm những tài liệu
hoặc trang Web dựa vào mơ hình biểu diễn và lưu trữ cơng thức tốn
trong văn bản được đề xuất trong chương trước. Mơ hình tìm kiếm
này có hai q trình chính đó là tạo chỉ mục cho các tài liệu và tìm
kiếm theo u cầu truy vấn của người dùng. Mơ hình tổng quát của

PT

IT

quá trình tạo chỉ mục và tìm kiếm như Hình 3.2.

Hình 3.2. Mơ hình tổng qt của q trình tạo chỉ mục và tìm kiếm

Như vậy, trong mơ hình tìm kiếm tài liệu dựa trên cơng thức tốn,
có 3 mô đun: (1) lập chỉ mục văn bản; (2) chuyển đổi cơng thức tốn;
(3) tìm kiếm và hiển thị kết quả, trong đó mơ đun chuyển đổi cơng
thức tốn tn theo mơ hình biểu diễn và lưu trữ cơng thức toán đã
được đề xuất. Do vậy, luận án sẽ chỉ trình bày chi tiết hai mơ đun lập
chỉ mục văn bản, tìm kiếm và hiển thị kết quả.



14
- Mơ hình lập chỉ mục văn bản
Q trình này thu thập các văn bản chứa cơng thức tốn từ
Internet và từ các nguồn khác, thực hiện đánh chỉ mục các văn bản
theo đặc trưng của văn bản và lưu vào CSDL chỉ mục văn bản. Các

PT

IT

bước chi tiết của q trình này được mơ tả trong Hình 3.3:

Hình 3.3. Mơ hình mơ đun lập chỉ mục văn bản

Bước 1. Tiền xử lí văn bản theo thể loại: Bước này xác định xem
văn bản có chứa cơng thức tốn hay khơng. Nếu văn bản khơng chứa
cơng thức tốn, hệ thống sẽ loại văn bản đó ra khỏi quy trình đánh
chỉ mục. Kết quả bước này là tập các văn bản thơ chứa cơng thức
tốn. Các văn bản có thể ở nhiều dạng khác nhau như PDF, HTML,
Doc, XML...
Bước 2. Chuyển đổi định dạng văn bản: Bước này cho phép tìm
kiếm và chuyển đổi định dạng tài liệu từ PDF, HTML, Doc,


15
XML...sang XHTML+MathML. Kết quả bước này là tập các văn bản
chứa cơng thức tốn, được chuyển đổi về định dạng là XHTML
+MathML.
Bước 3. Bóc tách cơng thức tốn trong văn bản: Nội dung tài liệu sẽ

được phân tách thành nội dung văn bản và cơng thức tốn. Các nội
dung văn bản được lập chỉ mục theo cách thông thường. Các cơng thức
tốn sau khi chuẩn hóa sẽ được chuyển đổi thành một chuỗi nén, có thể
được lập chỉ mục như một chuỗi văn bản bình thường.
Bước 4. Đánh chỉ mục và lưu vào CSDL chỉ mục văn bản: Bước
này sẽ đánh chỉ mục các văn bản theo phương pháp Lucene. Sau đó
các văn bản được lưu vào CSDL chỉ mục các văn bản.

IT

- Mơ đun tìm kiếm và hiển thị kết quả

Mô đun này cho phép người dùng nhập từ khóa hoặc cơng thức
tốn vào để tìm kiếm. Sau đó hệ thống sẽ tìm và tính điểm các văn

PT

bản liên quan đến cơng thức muốn tìm trong CSDL chỉ mục các văn
bản. Kết quả sẽ được hiển thị danh sách các văn bản có liên quan đến
câu truy vấn. Quá trình này được mơ tả trong trong Hình 3.4.

Hình 3.4. Mơ hình q trình tìm kiếm


16
Bước 1. Tiếp nhận và chuẩn hóa câu truy vấn: Kết quả trả về của
cơng thức tốn được lưu trữ dưới dạng Presentation MathML. Cơng
thức này cũng có thể được chuyển đổi sang Content MathML hoặc
LaTeX, tùy vào nhu cầu tìm kiếm.
Bước 2. Truy vấn – tìm kiếm: Để thực hiện chức năng tìm kiếm

cơng thức tốn, luận án đề xuất sử dụng phương pháp đối sánh mẫu
(Pattern Matching) [2], [28]. Bài tốn u cầu tìm ra một hoặc nhiều
vị trí xuất hiện của mẫu trên một văn bản, trong đó mẫu và văn bản là
các chuỗi có độ dài m và n (m ≤ n).
Bước 3. Xếp hạng kết quả tìm kiếm và hiển thị: Luận án đề xuất
sử dụng thuật toán xếp hạng TF-IDF (Term Frequency - Inverse

IT

Document Frequency, Tần số mục từ - Tần số tài liệu nghịch đảo). Ý
tưởng của thuật toán này là mục từ truy vấn nào xuất hiện càng nhiều
trong tài liệu, tài liệu sẽ có điểm càng cao.

PT

3.3. Tìm kiếm tài liệu dựa trên Semantic Web
- Mô tả ứng dụng Semantic Web toán học
Luận án đề xuất xây dựng một hệ thống Semantic Web tốn học
dựa trên Semantic Web và lơ gíc mô tả được khuyến cáo bởi W3C.
Điểm đặc biệt của ứng dụng này so với các ứng dụng khác là các tài
liệu được soạn thảo và lưu trữ dựa trên khơng gian đề xuất ở chương
2 và chúng ta có thể tìm thấy các tài liệu với câu truy vấn là cơng
thức tốn hoặc câu truy vấn là ngữ nghĩa được mơ tả của các tài liệu
hoặc cơng thức tốn.
- Mơ hình đề xuất
Trên cơ sở khảo sát thực tế và nghiên cứu lý thuyết, luận án đề
xuất một mô hình tổng quát cho hoạt động của hệ thống như sau:


17


Hình 3.5. Mơ hình hóa hệ thống Semantic Web tốn học

IT

3.4. Kết luận Chương 3

Nội dung chương này trình bày đề xuất về mơ hình tìm kiếm tài
liệu dựa trên cơng thức tốn trên trang Web thơng thường và

PT

Semantic Web. Các văn bản, tài liệu, Ontology được soạn thảo và lưu
trữ dựa trên mơ hình thống nhất cách biểu diễn và lưu trữ cơng thức
tốn đã trình bày ở chương 2, bao gồm hai giai đoạn: lập chỉ mục văn
bản (hoặc xây dựng Ontology) chứa cơng thức tốn và tìm kiếm văn
bản dựa trên cơng thức tốn.

CHƯƠNG 4. THỬ NGHIỆM VÀ ĐÁNH GIÁ
Nội dung chương này trình bày việc thử nghiệm và đánh giá các
mơ hình đã đề xuất trong chương 2 và 3, bao gồm: (1) Mơ hình biểu
diễn và lưu trữ cơng thức tốn trong văn bản; (2) Mơ tả hệ thống thử
nghiệm; (3) Trình bày phương pháp thử nghiệm; (4) Kết quả thử
nghiệm và đánh giá.
4.1. Chức năng soạn thảo và lưu trữ cơng thức tốn
Cửa sổ soạn thảo cơng thức tốn được chia thành ba vùng chính:


18
- Vùng menu chức năng nằm ở phía trên màn hình: chứa các

menu chức năng hỗ trợ cho cơng cụ và môi trường soạn thảo.
- Vùng xem trước (preview) ở bên trái màn hình: cho phép hiển
thị cơng thức tốn như khi được hiển thị trong văn bản xuất ra.
- Vùng soạn thảo nằm ở bên phải và là trung tâm của màn hình:

IT

cho phép soạn thảo cơng thức tốn dưới dạng MathML.

PT

Hình 4.1. Biểu diễn cơng thức theo dạng thẻ (tags)

4.2. Tìm kiếm trực tiếp cơng thức tốn
Ở mức này thực hiện tìm kiếm cơng thức tốn xuất hiện trong một
văn bản.

Hình 4.4. Ví dụ tìm kiếm ký hiệu căn bậc 2


19
4.3. Tìm kiếm trên Ontology

IT

Qui trình cụ thể như sau:

Hình 4.6. Mơ hình xây dựng và khai thác kho dữ liệu

4.4. Tìm kiếm văn bản chứa cơng thức tốn


PT

Hệ thống tìm kiếm tài liệu dựa trên cơng thức tốn
(VNMathSearch) được xây dựng và phát triển theo một số chức năng
chính của mơ hình đã đề xuất.

Phát triển hệ thống thử nghiệm

Trong quá trình nghiên cứu các hệ thống đã được phát triển, luận
án đã lựa chọn ngơn ngữ lập trình C#, hệ quản trị cơ sở dữ liệu SQL
Server và phát triển trên nền web để xây dựng hệ thống.
Chuẩn bị dữ liệu
Luân án sử dụng dữ liệu là các tài liệu kỹ thuật do thư viện Đại
học Đà Nẵng và Trường Đại học Khoa học Tự nhiên - Đại học Quốc
gia Hà Nội cung cấp với tổng số 497 văn bản từ nhiều lĩnh vực khác
nhau gồm: Toán, Vật lí, Cơng nghệ thơng tin, Điện tử và tự động
hóa...Tài liệu được lưu trữ dưới các định dạng như HTML, XHTML,
LaTeX, Doc, PDF…


20
Các tài liệu này khi thử nghiệm trên Semantic Web đã được
chuyển đổi và lưu trữ trên Ontology với các lớp là các kiểu tài liệu và
bổ sung mô tả tóm tắt tài liệu, mơ tả cơng thức tốn có chứa trong tài
liệu.
Sau khi thực hiện phân tích tài liệu, số lượng tài liệu có chứa cơng
thức tốn được thể hiện tại Bảng 4.4.
Bảng 4.4. Kết quả phân tích tài liệu


Tài liệu

Số lượng

Số lượng tài liệu không chứa công thức

245

Số lượng tài liệu chứa công thức

241

Tổng

IT

Số lượng tài liệu không nhận diện được

11
497

Trong số 241 văn bản chứa công thức tốn, có 38 tài liệu chứa 01
cơng thức và 203 tài liệu chứa từ 02 cơng thức tốn trở lên. Tài liệu

PT

được lưu trữ trong cơ sở dữ liệu. Công cụ nhận diện công thức sẽ
nhận diện các công thức trong mỗi tài liệu và lưu trữ, số lượng tài
liệu không nhận diện được là 11 trong tổng số 497 tài liệu. Hiệu suất
phân tích tài liệu của hệ thống được tính bởi cơng thức:

𝑆ố 𝑡à𝑖 𝑙𝑖ệ𝑢 𝑛ℎậ𝑛 𝑑𝑖ệ𝑛 đú𝑛𝑔
𝐻𝑠 =
𝑥100% ≈ 98%
𝑇ổ𝑛𝑔 𝑠ố 𝑡à𝑖 𝑙𝑖ệ𝑢 𝑡𝑟𝑜𝑛𝑔 𝐶𝑆𝐷𝐿
4.5. Đánh giá kết quả
4.5.1. Phương pháp đánh giá
Luận án thực hiện đánh giá với hai kịch bản như sau:
- Kịch bản 1: Nhập truy vấn dưới dạng nội dung văn bản.
- Kịch bản 2: Nhập truy vấn dưới dạng cơng thức tốn.
Luận án quan sát các tham số đầu ra như sau:
Số mẫu đúng trả về (TP - true positive): số lượng văn bản có chứa
nội dung truy vấn xuất hiện trong kết quả tìm kiếm.


21
Số mẫu sai trả về (FP - false positive): số lượng văn bản không
chứa nội dung truy vấn nhưng vẫn xuất hiện trong kết quả tìm kiếm.
Số mẫu đúng khơng trả về (FN - false negative): số lượng văn bản có
chứa nội dung truy vấn nhưng khơng xuất hiện trong kết quả tìm kiếm.
Khi đó, độ chính xác (Precision) được xác định bởi công thức:

TP
TP  FP
Độ triệu hồi (Recall) được xác định bởi cơng thức:
TP
Recall 
TP  FN
Độ chính xác nội suy (Interpolated Precision): Độ chính xác ở
các mức triệu hồi chuẩn từ 0.1 đến 1.0 (0.1, 0.2, ..., 1.0).
Độ chính xác nội suy Precisioninterp ở mức triệu hồi R được tính

bởi cơng thức:

IT

precision 

Precisioninterp (R) = max{P ′ |R′ ≥ R ∧ (R′ , P ′ ) ∈ S}

(4.4)

PT

Trong đó, S là tập các điểm precision-recall (P, R) quan sát được.
Như vậy, độ chính xác nội suy P ở mức triệu hồi R là độ chính
xác cao nhất quan sát được trong tất cả các điểm recall-precision có
mức triệu hồi lớn hơn hoặc bằng R.

Độ chính xác trung bình (Average Precision) được tính bởi cơng
thức sau:
TP+FP

1
AP =
∑ TF(i). P@i
TP + FN
Trong đó:

(4.5)

k=1


TF(i) có giá trị là 1 nếu tài liệu tìm được thứ i có chứa nội dung
truy vấn và có giá trị là 0 nếu tài liệu tìm được thứ i khơng chứa nội
dung truy vấn.
P@i là độ chính xác khi xét đến tài liệu thứ i.


22
4.5.2. Kết quả thực nghiệm và đánh giá kết quả
Luận án sử dụng các câu truy vấn có nội dung khác nhau cho việc
thử nghiệm hệ thống, đối với mỗi mức triệu hồi chuẩn, luận án tính
được độ chính xác tương đương, kết quả thử nghiệm như sau:
Bảng 4.6. Độ chính xác với các mức triệu hồi chuẩn theo kịch bản 1

Recall

Precision

No

Recall

Precision

1

0.1

0.8734


6

0.6

0.7333

2

0.2

0.8333

7

0.7

0.6750

3

0.3

0.8167

8

0.8

0.5833


4

0.4

0.7667

9

0.9

0.5667

5

0.5

0.7433

10

1.0

0.5117

IT

No

Bảng 4.7. Độ chính xác với các mức triệu hồi chuẩn theo kịch bản 2


1
2
3
4
5

Recall

Precision

No

PT

No

Recall

Precision

0.1

0.9667

6

0.6

0.7500


0.2

0.8667

7

0.7

0.6667

0.3

0.8450

8

0.8

0.6333

0.4

0.8000

9

0.9

0.6083


0.5

0.7833

10

1.0

0.5333

Bảng 4.8. Kết quả trung bình của độ triệu hồi và độ chính xác

Kịch bản

Recall

Precision

Truy vấn theo nội dung

0.72

0.71034

Truy vấn theo công thức

0.62

0.74533


Đánh giá kết quả
Mặc dù hai kịch bản đều cho kết quả có độ chính xác cao nhưng
lại cho độ triệu hồi thấp. Có nghĩa là cịn khá nhiều văn bản có chứa


23
nội dung truy vấn nhưng không xuất hiện trong kết quả tìm kiếm.
Hạn chế này có thể xuất phát từ các yếu tố kỹ thuật sau: (1) Do độ chính
xác của Bộ chuyển đổi cơng thức tốn chưa cao, (2) Thuật toán đối sánh
xấp xỉ chưa phát hiện được đầy đủ các chuỗi con của tập từ khóa.
4.6. Kết luận Chương 4
Nội dung chương này đã trình bày việc thử nghiệm và đánh giá các
đề xuất trong chương 2 và 3, bao gồm: mơ hình biểu diễn và lưu trữ
cơng thức tốn trong văn bản sử dụng ngơn ngữ MathML; phương pháp
tìm kiếm văn bản chứa cơng thức tốn dựa trên mơ hình biểu diễn và lưu
trữ đã đề xuất.
KẾT LUẬN

IT

Đề tài luận án xuất phát từ nhu cầu thực tế và những hạn chế trong
các công cụ soạn thảo, biểu diễn, lưu trữ và khai thác các tài liệu khoa
học, đặc biệt là những tài liệu có chứa cơng thức toán. Luận án chỉ ra các

PT

vấn đề nghiên cứu quan trọng liên quan đến việc soạn thảo, lưu trữ, tìm
kiếm các tài liệu khoa học trên máy tính.
Nghiên cứu trong luận án đề cập đến chuẩn biểu diễn, lưu trữ, giải
pháp soạn thảo cho phép nhập và sửa các cơng thức tốn; giải pháp

chuyển đổi tài liệu chứa cơng thức tốn giữa các ứng dụng khác nhau;
giải pháp tìm kiếm nội dung tài liệu dựa trên cơng thức tốn và giải pháp
Semantic Web cho các tài liệu toán học.
Luận án tiến hành thử nghiệm phục vụ đánh giá các giải pháp đề
xuất. Các kết quả thử nghiệm cho thấy những giải pháp đề xuất là hợp
lý, khả thi và cho kết quả tốt. Những đóng góp chính của luận án có thể
được tóm tắt trên các điểm chính như sau:
1. Đề xuất mơ hình biểu diễn và lưu trữ cơng thức tốn một cách
thống nhất, có thể chuyển đổi dễ dàng từ nhiều nguồn trên nhiều công cụ
soạn thảo và lưu trữ khác nhau.


×