Tải bản đầy đủ (.pdf) (30 trang)

Xây dựng mô hình lý thuyết cho phương pháp mở rộng truy vấn dựa trên bản thể học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.37 MB, 30 trang )

Kỷ yếu Hội nghị Khoa học và Công nghệ lần thứ 1

ISS_HUTECH – 15/04/2010

A PROPOSAL FOR QUERY EXPANSION MODEL
IN INFORMATION RETRIEVAL
Nguyễn Chánh Thành và Phan Thị Tươi*
Khoa Công Nghệ Thông Tin, Đại học Kỹ Thuật Công Nghệ TP.HCM, Việt Nam
*Khoa Khoa Học và Kỹ Thuật Máy Tính, Đại học Bách Khoa TP.HCM, Việt Nam
BẢN TÓM TẮT
Hiện nay nhiều phương pháp tiếp cận về mở rộng truy vấn đã và đang được đề xuất trong lĩnh vực
Truy xuất Thông tin, đặc biệt là phương pháp mở rộng truy vấn dựa trên bản thể học (ontology). Tuy
nhiên hiện chỉ có một số ít mơ hình hay nền tảng lý thuyết được đề xuất. Thông qua các định nghĩa đề
xuất, bài báo này trình bày một cách tiếp cận mới (trong việc xây dựng mơ hình lý thuyết cho phương
pháp mở rộng truy vấn dựa trên bản thể học) từ đó có thể đóng vai trị nền tảng để phát triển các hệ
thống mở rộng truy vấn trong thực tế. Từ những mô hình đề xuất, hai hệ thống được phát triển theo
hướng mở rộng truy vấn trực tiếp và gián tiếp. Ngoài ra giải pháp đề xuất này không những áp dụng
được vào hệ thống truy xuất thơng tin mà cịn cả hệ thống hỏi đáp nhằm mở rộng ngữ nghĩa. Phần thực
nghiệm cho những giải pháp này được tiến hành trên kho tài liệu và truy vấn tiếng Anh đã chứng tỏ
tính khả thi của giải pháp đồng thời giúp định hướng nghiên cứu trong tương lai để cải tiến mô hình lý
thuyết một cách hiệu quả hơn.
ABSTRACT
In Information Retrieval (IR), there have been many published approaches of Query Expansion
(QE) especially Ontology-Based Query Expansion (OBQE). However, just some of them presented
new proposed theoretical models or frameworks. By presenting proposed definitions, the paper
introduces an approach of building theoretical models of OBQE which can be based on to develop real
QE systems. From these models, we developed two systems focusing on direct and indirect query
expansion solutions. In additional, these solutions can apply not only to IR but also to Question
Answering (QA) field to expand question’s meaning. The experimentation of those solutions, which is
done for English documents and queries in initial iteration, shows that the proposed approach is
possible, thence its several further researches is necessary to improve semantic models to be more


effective.
1. GIỚI THIỆU
Trong lĩnh vực Truy xuất thơng tin, bài tốn Mở
rộng truy vấn (Query Expansion, QE) được
nhiều nhà nghiên cứu quan tâm nhằm tìm kiếm
giải pháp bổ sung những truy vấn tương đương
ngữ nghĩa, từ đó giúp cho các động cơ tìm kiếm
thơng tin (Search Engine, SE) tìm và nhận được
nhiều kết quả hơn. Ngày nay, trên thế giới đã có
nhiều phương pháp mở rộng truy vấn được đề
xuất, tuy nhiên mơ hình lý thuyết cho những
phương pháp đó vẫn là một ẩn số đối với việc
tìm kiếm và nghiên cứu của nhiều người.

Bài báo này trình bày các mơ hình lý thuyết đề
xuất cho bài toán Mở rộng truy vấn trên cơ sở
kết hợp bản thể học (Ontology-Based Query
Expansion, OBQE) từ nghiên cứu của nhóm tác
giả. Những mơ hình này đóng vai trị nền tảng
cho những nghiên cứu tiếp theo của nhóm tác
giả trong lĩnh vực IR và QA. Hướng tiếp cận của
đề xuất này chính là việc mơ hình hóa bài tốn
OBQE trên cơ sở tổng qt hóa các thành phần
cùng với những phương pháp cài đặt về mặt lý
thuyết tương ứng. Theo đó, những mơ hình lần
lượt được xác định dựa trên hai định hướng
chính là tách biệt với SE hay kết hợp với SE
thông qua hệ thống chỉ mục hướng ngữ nghĩa.

Proceedings of the 1st Conference on Science and Technology


1


Kỷ yếu Hội nghị Khoa học và Công nghệ lần thứ 1

Những mơ hình này cịn đồng thời có những
biến thể (dạng mơ hình kết hợp) được phát triển
dựa trên việc khai thác kết hợp phương pháp
thống kê.
Trong bài báo này (được phát triển từ [13]), mục
2 trình bày tóm lược những nghiên cứu trên thế
giới về các đề xuất cho mơ hình bài tốn QE
cũng như OBQE. Mục 3 giới thiệu những mơ
hình lý thuyết OBQE (do nhóm tác giả đề xuất)
thông qua định nghĩa của những khái niệm lý
thuyết. Các triển khai của những mơ hình này
trong mục 4 cung cấp lời giải cho các vấn đề
nghiên cứu của nhóm tác giả để phục vụ cho
những cơng trình nghiên cứu liên quan trong
lĩnh vực IR và QA. Mục 5 tóm lược kết quả thu
được khi thực nghiệm trong tập tài liệu và truy
vấn tiếng Anh. Phần cuối cùng là kết luận và
định hướng công việc trong tương lai của nhóm
tác giả.
2. CÁC NGHIÊN CỨU LIÊN QUAN
Một nghiên cứu quan trọng quan tâm đến tính
hiệu quả của QE cũng như chi phí thời gian thực
thi hao tổn là [1] liên quan đến bài toán mở rộng
truy vấn thời gian thực. Trong cơng bố này,

nhóm V.Lavrenko đã đề xuất một cách tiếp cận
đặc biệt nhằm cải tiến hiệu suất của các mơ hình
ngơn ngữ (như Rocchio, Local Context
Analysis, Relevance-Model) đã được đề xuất
trước đó. Phương pháp này thực hiện việc phân
tích cơng thức xếp hạng dựa trên các kết quả của
đại số hốn vị, từ đó so sánh hiệu suất của
những mơ hình ngơn ngữ với mơ hình R liên
quan được ước lượng bởi công thức
H ( R || D ) = ∑ w P(w | R) log P(w | D ) thông qua tài
liệu D. Tuy nhiên thực nghiệm của nghiên cứu
này (trên tập tài liệu Associated Press, Financial
Times, Los Angeles Times và Wall Street
Journal) cho thấy vấn đề quan trọng cần nghiên
cứu trong tương lai là chi phí tính tốn khá cao
cho lời giải của việc xây dựng tập các tương
đồng cấu trúc H ( M || D ) giữa D và tài liệu M
trong tập tài liệu. Cũng từ mơ hình RelevanceModel của nhóm V.Lavrenko, có ba vấn đề trở
ngại chính ảnh hưởng đến tính hiệu quả của việc
tìm kiếm tài liệu (theo [2]) bao gồm mối quan hệ
giữa các từ mở rộng (intra-query term dependencies) tồn tại thường xuyên, xác suất phân bố

ISS_HUTECH – 15/04/2010

P( M j ) phụ thuộc đồng nhất và nhiễu xuất hiện

trong các thông tin phản hồi.
Nghiên cứu [2] đề xuất mô hình Latent Variable
Model (LVM) θQ bằng việc xác định những kết
hợp các từ w thành phần trong truy vấn mở rộng

như các ẩn số S j trong tập S = {S1 , S2 ,..., SM }
được xếp hạng cao theo công thức
P (w | θ Q ) = ∑ S j ∈S P (w | S j ) P( S j ) . Từ đó LVM
được phát triển dựa trên nền tảng mơ hình
Markov ẩn (HMM) với các triển khai HMM-I và
HMM-II cùng những cải tiến hiệu quả về mặt lý
thuyết và thực tế.
Tuy hướng nghiên cứu của nhóm K. Järvelin [3]
đặt trọng tâm vào bài toán mở rộng truy vấn trên
cơ sở ý niệm, nhưng [3] cung cấp một phương
pháp tổng qt cho bài tốn QE thơng qua việc
xây dựng một mơ hình dữ liệu suy diễn. Mơ
hình này tổ chức phân cấp theo ba mức gồm
mức ý niệm, mức ngơn ngữ và mức sự kiện. Từ
đó, cùng với giải thuật TRANSLATE, việc thực
nghiệm của nhóm tác giả này được tiến hành từ
54.000 bài báo của 3 tạp chí với 12.5 triệu lượt
từ chiếm dung lượng 125MB. Kết quả thu được
gồm 120 ý niệm cùng 200 biểu thức liên quan
và khoảng 300 lượt so trùng mơ hình và biểu
thức. Mơ hình dữ liệu suy diễn này là hạt nhân
của tồn bộ nghiên cứu của nhóm tác giả đó.
Một nghiên cứu của nhóm J.Arguello [4] quan
tâm đến khả năng mở rộng dựa trên cấu trúc liên
kết của Wikipedia. Họ sử dụng Mơ hình tài liệu
lớn
LD
(dựa
theo
cơng

thức
PLD ( F | Q) = P ( F )PLD (Q | F ) cùng tham số μ )
và Mơ hình tài liệu nhỏ SD (từ công thức
PSD ( F | Q) = P( F )∑ P (Q | E )P ( E | F ) (∀E ∈ F )
cùng các tham số λE , λF và λC ). Từ đó một
hướng tiếp cận mới được đề xuất là Wikipedia
Link-Based Expansion (WLBE). Bốn nhóm
thực nghiệm cmuSD, cmuSDwiki, cmuLDwiki,
cmuLDwikiSP dựa trên nền tảng Support Vector
Machines cho kết quả có độ chính xác bình qn
(MAP) lần lượt là 0.246, 0.259, 0.302 và 0.306,
từ đó phản ánh mơ hình WLBE có kết quả tốt
hơn 66%. Tuy nhiên mơ hình tài liệu nhỏ cần
được nhóm tác giả này quan tâm cải thiện nhiều
hơn.
Trong lĩnh vực giải quyết những vấn đề tính
tốn trong y khoa (MCP), một nghiên cứu của

Proceedings of the 1st Conference on Science and Technology

2


Kỷ yếu Hội nghị Khoa học và Công nghệ lần thứ 1

nhóm C.Bratsas [5] đề xuất mơ hình mở rộng
truy vấn dựa trên luận lý mờ (fuzzy logic) trên
cơ sở kết hợp phát triển mơ hình OBQE và mơ
hình khơng gian vectơ (VSM) để tạo các ánh xạ
hiệu quả giữa người dùng và những kiến thức

thu thập được trong MCP. Trong mơ hình này,
một từ điển từ đồng nghĩa mờ được xây dựng
thơng qua việc tính các tần suất tương đồng giữa
các từ với nhau dựa trên hỗ trợ từ ontology của
hệ thống UMLS (Unified Medical Language
System). Đây là phương pháp tiếp cận công phu
và hiệu quả cho ứng dụng truy vấn thông tin
hướng ngữ nghĩa trong lĩnh vực MCP.

ISS_HUTECH – 15/04/2010

- Xây dựng được tập từ đồng nghĩa phong phú
từ kho ngữ liệu trong những ngôn ngữ thông
dụng.
- Xây dựng được một hệ thống chỉ mục chứa
đựng thông tin ngữ nghĩa có thể cung cấp nhiều
thơng tin mở rộng cho truy vấn ban đầu.
Điều đó phản ánh mơ hình OBQE hiệu quả hơn
những mơ hình mở rộng truy vấn cơ bản khác
trong vấn đề mở rộng truy vấn dựa trên ngữ
cảnh.
3. MƠ HÌNH BÀI TỐN OBQE

Các nghiên cứu [6], [7] và [8] chúng tơi quan
tâm đến mơ hình bài toán OBQE để mở rộng
truy vấn theo phương pháp trực tiếp và gián tiếp.
Trong đó, dựa trên ontology OOMP đề xuất,
phương pháp trực tiếp trình bày hướng tiếp cận
hồn chỉnh và mở rộng truy vấn thông qua việc
bổ sung những từ liên quan cho thành phần

khiếm khuyết của truy vấn. Cũng từ ontology
này, phương pháp gián tiếp giới thiệu hướng
tiếp cận khác là phát triển chỉ mục hướng ngữ
nghĩa. Những phương pháp này chính là kết quả
triển khai từ mơ hình lý thuyết trình bày trong
mục 3.
Từ phân tích trên, hướng tiếp cận ứng dụng kết
hợp xử lý ngôn ngữ tự nhiên và ontology vào
mở rộng truy vấn là một trong những hướng
chun biệt với một số ít các cơng trình cơng bố
cũng như mơ hình lý thuyết đề xuất liên quan.
Mơ hình OBQE đề xuất ở mục 3 tổng qt hóa
các phương pháp đã trình bày trong [6], [7] và
[8] đồng thời cho thấy việc sử dụng các kết quả
thu được trong lĩnh vực xử lý ngôn ngữ tự nhiên
(như phương pháp phân đoạn từ, gán nhãn từ
loại, luật sinh trong văn phạm ngôn ngữ tự
nhiên) cùng với phương pháp xác suất sẽ hỗ trợ:
- Việc phân tích chi tiết truy vấn để nhận biết
đầy đủ thông tin cần thiết liên quan đến những
từ khóa, từ loại và ngữ cảnh, từ đó các nội dung
khiếm khuyết được bổ sung vào truy vấn hợp lý
và chính xác hơn.
- Q trình chọn lọc dữ liệu phục vụ việc làm
giàu ontology để giảm chi phí huấn luyện, dẫn
đến giảm chi phí tính toán trong việc xác định
ứng viên bổ sung vào vị trí cịn thiếu trong truy
vấn.

Liên quan đến hệ thống mở rộng truy vấn

OBQE là các định nghĩa đề xuất về mơ hình lý
thuyết:
OB
- Mơ hình 1 QEM −+IR
, Query Expansion Model
with Ontology-Based without Information
Retrieval (Hệ thống mở rộng truy vấn dựa trên
ontology và độc lập với hệ thống truy xuất thơng
tin),
OB + P
- Mơ hình 2 QEM −+IR
, Query Expansion
Model with Ontology-Based and Probability
without Information Retrieval (Hệ thống mở
rộng truy vấn dựa trên ontology kết hợp xác suất
và độc lập với hệ thống truy xuất thông tin),
OB
, Query Expansion Model
- Mơ hình 3 QEM ++IR
with Ontology-Based with Information Retrieval
(Hệ thống mở rộng truy vấn dựa trên ontology
và kết hợp hệ thống truy xuất thơng tin),
OB + P
- Mơ hình 4 QEM ++IR
, Query Expansion
Model with Ontology-Based and Probability
with Information Retrieval (Hệ thống mở rộng
truy vấn dựa trên ontology kết hợp xác suất và
tích hợp hệ thống truy xuất thơng tin).
Những mơ hình này được xây dựng kế thừa

nhau theo nhánh phát triển tích hợp và độc lập
với hệ thống truy xuất thơng tin.
- Nhánh tích hợp trang bị nền tảng cho phương
pháp mở rộng truy vấn theo hướng gián tiếp,
trong đó mơ hình 3 và 4 ưu việt hơn mơ hình 1
bởi việc bổ sung thành phần chỉ mục hướng ngữ
nghĩa. Ngồi ra, mơ hình 4 cịn là một bước cải
tiến từ mơ hình 3 dựa trên việc triển khai yếu tố
xác suất trong các thành phần nhằm tăng cường
khả năng chọn lọc kết quả tìm kiếm chính xác
hơn dựa trên xác suất điều kiện.
- Nhánh độc lập đóng vai trị chính trong
phương pháp mở rộng truy vấn theo hướng trực

Proceedings of the 1st Conference on Science and Technology

3


Kỷ yếu Hội nghị Khoa học và Công nghệ lần thứ 1

tiếp vì chỉ tiếp cận xử lý mở rộng nội dung truy
vấn. Mơ hình 2 là bước tiến triển của mơ hình 1
bởi triển khai yếu tố xác suất trong các thành
phần, từ đó có thể hỗ trợ tốt hơn việc tính tốn
và chọn lọc nội dung bổ sung cho truy vấn dựa
trên xác suất điều kiện.
Những định nghĩa trình bày trong [6] và [7] về
quan hệ R m (thành phần đặc trưng của đối
tượng), quan hệ R p (thuộc tính đặc trưng của

thành phần) cùng các quan hệ trội Rfm và Rfp
đã góp phần hình thành nên các mơ hình đề xuất
trong bốn định nghĩa sau.
OB
3.1. Định nghĩa 1 – Mơ hình QEM −+IR
OB
QEM −+IR

của hệ thống mở rộng truy
Mơ hình
vấn dựa trên ontology và độc lập với hệ thống
truy xuất thông tin là một bộ bốn [Θ, q, ℜ, f ] ,
trong đó: Θ là ontology được sử dụng để khai
thác các dữ liệu quan hệ, q là truy vấn ban đầu,
ℜ = {q' } là tập các truy vấn q’ được hoàn chỉnh
và mở rộng từ q, f ( q → q' ) là quy tắc xử lý bổ
sung các thơng tin mở rộng.
Trong đó: ∀q' ∈ ℜ : sem( q' ) ∩ sem( q) ≠ ∅ với
sem(q) biểu thị tập ngữ nghĩa của q trong
ontology(*). Đặc biệt khi áp dụng các định
nghĩa quan hệ nêu trên, điều kiện (*) được diễn
đạt thành: cây Tq có liên quan cây Tq’ với
∀q' ∈ ℜ .
OB + P
3.2. Định nghĩa 2 – Mơ hình QEM −+IR
OB + P
của hệ thống mở rộng truy
Mơ hình QEM −+IR
vấn dựa trên ontology kết hợp xác suất và độc
lập với hệ thống truy xuất thông tin là một bộ

bốn Θ℘ , q, ℜ, f℘ , trong đó: Θ℘ là ontology

[

]

được sử dụng để khai thác các dữ liệu quan hệ
dựa trên các xác suất điều kiện, q là truy vấn ban
đầu, ℜ = {q' } là tập các truy vấn q’ được hoàn
chỉnh và mở rộng từ q, f℘ ( q → q' ) là quy tắc bổ

ISS_HUTECH – 15/04/2010

f℘ (q → q' ) ≈ ℘(q | q' ) *℘( q' ) (1) trong đó các

thành phần bao gồm:

1⎛ n
℘( q | q' ) = ⎜⎜ ∑℘(t i ) ⎟⎟ (2) với ti là trường
n ⎝ i =1

hợp thứ i xảy ra sự liên hệ giữa một từ trong
truy vấn q với một từ trong truy vấn q’ tương
ứng trường hợp 1/nO, …, 1/nO nM, …, 1/nO nM
nP , ở đây nO , n M , n P lần lượt là số phần tử
tương ứng của tập O, M, P.
℘( q' ) = ∑℘( wi | wi −1 )℘(wi −1 ) (4)
wi ∈q '

được xác định dựa theo mơ hình Markov, với

q' = w 0 w1 ...w n . Giá trị cụ thể của ℘(q' ) được
xác định ℘(oi ) *℘(m j | oi ) *℘( p k | m j oi ) , ... ,
℘(o i ) *℘(m j | o i ) *℘( p k | m j o i )

Kết quả các xác suất tính tốn trên cho thấy giá
trị ℘( q | q' ) là hằng số, do đó việc tìm truy vấn
mở rộng q’ phụ thuộc vào việc xác định ℘(q' ) .
Từ
đó
suy
ra
được
ℜ = {q' 0|q' 0 = arg max q' ℘(q' )} (5)
OB
3.3. Định nghĩa 3 – Mơ hình QEM ++IR

OB
Mơ hình QEM ++IR
của hệ thống mở rộng truy
vấn dựa trên ontology và kết hợp hệ thống truy
xuất
thông
tin

một
bộ
năm
[IR(Idx ), Θ, q, ℜ, f ] tương tự mơ hình 1 trong
đó: IR(Idx ) là hệ thống truy xuất thông tin IR
với tập chỉ mục Idx và Idx ∩ Θ ≠ ∅ .

OB + P
3.4. Định nghĩa 4 – Mơ hình QEM ++IR
OB + P
Mơ hình QEM ++IR
của hệ thống mở rộng truy
vấn dựa trên ontology kết hợp xác suất và tích
hợp hệ thống truy xuất thơng tin là một bộ năm
IR( Idx ), Θ℘ , q, ℜ, f℘ tương tự mơ hình 2 trong

[

]

đó IR( Idx ) là hệ thống truy xuất thông tin IR với
tập chỉ mục Idx và Idx ∩ Θ℘ ≠ ∅ .

sung các thông tin mở rộng dựa trên các xác suất
điều kiện.

4. CÁC TRIỂN KHAI TỪ NHỮNG MƠ
HÌNH LÝ THUYẾT

Trong đó:
∀q'∈ ℜ : sem( q' ) ∩ sem( q) ≠ ∅ (tương tự như
trong định nghĩa 1).

Thơng qua các mơ hình lý thuyết đề xuất trên,
vấn đề mở rộng truy vấn được tiếp cận theo
hướng trực tiếp và gián tiếp. Trên cơ sở đó, việc
phát triển các hệ thống mở rộng truy vấn được


Proceedings of the 1st Conference on Science and Technology

4


Kỷ yếu Hội nghị Khoa học và Công nghệ lần thứ 1

thực hiện dựa trên việc kết hợp ontology OOMP
(giới thiệu trong [8]) cùng các ứng dụng của bộ
quan hệ R m , Rfm , R p và Rfp để từ đó sẽ xác
định phương pháp xử lý cần thiết. Q trình cài
đặt và phát triển những hệ thống đó có thể sử
dụng hỗ trợ từ các cơng cụ xử lý ngôn ngữ tự
nhiên phổ biến trên thế giới (như GATE [12]) để
thực hiện một số bước tiền xử lý như phân đoạn
và gán nhãn từ loại, nhận biết cụm danh từ ...
4.1. Mở rộng truy vấn theo hướng trực tiếp
(phạm vi toàn cục)
OB + P
, hệ thống mở
Dựa trên mơ hình MQE −+IR
rộng truy vấn trực tiếp cho các động cơ tìm kiếm
thơng tin trên Web được giới thiệu như sau.

ISS_HUTECH – 15/04/2010

Hình 2: Hệ thống mở rộng truy vấn gián tiếp
Kế đến giải thuật HS với độ phức tạp O(n) ([6])
cung cấp phương pháp tìm kiếm kết hợp cho

truy vấn của người dùng, qua đó khai thác liên
kết mở rộng được cung cấp bởi chỉ mục hướng
ngữ nghĩa, từ đó thu thập các mục từ trong chỉ
mục và tài liệu liên quan cần tìm nhiều hơn.
4.3. Mở rộng nội dung câu hỏi trong QA
OB

Một triển khai khác của mơ hình MQE ++IR
OB + P
MQE ++IR
là việc ứng dụng vào hệ thống QA
hỗ trợ việc mở rộng nội dung câu hỏi (hình 3).

Hình 1: Hệ thống mở rộng truy vấn trực tiếp
Trong hệ thống này, đầu tiên một truy vấn được
kiểm tra và hoàn chỉnh (xem [8], giải thuật
CNPV, NPC có độ phức tạp lần lượt là O(n) và
O(n2)) để bao hàm đủ ba phần là đối tượng (ký
hiệu oi), thành phần đặc trưng (ký hiệu mj) và
thuộc tính đặc trưng (ký hiệu pk) liên kết đến
ontology OOMP, sau đó được mở rộng (xem
[7], giải thuật SNPE với độ phức tạp O(n2)) theo
các hướng bổ sung các phần tử oi’ , mj’ , pk’ khác
trong ontology OOMP thỏa các quan hệ R m ,
Rfm , R p và Rfp nêu trên. Kết quả thu được là
tập truy vấn hoàn chỉnh đã được mở rộng.
4.2. Mở rộng truy vấn theo hướng gián tiếp
(phạm vi cục bộ)
OB + P
, hệ thống chỉ mục

Từ mơ hình MQE ++IR
hướng đến ngữ nghĩa được phát triển dựa trên
kết hợp giữa ontology OOMP và tập chỉ mục tạo
bởi Lucene [10] (xem [6], giải thuật SIC có độ
phức tạp O(n2)), từ đó phục vụ việc triển khai hệ
thống mở rộng truy vấn cho hệ thống truy xuất
thơng tin có sẵn theo hướng gián tiếp (hình 2).

Hình 3: Hệ thống mở rộng nội dung câu hỏi
Từ đây, câu hỏi được phân tích thành bộ dữ liệu
có cấu trúc <Đối tượng, Hành vi, Tác nhân>,
mà một trong các thành phần liên quan đến từ
nghi vấn. Sau đó, phương pháp mở rộng câu hỏi
khai thác cơ sở tri thức trong hệ thống để bổ
sung các thông tin liên quan đến mỗi phần trong
cấu trúc đó, tạo nên tập các bộ dữ liệu mở rộng.
Từ tập này, thông qua việc kết hợp những bộ dữ
liệu có phần chung và liên quan đến câu hỏi ban
đầu, hệ thống tìm và chọn được câu trả lời cần
thiết. Giải thuật SNPE (trong [7]) đóng vai trị
nền tảng cho phương pháp mở rộng câu hỏi này.
5. THỰC NGHIỆM VÀ ĐÁNH GIÁ
5.1. Nguồn dữ liệu và công cụ hỗ trợ
Tập các tài liệu được sử dụng trong thực nghiệm
được khai thác từ nguồn TREC [9] như sau.

Proceedings of the 1st Conference on Science and Technology

5



Kỷ yếu Hội nghị Khoa học và Công nghệ lần thứ 1

Bảng 1: Nguồn dữ liệu thực nghiệm
Nguồn
(N1)
Associated
Press
(N2)
Congression
al Record

Số tài liệu,
Dung lượng
1.044 272
222

91,6

Nguồn
(N7) Los
Angeles
Times
(N8) U.S.
Patents

Số tài liệu,
Dung lượng
730
169

235

ISS_HUTECH – 15/04/2010

cách khác, phương pháp mở rộng truy vấn (thể
hiện thông qua giải thuật SNPE) có độ tin cậy
mức cao trong một số trường hợp cụ thể và mức
33,67% trên bình diện tổng quát.

249

724
659
593
480

450

427
301

(N3)
Department
of Energy
abstracts

178

72,1


(N4) Foreign
Broadcast
Information
Service

492

(N5) Federal
Register

828

244

(N6)
Financial
Times
Limited

593

197

149

(N9) San
Jose
Mercury
News


301

(N10)
Wall
Street
Journal

572

(N11)
ZiffDavis- 2
(N12)
ZiffDavis- 1

427

424

354

353

220

294
13

20

N1


N2

178
134

N3

194

177
8

1

N4

N5

Kết quả (số tài liệu)

159

N6

354

354
305


152

14

2

15

N7

N8

N9

N10 N11

N12

Kết quả chính xác (số tài liệu)

Hình 4: Thống kê kết quả thực nghiệm theo
nguồn dữ liệu

5.2. Phương pháp đánh giá
Thực nghiệm được tiến hành trên 12.282 truy
vấn dạng cụm danh từ của tập dữ liệu thử
nghiệm TEST_DATA. Kết quả thực nghiệm cho
hai hướng phát triển được đánh giá dựa trên các
độ đo như độ chính xác P (precision), độ bao
phủ R (recall) và độ trung bình điều hòa Fβ

([11]).
5.3. Thực nghiệm cho hướng Trực tiếp
Kết quả phân tích thể hiện trong hình 4 bao gồm
số liệu so sánh về lượng tài liệu truy hồi được
(thông qua việc tìm kiếm chính xác từng truy
vấn) từ các nguồn dữ liệu cùng số tài liệu chính
xác trong đó, thực hiện cho cùng phương pháp
mở rộng. Qua kết quả này, ta thấy các độ đo đạt
giá trị càng cao trong thực nghiệm nếu các
nguồn dữ liệu liên quan đến nội dung truy vấn
càng nhiều. Ví dụ như trường hợp xảy ra ở các
nguồn dữ liệu N3, N6, N11 và N12 liên quan đến
lĩnh vực tin học. Cũng từ kết quả phân tích này,
giá trị trung bình của độ các chính xác và độ F
tuy chỉ đạt 33,67% và 39,04% vì ảnh hưởng bởi
nhiễu (do nhiều tài liệu không liên quan trong
một số nguồn dữ liệu), nhưng mức độ bao phủ
trung bình khá tốt ở mức 98,18%. Các số liệu
này cũng phản ánh được mức độ tin cậy của số
liệu khi đối chiếu với các số liệu thực tế. Nói

Ngồi ra, kết quả của phương pháp SNPE cũng
được so sánh với kết quả của phương pháp tìm
kiếm thơ trên cùng những truy vấn trong tập
TEST_DATA. Những so sánh này được tóm
lược trong bảng 2, trong đó cột PP-Thơ và PPSNPE biểu diễn số liệu tương ứng lần lượt cho
phương pháp tìm kiếm thơ và phương pháp
SNPE.
Bảng 2: So sánh kết quả PP-THƠ và PP-SNPE
Giá trị bình

PP
PP
Tỉ lệ
Thơ
SNPE
qn theo truy
vấn
(a) Số lượt tài
7.92
37.90
4.78
liệu tìm được
(b) Số lượt tài
4.98
24.09
4.83
liệu tìm được
chính xác
(c) Số tài liệu tìm
1.63
0.36
0.22
được phân biệt
(d) Số tài liệu tìm
0.37
0.06
0.16
được chính xác
phân biệt
So sánh trên cho thấy phương pháp SNPE có kết

quả trội nổi bật trong các mặt (a), (b) nhưng
chưa thật sự trội ở mặt (c) và (d) vì có sự trùng
lặp cao giữa các tài liệu trong nhóm kết quả tìm
được của phương pháp SNPE. Điều này phản
ánh ưu và nhược điểm của phương pháp SNPE
trong những ngữ cảnh nhất định, từ đó ảnh
hưởng đến định hướng nghiên cứu trong tương
lai về vấn đề cải tiến phương pháp SNPE cũng
như mơ hình liên quan.

Proceedings of the 1st Conference on Science and Technology

6


Kỷ yếu Hội nghị Khoa học và Công nghệ lần thứ 1

5.4. Thực nghiệm cho hướng Gián tiếp
Ba thực nghiệm sau đây được tiến hành để tìm
kiếm tất cả tài liệu liên quan đến các từ khóa là
thành phần trong những truy vấn của tập
TEST_DATA. Phân tích đánh giá cho những
thực nghiệm đó được thực hiện trên phương
diện số tài liệu liên quan tìm được phân biệt và
chi phí về thời gian.
5.4.1.

ISS_HUTECH – 15/04/2010

hơn khá cao (1,61 lần) đạt được về mặt kết quả

tìm được trung bình của giải thuật HS so với kết
quả của tìm kiếm thơ. Đồng thời, cách biệt về
chi phí trung bình về thời gian tìm kiếm giữa
giải thuật HS và tìm kiếm thơ cũng được thu
giảm đáng kể (chỉ còn lại 1,10 lần so với 2,31
lần ở thực nghiệm 2) so với tìm kiếm thơ. So với
kết quả tương ứng ở thực nghiệm 1 và 2, đây là
cải tiến khách quan ảnh hưởng đến tính hiệu quả
của giải thuật HS.

Thực nghiệm 1
5.5. Thực nghiệm cho hướng Mở rộng câu hỏi

Dựa trên tất cả phần tử liên kết mở rộng trong
chỉ mục hướng ngữ nghĩa, hệ thống tiến hành
tìm kiếm trên từ khóa cho tất cả truy vấn trong
tập TEST_DATA ở tất cả nguồn dữ liệu trong
bảng 1. Đây là bài tốn tìm kiếm mở rộng toàn
cục trong phạm vi toàn cục. Kết quả phản ánh tỉ
lệ tốt hơn (1,05 lần) đạt được về mặt kết quả tìm
được trung bình của PP-HS so với kết quả của
PP-Thơ. Tuy nhiên, chi phí trung bình về thời
gian tìm kiếm của giải thuật HS cũng cao hơn
(4,08 lần) so với tìm kiếm thơ. Đây là vấn đề
ảnh hưởng đến tính hiệu quả của giải thuật HS.
5.4.2.

Thực nghiệm 2

Giống thực nghiệm 1 nhưng trong thực nghiệm

2 hệ thống chỉ tìm kiếm trên nguồn N11 và N12.
Đây là bài tốn tìm kiếm mở rộng toàn cục trong
phạm vi cục bộ. Kết quả thực nghiệm cho thấy
cả hai phương pháp đều thu được giá trị bình
quân của số tài liệu tìm được ngang nhau. Một
nghịch lý xảy ra liên quan đến thời gian thực thi
trung bình của cả hai phương pháp. Cả giá trị
của PP-Thô và PP-HS đều cao hơn so với kết
quả tương ứng trong thực nghiệm trước đó. Tuy
nhiên, tỉ lệ cách biệt về thời gian thực thi giữa
hai phương pháp được thu giảm từ 4,08 (trong
thực nghiệm 1) xuống còn 2,31. Kết quả này
phản ánh mức cải thiện đáng kể về thời gian
thực thi trung bình của giải thuật HS so với kết
quả của tìm kiếm thơ. Đây là một bước cải tiến
khách quan ảnh hưởng đến tính hiệu quả của
giải thuật HS.
5.4.3.

Thực nghiệm 3

Tương tự thực nghiệm 2, nhưng hệ thống chỉ
chọn những phần tử liên kết thuộc nguồn N11 và
N12 để xử lý trong phạm vi thực nghiệm 3. Đây
là bài tốn tìm kiếm mở rộng cục bộ trong phạm
vi cục bộ. Kết quả thực nghiệm phản ánh tỉ lệ tốt

Từ mơ hình hệ thống QA có mở rộng câu hỏi,
việc thực nghiệm trong giai đoạn hiện nay là
triển khai cài đặt một số thành phần như:

- Xây dựng một cơ sở tri thức mới thừa kế một
phần từ ontology OOMP trong cấu trúc tổ chức,
- Xây dựng một tập dữ liệu huấn luyện và thử
nghiệm bao gồm các câu hỏi dạng Yes/No và
WH,
- Cài đặt chức năng phân tích câu hỏi (tạo bộ dữ
liệu cấu trúc) trên cơ sở tận dụng thư viện
GATE và JAPE [12],
- Cài đặt giải thuật mở rộng câu hỏi trên cơ sở
cải tiến giải thuật SNPE.
Từ những kết quả này, bước kế tiếp là định
hướng phát triển và cài đặt cho phần quan trọng
nhất của hệ thống (chức năng Tìm & Chọn câu
trả lời)
Tóm lại, hai phần thực nghiệm đã chứng tỏ rằng
mơ hình đề xuất của chúng tơi về hệ thống
OBQE cùng các hướng phát triển tương ứng là
giải pháp khả thi, thơng qua đó có thể được phát
triển và nâng cấp trong tương lai.
6. KẾT LUẬN
Bài báo trình bày cơ sở lý thuyết các mơ hình hệ
thống OBQE và đề cập những hướng phát triển
tương ứng cho hệ thống mở rộng truy vấn.
Những đề xuất này đóng vai trị nền tảng cho
các nghiên cứu của nhóm tác giả, trong đó một
số kết quả đã giới thiệu trong [6], [7] và [8] cho
thấy vai trị quan trọng của những mơ hình này.
Phần thực nghiệm của các hướng phát triển quan
tâm đến kết quả thu được từ việc mở rộng so với
chưa mở rộng, được thực hiện trên tập tài liệu từ

nguồn TREC và truy vấn tiếng Anh. Kết quả
thực nghiệm phản ánh rằng độ chính xác tương

Proceedings of the 1st Conference on Science and Technology

7


Kỷ yếu Hội nghị Khoa học và Công nghệ lần thứ 1

đối cao cho những nguồn tài liệu có liên quan
chặt chẽ đến nội dung ontology OOMP, và vấn
đề nhiễu tương đối cao cho những trường hợp
cịn lại. Vì vậy, hướng nghiên cứu sắp đến của
chúng tơi là là hồn thiện các mơ hình lý thuyết,
tối ưu các giải thuật sử dụng trong các mơ hình
và các hướng phát triển, để từ đó hướng đến một
nền tảng lý thuyết hồn thiện hơn. Ngoài ra, việc
triển khai thực nghiệm cho kho ngữ liệu tiếng
Việt cùng vấn đề xây dựng một phiên bản của
ontology OOMP cho tiếng Việt sẽ là vấn đề
quan tâm hàng đầu của chúng tôi trong tương
lai.
TÀI LIỆU THAM KHẢO
1. V.Lavrenko, J.Allan , “Real-time Query
Expansion in Relevance Models”, CIIR
Technical Report, IR-473: (2006)
2. Q.Huang, D.Song, “A Latent Variable
Model for Query Expansion Using the
Hidden Markov Model”, Proceeding of the

17th ACM conference on Information and
knowledge management, California, USA
2008.
3. K.Järvelin,
J.Kristensen,
T.Niemi,
E.Sormunen, H.Keskustalo, “A Deductive
Data Model for Query Expansion”, Proc. of
19th Annual International ACM–SIGIR
Conference on Research and Development
in Information Retrieval.
4. J.Arguello, J.L.Elsas, C.Yoo, J.Callan,
J.G.Carbonell, “Document and Query
Expansion Models for Blog Distillation”,
17th Text REtrieval Conference (TREC
2008) Proceedings.
5. C.Bratsas, V.Koutkias, E.Kaimakamis,
P.Bamidis, N.Maglaveras, “Ontology-based
Vector Space Model and Fuzzy Query

ISS_HUTECH – 15/04/2010

Expansion to Retrieve Knowledge on
Medical Computational Problem Solutions”,
In EMBS 2007, 29th Annual International
Conference of the IEEE (2007).
6. Thanh C.Nguyen, Tuoi T.Phan, “A hybrid
solution
of
ontology-based

query
expansion”, The International Journal of
Web Information Systems, Volume 4
Number 2, 2008, pp. 215–227. ISSN 1744–
0084.
7. Nguyễn Chánh Thành, Phan Thị Tươi,
“Truy xuất thông tin: Giải pháp bản thể học
cho hồn chỉnh truy vấn”, Tạp chí Cơng
Nghệ Thơng tin & Truyền Thơng: Các cơng
trình nghiên cứu khoa học, nghiên cứu triển
khai Công nghệ Thông tin và Truyền thông,
số 19, Việt nam, tr. 84–92. ISSN 0866–
7039.
8. Thanh C.NGUYEN, Tuoi T.PHAN, “An
ontology-based
approach
of
query
expansion”, The
9th International
Conference on Information Integration and
Web Based Application & Service
(iiWAS2007), 2007, Indonesia, ACS, pp.
113–123. ISBN 978–3–85403–229–8.
9. TREC,
10.Lucene,
11. />ion_retrieval)
12.GATE, A General Architecture for Text
Engineering,
13. Nguyễn Chánh Thành, Phan Thị Tươi, “Mơ

hình mở rộng truy vấn trong Truy xuất
Thơng tin”, Tạp chí Cơng Nghệ Thơng tin &
Truyền Thơng: Các cơng trình nghiên cứu
khoa học, nghiên cứu triển khai Công nghệ
Thông tin và Truyền thông, số 23 (2), Việt
nam, 2010. ISSN 0866–7039.

Proceedings of the 1st Conference on Science and Technology

8


Kỷ yếu Hội nghị Khoa học và Công nghệ lần thứ 1

ISS_HUTECH – 15/04/2010

MỘT SỐ THUẬT TOÁN KHAI THÁC LUẬT KẾT HỢP
TRÊN CƠ SỠ DỮ LIỆU PHÂN TÁN DỌC
Cao Tùng Anh và Nguyễn Hà Giang
Khoa Công Nghệ Thông Tin, Đại học Kỹ Thuật Cơng Nghệ TP. Hồ Chí Minh, Việt Nam
BẢN TĨM TẮT
Các khó khăn của việc khai thác luật trên cơ sở dữ liệu(CSDL) phân tán là:
(i) Tốn thời gian cho việc gửi nhận dữ liệu giữa các bên.
(ii) Việc kết các bảng lại với nhau dẫn đến tốn không gian lưu trữ và
(iii) Lộ dữ liệu giữa các bên tham gia.
Trong bài báo này, chúng tơi trình bày phương pháp khai thác luật kết hợp trên các CSDL phân
tán của các phép kết: inner join, outer join. Chúng tơi cũng đề xuất thuật tốn khai thác với số lần
gửi nhận dữ liệu giữa các bên là thấp nhất mà không cần kết các CSDL lại với nhau.
1. GIỚI THIỆU
CSDL phân tán là một loại CSDL thường gặp

trong thực tế. Vấn đề đặt ra là làm thế nào để
khai thác hiệu quả trên chúng. Vấn đề bảo mật
đối với các bên được thực hiện như thế nào?
Gần đây, một số phương pháp được phát triển để
giải quyết vấn đề này.
Trong [2], Vaidya và Clifton đã trình bày một số
giải pháp thành công cho vấn đề này đối với
CSDL phân tán dọc thành 2 bên và ở [3] với n
bên (n>2). Các thuật tốn này cũng địi hỏi phải
tính tốn an tồn nhằm duy trì tính riêng tư của
dữ liệu ở mỗi bên tham gia vào quá trình khai
thác luật. Việc tính tốn an tồn (secure
computation)[3] cho phép tính tốn luật từ dữ
liệu đưa vào được các bên tham gia cung cấp mà
vẫn không làm lộ nguồn dữ liệu riêng của từng
bên. Tuy nhiên nhược điểm của thuật toán này
là: có khả năng suy ra các thơng tin cá nhân dựa
trên kết quả trong một số trường hợp xác định
[1]. Để cải tiến phương pháp này, các tác giả
trong [1] đã đưa ra thuật toán cho phép khai thác
luật kết hợp với độ an toàn dữ liệu cao hơn các
thuật tốn trước đó, tuy nhiên thuật tốn mà tác
giả áp dụng để khai thác là thuật toán Apriori
nên đối với lượng dữ liệu lớn sẽ gặp khó khăn
trong khai thác dữ liệu.
Trong [5], chúng tôi đã phát triển phương pháp
hiệu quả để khai thác luật kết hợp bảo tồn tính
riêng tư dựa vào IT-tree nhưng mới chỉ áp

dụng cho các CSDL phân tán dọc và kết tự nhiên

trên chúng.
Đóng góp của bài báo:
i) Phát triển thuật toán khai thác tập phổ biến
trên CSDL phân tán dựa vào IT-tree trên các
phép kết outer join: left join, right join.
2. CƠ SỞ LÝ THUYẾT
2.1. Định nghĩa về dữ liệu giao dịch
Cho I = {i1, i2, …, in} là tập tất cả các mục dữ
liệu (mặt hàng). T = {t1, t2, …, tm} là tập tất cả
các giao dịch trong CSDL giao dịch D. CSDL
được cho là quan hệ hai ngôi δ ⊆ I × T. Nếu mục
i ∈ I xảy ra trong giao dịch t ∈ T thì ta viết là ( i,
t) ∈δ, kí hiệu i δ t.
Ví dụ: xét CSDL sau [4]
Bảng 1:CSDL mẫu

Mã giao dịch

Nội dung giao dịch

1
2
3
4
5
6

A, C, T, W
C, D, W
A, C, T, W

A, C, D, W
A, C, D, T, W
C, D, T

Giao dịch thứ hai có thể được biểu diễn là {Cδ2,
Dδ2, Wδ2}.

Proceedings of the 1st Conference on Science and Technology

9


Kỷ yếu Hội nghị Khoa học và Công nghệ lần thứ 1

ISS_HUTECH – 15/04/2010

2.2. Định nghĩa độ phổ biến [4]
Cho CSDL giao dịch D và tập dữ liệu X ⊆ I. Độ
hỗ trợ của X trong D, kí hiệu σ(X), được định
nghĩa là số giao dịch mà X xuất hiện trong D.
2.3. Định nghĩa tập phổ biến [4]

2.6. Phương pháp IT-tree [4]
IT-tree dựa trên phương pháp chia để trị
nhằm tìm kiếm các tập phổ biến có trong
CSDL.
2.6.1. Thuật tốn

X ⊆ I được gọi là phổ biến nếu σ(X) ≥ minSup
(với minSup là giá trị do người dùng chỉ định).

tập phổ biến ký hiệu là FI (Frequent itemset)

Đầu vào: CSDL D với tập các item là I
và ngưỡng phổ biến minSup.
Kết quả: tập FI gồm tất cả các tập phổ
biến của CDSL D thỏa minSup.
Phương pháp thực hiện:

2.4. Các tính chất của tập phổ biến [4]
a) Nếu X phổ biến thì mọi Y ⊂ X cũng phổ biến.
b) Nếu X không phổ biến thì mọi Y ⊂ X cũng
khơng phổ biến.

ECLAT()
[∅] = {i ∈ I: σ(i) ≥ minSup}
ENUMERATE_FREQUENT([∅])

2.5. Kết nối Galois [4]

ENUMERATE_FREQUENT([P])
for all li ∈ [P] do
[Pi] = ∅
for all lj ∈ [P] with j > i do
I = l i ∪ lj
T = t ( li ) ∩ t ( lj )
if |T| ≥ minSup then
[Pi] = [Pi] ∪ { I × T }
ENUMERATE_FREQUENT([Pi])

Cho quan hệ hai ngơi δ ⊆ I × T chứa CSDL cần

khai thác. Đặt X ⊆ I và Y ⊆ T . Ta định nghĩa
hai ánh xạ giữa P(I) và P(T) như sau:
a) t : P(I ) a P(T), t(X ) = {y ∈T | ∀x ∈ X, xδ y}

b) i : P(T ) a P(I ), i(Y ) = {x ∈ I | ∀y ∈ Y , xδ y}

Thuật toán 1: Thuật toán phát sinh tập phổ
biến thỏa ngưỡng minSup
2.6.2. Minh họa thuật tốn:

Hình 1: Cây tìm kiếm tập phổ biến với minSup = 50%
Proceedings of the 1st Conference on Science and Technology

10


Kỷ yếu Hội nghị Khoa học và Công nghệ lần thứ 1

3. CÁC THUẬT TOÁN KHAI THÁC
TRÊN CƠ SỞ DỮ LIỆU PHÂN TÁN VỚI
PHÉP KẾT NGOẠI
Dựa vào phương pháp IT-tree, chúng tơi phát
triển các thuật tốn nhằm khai thác trên các
CSDL phân tán với các phép kết ngoại.
3.1. Bài toán
Giả sử chúng ta có 2 CSDL là: DB1 ở bên
(site) A và DB2 ở bên B. Giả sử trong các
CSDL, miền giá trị của các TID đều giống
nhau, chúng ta cần khai thác các tập phổ biến
gồm các thuộc tính tồn tại trong cả 2 CSDL để

từ đó có thể khai thác luật kết hợp.
Trong [5] trình bày thuật tốn nhằm khai thác
các tập phổ biến trên phép kết tự nhiên giữa
các CSDL. Phần này trình bày các thuật tốn
trên phép kết ngoại (outer join).

3.2. Thuật toán khai thác tập phổ biến
trên CSDL kết ngoại (left join)
Giả sử chúng ta cần khai thác trên CSDL DB =
(DB1 LEFT JOIN DB2 ON TID). Có hai
hướng tiếp cận để giải quyết vấn đề này: 1)
Thực hiện phép kết thành CSDL DB, sau đó sử
dụng các thuật tốn khai thác hiệu quả hiện
nay để tìm các tập phổ biến. 2) Khơng thực
hiện phép kết. Phần này trình bày cách tiếp cận
thứ 2).
Thuật tốn
Đầu vào: CSDL DB1 của bên Master với tập
các item là I1, DB2 của bên Slave với tập các
item là I2 và ngưỡng phổ biến minSup.
Kết quả: tập FI gồm tất cả các tập phổ biến
của CSDL DB thỏa minSup.
Phương pháp thực hiện:
ECLAT_DISTRIBUTE_LEFT_JOIN()
TID = TID(DB1)
[∅] = {i ∈ I1: |TID(i)|≥ minSup}
∪ {j ∈ I2: |TID(j) ∩ TID|≥ minSup}
ENUMERATE_FREQUENT([∅])
ENUMERATE_FREQUENT([P])
for all li ∈ [P] do

[Pi] = ∅
for all lj ∈ [P] with j > i do
I = l i ∪ lj
T = t ( li ) ∩ t ( lj )
if |T| ≥ minSup then
[Pi] = [Pi] ∪ { I × T }
ENUMERATE_FREQUENT([Pi])

ISS_HUTECH – 15/04/2010

3.2.1. Thuật toán 2: Thuật toán phát sinh
tập phổ biến thỏa ngưỡng minSup
Lớp tương đương [∅] ban đầu chứa các item
đơn phổ biến của DB1 và DB2. Riểng đối với
DB2 thì phải lấy TID của mỗi item đơn giao
với TID của DB1(do phép kết là LEFT JOIN).
Sau đó thuật toán gọi hàm
ENUMERATE_FREQUENT([P]) với đầu
vào là lớp tương đương [P]. Nó xét mỗi li ∈
[P] với tất cả các lj đứng sau nó để kết hợp
thành một tập mới, nếu tập này thỏa minSup thì
bổ sung với lớp tương đương con [Pi] (ban đầu
được khởi tạo bằng ∅) và gọi đệ qui để sinh
các tập phổ biến ở các mức cao hơn. Điểm
mạnh của thuật toán là chỉ quét CSDL ở hai
bên một lần và dựa vào phần giao giữa các
Tidset để tính nhanh độ phổ biến.
Minh họa thuật tốn: Xét CSDL ở 2 bên như
sau:
Bảng 2: CSDL của 2 bên tham gia khai thác

TID
A
B
C
1
1
1
2
1
1
3
1
1
4
1
1
1
6
1
1
1
8
1
1
9
1
1
Bên Master
TID
D

E
F
G
1
1
1
2
1
1
3
1
1
1
4
1
1
5
1
1
1
1
6
1
1
7
1
1
1
8
1

1
Bên Slave
Ta có CSDL nửa kết (LEFT JOIN) trên thuộc
tính TID như sau:
Bảng 3: CSDL kết ngoại (LEFT JOIN)
TID A B C D E F G
1
1
1
1
1
2
1
1
1
1
3
1
1
1
1
1
4
1
1
1
1
1
6
1

1
1
1
1
8
1
1
1
1
9
1
1

Proceedings of the 1st Conference on Science and Technology

11


Kỷ yếu Hội nghị Khoa học và Công nghệ lần thứ 1

Từ CSDL kết, ta thấy số dòng dữ liệu là 7.
Như vậy, với minSup = 40%, những tập mục
nào xuất hiện từ 3 dòng dữ liệu trở lên mới

ISS_HUTECH – 15/04/2010

thỏa minSup. Ta có cây biểu diễn q trình
khai thác như sau:

Hình 2: Cây biễu diễn các mục đơn của DB1


Hình 3: Cây biễu diễn các mục đơn của DB1 và DB2

Hình 4: Kết quả khai thác tập phổ biến trên CSDL phân tán với phép kết ngoại
Proceedings of the 1st Conference on Science and Technology

12


Kỷ yếu Hội nghị Khoa học và Công nghệ lần thứ 1

ISS_HUTECH – 15/04/2010

ECLAT_DISTRIBUTE_FULL_OUTERJOIN()
[∅] = {i ∈ I1: |TID(i)|≥ minSup}
∪ {j ∈ I2: |TID(j)|≥ minSup}
ENUMERATE_FREQUENT([∅])

3.2.2. Thuật toán khai thác trên phép kết
ngoại “hai chiều”
Giả sử chúng ta cần khai thác trên CSDL được
tổng hợp từ DB1 và DB2 như sau:
DB = ((DB1[TID] ∪ DB2[TID]) LEFT JOIN
DB1 ON TID) LEFT JOIN DB2 ON TID
Nghĩa là cần khai thác CSDL từ CSDL được
tổng hợp từ hai CSDL ở ví dụ trên như sau:

ENUMERATE_FREQUENT([P])
for all li ∈ [P] do
[Pi] = ∅

for all lj ∈ [P] with j > i do
I = l i ∪ lj
T = t ( li ) ∩ t ( lj )
if |T| ≥ minSup then
[Pi] = [Pi] ∪ { I × T }
ENUMERATE_FREQUENT([Pi])

Bảng 4: CSDL với phép kết ngoại “hai chiều”:
TID
1

A B C D E F

G

1

1

2

1
1

3

1

1


4

1

1

1
1

1
1

5
6

1

1
1

1

1
1

1

1

1

1

1

1
1

8

1

1
1

7
9

1

1

1

1

1

1

1

1

Thuật toán 3: Thuật toán phát sinh tập phổ
biến trên CSDL thỏa ngưỡng minSup với
phép kết ngoại hai chiều

3.2.2.1. Thuật tốn
Sự khác nhau chính giữa thuật toán 3 so với
thuật toán 2 ở chỗ việc tạo ra TID của các item
đơn không cần phải giao với TID của DB1.
Điều này nhằm lấy hết những TID có chứa
item đơn trong DB2.

3.2.2.2 Minh họa
Với minSup = 30% ( 30*9/100 = 2.7 ≅ 3 dòngdữ liệu) , ta có kết quả như sau:

Hình 5: Kết quả khai thác tập phổ biến trên CSDL phân tán với phép kết ngoại hai chiều

Proceedings of the 1st Conference on Science and Technology

13


Kỷ yếu Hội nghị Khoa học và Công nghệ lần thứ 1

4. THỰC NGHIỆM
Thực nghiệm được cài đặt trên C#.NET 2005
và hệ quản trị CSDL SQL server 2000. Chúng
tôi đã thử nghiệm và bước đầu cho kết quả khả
quan.

5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Bài báo trình bày một số thuật toán khai thác
trên CSDL phân tán dọc với các phép kết
ngoại (outter join). Thuật tốn 1 trình bày cách
khai thác tập phổ biến trên CSDL với phép kết
ngoại (Left Join) dựa trên IT-tree. Thuật tốn 2
trình bày cách khai thác tập phổ biến trên
CSDL với phép kết ngoại “hai chiều”. Chúng
tơi cũng đã thử nghiệm các thuật tốn trên
CSDL thực và cho ra kết quả khả quan.
Các thuật toán trên chưa quan tâm đến việc
bảo tồn tính riêng tư cho các bên tham gia. Vì
vậy, chúng tơi sẽ tiếp tục nghiện cứu ứng dụng
các phương pháp hiệu quả cho việc bảo tồn
tính riêng tư cho các bên tham gia. Ngoài ra,
việc khai thác trên CSDL phân tán ngang cũng
sẽ được quan tâm.

Proceedings of the 1st Conference on Science and Technology

ISS_HUTECH – 15/04/2010

TÀI LIỆU THAM KHẢO
[1] Boris Rozenber, Ehud Gudes,
“Association rules mining in
vertically partitioned databases”,
Israel, 13 September 2005.
[2] J. Vaidya, C. Clifton, “Privacy
preserving association rule mining in
vertically partitioned data”, Canada,

in: Proceedings of SIGKDD 2002.
[3] J. Vaidya, C. Clifton, “Secure set
intersection
cardinality
with
application to association rule
mining” , Journal of Computer
Security, in press, 2004.
[4] M.J. Zaki, C.J. Hsiao, “Efficient
Algorithms for Mining Closed
Itemsets
and
Their
Lattice
Structure”, IEEE Transactions on
Knowledge and Data Engineering,
2005.
[5] Cao Tùng Anh, “Khai Thác Luật Kết
Hợp Trên Cơ Sở Dữ Liệu Phân Tán
Dọc”, Hội thảo Quốc gia về CNTT
và truyền thông, Đại Lải 1415/09/2007

14


Kỷ yếu Hội nghị Khoa học và Công nghệ lần thứ 1

ISS_HUTECH – 15/04/2010

SO KHỚP ẢNH VÂN TAY MẤT MÁT THÔNG TIN BẰNG SỰ KẾT

HỢP CÁC ĐẶC TRƯNG TRONG THUẬT GIẢI DI TRUYỀN
(Poor-Quality-Fingerprint Matching By Combining Features
In Genetic Algorithms)
Văn Thiên Hồng và Lê Hồng Thái*
Khoa Cơng Nghệ Thơng Tin, Đại học Kỹ Thuật Cơng Nghệ TP. Hồ Chí Minh, Việt Nam
* Khoa Công Nghệ Thông Tin, Đại học Khoa Học Tự Nhiên TP. Hồ Chí Minh, Việt nam
BẢN TĨM TẮT
So khớp vân tay là một bài toán quan trọng và thách thức trong việc nhận dạng vân tay đối
với ảnh vân tay mất mát thông tin (như ảnh vân tay bị nhòe hoặc mất một phần hoặc bị nhiễu
nặng và bị bóp méo phức tạp). Có nhiều hướng tiếp cận đã được đề xuất cho việc so khớp ảnh
vân tay, chẳng hạn các kỹ thuật dựa vào đặc trưng chi tiết minutiae, các kỹ thuật dựa vào mẫu
hướng vân tay, các kỹ thuật dựa vào đường vân, và các kỹ thuật kết hợp các đặc trưng cục bộ
với cấu trúc toàn cục. Tuy nhiên, các phương pháp này hầu như có thể khơng hiệu quả trong
việc khơi phục sự canh chỉnh tối ưu giữa hai ảnh vân tay bị bóp méo phức tạp. Bài báo này đề
xuất một phương pháp tối ưu hóa sử dụng kết hợp các đặc trưng cục bộ và cấu trúc toàn cục
với thuật giải di truyền cho việc so khớp ảnh vân tay. Sự kết hợp các đặc trưng phân biệt này
được mong đợi sẽ nâng cao độ tin cậy của hàm so khớp cho việc tính tốn độ thích nghi. Kết
quả thực nghiệm trên cơ sở dữ liệu chuẩn quốc tế FVC2004 không chỉ cho thấy phương pháp
đề xuất nhanh và chính xác hơn so với các phương pháp dựa vào thuật giải di truyền hiện tại
mà còn cho thấy phương pháp đề xuất là một thuật toán so khớp hiệu quả và thực tế cho ảnh
vân tay mất mát thơng tin.
Từ khóa—vân tay, so khớp, thuật giải di truyền, canh chỉnh.
ABSTRACT
Fingerprint matching is an important and challenging problem in fingerprint recognition for
poor-quality fingerprint images (such as partial images or image with heavy noises, and
complex distortions). There are many approaches proposed for fingerprint matching such as
minutiae point pattern-based techniques, orientation pattern-based techniques, ridge-based
techniques, global and local features combination-based techniques. However, these methods
almost can not be efficient in recovering the optimal alignment between two different
complex distorted fingerprints. This paper proposed an optimized method using combining

global structrue and local fingerprint fetaures in genetic algorithms for fingerprint matching.
The combination of these discriminative features is expected to improve the reliability of the
matching function for fitness computation. The experimental results on the FVC2004
database not only show that the proposed method is faster and more accurate than the current
genetic algorithm-based methods, but also show that the proposed method is an effective and
practical matching algorithm for poor-quality fingerprint images.
Key words—Fingerprints, matching, genetic algorithms, alignments.

Proceedings of the 1st Conference on Science and Technology

15


Kỷ yếu Hội nghị Khoa học và Công nghệ lần thứ 1

1. GIỚI THIỆU
So khớp ảnh vân tay là kỹ thuật đóng vai trị
quan trọng trong các hệ thống nhận dạng vân tay

với một phạm vi rộng các ứng dụng trong
lĩnh vực hành pháp cũng như dân sự chẳng
hạn như điều tra tội phạm, thẻ tín dụng,
bằng lái xe, thẻ xuất nhập cảnh, truy cập
máy tính xách tay, điện thoại di động. Mặc
dù dấu vân tay có nhiều thơng tin phân biệt
và đã có nhiều phương pháp tiến bộ đã được
đề xuất cho hệ thống xác thực vân tay,
nhưng việc xây dựng một hệ thống xác thực
vân tay mất mát thơng tin vẫn cịn là một bài
tốn đầy thách thức [1]. Do đó, So khớp ảnh

vân tay nhận được sự quan tâm nghiên cứu
ngày càng tăng của cộng đồng xử lý ảnh và
nhận dạng mẫu.
Vân tay được hình thành bởi một nhóm các
đường cong. Đặc trưng được sử dụng nhiều
nhất bao gồm điểm rẽ nhánh và điểm kết
thúc và được gọi là minutiae. Hình 1 là một
ví dụ về điểm rẽ nhánh và điểm kết thúc.

Bifurcation

 

Endpoint

 

a) 

b)

Hình 1: Minutiaes (a) and Orientation Field (b).

Thuật toán so khớp dựa vào tập minutiae là
hướng tiếp cận phổ biến nhất. Có nhiều
phương pháp so khớp vân tay dựa vào đặc
trưng minutiae đã được công bố [2], [3],
[12]. Thuật toán so khớp dựa vào minutiae
gồm hai giai đoạn: canh chỉnh hai vân tay và
tìm sự tương quan giữa hai vân tay sao cho

số cặp minutiae của hai ảnh là khớp với
nhau nhiều nhất. Jain [2] đề xuất phương
pháp so khớp dựa vào việc canh chỉnh
minutiae, trong đó đặc trưng đường vân

ISS_HUTECH – 15/04/2010

được sử dụng để đánh giá mức độ giống
nhau giữa các minutiae. Tuy nhiên, việc lưu
trữ thông tin đường vân là tốn nhiều khơng
gian bộ nhớ. Hơn nữa, việc canh chỉnh cũng
khơng chính xác. He [9] cải tiến thuật toán
so khớp của Jain [2] (phân tích sự giống
nhau của các đặc trưng tồn cục). Tuy
nhiên, phương pháp này gặp phải vấn đề
đánh đổi giữa độ chính xác và chi phí tính
tốn. Jiang, Yau [6] và Jea, Govindaraju
[10] sử dụng cấu trúc toàn cục và cục bộ của
minutiae cho việc so khớp. Trong đó, các
điểm minutiae lân cận được sử dụng để tính
tốn vector đặc trưng với kích thước cố
định. Phương pháp này nhạy cảm với nhiễu
bởi vì việc tính tốn phụ thuộc vào thứ tự
các minutiae lân cận. Wang [20] đề xuất sử
dụng đặc trưng là Polyline cho việc rút trích
thơng tin đường vân. Phương pháp này
không hoạt động tốt trong một số trường
hợp vân tay bị bóp méo. Số đường vân giữa
các cặp điểm minutiae (do Sha [21] đề xuất)
là đặc trưng phân biệt tốt trong trường hợp

ảnh bị bóp méo, nhưng việc tính tốn chính
xác số đường vân là khó trong trường hợp
ảnh vân tay bị mất mát thông tin.
Đặc trưng hướng đường vân đóng vai trị
quan trọng trong các hệ thống nhận dạng
vân tay bởi vì nó khơng chỉ được áp dụng
trong thuật toán so khớp ảnh (sử dụng
vector đặc trưng mẫu đường vân, gọi là
FingerCode) [3] mà còn được sử dụng trong
việc nâng cao chất lượng ảnh [16] và phân
lớp ảnh [18], [21], [22]. Đặc trưng toàn cục
hướng đường vân có những ưu điểm sau: so
khớp nhanh, dễ rút trích, ít nhạy cảm so
trong trường hợp ảnh bị nhiễu cũng như ảnh
bị bóp méo, nhưng đặc trưng này có nhược
điểm: phân biệt chưa chính xác (trong một
số trường hợp hai vân tay khác nhau có
cùng đặc điểm hướng đường vân), chi phí
rút trích và lưu trữ khá lớn. Hơn nữa, độ
chính xác của phương pháp này khơng ổn
định (phụ thuộc nhiều vào việc phát hiện
điểm lõi).
Có một số phương pháp được đề xuất sử
dụng kết hợp các đặc trưng để tăng cường
hiệu năng của hệ thống so khớp [11], [14].

Proceedings of the 1st Conference on Science and Technology

16



Kỷ yếu Hội nghị Khoa học và Công nghệ lần thứ 1

Phương pháp so khớp lai được đề xuất bởi
Ross [14], Gu [11], phương pháp này kết
hợp thông tin so khớp minutiae với thông tin
so khớp hướng đường vân. Tuy nhiên, do
phương pháp này thừa hưởng từ các phương
pháp hiện có nên hiệu quả nhận dạng phụ
thuộc vào các kỹ thuật ở giai đoạn so khớp
minutiae và so khớp hướng (Độ chính xác
khơng cao trong trường hợp ảnh bị bóp
méo). Để tìm ra phép canh chỉnh tối ưu
giữa hai ảnh vân tay bị bóp méo, các kỹ
thuật so khớp dựa vào thuật giải di truyền
(GA) đã được đề xuất [1], [13], [15]. Trong
thuật toán so khớp dựa GA (Tan và Bhanu
[15]), hàm thích nghi được tính tốn trên cơ
sở bộ ba minutiae. Tuy nhiên, phương pháp
này không đạt kết quả tốt (hội tụ lâu và độ
chính xác khơng cao), lý do: sử dụng tọa độ
để đánh giá cặp minutiae tiềm năng khớp là
chưa đủ tin cậy. Hơn nữa, phương pháp này
chưa thu hẹp khơng gian tìm kiếm khi thiết
lập quần thể ban đầu. Sheng [1] cải tiến
phương pháp này bằng cách sử dụng đặc
trưng cấu trúc cục bộ minutiae để tính tốn
độ thích nghi và cải tiến các tốn tử di
truyền: lai ghép và đột biến (với mục tiêu
thu được hiệu suất so khớp cao hơn). Sau

đó, Sheng [13] sử dụng thuật giải di truyền
với nhiều đặc trưng hơn (hướng, khoảng
cách đường vân và minutiae) để tìm phép
canh chỉnh tối ưu và đánh giá mức độ tương
quan. Tuy nhiên, trong phương pháp này
cơng thức tính tốn khoảng cách hướng và
việc đánh giá mức độ giống nhau của
minutiae cịn hạn chế.
Nhìn chung, các phương pháp trên gặp giới
hạn trong việc tìm phép canh chỉnh tối ưu
giữa hai ảnh vân tay và việc đánh giá đúng
độ tương quan giữa hai vân tay trong trường
hợp ảnh vân tay bị mất mát thông tin.
Trong bài báo này, chúng tôi đề xuất một
phương pháp so khớp vân tay hiệu quả sử
dụng kết hợp đặc trưng cục bộ và cấu trúc
toàn cục trong thuật giải di truyền để tìm
phép canh chỉnh tối ưu và đánh giá độ tương
quan giữa hai vân tay mất mát thông tin.
Hướng đường vân, khoảng cách đường vân
(đặc trưng toàn cục) và đặc trưng cấu trúc
cục bộ minutiae được sử dụng nhằm đảm

ISS_HUTECH – 15/04/2010

bảo lần lượt tối ưu hóa về hướng xoay, độ
co giãn và độ dịch chuyển của vân tay.
Trong các phần sau, chúng tơi trình bày chi
tiết thuật tốn được đề xuất cho việc so
khớp ảnh vân tay. Trong phần 2, các đặc

trưng dùng cho việc so khớp được miêu tả
rõ. Phần 3 trình bày thuật tốn được đề xuất.
Kết quả thực nghiệm trên cơ sở dữ liệu
FVC2004 được trình bày trong phần 4. Cuối
cùng, kết luận của bài báo được đúc kết
trong phần 5.
2. BÀI TOÁN SO KHỚP

Ảnh vân tay chất lượng thấp thường bị xoay,
bị dịch chuyển và bị bóp méo. Do đó, cần
một phép biến đổi để canh chỉnh hai ảnh vân
tay với nhau. Phép biến đổi
f (qi ) = ( xi' , yi' , α i' ) của một điểm

qi = ( xi , yi , α i ) được biểu diễn như sau:
⎡ x' ⎤
⎡cos θ
⎢ ' ⎥ = s. ⎢
⎣ sin θ
⎣y ⎦

− sin θ ⎤ ⎡ x ⎤ ⎡ t x ⎤
.
+⎢ ⎥
cos θ ⎥⎦ ⎢⎣ y ⎥⎦ ⎣t y ⎦

(1)




α i' = α i + θ

Trong đó, ( xi , yi ) là tọa độ điểm ảnh tương
ứng và α i là hướng tại đó. Vì vậy, việc canh
chỉnh vân tay là tìm các tham số sao cho nó
có thể tối ưu hóa thơng tin tương quan giữa
hai ảnh vân tay. θ , s , t tương ứng là các hệ
số cần tìm của hàm biến đổi f .

3. THUẬT TỐN SO KHỚP VÂN TAY

Việc so khớp vân tay mất mát thơng tin mà
nó cần đảm bảo tìm ra được phép biến đổi
tối ưu để canh chỉnh hai ảnh vân tay và từ
đó tính tốn độ tương quan tương ứng là
một bài tốn phức tạp. Trong bài báo này,
chúng tơi đề xuất một thuật tốn mới mà nó
cải tiến thuật tốn so khớp dựa vào thuật
giải di truyền do Sheng [13] đề xuất để giải
quyết bài toán này. Thuật toán đề xuất gồm
hai giai đoạn: thiết lập quần thể và sự tiến

Proceedings of the 1st Conference on Science and Technology

17


Kỷ yếu Hội nghị Khoa học và Công nghệ lần thứ 1

hóa dựa vào di truyền. Giai đoạn thiết lập

quần thể được thực hiện dựa vào đặc trưng
cục bộ của vân tay, nhằm tạo ra một tập các
cá thể ban đầu có tiềm năng cho một phép
biến đổi so khớp hiệu quả. Giai đoạn tiến
hóa bao gồm việc lựa chọn thế hệ cha để tái
sản xuất hoặc thực hiện lai ghép hoặc đột
biến để tạo ra thế hệ con mới. Việc tiến hóa
sẽ kết thúc nếu gặp các điều kiện dừng sau:
(1) Giá trị thích nghi của quần thể khơng đổi
cho ΔN thế hệ hoặc (2) hoặc giá trị thích
nghi của cá thể tốt nhất vượt qua ngưỡng
mong đợi (giá trị ngưỡng này là trung bình
độ giống nhau của các cặp ảnh vân tay cùng
ngón), (3) số thế hệ vượt qua ngưỡng số
lượng thế hệ xem xét N. Thuật toán được
trình bày tóm tắt như sau:
1) Áp dụng tốn tử so khớp cục bộ để thiết
lập quẩn thể ban đầu gồm P cá thể được
biểu diễn dạng vector các số thực (xem
phần 3.1).
2) Tính tốn giá trị thích nghi dựa vào
phương trình (8) cho mỗi cá thể trong
quần thể ban đầu .
3) Lặp lại các bước từ (4)-(7) cho đến khi
gặp điều kiện dừng.
4) Chọn P/2 cá thể có độ tích nghi cao (bằng
phương pháp đấu chọn kích thước k [23],
k=5 trong thực nghiệm chúng tôi) trong
quần thể làm cá thể bố mẹ .
5) Sản sinh ra thế hệ con sử dụng phép lai

ghép các cá thể bố mẹ này và sau đó áp
dụng phép đột biến theo phương pháp
Gaussian lên cá thể con (xem phần 3.2.2).

ISS_HUTECH – 15/04/2010

Trong thuật giải di truyền, quần thể là tập
hợp các cá thể biểu diễn khơng gian các
tham số cần tìm kiếm. Mỗi cá thể
i = ( t x ,i , t y ,i ,θi , si ) là một vector có bốn số
thực, hai số đầu biểu diễn độ dịch chuyển
theo phương x và y tương ứng, số tiếp theo
biểu diễn góc quay và số cuối cùng biểu
diễn hệ số tỉ lệ. Để thiết lập quần thể ban
đầu, chúng tôi sử dụng đặc trưng cục bộ của
minutiae để tìm ra cặp điểm minutiae tham
chiếu. Dựa vào cặp điểm tham chiếu này,
các tham số về độ dịch chuyển, góc quay
được khởi tạo, nên khơng gian tìm kiếm
được thu hẹp lại.
Đặc trưng cục bộ minutiae được đề xuất bởi
Tico và Kuosmanen [5] được sử dụng trong
việc tính tốn đặc trưng cục bộ minutiae.
Đặc trưng này cấu thành từ độ lệch hướng
của các điểm lân cận xung quanh minutiae
so với hướng tại minutiae. Một lưới trịn
gồm L vịng trịn bán kính rl và mỗi vịng
trịn có K l điểm mẫu tọa độ tại các điểm
giao nhau của cung và bán kính. Gọi
a = {α k ,l } và b = {β k ,l } , là vector mô tả

thông tin hai minutiae (trong thực nghiệm
chúng tôi: L = 3 , r0 = 27 , K 0 = 10 , r1 = 45 ,
K1 = 6 ,
r2 = 63 ,
K 2 = 22 ,
r3 = 81 ,
K 3 = 28 ). Để tính khoảng cách giữa hai
minutiae dựa vào đặc trưng cục bộ này,
chúng tôi sử dụng cơng thức tính độ sai lệnh
về góc rất hiệu quả do tác giả Liu đề xuất
trong [18] là:

6) Tính tốn giá trị thích nghi của các cá thể
con mới tạo ra.

∑ ∑
d ( a, b ) = 1 −


7) Tạo ra quần thể mới có kích thước P gồm
các cá thể bố mẹ và các cá thể con sinh ra
từ lai ghép và đột biến.
8) Chọn các thể có giá trị thích nghi cao
nhất trong quần thể là giá trị tương quan
cần tìm.

Chi tiết bước tính tốn liên quan đến hai giai
đoạn được mô tả rõ trong các mục tiếp theo.
3.1. So khớp cục bộ và thiết lập quần thể


L

Kl

l =1

k =1
L

j 2 α −β
e ( k ,l k ,l )

K
l =1 l

(2)

Trong đó, α k ,l và β k ,l là độ lệch hướng được
ước lượng tại điểm ảnh ( k , l ) trong miêu tả
của hai minutiae a và b, j = −1 , z là độ
lớn của số phức z .
Đựa vào đặc trưng cục bộ, việc thiết lập
quần thể ban đầu như sau. Gọi T và Q lần
lược là vân tay mẫu và vân tay truy vấn.
Chọn ngẫu nhiên một số minutiae trong vân

Proceedings of the 1st Conference on Science and Technology

18



Kỷ yếu Hội nghị Khoa học và Công nghệ lần thứ 1

tay Q. Với mỗi minutiae, tính tốn khoảng
cách đặc trưng cục bộ của minutiae này với
tất cả minutiae trong vân tay mẫu T. Chọn
cặp minutiae có khoảng cách bé nhất là cặp
điểm tham chiếu. Đựa vào cặp điểm tham
chiếu này, góc quay và độ dịch chuyển được
tính tốn và kết hợp với một hệ số tỉ lệ ngẫu
nhiên trong phạm vi δ s để thiết lập cả thể
trong quần thể. Nếu số lượng minutiae trong
vân tay Q ít hơn số lượng cá thể trong quần
thể cần thiết lập, thì các cá thể còn lại được
thiết lập ngẫu triên trong phạm vi định nghĩa
trước δ tx , δ ty và δθ , tương ứng (các hệ số
này được xác định bằng thực nghiệm).
Sau khi thiết lập xong quần thể ban đầu,
quần thể nhận được có thể khơng chứa phép
biến đổi tối ưu mong đợi. Đo đó, giai đoạn
tiến hóa cần thực hiện để tìm ra cá thể ở thế
hệ con ứng với phép biến đổi tối ưu. Trong
phần tiếp theo, giai đoạn tiến hóa và phương
pháp tính tốn độ thích nghi được trình trình
bày chi tiết.
3.2. Giai đoạn tiến hóa

Trong q trình tiến hóa của quần thể, cần
phải tính tốn độ thích nghi của mỗi cá thể
và thực hiện phát sinh ra quần thể mới.

3.2.1. Hàm thích nghi

Hàm thích nghi đóng vai trị quan trọng và
quyết định hiệu năng thực hiện của thuật
giải di truyền. Trong phần này, chúng tôi đề
xuất phương pháp tính tốn hàm thích nghi
bằng cách tích hợp các đặc trưng dựa vào
việc đánh trọng số đối của từng đặc trưng.
Việc sử dụng đặc trưng tích hợp này đảm
bảo hàm thích nghi đánh giá đúng mức độ
tương quan giữa hai vân tay đối với phép
biến đổi tương ứng.
Đặc trưng phân biệt nhất được sử dụng phổ
biến là minutae. Đặc trưng này cho phép
đánh giá đầy đủ độ tương quan giữa hai vân
tay của phép biến đổi tương ứng. Giả sử
M q , M t là hai tập minutiae lần lượt thuộc
ảnh vân tay truy vấn và ảnh mẫu. Đặc trưng
của hai minutiae i được biểu diễn là

ISS_HUTECH – 15/04/2010

( xi , yi ,θi , ai )

với xi , yi là tọa độ, θ i là

hướng đường vân tại minutiae và ai là
vector đặc trưng cục bộ. Khi đó hai minutiae
gọi là tiềm năng khớp nhau nếu thỏa điều
kiện sau:


S ( ai , b j ) = min ( S ( ai , bk ) )

(3)

k

trong đó: minutiae j là một trong các
minutiae k gần minutiae i hay thỏa điều
kiện:

( xi − xk )

2

+ ( yi − yk ) < ε d ,
2

θi − θ j < ε θ ,

(4)

trong đó, ε d , εθ lần lượt là ngưỡng về
khoảng cách và độ lệch góc của hai mintiae
được xem giống nhau (Trong thực nghiệm
chúng tôi ε d = 8 , εθ = π / 6 ).
Gọi n là số cặp minutiae tiềm năng khớp
nhau của hai tập minutiae trên hai ảnh. Mức
độ tương quan của đặc trưng minutiae được
tính tốn bởi cơng thức sau:

S (Mq , Mt ) =

n
2
S ( ai , bi )
(q + t ) ∑
i =1

(5)

Căn cứ vào số minutiae gần nhau trong
ngưỡng cho trước giúp đánh giá mức độ
đúng của tham số dịch chuyển và tham số tỉ
lệ. Bên cạnh đó, căn cứ vào mức độ giống
nhau về đặc trưng cục bộ cũng cho phép
đánh giá mức độ đúng của tham số hướng.
Tuy nhiên, trong nhiều trường hợp ảnh vân
tay mất mát thông tin (có nhiều nhiễu),
minuitae giả xuất hiện nhiều hoặc rất ít
minutiae, nếu chỉ dựa vào đặc trưng cục bộ
minutiae không đủ đánh giá mức độ đúng
của tham số hướng và mức độ tương quan
giữa hai ảnh vân tay.
Tương tự Ross [14], Sheng [13], đặc trưng
hướng được sử dụng như là đặc trưng phụ
để đánh giá mức độ tương quan của hai ảnh
vân tay và góp phần đánh giá mức độ đúng
của tham số hướng và dịch chuyển trong

Proceedings of the 1st Conference on Science and Technology


19


Kỷ yếu Hội nghị Khoa học và Công nghệ lần thứ 1

ISS_HUTECH – 15/04/2010

trường hợp ảnh vân tay chất lượng thấp
(chứa nhiều minutiae giả). Gọi Oq và Ot là

vân. Trong thực nghiệm của chúng tôi
w1 = 0.6 , w2 = 0.25 , w3 = 0.15 .

hai vector biểu diễn trường hướng của hai
vân tay. Khi đó, độ tương quan về đặc trưng
hướng được tính bằng cơng thức sau [18]:

3.2.2. Phát sinh quần thể mới

d ( Oq , Ot ) = 1 −



k =M
k =1

vk e

(


j 2 θ p ,k −θ q ,k

)
(6)

M

∑v
k =1

k

Trong đó, vk ∈ {0,1} , vk = 1 nếu phần tử k
tại đó có vân tay và tính được hướng cho cả
hai vân tay, j = −1 , z là độ lớn của số

phức z , M là số thành phần của vector
đặc trưng hướng.
Một đặc trưng phụ khác cho phép đánh giá
mức độ đúng của tham số tỉ lệ và tham số
dịch chuyển là đặc trưng mật độ đường vân.
Gọi Rq , Rt là mật độ đường vân của ảnh
vân tay truy vấn q và ảnh mẫu t. Cơng thức
tính mật độ đường vân được tính như sau:
[13]
1
S ( Rq , Rt ) =
Ω




( −0.5*1/ R ( x , y )−1/ R ( x , y ) ) (7)
e
q

t

( x , y )∈Ω

Trong đó, Ω biểu diễn vùng vân tay giao
nhau. 1/ Rq ( x, y ) là tầng số đường vân tại
khối

( x, y )

(ảnh vân tay được chia thành

lưới, mỗi khối có kích thước w , trong thực
nghiệm chúng tôi w = 8).
Giá trị hàm đánh giá độ thích nghi F ( q, t )
tương ứng với hai ảnh vân tay đã thực hiện
phép biến đổi được tính như sau:
F ( q, t ) = w1 * f1 + w2 * f 2 + w3 * f3 ,
f1 = S ( M t , M q ) ,
f 2 = S ( Ot , Oq ) ,

(8)

f3 = S ( Rt , Rq )


Trong đó, w1 , w2 , w3 lần lượt là các trọng
số cho biết mức độ phân biệt của đặc trưng
minutiae, đặc trưng hướng và mật độ đường

Để phát sinh ra quần thể tiếp theo, bước đầu
tiên là chọn ra một nữa các cá thể bố mẹ có
độ thích nghi cao theo phương pháp đấu
chọn k cá thể (trong k cá thể ngẫu nhiên,
chọn cá thể có độ thích nghi cao nhất). Sau
đó, tiến hành chọn từng cặp cá thể bố mẹ
này thực hiện lai ghép với xác xuất lai ghép
cho trước (trong thực nghiệm chúng tôi là
xác xuất lai ghép là 0.2). Công thức lai ghép
theo phương pháp truyền thống là: [25]
Con_1 = a* bố_mẹ_1 + (1-a) * bố_mẹ_2,(9)
Con_2 = (1-a)*bố_mẹ_2 + a * bố_mẹ_1,
Trong đó, a ∈ [ 0,1) là một hệ số ngẫu nhiên.
Sau khi lai ghép, cá thể con sẽ được đột biến
với xác suất cho trước (trong thực nghiệm
của chúng tôi là 0.01). Phương pháp đột
biến Gaussian được áp dụng như sau:
ai* = ai + σ N ( 0,1) ai ,

(10)

Trong đó, ai là một thuộc tính của cá thể

con, σ ∈ [ 0.1, 0.2] là kích thước trượt ngẫu
nhiên của phép đột biến, N ( 0,1) là một số

Gaussian ngẫu nhiên.
4. KẾT QUẢ THỰC NGHIỆM

Thuật toán đề xuất được tiến hành thử
nghiệm trên cơ sở dữ liệu thi đấu quốc tế
FVC2004 DB1 và DB4 [19]. Với cơ sở dữ
liệu chuẩn FVC2004 tập DB1 và DB4, mỗi
tập gồm 800 ảnh vân tay lấy từ 100 ngón tay
khác nhau, mỗi ngón 8 ảnh. Các ảnh vân tay
này được thu nhận từ máy quét với độ phân
giải 500 dpi và chứa rất nhiều ảnh vân tay
chất lượng thấp và mất mát thông tin chẳng
hạn ảnh bị dịch chuyển, ảnh bị nhiễu, bị
nhịe.
Để có được đặc trưng cho việc xử lý so
khớp, ảnh vân tay cần phải được rút đặc
trưng về hướng, tầng số đường vân và tập
minutiae với đặc trưng cục bộ của nó. Để

Proceedings of the 1st Conference on Science and Technology

20



×