ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA
MẠNG
BÀI THU HOẠCH MÔN HỌC
CƠ SỞ DỮ LIỆU NÂNG CAO
ĐỀ TÀI
CƠ SỞ DỮ LIỆU ẢNH VÂN MÔI
Học viên thực hiện: Huỳnh Thị Mỹ Hồng
Mã số học viên: CH1101086
TP.HCM, năm 2012
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ
MINH
CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA
MẠNG
BÀI THU HOẠCH MÔN HỌC
CƠ SỞ DỮ LIỆU NÂNG CAO
ĐỀ TÀI
CƠ SỞ DỮ LIỆU ẢNH VÂN MÔI
GVHD: PGS.TS. Đỗ Phúc
Học viên thực hiện: Huỳnh Thị Mỹ Hồng
Mã số học viên: CH1101086
TP.HCM, năm 2012
MỤC LỤC
Trang
Chương 1: Mở đầu 1
1.1. Lời mở đầu 1
1.2. Lý do chọn đề tài 1
1.3. Ý nghĩa khoa học và thực tiễn đề tài 2
Chương 2: Tổng quan cơ sở dữ liệu ảnh vân môi 3
2.1. Tổng quan về nhận dạng sinh trắc 3
2.2. Tổng quan về vân môi 6
2.3. Các phương pháp lưu trữ và nhận dạng dấu vân môi 11
2.4. Cơ sở dữ liệu ảnh vân môi 11
2.5. Phương pháp lưu trữ 12
Chương 3: Khái quát về cơ sở dữ liệu đồ thị 13
3.1. Khái quát về đồ thị 13
3.2. Cơ sở dữ liệu đồ thị 15
3.3. Đại số quan hệ trên cơ sở dữ liệu đồ thị 17
3.4. Ứng dụng của cơ sở dữ liệu đồ thị 19
3.5. Lưu trữ và nhận dạng vân môi bằng cơ sở dữ liệu đồ thị 21
Chương 4: Tổng kết và hướng phát triển 23
4.1. Tổng kết 23
4.2. Hướng phát triển của đề tài 23
Tài liệu tham khảo 24
1
Chương 1: MỞ ĐẦU
1.1. Lời mở đầu
Vân môi là một đặc trưng sinh trắc, nó đã được rất nhiều nhà khoa học
nghiên
cứu và đã ra kết luận rằng vân môi của mỗi người là không giống nhau và không thay
đổi theo thời gian, do đó có thể dùng vân môi để định danh con người. Ngày nay có rất
nhiều hệ thống nhận dạng con người (vân tay, khuôn mặt,…) tuy nhiên chưa có hệ
thống nào nhận dạng con người bằng vân môi.
Đề
tài này nghiên cứu và xây dựng nền tảng một cơ sở dữ liệu ảnh vân môi có
chức năng thêm mới và tìm kiếm trên tập dữ liệu vân môi. Cuối cùng, từ một ảnh
vân môi truy vấn, sau khi tìm kiếm trong cơ sở dữ liệu, sẽ đưa ra một danh sách các
ảnh vân môi gần giống với ảnh đưa vào với độ chính xác chấp nhận được.
Thành công của đề tài là cơ sở để xây dựng những hệ thống nhận dạng bằng
vân môi lớn hơn nữa, phục vụ trong các lĩnh vực an ninh, y tế,…
Qua đây, tôi xin được gửi lời cảm ơn sâu sắc đến GS.TS. Đỗ Phúc, người đã tận
tâm truyền đạt những kiến thức nền tảng cơ bản cho chúng em về môn học “Cơ sở dữ
liệu nâng cao”. Bên cạnh những kiến thức khoa học, Thầy đã giúp tôi có những phong
cách học tập, làm việc và những kinh nghiệm sống quí báu. Tôi xin bày tỏ lòng biết ơn
đến các chuyên gia cố vấn qua mạng thuộc Trung tâm phát triển CNTT – ĐH Quốc gia
TP.HCM và toàn thể các bạn bè học viên trong lớp.
1.2. Lý do chọn đề tài
Nhận dạng ảnh vân tay là một vấn đề được biết cách đây hơn 100 năm, tuy nhiên
mãi đến khi máy tính ra đời, vấn đề này mới được nghiên cứu sâu và ứng dụng rộng
rãi trong hầu hết các lĩnh vực liên quan đến an ninh, bảo mật, y tế,… Ngày nay có
nhiều nghiên cứu tìm ra các phương pháp khác nhau để phân biệt người này với người
khác. Và vân môi đã trở thành một dữ liệu sinh trắc học quan trọng để xác định tính
duy nhất chỉ mình bạn có mà thôi. Do đó, vân môi cần được nghiên cứu rộng và sâu
hơn nữa.
Trong trường hợp không thể xác định được vân tay (do mất tay, bị bỏng,…) hay
dấu vân tay thiếu độ tin cậy thì vân môi là lựa chọn tối ưu để nhận dạng và định danh
con người.
2
Trong những năm gần đây, những nghiên cứu về các đặc trưng cục bộ SIFT
(Scale-Invariant Feature Transform) dùng cho phân loại và tìm kiếm ảnh mang lại
nhiều kết quả đáng kể.
Với nhu cầu thực tiễn cùng với sự phát triển của công nghệ nhận dạng ảnh thì
việc xây dựng một cơ sở dữ liệu ảnh vân môi dùng để nhận dạng tội phạm, xác định
danh tính, chứng thực,… là cần thiết.
1.3. Ý nghĩa khoa học và thực tiễn đề tài
Khoa học về nhận dạng dựa trên các đặc trưng sinh trắc đang ngày càng phát
triển. Trong những năm qua, các nhà khoa học đã tìm ra nhiều phương pháp để nhận
dạng dựa vào đặc điểm sinh trắc, nhiều đặc điểm vật chất làm mẫu mới để phân biệt
người này với người khác. Ngoài những đặc trưng sinh trắc quen thuộc nhờ vân tay,
khuôn mặt, tròng mắt,… việc chứng minh được vân môi cũng là một đặc trưng sinh
trắc có thể được dùng để nhận dạng sẽ góp phần làm cho nền khoa học này có một
hướng đi mới.
Đa phần những hệ thống bảo mật đều có lỗi và nhược điểm của nó. Tuy nhiên
công nghệ bảo mật bằng đặc điểm sinh trắc được xem là có độ tin cậy cao hơn tất cả vì
những ưu điểm riêng của nó. Ví dụ như tính duy nhất, tính không thể sao chép, tính
không thay đổi theo thời gian.
Ở Việt Nam và trên thế giới đến thời điểm này đã có rất nhiều công trình nghiên
cứu và bài báo nói về vân môi trên quan điểm y học và sinh trắc học. Tuy nhiên vẫn
chưa có một hệ thống tin học nào nhận dạng và định danh con người dựa vào vân môi.
Sự thành công của đề tài góp phần nhỏ giúp cho hướng nghiên cứu khoa học này phát
triển, là tiền đề cho những nghiên cứu cải tiến sau này, góp phần xây dựng những hệ
thống nhận dạng lớn phục vụ trong nhiều lĩnh vực như an ninh, y tế, quản lý,….
3
Chương 2: TỔNG QUAN CƠ SỞ DỮ LIỆU ẢNH VÂN MÔI
Trong chương này chúng tôi trình bày tổng quan các vấn đề có liên quan đến đề
tài như sinh trắc học, vân môi, cơ sở dữ liệu ảnh vân môi và phương pháp đánh giá hệ
thống.
2.1. Tổng quan về nhận dạng sinh trắc
Nhận dạng sinh trắc học (biometrics) là công nghệ đựợc sử dụng như một công
cụ giúp xác thực và định danh con người dựa vào những đặc điểm sinh lý, hành vi chỉ
riêng bạn có, nó đang dần làm thay đổi các công nghệ bảo mật có trước đây vì tính duy
nhất, khó thay đổi của đặc điểm sinh trắc.
2.1.1. Phân loại đặc trưng sinh trắc
Việc nhận dạng sinh trắc học dựa trên đặc trưng sinh trắc của con người.
Theo nghiên cứu của Nguyễn Thành Kiên, đặc trưng sinh trắc được chia làm
hai loại, Hình 2.1 thể hiện những đặc trưng sinh trắc thuộc hai loại này, cụ thể là:
- Đặc trưng sinh lý: là các đặc trưng liên quan đến hình dạng, cấu tạo của
cơ thể. Ví dụ như vân tay, vân môi, khuôn mặt, vân lòng bàn tay, tĩnh mạch ngón
tay, tĩnh mạch lòng bàn tay, tròng mắt, tai, cấu tạo răng, mùi cơ thể, AND,
- Đặc trưng hành vi: là các đặc trưng liên quan đến hành động. Ví dụ như
dáng đi, giọng nói, chữ ký, hình thức gõ phím,…
Hình 2.1: Những đặc trưng sinh trắc dùng để nhận dạng
Đây là những đặc trưng sinh trắc đã được sử dụng từ lâu và rất quen thuộc với
mọi người. Bên cạnh đó, những đặc trưng sinh trắc như tròng mắt, tĩnh mạch lòng bàn
4
tay, tĩnh mạch ngón tay gần đây nhận đựợc nhiều sự quan tâm và đang trên đường trở
thành những giải pháp nhận dạng nhanh chóng hơn, chính xác hơn. Tuy nhiên đặc trưng
sinh trắc về vân môi vẫn chưa được nghiên cứu và ứng dụng nhiều.
2.1.2. Cấu tạo của một hệ thống nhận dạng sinh trắc học
Hình 2.2 trình bày các cấu tạo cơ bản của một hệ thống nhận dạng sinh trắc học
bao. Nó gồm các thành phần sau:
Hình 2.2: Cấu tạo hệ thống nhận dạng sinh trắc
-Thu nhận ảnh: thường sử dụng những thiết bị tương tác với người dùng
nhằm thu nhận các đặc điểm sinh trắc của người đó. Ví dụ một số loại thiết bị thu
nhận điển hình như: camera nhằm chụp ảnh khuôn mặt, tròng mắt, hình dáng tai;
micro dùng thu âm giọng nói; máy đọc vân tay; thiết bị thu nhận tĩnh mạch; thiết bị
phân tích AND,…
-
Xử lý: đây là khối nhằm trích và chọn ra các đặc trưng riêng biệt của
người và lưu lại thành các mẫu. Mỗi người có một mẫu riêng, chính sự duy nhất của
mỗi đặc trưng sinh trắc của mỗi người được thể hiện ở sự duy nhất của mẫu tạo ra
này. Nếu là lần đầu tiên người sử dụng đăng ký với hệ thống, mẫu tạo ra sẽ đựợc
cập nhật vào cơ sở dữ liệu mẫu. Nếu là những lần đăng nhập sau, mẫu này sẽ được
so sánh với các mẫu có sẵn để xác định danh tính của người có mẫu đó.
- Cơ sở dữ liệu mẫu: lưu trữ dữ liệu về các mẫu sinh trắc của các cá nhân
nhằm phục vụ cho việc đối sánh.
- So sánh và ra quyết định: từ mẫu của người vừa thu thập được, mẫu này sẽ được
so sánh với các mẫu có sẵn trong cơ sở dữ liệu để xác định xem mẫu này
5
trùng với mẫu lưu sẵn nào. Nếu việc so sánh cho thấy có một mẫu trùng hợp, hệ
thống sẽ ra quyết định dựa trên việc xác thực được danh tính của mẫu mới thu nhận.
2.1.3. Ưu điểm các hệ thống nhận dạng sinh trắc học
Các hệ thống nhận dạng sinh trắc học đem đến một giải pháp an toàn hơn
cho
các ứng dụng bảo mật vì nó có các ưu điểm như sau:
- Duy nhất: tuy nhiên điều này đôi khi không đúng. Ví dụ vân môi của 2 người
song sinh thì 99% là giống nhau,
- Không thể chia sẻ: vì gắn liền với mỗi cá nhân vì thế không thể chia sẻ.
- Không thể sao chép: các đặc trưng sinh trắc gần như không thể bị sao chép, đặc
biệt là với các công nghệ mới đảm bảo đặc trưng đang được thu nhận là từ một người
sống, không phải từ một bản sao chép.
- Không thể mất: tuy nhiên có những trường hợp ngoại lệ. Ví dụ như người sinh ra
bẩm sinh đã không có vân tay,…
2.1.4. Ứng dụng nhận dạng sinh trắc
Với các ưu điểm về tính an toàn, tiện lợi so với các phương pháp xác thực
truyền thống, các hệ thống sinh trắc đang ngày càng trở nên phổ biến đối với các
ứng dụng cần xác thực danh tính của người sử dụng. Các ứng dụng của nhận dạng
sinh trắc học rất đa dạng, được áp dụng rộng rãi trong cả các hoạt động của chính
phủ cũng như các công ty, tổ chức thương mại, bao gồm từ việc quản lý nhân công,
quản lý khách hàng, quản lý vào ra, tới quản lý xuất nhập cảnh, quản lý tội phạm,…
Các ứng dụng của nhận dạng sinh trắc học có thể đựợc liệt kê như sau:
- Thi hành pháp luật: nhận dạng sinh trắc học được sử dụng từ lâu như
một phương tiện an toàn để xác thực danh tính tội phạm. Một trong các ứng dụng
này là thu thập vân tay tại hiện trường trong các vụ án, so sánh với các mẫu vân tay có
sẵn trong cơ sở dữ liệu để xác định danh tính của người cần điều tra.
- Giám sát: các hệ thống nhận dạng sinh trắc học được sử dụng để tự động
định vị, theo dõi và định danh người trong một khu vực nhất định. Hiện nay, các hệ
thống này bao gồm một số camera giám sát kết hợp với các đặc trưng sinh trắc để
giám sát. Khuôn mặt là đặc trưng sinh trắc được sử dụng nhiều nhất trong loại này.
Những hệ thống giám sát gần đây nhất đã có thể xác định được danh tính của người
từ khoảng cách 200m sử dụng khuôn mặt. Tròng mắt cũng đang được ứng dụng để xác
định danh tính từ khoảng cách xa. So với khuôn mặt, tròng mắt cho độ chính xác cao
6
hơn nhưng vì kích thước nhỏ nên việc thu nhận tròng mắt yêu cầu khoảng cách gần hơn.
Những hệ thống gần đây đã cho phép nhận dạng người sử dụng tròng mắt từ khoảng cách
15m.
-Xuất nhập cảnh: việc tự động hóa và tăng cường an ninh trong việc xác
thực danh tính của người xuất nhập cảnh đang ngày càng đựợc quan tâm khi số
lượng người xuất nhập cảnh đang tăng lên nhanh chóng. Hiện nay, hộ chiếu điện tử
đã trở thành một tiêu chuẩn quốc tế ICAO (International Civil Aviation Organization) và
được áp dụng rộng rãi tại hơn 70 nước bao gồm Mỹ, Liên minh Châu Âu (Anh, Pháp,
Đức, Italia, Hà Lan,…), Úc, Hàn Quốc, Singapore,… Hộ chiếu điện tử là một loại thẻ
thông minh có bộ nhớ lưu trữ các thông tin về đặc trưng sinh trắc của cá nhân có thể bao
gồm vân tay, khuôn mặt, tròng mắt.
-Chống gian lận: công nghệ nhận dạng sinh trắc học có thể được sử dụng
trong các ứng dụng công cộng nhằm kiểm soát việc một cá nhân hưởng lợi từ việc
đăng ký nhiều danh tính khác nhau. Hiện nay, Liên Hiệp Quốc đã và đang sử dụng
vân tay để kiểm soát việc trợ cấp lương thực tránh trường hợp một người có thể
gian lận trong việc nhận trợ cấp nhiều lần khi khai báo nhiều danh tính khác nhau.
-Khách du lịch tin cậy: các ứng dụng này cho phép khách du lịch đăng ký
các đặc trưng sinh trắc nhờ vân tay, tròng mắt với chương trình giúp cho những lần
du lịch tiếp theo đơn giản, nhanh chóng hơn nhiều khi chỉ phải kiểm tra nhân dạng tại
các kios, điển hình như chi nhánh Disneyland ở Florida và Hồng Kông đã thực hiện đưa
nhận dạng vân tay vào việc bán vé.
- Bảo vệ tài sản: các ứng dụng này cho phép người dùng bảo vệ các thông
tin, tài sản trước những người sử dụng khác. Ví dụ bao gồm dùng vân tay để truy cập vào
máy tính xách tay, dùng vân tay thay cho khóa tủ, hoặc dùng giọng nói để khởi động xe
ôtô,…
2.2. Tổng quan về vân môi
Vân môi là một trong “ngũ vân” gồm vân mùi, vân tiếng, vân môi, vân mắt, vân
máu.
- Vân môi: Đường vân trên môi của mỗi người rất muôn màu muôn vẻ
nhưng suốt đời không thay đổi. Mấy năm gần đây, các chuyên gia đã có nhiều phát
hiện mới trong lĩnh vực nghiên cứu vân môi. Một bác sĩ người Nhật Bản sau khi
nghiên cứu vân môi của hàng vạn bệnh nhân đã rút ra có kết luận vân môi của con
7
người muôn màu muôn vẻ, không ai giống ai. Đường vân môi của nữ giới thường có
hình lõm, nam giới có hình lồi.
- Vân mắt: Vân mắt là đường vân võng mạc trong mắt. Võng mạc là một
kết cấu phức tạp tinh vi. Kết cấu võng mạc của mỗi người một khác. Các chuyên
gia dùng máy ảnh điện tử có thể chụp đựợc hình ảnh võng mạc trong mắt con người
và dùng nó để giám định từng người một. Các nhà khoa học Mỹ căn cứ vào đó để
chế ra chiếc máy kiểm tra vân mắt và dùng nó trong các cơ quan quốc phòng và bộ
máy cơ mật của nhà nước. Các nhân viên trước khi được tuyển chọn vào làm việc sẽ
được chụp võng mạc bằng một máy ảnh điện tử hai ống kính và lưu trữ hình ảnh
vân đã được mã hóa trong máy giám định. Sau này, mỗi lần vào cơ quan, chỉ cần
đưa mắt nhìn vào máy giám định, võng mạc hiện ra, sẽ dễ dàng phân biệt giả hay
thật. Việc giám định này có vẻ rất phức tạp nhưng rất đơn giản, chỉ mấy giây là
xong. Các chuyên gia cho rằng, việc giám định này chính xác hơn giám định vân
tay, sai số không đến một phần triệu mà thủ tục đơn giản, mất ít thời gian.
- Vân máu: Các nhà khoa học sau khi phát hiện ra máu người gồm 4 nhóm
(O, A, B, AB), còn phát hiện thêm trong máu người có mấy trăm vật chất sinh hóa
do gen di truyền xác định, có thể dùng để phân biệt huyết dịch khác nhau. Các nhà
khoa học nhờ kỹ thuật xung mạch điện tử tiến hành kiểm tra tổ chức huyết dịch
trong cơ thể con người, có thể thấy đựợc những vòng giải điện mạch, tức là vân máu.
Vân máu của mỗi người cũng không giống nhau, là một yếu tố giúp phân biệt đựợc
người này với người khác.
- Vân mùi: Bởi ai cũng có mùi hơi cơ thể, khi đi khỏi, phân tử mùi hơi còn
lưu lại trong không khí nơi đã đến. Căn cứ vào hiện tượng này, cảnh sát có thể thu
lượm không khí mang về phân tích thành phần hóa học, sẽ tìm ra vân mùi mà đối
tựợng cần nhận diện để lại, sau đó “gói” vân mùi thu đựợc vào trong một miếng vải
sạch sẽ không mùi và bảo quản nơi kín đáo để cung cấp cho chó săn phân biệt, từ đó tìm
ra đối tượng nghi vấn.
- Vân tiếng: Vân thanh học là môn khoa học tương tự như môn vân tay
học. Khi phát âm, khí quản âm thanh của mỗi người một khác nhau, có những hình
dạng khác nhau và dung lượng khác nhau. Khoa học kỹ thuật hiện đại biến âm
thanh thành sóng điện, biến sóng điện thành âm thanh, thông qua phân tích, miêu tả
âm thanh dưới dạng đồ án, qua so sánh nhiều lần có thể tìm ra tiếng nói của người
8
cần tìm trong vô vàn tiếng nói khác nhau. Do đó vân tiếng có thể trở thành căn cứ
để xác định nhân thân.
2.2.1. Các công trình nghiên cứu về vân môi
Theo nghiên cứu của Võ Huỳnh Trang và Lê Văn Cường trong khoa
học hình sự, để xác định cá thể người dựa vào các đặc điểm sinh trắc học cung cấp
như: nhóm máu, giới tính, mô hình răng,… đặc biệt là dấu vân tay đã mang lại
nhiều thành công mỹ mãn. Tuy nhiên trong những trường hợp không còn đầy đủ
các bộ phận như: nạn nhân bị cắt mất tay, chân, hoặc bị bỏng mất vân tay, hay
không có hồ sơ về răng,… thì việc xác định cá thể gặp rất nhiều khó khăn. Thêm vào
đó, từ những sai lầm chết người mà chứng cứ là dấu vân tay trong một số vụ án xảy
ra khoảng một thập niên trở lại đây đã làm cho người ta không thể phủ nhận một tồn
tại là chưa có chứng cứ xác thực 100% khẳng định vân tay người tuyệt đối có tính
cá nhân và không hề lặp lại. Vì thế mà gần 20 năm qua, các nhà khoa học đã không
ngừng tìm tòi nhiều phương pháp khác nhau để phân biệt người này với người khác,
“ngũ vân” ra đời từ đây. Với sự hỗ trợ của dụng cụ đo lường sinh học, chúng trở
thành những dữ liệu sinh trắc học quan trọng để xác định đó chỉ duy nhất là bạn mà
thôi. Một trong “ngũ vân” đó chính là: Vân môi.
Năm 1902, Fischer đã mô tả vân môi. Năm 1930, ngành nhân chủng học đề
cập đến sự tồn tại của các nếp nhăn này, nhưng không đề ra ứng dụng nào cho thực
tiễn. Mãi đến năm 1950 lần đầu tiên vân môi được Snyder
sử dụng để xác định cá thể
người. Santos
1967 đề nghị phân các nếp nhăn ở môi người làm hai loại: đơn và kép.
Trong một nghiên cứu về mối quan hệ nha - pháp y giữa son môi và môi nữ
giới ở 107 phụ nữ Nhật năm 1967, K. Suzuki bất ngờ phát hiện rãnh chứ không phải
là nếp nhăn ở vùng môi đỏ như từ trước tới giờ vẫn nghĩ. Nên năm 1970 ông nghiên
cứu vân môi của 280 người Nhật từ 6 - 57 tuổi (150 nam, 130 nữ) bằng cách chụp
hình môi với máy Medical NIKKOR và lấy vân môi bằng máy Finger Printer của Mỹ.
Ông phân vân môi thành 5 loại và thấy rằng không có vân môi nào giống nhau.
Tsuchihashi từ 1969-1974 nghiên cứu 1364 người (757 nam, 607 nữ) và 49 cặp
song sinh cùng trứng, các kết quả nghiên cứu theo chiều dọc cho ông kết luận
không có sự thay đổi của vân môi theo thời gian, các cặp song sinh thì 99% có mô
hình vân môi giống nhau và không tương tự cha mẹ chúng. Những năm sau này vân
môi được nghiên cứu ở nhiều nước khác nhau như: Ludwig Hirth 1975 ở Đức,
9
Kisin 1983 ở Nga, Jerzy Kasprzak 1990 ở Ba Lan, Segui 2000 ở Tây Ban Nha,
Sivapathasundharam 2001 ở Ấn Độ, Ball 2002 ở Út, Jin Ok Kim 2004 ở Hàn Quốc,
Utsuno 2005 ở Nhật.
Các kết quả nghiên cứu đều xác nhận: giống như vân tay, vân môi ở mỗi người
mang tính đặc trưng riêng biệt. Nó củng cố cho việc sử dụng vân môi để xác định tội
phạm, nhưng lại chưa được công nhận như một bằng chứng khoa học trên tòa án. Cần có
nhiều nghiên cứu về vân môi hơn nữa nhằm tập hợp, giải thích, và chứng minh tính duy
nhất của vân môi.
2.2.2. Các dạng hình thái vân môi
Các môi trên và dưới gặp nhau tại các mép môi, còn hai đầu của khe miệng (khe
giữa các môi) gọi là góc miệng. Rãnh dọc ở giữa mặt da của môi trên gọi là “nhân
trung”. Môi không bằng phẳng mà có nhiều vết nhăn lồi, lõm, nông, sâu mà người ta gọi
là vân môi.
Theo Võ Huỳnh Trang và Lê Văn Cường [8], thì vân môi có 8 dạng đi cùng với 8
dạng viền vân môi và 3 cấu trúc đi kèm dạng rãnh.
Hình 2.3: Các dạng vân môi
Trong hình 2.3 các dạng vân môi chiếm tỷ lệ từ cao đến thấp như sau: dạng
I rãnh thẳng, dạng II rãnh phân nhánh, dạng V có hình sao, dạng VII rãnh chạy không
10
theo qui luật, dạng IV lưới rãnh, dạng III giao rãnh, dạng VI có rãnh ngang, dạng VIII
là trường hợp phần trung tâm vùng môi đỏ không có rãnh hoặc có 1-2 rãnh thẳng.
* Các dạng viền vân môi
Có 8 dạng viền vân môi như hình 2.4 chiếm tỷ lệ cao nhất là dạng lưỡi rãnh, dạng
không có rãnh hoặc ít rãnh ngang hay dọc mờ chiếm tỷ lệ thấp nhất.
Hình 2.4: Các dạng viền vân môi
* Cấu trúc đi kèm các dạng rãnh môi
Hình 2.5: Cấu trúc đi kèm dạng rãnh
11
2.3. Các phương pháp lưu trữ và nhận dạng dấu vân môi
Hai dạng thể hiện của dấu vân môi đã dẫn đến hai hướng tiếp cận vấn đề nhận dạng
dấu vân môi khác nhau.
2.3.1. Nhận dạng dựa trên tiểu tiết
Cách tiếp cận thứ nhất dựa trên các tiểu tiết, thể hiện dấu vân môi bằng các đặc
điểm cục bộ. Cách tiếp cận đã được nghiên cứu sâu rộng và cũng là xương sống của các
sản phẩm nhận dạng vân môi hiện tại có trên thị trường.
2.3.2. Nhận dạng dựa trên hình ảnh
Cách tiếp cận thứ hai sử dụng các phương pháp dựa trên hình ảnh, cố gắng so
khớp trên những đặc điểm toàn cục của toàn phần hình ảnh dấu vân môi. Cách tiếp cận
này là một phương pháp tiên tiến và nổi trội về nhận dạng vân môi. Nhận dạng dựa trên
hình ảnh rất hữu dụng khi giải quyết những vấn đề mà cách thứ nhất không thể khắc
phục.
2.4. Cơ sở dữ liệu ảnh vân môi
Cơ sở dữ liệu ảnh vân môi là một cơ sở dữ liệu dạng file. Tập hợp các file
ảnh vân môi của con người và lưu trữ ở bộ nhớ ngoài máy tính dưới 2 dạng tập tin
chủ yếu là tập tin ảnh (file image) và tập tin ma trận vector dưới dạng văn bản
(file text). Đây là dạng cơ sở dữ liệu bền vững vì được lưu trữ ở thiết bị bền vững,
dễ dàng chia sẻ.
Hệ thống tìm kiếm ảnh vân môi như Hình 2.6 là tập hợp các kỹ thuật xử lý và nhận
dạng ảnh kết hợp với cơ sở dữ liệu ảnh vân môi đã đợc tổ chức lưu trữ xây dựng nên, có
chức năng chính là tìm kiếm và trả về những ảnh gần giống.
Hình 2.6: Hệ thống tìm kiếm ảnh vân môi
12
2.5. Phương pháp lưu trữ
Từ hai cách tiếp cận trên cũng phát sinh ra hai cách lưu trữ vân môi khác nhau:
- Lưu trữ các tiểu tiết: việc lưu trữ này đảm bảo cho cơ sở dữ liệu gọn nhẹ, lại rất
thuận tiện cho việc tối ưu truy vấn và phân lớp dữ liệu.
- Lưu trữ hình ảnh: ngược với việc nhận dạng, việc lưu trữ dữ liệu ảnh lại rất tốn
kém và không linh động. Ảnh là dữ liệu thô nên không thuận tiện cho việc tối ưutruy vấn
cũng như phân lớp, đặt chỉ mục. Vì thế thời gian xác minh dấu vân môi trên cơ sở dữ liệu
lớn gần như không chấp nhận được.
13
Chương 3: KHÁI QUÁT VỀ CƠ SỞ DỮ LIỆU ĐỒ THỊ
3.1. Khái quát về đồ thị
Đồ thị là một tập các đối tượng được gọi là các đỉnh (hoặc nút) nối với nhau bởi
các cạnh (hoặc cung). Cạnh có thể có hướng hoặc vô hướng. Đồ thị thường được vẽ
dưới dạng một tập các điểm (các đỉnh) nối với nhau bẳng các đoạn thẳng (các cạnh).
3.1.1. Đồ thị vô hướng
Đồ thị vô hướng G là một cặp có thứ tự (ordered pair) G:=(V, E), trong đó:
• V: tập các đỉnh hoặc nút.
• E: tập các cặp không thứ tự chứa các đỉnh phân biệt, được gọi là cạnh.
Hai đỉnh thuộc một cạnh được gọi là các đỉnh đầu cuối của cạnh đó.
Trong nhiều tài liệu, tập các cạnh bao gồm cả các cặp đỉnh không phân biệt,
các cạnh này được gọi là các khuyên. V (và E) thường là các tập hữu hạn, phần
lớn các kết quả nghiên cứu đã biết không đúng (hoặc khác) khi áp dụng cho đồ thị
vô hạn (infinite graph) vì nhiều luận cứ không dùng được trong trường hợp vô
hạn.
3.1.2. Đồ thị có hướng
Đồ thị có hướng G là một cặp có thứ tự G:=(V, A), trong đó:
• V: tập các đỉnh hoặc nút.
•
A: tập các cặp có thứ tự chứa các đỉnh, được gọi là các cạnh có hướng
hoặc
cung. Một cạnh e = (x, y) được coi là có hướng từ x tới y; x được
gọi là điểm
đầu/gốc và y được gọi là điểm cuối/ngọn của cạnh.
3.1.3. Đơn đồ thị và Đa đồ thị
Đơn đồ thị: là đồ thị mà giữa hai đỉnh chỉ có tối đa một cạnh.
Đa đồ thị: là đồ thị mà giữa hai đỉnh có thể có nhiều hơn một cạnh.
Đa đồ thị: là đồ thị mà giữa hai đỉnh có thể có nhiều hơn một cạnh.
Đơn thị đồ có hướng: là một đồ thị có hướng, trong đó, nếu x và y là hai đỉnh thì đồ
thị chỉ được phép có tối đa một trong hai cung (x, y) hoặc (y, x).
Đa đồ thị có hướng: là một đồ thị có hướng, trong đó, nếu x và y là hai đỉnh thì đồ
thị được phép có cả hai cung (x, y) và (y, x).
3.1.4. Đồ thị hỗn hợp
Đồ thị hỗn hợp G là một bộ ba có thứ tự G := (V,E,A) với V, E và A được định
nghĩa như trên.
14
3.1.5. Đồ thị có trọng số
Trong một đồ thị có trọng số, mỗi cạnh được gắn với một hoặc một vài giá trị
nào đó, được gọi là trọng số, độ dài, chi phí, hoặc các tên khác tùy theo ứng dụng. Các
đồ thị như vậy được dùng trong nhiều ngữ cảnh, chẳng hạn trong các bài toán tối ưu
hóa đường đi như bài toán người bán hàng.
3.1.6. Các dạng đồ thị quan trọng
- Đồ thị tầm thường: đồ thị chỉ có một đỉnh và không có cạnh nào.
- Đồ thị rỗng: đồ thị không có cả đỉnh lẫn cạnh.
- Đồ thị đầy đủ: Trong một đồ thị đầy đủ mỗi cặp đỉnh đều được nối với nhau bằng
một cạnh, nghĩa là đồ thị chứa tất cả các cạnh có thể.
- Đồ thị phẳng: Một đồ thị phẳng có thể được vẽ trên mặt phẳng sao cho không có
hai cạnh nào cắt nhau.
- Cây: là một đồ thị liên thông không có chu trình.
- Đồ thị hai phía (Bipartite graph): là một đồ thị đặc biệt, trong đó tập các đỉnh có thể
được chia thành hai tập không giao nhau thỏa mãn điều kiện không có cạnh nối hai đỉnh
bất kỳ thuộc cùng một tập.
3.1.7. Ứng dụng của đồ thị
Đồ thị biểu diễn được rất nhiều cấu trúc, nhiều bài toán thực tế có thể được biểu
diễn bằng đồ thị. Ví dụ, cấu trúc liên kết của một website có thể được biểu
diễn bằng
một đồ thị có hướng như sau: các đỉnh là các trang web hiện có tại
website, tồn tại
một cạnh có hướng nối từ trang A tới trang B khi và chỉ khi A có chứa 1 liên kết tới B.
Do vậy, sự phát triển của các thuật toán xử lý đồ thị là một trong các mối quan tâm
chính của khoa học máy tính.
Trong lý thuyết phạm trù (category theory) một phạm trù có thể được coi là
một
đa đồ thị có hướng với các đối tượng là các đỉnh và các morphism là các
cạnh có
hướng. Khi đó, các hàm tử (functor) giữa các phạm trù là một số (nhưng không nhất
thiết tất cả) digraph morphism.
Trong Khoa học máy tính đồ thị có hướng được dùng để biểu diễn các ô-tô-
mát hữu hạn (finite state machine) và nhiều cấu trúc rời rạc khác.
Một quan hệ đôi (binary relation) R trên tập X là một đồ thị đơn có hướng. Hai
đỉnh x,y của X được nối với nhau bởi một cung nếu xRy.
15
3.2. Cơ sở dữ liệu đồ thị
3.2.1. Đồ thị có nhãn
Đồ thị có nhãn là một bộ sáu G = (V, E, V
L
, λ, V
I
, δ), trong đó:
• V là tập các đỉnh.
• E là tập các cạnh.
• V
L
là tập các nhãn đỉnh.
• V
N
là tập các định danh của đỉnh.
• λ: V → V
L
là một hàm gán nhãn đỉnh.
• δ: V → V
N
là một hàm đặt tên đỉnh.
Ví dụ: hình 3.1 minh họa một đồ thị có nhãn với các thành phần:
• V = {Hồ Chí Minh, Đà Lạt, Lâm Đồng}
• E = {(Hồ Chí Minh, Đà Lạt), (Đà Lạt, Lâm Đồng), (Lâm Đồng, Đà
Lạt)}
• V
L
= {Thành phố, Tỉnh}
• V
N
= {Hồ Chí Minh, Đà Lạt, Lâm Đồng}
Hình 3.1: Một đồ thị có nhãn
3.2.2. Cơ sở dữ liệu đồ thị
Một cơ sở dữ liệu đồ thị là một tập hợp các đồ thị thành viên G = {G
1
, G
2
, G
3
,…,
G
n
} trong đó mỗi đồ thị G
i
là một đồ thị có nhãn. Hình sau định nghĩa một cơ sở dữ liệu
đồ thị:
16
Hình 3.2: Một cơ sở dữ liệu đồ thị
3.2.3. Đồ thị con
Cho G và G’ là hai đồ thị:
G = (V, E, V
L
, λ, V
I
, δ) và G’ = (V’, E’, V
L
’, λ’, V
I
’δ’) G’ là đồ thị con của G, ký
hiệu là G’
⊆
G, nếu:
• V’
⊆
V
• E’
⊆
E
•
∀
v
∈
V’, λ (v) = λ’ (v’) and E’ = E (V’× V’)
Hình 3.3: Một đồ thị con tiêu biểu
3.2.4. Đẳng cấu đồ thị
Cho G1 = (V1, E1) và G2 = (V2, E2) là hai đồ thị. G1 và G2 là đẳng cấu, ký hiệu G1
≅
G2, nếu tồn tại một ánh xạ φ: V1 → V2 như sau:
17
Hình 3.4: Đẳng cấu đồ thị
3.2.5. Đẳng cấu đồ thị con
Cho G = (V, E) và G’ = (V’, E’) là hai đồ thị. G’ đẳng cấu đồ thị con với G nếu tồn
tại một đồ thị con của G đẳng cấu với G’. Hình sau minh họa một đẳng cấu đồ thị con:
Hình 3.5: Đẳng cấu đồ thị con
Trong hình trên, tồn tại một đẳng cấu đồ thị con từ G’ đến G:
φ = {(a, a), (b, b), (c, c), (d, d), (e, e)}
3.3. Đại số quan hệ trên cơ sở dữ liệu đồ thị
Có rất nhiều tác vụ trên đại số quan hệ đồ thị. Đại số quan hệ đồ thị được định
nghĩa là các phép toán của đại số quan hệ trên đồ thị, ví dụ như: phép chiếu (π), phép
chọn (σ), phép hợp (
∪
), phép lấy tổng (+), phép giao (
∩
), phép kết (×), phép loại trừ
(-hoặc \).
3.3.1. Phép chọn đồ thị
Cho GD là một cơ sở dữ liệu đồ thị, phép chọn đồ thị trên GD sẽ trả về một tập
đồ thị thỏa mãn điều kiện F cho trước:
σF(GD) = {G
∈
GD | G thỏa mãn F}
F là điều kiện truy vấn (chọn) và F có thể là đẳng cấu đồ thị, đẳng cấu đồ thị con,
bao hàm đồ thị, tương đồng đồ thị hoặc các điều kiện khác.
18
3.3.2. Phép chiếu đồ thị
Đồ thị rút gọn: Cho G = (V, E) là một đồ thị và X
⊂
V, đồ thị rút gọn của G trên
X được định nghĩa là một đồ thị G’(V’, E’) , trong đó:
V’ = X
E’ = V’×V’
∩
E
Phép chiếu đồ thị: Cho GD là một cơ sở dữ liệu đồ thị, và X là một tập các
đỉnh truy vấn (X
⊂
V). Phép chiếu đồ thị trên GD sẽ trả về một tập các đồ thị,
trong đó:
Π
x (GD) = {G’ | G’ là đồ thị rút gọn của G trên X}
3.3.3. Phép hợp đồ thị
Hợp của hai đồ thị G1, G2 (G = G1
∪
G2) với những đỉnh phân biệt V1, V2
(V1
∩
V2 =
φ
) sẽ sinh ra một đồ thị G với tập đỉnh V = V1
∪
V2 và tập các cạnh
E = E1
∪
E2. Phép hợp đồ thị có thể được sử dụng để kết hợp nhiều đồ thị hơn
bằng cách sử dụng hàm lồng nhau. Ví dụ: GraphUnion(GraphUnion(G1,G2),G3).
Đồ thị kết quả được tạo ra bằng cách kết hợp hai đồ thị như sau: Hai đồ thị ban
đầu đều được gán nhãn để trở thành các đồ thị phân biệt. Sau đó, đồ thị kết quả chỉ đơn
giản hợp hai đồ thị phân biệt đó lại.
3.3.4. Phép lấy tổng đồ thị
Một phép lấy tổng của hai đồ thị G1, G2, ký hiệu là
Σ
(G1, G2), là một đồ thị với
ma trận kề được tính toán bằng cách tổng hai ma trận kề thành viên và số lượng đỉnh
của hai đồ thị G1 và G2 phải bằng nhau.
3.3.5. Phép giao đồ thị
Tất cả đỉnh của đồ thị kết quả sẽ thuộc về cả hai đồ thị G1 và G2, đồng thời tất cả
cạnh của đồ thị kết quả cũng thuộc về cả hai đồ thị G1 và G2.
3.3.6. Phép hiệu đồ thị
Phép hiệu đồ thị G1 với G2, ký hiệu G = G1 \ G2, được định nghĩa là một đồ thị
ma trận kề được tính toán bằng sự khác biệt của ma trận kề G2 với ma trận kề G2 và số
đỉnh của đồ thị G1, G2 phải bằng nhau.
3.3.7. Phép kết đồ thị
Cho G1, G2 là hai đồ thị với tập đỉnh phân biệt V1, V2 (V1
∩
V2 =
φ
) và tập
cạnh phân biệt E1, E2 (E1
∩
E2 =
φ
), phép kết đồ thị G = G1+G2 được định nghĩa là
19
hợp của G1 và G2 với tất cả các cạnh được tạo ra bằng cách kết hợp tất cả đỉnh V1 với
tất cả đỉnh V2 với nhau.
3.4. Ứng dụng của cơ sở dữ liệu đồ thị
Cơ sở dữ liệu đồ thị giúp các đối tượng rời rạc được gắn kết và mô hình hóa trong
không gian đa chiều. Theo đó, việc truy vấn dữ liệu không chỉ dựa trên các vector
thông số đơn thuần mà chủ yếu dựa trên các đặc điểm của mô hình không gian được tạo
nên bới sự liên kết của các đối tượng. Điều này rất hữu ích trong việc nhận dạng mẫu,
dự đoán tính chất thông qua kết cấu, khai phá dữ liệu,…
Việc đồ thị hóa những dữ liệu hình ảnh, văn bản cũng giúp tiết kiệm đáng kể
không gian lưu trữ, rút ngắn thời gian truy xuất và xử lý. Đồng thời những thông tin
dưới dạng đồ thị hữu ích hơn nhiều so với dữ liệu thô 2 chiều, tăng hiệu năng tính toán
đồng thời tạo ra thêm nhiều ứng dụng cho khối thông tin này.
3.4.1. Hệ thống thông tin địa lý
Hệ thống thông tin địa lý là hệ thống quản lý, phân tích và hiển thị tri thức địa lý,
tri thức này được thể hiện qua các tập thông tin:
- Các bản đồ: giao diện trực tuyến với dữ liệu địa lý để tra cứu, trình bày kết quả
và sử dụng như là một nền thao tác với thế giới thực.
- Các tập thông tin địa lý: thông tin địa lý dạng file và dạng cơ sở dữ liệu gồm
các yếu tố, mạng lưới, topology, địa hình, thuộc tính.
- Các mô hình xử lý: tập hợp các quy trình xử lý để phân tích tự động.
- Các mô hình dữ liệu: GIS cung cấp công cụ mạnh hơn là một cơ sở dữ liệu
thông thường bao gồm quy tắc và sự toàn vẹn giống như các hệ thông tin
khác. Lược đồ, quy tắc và sự toàn vẹn của dữ liệu địa lý đóng vai trò quan
trọng.
- Metadata: hay tài liệu miêu tả dữ liệu, cho phép người sử dụng tổ chức, tìm
hiểu và truy nhập được tới tri thức địa lý.
Một bản đồ khi được chuyển từ dạng hình ảnh sang đồ thị sẽ có kích thước nhỏ
hơn nhưng lại có thể thực hiện dễ dàng các phép tìm kiếm, định vị hoặc tìm đường đi
ngắn nhất phục vụ cho các ứng dụng tra cứu, dẫn đường, Đồ thị bản đồ cũng có khả
năng phóng to, thu nhỏ, xoay chuyển, tô màu khu vực, bổ sung dữ liệu, chú dẫn,… mà
không mất mát dữ liệu. Ngoài ra, khi ứng dụng khai phá dữ liệu lên đồ thị bản đồ, ta có
20
thể thu được nhiều kết quả bất ngờ giúp cho việc quy hoạch đô thị, xử lý phân luồng
giao thông,…
3.4.2. Mạng xã hội
Mạng xã hội, hay gọi là mạng xã hội ảo, (tiếng Anh: social network) là dịch vụ
nối kết các thành viên cùng sở thích trên Internet lại với nhau với nhiều mục đích khác
nhau không phân biệt không gian và thời gian.
Mạng xã hội có những tính năng như chat, e-mail, phim ảnh, voice chat, chia
sẻ file, blog và xã luận. Mạng đổi mới hoàn toàn cách cư dân mạng liên kết với
nhau và trở thành một phần tất yếu của mỗi ngày cho hàng trăm triệu thành viên
khắp thế giới. Các dịch vụ này có nhiều phương cách để các thành viên tìm kiếm
bạn bè, đối tác: dựa theo group (ví dụ như tên trường hoặc tên thành phố), dựa
trên thông tin cá nhân (như địa chỉ e-mail hoặc screen name), hoặc dựa trên sở
thích cá nhân (như thể thao, phim ảnh, sách báo, hoặc ca nhạc), lĩnh vực quan
tâm: kinh doanh, mua bán
Hiện nay thế giới có hàng trăm mạng mạng xã hội khác nhau, với MySpace và
Facebook nổi tiếng nhất trong thị trường Bắc Mỹ và Tây Âu; Orkut và Hi5 tại Nam
Mỹ; Friendster tại Châu Á và các đảo quốc Thái Bình Dương. Mạng xã hội khác gặt hái
được thành công đáng kể theo vùng miền như Bebo tại Anh Quốc, CyWorld tại Hàn
Quốc, Mixi tại Nhật Bản và tại Việt Nam xuất hiện rất nhiều các mạng xã hội như:
Zing Me, YuMe, Tamtay và mới đây là Go.vn.
3.4.3. Mạng ngữ nghĩa
Mạng ngữ nghĩa là một phương pháp biểu diễn tri thức đầu tiên và cũng là
phương pháp dễ hiểu nhất đối với chúng ta. Phương pháp này sẽ biểu diễn tri thức dưới
dạng một đồ thị, trong đó đỉnh là các đối tượng (khái niệm) còn các cung cho biết mối
quan hệ giữa các đối tượng (khái niệm) này.
Do mạng ngữ nghĩa là một loại đồ thị cho nên nó thừa hưởng được tất cả những
mặt mạnh của công cụ này. Nghĩa là ta có thể dùng những thuật toán của đồ thị trên
mạng ngữ nghĩa như thuật toán tìm liên thông, tìm đường đi ngắn nhất, để thực hiện
các cơ chế suy luận. Điểm đặc biệt của mạng ngữ nghĩa so với đồ thị thông thường
chính là việc gán một ý nghĩa (có, làm, là, biết, ) cho các cung. Trong đồ thị tiêu
chuẩn, việc có một cung nối giữa hai đỉnh chỉ cho biết có sự liên hệ giữa hai đỉnh đó và
tất cả các cung trong đồ thị đều biểu diễn cho cùng một loại liên hệ. Trong mạng ngữ