ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
LÊ THỊ MAI HƯƠNG
NGHIÊN CỨU MỘT SỐ THUẬT TOÁN
PHÂN CỤM DỮ LIỆU NỬA GIÁM SÁT VÀ ỨNG DỤNG
PHÂN ĐOẠN ẢNH X-QUANG
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
THÁI NGUYÊN - 2017
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
LÊ THỊ MAI HƯƠNG
NGHIÊN CỨU MỘT SỐ THUẬT TOÁN
PHÂN CỤM DỮ LIỆU NỬA GIÁM SÁT VÀ ỨNG DỤNG
PHÂN ĐOẠN ẢNH X-QUANG
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Giáo viên hướng dẫn: TS.Nguyễn Đình Dũng
THÁI NGUYÊN - 2017
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này do chính tôi thực hiện, dưới sự hướng dẫn
khoa học của TS. Nguyễn Đình Dũng, các kết quả lý thuyết được trình bày trong
luận văn là sự tổng hợp từ các kết quả đã được công bố và có trích dẫn đầy đủ,
kết quả của chương trình thực nghiệm trong luận văn này được tác giả thực hiện
là hoàn toàn trung thực, nếu sai tôi hoàn toàn chịu trách nhiệm.
Thái Nguyên, tháng 6 năm 2016
Học viên
Lê Thị Mai Hương
i
LỜI CẢM ƠN
Luận văn này được hoàn thành tại Trường Đại học Công nghệ Thông tin
và Truyền thông dưới sự hướng dẫn của TS. Nguyễn Đình Dũng. Tác giả xin
bày tỏ lòng biết ơn tới các thầy cô giáo thuộc Trường Đại học Công nghệ Thông
tin và Truyền thông, các thầy cô giáo thuộc Viện Công nghệ Thông tin – Viện
Hàn lâm Khoa học và Công nghệ Việt Nam đã tạo điều kiện, giúp đỡ tác giả
trong quá trình học tập và làm luận văn tại Trường, đặc biệt tác giả xin bày tỏ
lòng biết ơn tới TS. Nguyễn Đình Dũng đã tận tình hướng dẫn và cung cấp
nhiều tài liệu cần thiết để tác giả có thể hoàn thành luận văn đúng thời hạn.
Xin chân thành cảm ơn anh chị em học viên cao học và bạn bè đồng
nghiệp đã trao đổi, khích lệ tác giả trong quá trình học tập và làm luận văn tại
Trường Đại học Công nghệ Thông tin và Truyền thông – Đại học Thái Nguyên.
Cuối cùng tác giả xin gửi lời cảm ơn đến gia đình, những người đã luôn
bên cạnh, động viên và khuyến khích tôi trong quá trình thực hiện đề tài.
Thái Nguyên, ngày
tháng
năm 2017
Học viên
Lê Thị Mai Hương
ii
MỤC LỤC
LỜI CẢM ƠN ........................................................................................................ i
LỜI CAM ĐOAN................................................................................................... i
DANH MỤC TỪ VIẾT TẮT ................................................................................ v
DANH MỤC HÌNH VẼ ....................................................................................... vi
LỜI MỞ ĐẦU ....................................................................................................... 1
CHƯƠNG 1: TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU VÀ BÀI TOÁN
PHÂN ĐOẠN ẢNH X-QUANG NHA KHOA ................................................. 3
1.1. Khai phá dữ liệu........................................................................................ 3
1.1.1. Khái niệm khai phá dữ liệu ................................................................ 3
1.1.2. Quá trình khai phá tri thức trong cơ sở dữ liệu .................................. 3
1.1.3. Các kỹ thuật tiếp cận trong khai phá dữ liệu: ........................................ 5
1.2. Phân cụm dữ liệu ...................................................................................... 6
1.2.1. Khái niệm phân cụm dữ liệu .............................................................. 6
1.2.2. Các bước cơ bản để phân cụm dữ liệu ............................................... 6
1.2.3. Các kiểu dữ liệu và độ đo tương tự, độ đo phi tương tự .................... 7
1.2.3.1. Phân loại kiểu dữ liệu dựa trên kích thước miền ......................... 7
1.2.3.2. Phân loại kiểu dữ liệu dựa trên hệ đo .......................................... 7
1.2.3.3. Khái niệm và phép đo độ tương tự .............................................. 9
1.2.4. Các yêu cầu đối với kỹ thuật phân cụm dữ liệu ............................... 12
1.2.5. Ứng dụng của phân cụm dữ liệu ...................................................... 14
1.3. Cấu trúc giải phẫu răng ........................................................................... 15
1.3.1. Cấu trúc giải phẫu răng .................................................................... 15
1.3.2. Phân loại ảnh X - quang nha khoa ................................................... 17
1.4. Bài toán phân đoạn ảnh X - quang nha khoa .......................................... 19
1.4.1. Phân đoạn ảnh .................................................................................. 19
1.4.2. Phân loại các phương pháp phân đoạn ảnh ...................................... 20
1.4.3. Phân đoạn ảnh X – quang nha khoa ................................................. 21
KẾT LUẬN CHƯƠNG 1 .................................................................................... 23
CHƯƠNG 2: MỘT SỐ THUẬT TOÁN PHÂN CỤM NỬA GIÁM SÁT ... 24
2.1. Phân cụm mờ .......................................................................................... 24
2.1.1. Các khái niệm cơ bản về tập mờ ...................................................... 24
iii
2.1.2. Thuật toán phân cụm mờ FCM (Fuzzy C-Means) ........................... 28
2.2. Thuật toán phân cụm nửa giám sát mờ bằng phương pháp học tích cực31
2.3. Thuật toán phân cụm nửa giám sát mờ chuẩn (SSSFC) ......................... 33
2.4. Thuật toán phân cụm nửa giám sát mờ theo quy tắc entropy (eSFCM) 35
2.5. Thuật toán nửa giám sát mờ lai ghép ..................................................... 36
2.5.1. Lược đồ tổng quan lai ghép .............................................................. 36
2.5.2. Thuật toán tách ngưỡng Otsu ........................................................... 38
2.5.3. Thuật toán phân cụm nửa giám sát mờ lai ghép .............................. 40
KẾT LUẬN CHƯƠNG 2 .................................................................................... 41
CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG PHÂN ĐOẠN ẢNH X – QUANG
NHA KHOA ....................................................................................................... 42
3.1. Đặc tả yêu cầu......................................................................................... 42
3.1.1. Yêu cầu thực tế ................................................................................. 42
3.1.2. Mục đích của ứng dụng .................................................................... 43
3.2. Đặc tả dữ liệu .......................................................................................... 43
3.3. Các bước phân đoạn ảnh......................................................................... 44
3.4. Thiết kế hệ thống .................................................................................... 45
3.4.1. Chức năng phân đoạn ảnh X – quang nha khoa ............................... 45
3.4.2. Chức năng xem chi tiết kết quả ........................................................ 46
3.4.3. Chức năng đánh giá chất lượng phân đoạn ...................................... 47
3.5. Minh họa các chức năng của ứng dụng .................................................. 48
3.5.1. Giao diện chính của ứng dụng.......................................................... 48
3.5.2. Chọn ảnh cần phân đoạn .................................................................. 49
3.5.3. Phân đoạn ảnh bằng thuật toán FCM ............................................... 49
3.5.4. Phân đoạn ảnh bằng thuật toán nửa giám sát mờ ............................. 50
3.5.5. Chọn độ đo đánh giá kết quả phân cụm ........................................... 50
3.6. Đánh giá kết quả phân đoạn ................................................................... 51
KẾT LUẬN CHƯƠNG 3 .................................................................................... 52
KẾT LUẬN ........................................................................................................ 53
TÀI LIỆU THAM KHẢO ................................................................................ 54
PHỤ LỤC ........................................................................................................... 57
CODE MATLAB CỦA ỨNG DỤNG PHÂN ĐOẠN ẢNH BẰNG THUẬT
TOÁN BÁN GIÁM SÁT MỜ LAI GHÉP ...................................................... 57
iv
DANH MỤC TỪ VIẾT TẮT
Từ viết đầy đủ
Từ viết tắt
DB
Davies-Bouldin
eSFCM
Semi-supervised Entropy regularized Fuzzy Clustering
FCM
Fuzzy C-Mean
PBM
Pakhira, Bandyopadhyay and Maulik
SSFCM
Semi-Supervised Fuzzy C-Mean
SSSFC
Semi-Supervised Standard Fuzzy Clustering
SSWC
Simplified Silhouete Width Criterion
CSDL
Cơ sở dữ liệu
PCDL
Phân cụm dữ liệu
v
DANH MỤC HÌNH VẼ
Hình 1.1. Quá trình khám phá tri thức trong CSDL ............................................. 4
Hình 1.2. Cơ quan răng (răng và nha chu) .......................................................... 15
Hình 1.3. Một số loại ảnh X-Quang nha khoa .................................................... 19
Hình 1.4. Những khó khăn trong việc phân đoạn ảnh nha khoa......................... 22
Hình 2.1. Hàm thuộc tuyến tính .......................................................................... 25
Hình 2.2. Hàm thuộc dạng sin. ............................................................................ 25
Hình 2.3. Hàm thuộc Gauss ................................................................................ 26
Hình 2.4. Bao trong của tập mờ .......................................................................... 26
Hình 2.5. Phép hợp tập mờ dạng 1 ...................................................................... 27
Hình 2.6. Phép giao tập mờ dạng 1 ..................................................................... 28
Hình 2.7. Phần bù của tập mờ trung bình ........................................................... 28
Hình 2.8. Lược đồ tổng quan của thuật toán lai ghép ......................................... 37
Hình 3.1: Ảnh dữ liệu đầu vào của ứng dụng ..................................................... 44
Hình 3.2: Biểu đồ usecase mô tả chức năng của ứng dụng ................................ 45
Hình 3.3: Biểu đồ trình tự chức năng phân đoạn ảnh ......................................... 46
Hình 3.4: Biểu đồ trình tự chức năng xem kết quả ............................................. 47
Hình 3.5: Biểu đồ trình tự chức năng đánh giá kết quả ..................................... 48
Hình 3.6: Giao diện chính của phần mềm .......................................................... 48
Hình 3.7: Chọn ảnh cần phân đoạn .................................................................... 49
Hình 3.8. Kết quả phân đoạn bằng FCM ............................................................ 49
Hình 3.9. Kết quả phân đoạn bằng SSSFC ......................................................... 50
Hình 3.10. Đánh giá kết quả phân đoạn .............................................................. 50
vi
LỜI MỞ ĐẦU
Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động
khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ
liệu khổng lồ và phức tạp đồng thời cũng tìm ra các mẫu tiềm ẩn trong dữ liệu
đó. Hiện nay việc khai phá dữ liệu được nghiên cứu theo các hướng mô tả khái
niệm, luật kết hợp, phân lớp và dự đoán, phân cụm (xem [1], [2], [7]) và có
nhiều ứng dụng trong thực tế, trong đó phân đoạn ảnh X-Quang trong lĩnh vực y
tế là một ứng dụng điển hình [13]. Ngày nay, việc xử lý các hình ảnh y tế có vai
trò quan trọng trong việc tự động hóa phân tích, hỗ trợ chẩn đoán và điều trị các
bệnh khác nhau. Trong đó, quá trình phân đoạn thường được yêu cầu như là giai
đoạn sơ bộ. Tuy nhiên các phân vùng trong hình ảnh y tế rất phức tạp nên việc
phân đoạn chính xác là rất quan trọng.
Trong các phương pháp phân đoạn ảnh hiện có, phân cụm là một phương
pháp được sử dụng rộng rãi bởi tính đơn giản và hiệu quả mà nó mang lại (xem
[8]-[12]). Phân cụm dữ liệu là lĩnh vực học máy không giám sát, nó có chức
năng tổ chức một tập đối tượng dữ liệu thành các cụm sao cho những đối tượng
trong cùng một cụm thì tương tự như nhau còn các đối tượng ở các cụm khác
nhau thì kém tương tự nhau hơn. Nhược điểm chung của thuật toán phân cụm là
chất lượng phân cụm phụ thuộc nhiều vào các tham số và thông tin khởi tạo. Để
giảm thiểu các hạn chế này, gần đây đã có nhiều tác giả (xem [8]-[12]) giải
quyết theo cách tiếp cận nửa giám sát, trong đó việc phân cụm được thực hiện
dựa vào các thông tin bổ trợ đóng vai trò điều khiển quá trình phân cụm, nhờ đó
mà chất lượng phân cụm được nâng lên đáng kể.
Mục tiêu của luận văn là nghiên cứu, tìm hiểu một số thuật toán phân cụm
nửa giám sát và xây dựng được một ứng dụng thử nghiệm cho thuật toán phân
đoạn ảnh X-quang hỗ trợ chuẩn đoán bệnh trong lĩnh vực nha khoa. Các kết quả
đạt được trong luận văn này là kết quả trong quá trình học tập và nghiên cứu của
tác giả tại Trường Đại học Công nghệ Thông tin và Truyền thông. Ngoài phần
1
mở đầu, kết luận và tài liệu tham khảo, nội dung luận văn được trình bày thành
ba chương:
Chương 1 trình bày các khái niệm cơ bản về phân cụm dữ liệu và bài toán
phân đoạn ảnh X-quang nha khoa.
Chương 2, tác giả tìm hiểu một số thuật toán phân cụm dữ liệu trong đó
tập trung nghiên cứu thuật toán phân cụm dữ liệu nửa giám sát.
Chương 3 là kết quả thực nghiệm cho thuật toán phân cụm nửa giám sát
đối với bài toán phân đoạn ảnh X-quang nha khoa.
2
CHƯƠNG 1
TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU VÀ BÀI TOÁN PHÂN
ĐOẠN ẢNH X-QUANG NHA KHOA
Chương này gồm 3 mục, mục 1.1 là các khái niệm cơ bản về Khai phá dữ
liệu. Mục 1.2 trình bày về các khái niệm về phân cụm dữ liệu, yêu cầu đối với
kỹ thuật phân cụm dữ liệu (xem [1], [2], [4]). Mục 1.3 là cấu tạo về răng, phân
loại ảnh X-quang và bài toán phân đoạn ảnh X-quang nha khoa [3].
1.1.
Khai phá dữ liệu
1.1.1. Khái niệm khai phá dữ liệu
Khai phá dữ liệu là một công đoạn quan trọng nhất trong quá trình khám
phá tri thức trong cơ sở dữ liệu (Knowledge Discovery in Databases - KDD). Do
sự phát triển mạnh mẽ của khai phá dữ liệu về phạm vi các lĩnh vực ứng dụng
trong thực tế và các phương pháp tìm kiếm nên có rất nhiều khái niệm khác
nhau. Tuy nhiên, ở đây có thể hiểu khai phá dữ liệu là một quá trình tìm kiếm,
chắt lọc các tri thức mới, tiềm ẩn, hữu dụng trong tập dữ liệu lớn.
1.1.2. Quá trình khai phá tri thức trong cơ sở dữ liệu
Các yêu cầu về thông tin trong các loại hoạt động như công tác quản lý,
hoạt động kinh doanh, phát triển sản xuất và dịch vụ, đặc biệt là trong việc ra
quyết định giải quyết một vấn đề ngày càng đòi hỏi chất lượng cao hơn. Người
làm quyết định không những cần dữ liệu mà còn cần có thêm hiểu biết, nhiều tri
thức để hỗ trợ cho việc ra quyết định của mình. Để giải quyết vấn đề đó thì kỹ
thuật khám phá tri thức trong cơ sở dữ liệu (KDD) đã ra đời. Khám phá tri thức
trong cơ sở dữ liệu là lĩnh vực liên quan đến các ngành như: xác suất thống kê,
học máy, trực quan hóa dữ liệu, tính toán song song ... Quá trình KDD có thể
chia thành 5 bước thực hiện như sau:
Trích chọn dữ liệu: Xác định mục đích của quy trình khai phá dữ liệu dựa
trên quan điểm của người dùng, thu thập và chuẩn bị dữ liệu để khai phá.
3
Tiền xử lý dữ liệu: Nhằm mục đích loại bỏ sự trùng lặp dữ liệu, cắt lìa
những thông tin có thể gây nhiễu, tập hợp những thông tin cần thiết cho mô hình
hóa, chọn các phương pháp xử lý những thông tin bị khiếm khuyết.
Chuyển đổi dữ liệu: Thực hiện thu gọn dữ liệu, phép ánh xạ dữ liệu, tìm
những đặc trưng phù hợp để mô tả và khai phá dữ liệu.
Khai phá dữ liệu: Chọn nhiệm vụ khai phá dữ liệu như phân lớp, gom
cụm, hồi quy, kết hợp, ... Từ nhiệm vụ đã chọn, sử dụng các thuật toán và các
phương pháp đã biết để tìm kiếm các mẫu trong dữ liệu, chọn ra các mẫu hữu
ích.
Trình bày và đánh giá: Từ các mẫu khai phá được tiến hành đánh giá hoặc
phiên dịch thành những tri thức hiểu được.
Trình bày,
đánh giá
Khai phá
Chuyển
đổi
Tiền xử lý
DL
Trích chọn
DL
Hình 1.1. Quá trình khám phá tri thức trong CSDL
4
Tri thức
1.1.3. Các kỹ thuật tiếp cận trong khai phá dữ liệu:
Các kỹ thuật áp dụng trong khai phá dữ liệu phần lớn được kế thừa từ các
lĩnh vực như: Cơ sở dữ liệu, Học máy, Trí tuệ nhân tạo, Xác suất thống kế, ... vì
vậy ta có hai hướng tiếp cận sau đây:
Theo quan điểm của học máy, các kỹ thuật trong Khai phá dữ liệu gồm:
- Học có giám sát (Supervised learning): Là quá trình gán nhãn lớp cho
các đối tượng trong tập dữ liệu dựa trên một bộ các đối tượng huấn luyện và
các thông tin về nhãn lớp đã biết.
- Học không giám sát (Unsupervised learning): Là quá trình phân chia một
tập dữ liệu thành các lớp hay cụm (cluster) dữ liệu tương tự nhau mà chưa biết
trước các thông tin về nhãn lớp.
- Học nửa giám sát (Semi- Supervised learning): Là quá trình chia một tập
dữ liệu thành các lớp con dựa trên một số thông tin bổ trợ cho trước.
Theo các lớp bài toán cần giải quyết, các kỹ thuật trong khai phá dữ liệu
gồm:
- Phân lớp và dự toán (Classification and Prediction): Đưa một đối tượng
vào một trong các lớp đã biết trước. Phân lớp và dự đoán còn được gọi là học
có giám sát.
- Luật kết hợp (Association rules): Là dạng luật biểu diễn tri thức ở dạng
khá đơn giản. Một luật kết hợp được mô tả như sau:Nếu a thì b với xác suất p
- Phân tích chuỗi theo thời gian: Giống như khai phá luật kết hợp nhưng có
thêm tính thứ tự và thời gian.
- Phân cụm (Clustering): Nhóm các đối tượng thành từng cụm dữ liệu. Đây
là phương pháp học không giám sát.
- Mô tả khái niệm: Mô tả, tổng hợp và tóm tắt khái niệm, ví dụ như tóm tắt
văn bản.
5
1.2.
Phân cụm dữ liệu
1.2.1. Khái niệm phân cụm dữ liệu
Phân cụm dữ liệu (PCDL) là một kỹ thuật phát triển mạnh mẽ trong nhiều
năm trở lại đây do các ứng dụng và lợi ích to lớn của nó trong các lĩnh vực thực
tế. Ở mức độ cơ bản nhất có thể hiểu Phân cụm dữ liệu là một kỹ thuật trong
khai phá dữ liệu nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên
tiềm ẩn và quan trọng trong tập dữ liệu lớn để từ đó cung cấp thông tin, tri thức
cho việc ra quyết định.
1.2.2. Các bước cơ bản để phân cụm dữ liệu
PCDL là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu
sao cho các đối tượng trong một cụm thì “tương tự” nhau và các đối tượng trong
các cụm khác nhau thì “phi tương tự” với nhau. Số cụm dữ liệu được xác định
bằng kinh nghiệm hoặc bằng một số phương pháp phân cụm.
Sau khi xác định các đặc tính của dữ liệu, người ta đi tìm cách thích hợp để
xác định “khoảng cách” giữa các đối tượng, hay là phép đo tương tự dữ liệu.
Đây chính là các hàm để đo sự giống nhau giữa các cặp đối tượng dữ liệu, thông
thường các hàm này hoặc là để tính độ tương tự (Similar) hoặc là tính độ phi
tương tự(Dissimilar) giữa các đối tượng dữ liệu. Giá trị của hàm tính độ đo
tương tự càng lớn thì sự giống nhau giữa đối tượng càng lớn và ngược lại, còn
hàm tính độ phi tương tự tỉ lệ nghịch với hàm tính độ tương tự.
Trong quá trình PCDL thì vấn đề trở ngại lớn nhất đó là nhiễu (noise).
Nhiễu xuất hiện do trong quá trình thu thập thông tin, dữ liệu thiếu chính xác
hoặc không đầy đủ. Vì vậy chúng ta cần phải khử nhiễu trong quá trình tiến
hành phân cụm dữ liệu.
Các bước của một bài toán phân cụm dữ liệu gồm:
- Xây dựng hàm tính độ tương tự
- Xây dựng các tiêu chuẩn phân cụm
- Xây dựng mô hình cho cấu trúc dữ liệu
6
- Xây dựng thuật toán phân cụm và xác lập các điều kiện khởi tạo
- Xây dựng các thủ tục biểu diễn và đánh giá kết quả phân cụm
1.2.3. Các kiểu dữ liệu và độ đo tương tự, độ đo phi tương tự
Trong phần này ta phân tích các kiểu dữ liệu thường được sử dụng trong
PCDL. Trong PCDL, các đối tượng dữ liệu cần phân tích có thể là con người,
nhà cửa, tiền lương, các thực thể phần mềm, ... Các đối tượng này thường được
diễn tả dưới dạng các thuộc tính của nó. Các thuộc tính này là các tham số cần
cho giải quyết vấn đề PCDL và sự lựa chọn chúng có tác động đáng kể đến các
kết quả của phân cụm. Phân loại các kiểu thuộc tính khác nhau là một vấn đề
cần giải quyết đối với hầu hết các tập dữ liệu nhằm cung cấp các phương tiện
thuận lợi để nhận dạng sự khác nhau của các phần tử dữ liệu. Dưới đây là cách
phân lớp dựa trên hai đặc trưng là: kích thước miền và hệ đo.
1.2.3.1. Phân loại kiểu dữ liệu dựa trên kích thước miền
- Thuộc tính liên tục: Nếu miền giá trị của nó là vô hạn không đếm được,
nghĩa là giữa hai giá trị tồn tại vô số giá trị khác. Thí dụ như các thuộc tính về
màu, nhiệt độ hoặc cường độ âm thanh.
- Thuộc tính rời rạc: Nếu miền giá trị của nó là tập hữu hạn hoặc đếm
được. Thí dụ như các thuộc tính về số serial của một cuốn sách, số thành viên
trong một gia đình, ...
1.2.3.2. Phân loại kiểu dữ liệu dựa trên hệ đo
Giả sử có hai đối tượng x, y và các thuộc tính xi, yi tương ứng với thuộc tính
thứ i của chúng. Ta có các lớp kiểu dữ liệu như sau:
- Thuộc tính định danh: Dạng thuộc tính khái quát hóa của thuộc tính nhị
phân, trong đó miền giá trị là rời rạc không phân biệt thứ tự và có nhiều hơn hai
phần tử - nghĩa là nếu x và y là hai đối tượng thuộc tính thì chỉ có thể xác định là
𝑥 ≠ 𝑦 hoặc 𝑥 = 𝑦.
- Thuộc tính có thứ tự: Là thuộc tính định danh có thêm tính thứ tự, nhưng
chúng không được định lượng. Nếu x và y là hai thuộc tính thứ tự thì ta có thể
7
xác định là 𝑥 ≠ 𝑦 hoặc 𝑥 = 𝑦 hoặc 𝑥 > 𝑦 hoặc 𝑥 < 𝑦. Thí dụ như thuộc tính
Huy chương của vận động viên thể thao.
- Thuộc tính khoảng: Nhằm để đo các giá trị theo xấp xỉ tuyến tính. Với
thuộc tính khoảng, ta có thể xác định một thuộc tính là đứng trước hoặc đứng
sau thuộc tính khác với một khoảng là bao nhiêu. Nếu xi yi thì ta nói x cách y
một khoảng
| xi– yi| tương ứng với thuộc tính thứ i. Ví dụ, thuộc tính số Serial
của một đầu sách trong thư viện hoặc thuộc tính số kênh trên truyền hình.
- Thuộc tính tỉ lệ: Là thuộc tính khoảng nhưng được xác định một cách
tương đối so với điểm mốc, thí dụ như thuộc tính chiều cao hoặc cân nặng lấy
giá trị 0 làm gốc.
Trong các thuộc tính dữ liệu trình bày ở trên, thuộc tính định danh và thuộc
tính có thứ tự gọi chung là thuộc tính hạng mục, thuộc tính khoảng và thuộc tính
tỉ lệ được gọi là thuộc tính số.
Người ta còn đặc biệt quan tâm đến dữ liệu không gian. Đây là loại dữ liệu
có các thuộc tính số khái quát trong không gian nhiều chiều, dữ liệu không gian
mô tả các thông tin liên quan đến không gian chứa đựng các đối tượng, thí dụ
như thông tin về hình học, ... Dữ liệu không gian có thể là dữ liệu liên tục hoặc
rời rạc:
Dữ liệu không gian rời rạc: Có thể là một điểm trong không gian nhiều
chiều và cho phép ta xác định được khoảng cách giữa các đối tượng dữ liệu
trong không gian.
Dữ liệu không gian liên tục: Bao gồm một vùng trong không gian.
Thông thường, các thuộc tính số được đo bằng các đơn vị xác định như là
Kilogams hoặc Centimeter. Tuy nhiên, các đơn vị đo có ảnh hưởng đến các kết
quả phân cụm. Thí dụ như thay đổi độ đo cho thuộc tính cân nặng từ Kilogams
sang Pound có thể mang lại kết quả khác nhau trong phân cụm. Để khắc phục
điều này người ta phải chuẩn hóa dữ liệu, tức là sử dụng các thuộc tính dữ liệu
không phụ thuộc vào đơn vị đo. Thực hiện chuẩn hóa phụ thuộc vào ứng dụng
và người dùng, thông thường chuẩn hóa dữ liệu được thực hiện bằng cách thay
8
thế mỗi một thuộc tính bằng thuộc tính số hoặc thêm các trọng số cho các thuộc
tính.
1.2.3.3. Khái niệm và phép đo độ tương tự
Khi các đặc tính của dữ liệu được xác định, người ta tìm cách thích hợp để
xác định “khoảng cách” giữa các đối tượng (phép đo độ tương tự dữ liệu). Đây
là các hàm để đo sự giống nhau giữa các cặp đối tượng dữ liệu, thông thường
các hàm này hoặc là để tính độ tương tự hoặc là tính độ phi tương tự giữa các
đối tượng dữ liệu. Giá trị của hàm tính độ đo tương tự càng lớn thì sự giống
nhau giữa đối tượng càng lớn và ngược lại, còn hàm tính độ phi tương tự tỉ lệ
nghịch với hàm tính độ tương tự. Độ tương tự hoặc độ phi tương tự có nhiều
cách để xác định, chúng thường được đo bằng khoảng cách giữa các đối tượng.
Tất cả các cách đo độ tương tự đều phụ thuộc vào kiểu thuộc tính mà ta phân
tích. Thí dụ, đối với thuộc tính hạng mục người ta không sử dụng độ đo khoảng
cách mà sử dụng một hướng hình học của dữ liệu.
Tất cả các độ đo dưới đây được xác định trong không gian độ đo metric.
Bất kỳ một metric nào cũng là một độ đo, nhưng điều ngược lại không đúng. Để
tránh sự nhầm lẫn, thuật ngữ độ đo ở đây đề cập đến hàm tính độ tương tự. Một
không gian metric là một tập trong đó có xác định các “khoảng cách” giữa từng
cặp phần tử, với những tính chất thông thường của khoảng cách hình học. Nghĩa
là, một tập X (các phần tử của nó có thể là những đối tượng bất kỳ) gồm các đối
tượng dữ liệu trong CSDL gọi là một không gian metric, nếu với mỗi cặp phần
tử x, y thuộc X đều xác định một số thực δ(x, y), được gọi là khoảng cách giữa x
và y thỏa mãn hệ tính chất sau:
( x, y) 0 nếu x ≠ y;
( x, y) 0 nếu x = y;
( x, y) ( y, x) với mọi x, y;
( x, y) ( x, z) + ( z, y) .
9
Hàm δ(x, y) được gọi là một metric của không gian. Các phần tử của X
được gọi là các điểm của không gian này.
Một số phép đo độ tương tự áp dụng đối với các kiểu dữ liệu khác nhau:
+ Thuộc tính khoảng: Sau khi chuẩn hóa, độ đo phi tương tự của hai đối
tượng dữ liệu x, y được xác định bằng các metric như sau: |xi – yi|q
Khoảng cách Minskowski: d x, y
n
i 1
xi yi
q
1
q
, với q là số nguyên
dương.
Khoảng cách Euclide: d x, y
x y
n
i 1
i
i
2
, (trường hợp đặc biệt của
khoảng cách Minskowski trong trường hợp q = 2.
Khoảng cách Manhattan: d x, y in1 xi yi , trường hợp đặc biệt của
khoảng cách Minskowski trong trường hợp q = 1.
Khoảng cách cực đại:
d x, y Maxin1 xi yi
cách Minskowski trong trường hợp
, đây là trường hợp của khoảng
.
+Thuộc tính nhị phân: Trước hết ta có xây dựng bảng tham số sau:
y: 1
y: 0
x: 1
x: 0
Bảng 1. Bảng tham số thuộc tính nhị phân
Trong đó: , các đối tượng x, y mà tất cả các thuộc tính của nó
đều là nhị phân biểu thị bằng 0 và 1. Bảng trên cho ta thông tin sau:
- là tổng số các giá trị thuộc tính có giá trị là 1 trong cả hai đối tượng x, y.
- là tổng số các giá trị thuộc tính có giá trị là 1 trong x và 0 trong y.
-
là tổng số các giá trị thuộc tính có giá trị là 0 trong x và 1 trong y.
- là tổng số các giá trị thuộc tính có giá trị là 0 trong cả hai đối tượng x, y.
Các phép đo độ tương tự đối với dữ liệu thuộc tính nhị phân được định
nghĩa như sau:
10
- Hệ số đối sánh đơn giản: d x, y , ở đây cả hai đối tượng x và y có
vai trò như nhau, nghĩa là chúng đối xứng và có cùng trọng số.
- Hệ số Jacard: d x, y
, tham số này bỏ qua số các đối sánh
giữa 0-0. Công thức tính này được sử dụng trong trường hợp mà trọng số của
các thuộc tính có giá trị 1 của đối tượng dữ liệu có giá trị cao hơn nhiều so với
các thuộc tính có giá trị 0, như vậy các thuộc tính nhị phân ở đây là không đối
xứng.
+ Thuộc tính định danh: Độ đo phi tương tự giữa hai đối tượng x và y
được định nghĩa như sau:
d x, y
pm
, trong đó m là số thuộc tính đối sánh
p
tương ứng trùng nhau và p là tổng số các thuộc tính.
+ Thuộc tính có thứ tự: Phép đo độ phi tương tự giữa các đối tượng dữ liệu
với thuộc tính thứ tự được thực hiện như sau, ở đây ta giả sử i là thuộc tính thứ
tự có M i giá trị ( M i kích thước miền giá trị):
Các trạng thái M i được sắp thứ tự như sau: 1...M i , ta có thể thay thế mỗi
giá trị của thuộc tính bằng giá trị cùng loại ri , với
ri 1,..., M i .
Mỗi một thuộc tính thứ tự có các miền giá trị khác nhau, vì vậy ta chuyển
đổi chúng về cùng miền giá trị [0, 1] bằng cách thực hiện phép biến đổi sau cho
mỗi thuộc tính: zi j
ri j 1
, với
M i 1
Sử dụng công thức tính độ phi tương tự của thuộc tính khoảng đối với các
giá trị
zi j
, đây cũng chính là độ phi tương tự của thuộc tính có thứ tự.
+ Thuộc tính tỷ lệ: Có nhiều cách khác nhau để tính độ tương tự giữa các
thuộc tính tỉ lệ. Một trong những số đó là sử dụng công thức tính logarit cho mỗi
thuộc tính xi , thí dụ
qi log xi ,
lúc này qi đóng vai trò như thuộc tính khoảng.
Phép biến đổi logarit này thích hợp trong trường hợp các giá trị của thuộc tính là
số mũ.
11
Trong thực tế, khi tính độ đo tương tự dữ liệu, người ta chỉ xem xét một
phần các thuộc tính đặc trưng đối với các kiểu dữ liệu hoặc đánh trọng số cho tất
cả các thuộc tính dữ liệu. Trong một số trường hợp, người ta loại bỏ đơn vị đo
của các thuộc tính dữ liệu bằng cách chuẩn hóa chúng hoặc gán trọng số cho
mỗi thuộc tính giá trị trung bình, độ lệch chuẩn. Các trọng số này có thể sử dụng
trong các độ đo khoảng cách trên, thí dụ với mỗi thuộc tính dữ liệu đã được gán
trọng số tương ứng
d x, y
n
i 1
wi 1 i k ,
độ tương tự dữ liệu được xác định như sau:
wi xi yi .
2
Người ta có thể chuyển đổi giữa các mô hình cho các kiểu dữ liệu trên, thí
dụ dữ liệu kiểu hạng mục có thể chuyển đổi thành dữ liệu nhị phân và ngược lại.
Nhưng giải pháp này rất tốn kém về chi phí tính toán, cần phải cân nhắc khi áp
dụng cách thức này.
Tùy từng trường hợp dữ liệu cụ thể mà người ta sử dụng các mô hình tính
độ tương tự khác nhau. Việc xác định độ tương tự dữ liệu thích hợp, chính xác,
đảm bảo khách quan là rất quan trọng và góp phần xây dựng thuật toán PCDL
có hiệu quả cao trong việc đảm bảo chất lượng cũng như chi phí tính toán của
thuật toán.
1.2.4. Các yêu cầu đối với kỹ thuật phân cụm dữ liệu
Việc xây dựng, lựa chọn một thuật toán phân cụm là bươc then chốt cho
việc giải quyết vấn đề phân cụm, sự lựa chọn này phụ thuộc vào đặc tính dữ liệu
cần phân cụm, mục đích của ứng dụng thực tế hoặc xác định độ ưu tiên giữa
chất lượng của các cụm hay tốc độ thực hiện thuật toán, ...
Hầu hết các nghiên cứu và phát triển thuật toán PCDL đều nhằm thỏa mãn
các yêu cầu cơ bản sau:
Có khả năng mở rộng: Một số thuật toán có thể ứng dụng tốt cho tập dữ
liệu nhỏ (khoảng 200 bản ghi dữ liệu) nhưng không hiệu quả khi áp dụng cho
tập dữ liệu lớn (khoảng 1 triệu bản ghi).
12
Thích nghi với các kiểu dữ liệu khác nhau: Thuật toán có thể áp dụng hiệu
quả cho việc phân cụm các tập dữ liệu với nhiều kiểu dữ liệu khác nhau như dữ
liệu kiểu số, kiểu nhị phân, dữ liệu định danh, hạng mục, ... và thích nghi với
kiểu dữ liệu hỗn hợp.
Khám phá ra các cụm với hình thù bất kỳ: Do hầu hết các CSDL có chứa
nhiều cụm dữ liệu với các hình thù khác nhau như: hình lõm, hình cầu, hình que,
... Vì vậy, để khám phá được các cụm có tính tự nhiên thì các thuật toán phân
cụm cần phải có khả năng khám phá ra các cụm dữ liệu có hình thù bất kỳ.
Tối thiểu lượng tri thức cần cho xác định các tham số vào: Do các giá trị
đầu vào thường ảnh hưởng rất lớn đến thuật toán phân cụm và rất phức tạp để
xác định các giá trị vào thích hợp đối với các CSDL lớn.
Ít nhạy cảm với thứ tự của dữ liệu vào: Cùng một tập dữ liệu, khi đưa vào
xử lý cho thuật toán PCDL với các thứ tự vào của các đối tượng dữ liệu ở các
lần thực hiện khác nhau thì không ảnh hưởng lớn đến kết quả phân cụm.
Khả năng thích nghi với dữ liệu nhiễu cao: Hầu hết các dữ liệu phân cụm
trong KPDL đều chứa đựng các dữ liệu lỗi, dữ liệu không đầy đủ, dữ liệu rác.
Thuật toán phân cụm không những hiệu quả đối với các dữ liệu nhiễu mà còn
tránh dẫn đến chất lượng phân cụm thấp do nhạy cảm với nhiễu.
Ít nhạy cảm với các tham số đầu vào: Nghĩa là giá trị của các tham số đầu
vào khác nhau ít gây ra các thay đổi lớn đối với kết quả phân cụm.
Thích nghi với dữ liệu đa chiều: Thuật toán có khả năng áp dụng hiệu quả
cho dữ liệu có số chiều khác nhau.
Dễ hiểu, dễ cài đặt và khả thi.
Các yêu cầu này đồng thời là các tiêu chí để đánh giá hiệu quả của các
phương pháp PCDL, đây là những thách thức cho các nhà nghiên cứu trong lĩnh
vực PCDL.
13
1.2.5. Ứng dụng của phân cụm dữ liệu
Phân cụm dữ liệu là một trong những công cụ chính của KPDL được ứng
dụng trong nhiều lĩnh vực như thương mại, khoa học. Các kỹ thuật PCDL đã
được áp dụng cho một số ứng dụng điển hình trong các lĩnh vực sau:
Thương mại: PCDL có thể giúp các thương nhân khám phá ra các nhóm
khách hàng quan trọng có các đặc trưng tương đồng nhau và đặc tả họ từ các
mẫu mua bán trong CSDL khách hàng.
Sinh học: PCDL được sử dụng để xác định các loại sinh vật, phân loại các
Gen với chức năng tương đồng và thu được các cấu trúc trong các mẫu.
Bảo hiểm: Nhận dạng nhóm tham gia bảo hiểm có chi phí yêu cầu bồi
thường trung bình cao, xác định gian lận trong bảo hiểm thông qua các mẫu cá
biệt.
Phân tích dữ liệu không gian: Do sự đồ sộ của dữ liệu không gian như dữ
liệu thu được từ các hình ảnh chụp từ vệ tinh, các thiết bị y học hoặc hệ thống
thông tin địa lý (GIS), ... làm cho người dùng rất khó để kiểm tra các dữ liệu
không gian một cách chi tiết. PCDL có thể trợ giúp người dùng tự động phân
tích và xử lý các dữ liệu không gian như nhận dạng và chiết xuất các đặc tính
hoặc các mẫu dữ liệu quan tâm có thể tồn tại trong CSDL không gian.
Lập quy hoạch đô thị: Nhận dạng các nhóm nhà theo kiểu và vị trí địa lý, ...
nhằm cung cấp thông tin cho quy hoạch đô thị.
Nghiên cứu trái đất: Phân cụm để theo dõi các tâm động đất nhằm cung
cấp thông tin cho nhận dạng các vùng nguy hiểm.
Địa lý: Phân lớp các động vật, thực vật và đưa ra đặc trưng của chúng.
Khai phá Web: PCDL có thể khám phá các nhóm tài liệu quan trọng, có
nhiều ý nghĩa trong môi trường Web. Các lớp tài liệu này trợ giúp cho việc
khám phá tri thức từ dữ liệu Web, khám phá ra các mẫu truy cập của khách hàng
đặc biệt hay khám phá ra cộng đồng Web, ...
Phân đoạn ảnh: Phân cụm ảnh thành từng vùng rồi trích chọn đặc trưng
của từng vùng, dựa vào đó ta có thể tra cứu các bức ảnh một cách nhanh chóng
14
và chính xác từ một cơ sở dữ liệu ảnh cho trước, hay phục vụ công tác chuẩn
đoán bệnh trong y tế đối với ảnh X-quang.
1.3.
Cấu trúc giải phẫu răng
1.3.1. Cấu trúc giải phẫu răng
Cơ quan răng bao gồm răng và nha chu (quanh răng), là đơn vị hình thái và
chức năng của bộ răng. Răng là bộ phận trực tiếp nhai nghiền thức ăn, nha chu
là bộ phận giữ và nâng đỡ răng, đồng thời là bộ phận nhận cảm, tiếp nhận và dẫn
truyền lực nhai. Răng chính danh gồm men, ngà (mô cứng) và tủy (mô mềm).
Nha chu gồm xê măng (còn gọi là xương chân răng, men chân răng), dây chằng,
xương ổ răng, nướu (lợi). Bộ răng là một thể thống nhất thuộc hệ thống nhai, tạo
thành bởi sự sắp xếp có tổ chức của các cơ quan răng.
Hình 1.2. Cơ quan răng (răng và nha chu)
Mỗi răng có phần thân răng và chân răng. Giữa thân răng và chân răng là
đường cổ răng (cổ răng giải phẫu), là một đường cong, còn gọi là đường nối
men – xê măng. Thân răng được bao bọc bởi men răng, chân răng được xê măng
bao phủ.
Nướu răng viền xung quanh cổ răng tạo thành một bờ, gọi là cổ răng sinh
lý. Phần răng thấy được trong miệng là thân răng lâm sàng. Cổ răng sinhh lý
thay đổi tùy theo nơi bám và bờ của viền nướu, khi tuổi càng cao thì nơi bám
này càng có khuynh hướng di chuyển dần về phía chóp răng. Nhiều trường hợp
15
bệnh lý, nướu răng có thể bị sưng hoặc trụt, làm thân răng (lâm sàng) bị ngắn lại
hoặc dài ra.
Cấu tạo của răng: Bao gồm men răng, ngà răng (mô cứng) và tủy răng
(mô mềm):
Men răng: Men răng phủ mặt ngoài ngà thân răng, là mô cứng nhất trong
cơ thể, có tỉ lệ chất vô cơ cao (96%).Hình dáng và bề dày của men được xác
định từ trước khi răng mọc ra, trong đời sống, men răng không có sự bồi đắp
thêm mà chi mòn dần theo tuổi, nhưng có sự trao đổi về vật lý và hóa học trong
môi trường với miệng.
Ngà răng: Kém cứng hơn men, chứa tỉ lệ chất vô cơ thấp hơn men (75%).
Trong ngà có nhiều ống ngà, chứa đuôi bào tương của nguyên bào ngà.Bề dày
ngà răng thay đổi trong đời sống do hoạt động của nguyên bào ngà. Ngà răng
ngày càng dày theo hướng về phía hốc tủy răng, làm hẹp dần hốc tủy.
Tủy răng: Là mô liên kết mềm, nằm trong hốc tủy gồm tủy chân và tủy
thân. Tủy răng trong buồng tủy gọi là tủy thân, tủy buồng, tủy răng trong ống
tủy gọi là tủy chân. Các nguyên bào ngà nằm sát vách hốc tủy.Tủy răng có
nhiệm vụ duy trì sự sống của răng, cụ thể là sự sống của nguyên bào ngà và tạo
ngà thứ cấp, nhận cảm giác của răng. Trong tủy răng có chứa nhiều mạch máu,
mạch bạch huyết và đầu tận cùng thần kinh.
Bộ phận nâng đỡ răng: Bao gồm xương ổ răng, xê măng, dây chằng nha
chu và nướu (lợi) răng.
Xương ổ răng: Là mô xương xốp, bên ngoài được bao bọc bằng màng
xương, nơi nướu răng bám vào. Xương ổ răng tạo thành một huyệt, có hình dáng
và kích thước phù hợp với chân răng.Bề mặt ổ răng, nơi đối diện với chân răng,
là mô xương đặc biệt và có nhiều lỗ thủng để cho các mạch máu và dây thần
kinh từ xương xuyên qua để nuôi dây chằng nha chu, gọi là xương ổ chính danh,
hay lá sàng. Trên hình ảnh tia X, phần xương ổ chính danh trông cản tia hơn, gọi
là lá cứng.Nền xương ổ không phân biệt được với xương hàm. Chiều cao xương
ổ răng thay đổi theo tuổi và tùy theo sự lành mạnh hay bệnh lý của mô nha chu.
16
Khi răng không còn trên xương hàm thì xương ổ răng và các thành phần của nha
chu cũng bị tiêu dần đi.
Xê măng: Là mô đặc biệt, hình thành cùng với sự hình thành chân răng,
phủ ngoài ngà chân răng.Xê măng được bồi đắp thêm ở phía chóp chủ yếu để bù
trừ sự mòn mặt nhai, được coi là hiện tượng “mọc răng suốt đời” hay “trồi mặt
nhai”. Xê măng cũng có thể tiêu hoặc quá sản trong một số trường hợp bất
thường hay bệnh lý.
Dây chằng nha chu: Là những bó sợi liên kết dày khoảng 0.25mm, một
đầu bám vào xê măng, còn đầu kia bám vào xương ổ chính danh. Cả xê măng,
dây chằng nha chu và xương ổ chính danh đều có nguồn gốc từ túi răng chính
danh.Dây chằng nha chu có nhiệm vụ giữ cho răng gắn vào xương ổ răng và
đồng thời có chức năng làm vật đệm, làm cho mỗi răng có sự xê dịch nhẹ độc
lập với nhau trong khi nhai, giúp lưu thông máu, truyền cảm giác áp lực và
truyền lực để tránh tác dụng có hại của lực nhai đối với răng và nha chi.
Nướu răng: Là phần niêm mạc phủ lên xương ổ răng (nướu dính) và cổ
răng (nướu rời)
1.3.2. Phân loại ảnh X - quang nha khoa
Ảnh X-quang nha khoa là một trong những cách phổ biến với chi phí thấp
nhất để thu được ảnh (thông tin) về răng. Bởi vì nhiều bệnh của răng và các mô
xung quanh không thể được nhìn thấy trực tiếp bằng mắt thường khi nha sĩ kiểm
tra miệng. Chụp X – quang có thể giúp phát hiện những vấn đề sau đây:
- Lỗ sâu giữa các răng hoặc phát hiện sâu răng bên dưới lớp trám răng
- Nhiễm trùng trong xương
- Bệnh nha chu
- Áp – xe hoặc u nang
- Phát hiện những biến chuyển bất thường trong răng miệng
- Phát hiện khối u
17