Tải bản đầy đủ (.pdf) (94 trang)

Ứng dụng kỹ thuật học sâu trong chẩn đoán bệnh ngoài da

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.25 MB, 94 trang )

i

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
----------------------------------------

BÙI HUY HOÀNG

ỨNG DỤNG KỸ THUẬT HỌC SÂU TRONG
CHẨN ĐOÁN BỆNH NGOÀI DA
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 8480101

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. Hoàng Văn Dũng

Đà Nẵng - Năm 2019


ii

LỜI CAM ĐOAN

Tôi xin cam đoan:
Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn
trực tiếp của TS. Hoàng Văn Dũng.
Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác giả,
tên công trình, thời gian, địa điểm công bố. Mọi sao chép không hợp lệ, vi phạm
quy chế đào tạo, hay gian trá, tôi xin chịu hoàn toàn trách nhiệm.


Xin gửi lời cảm ơn đến quý thầy cô Khoa Công nghệ thông tin, Trường Đại
học Bách khoa Đà Nẵng và các thầy giáo Trường Đại học Quảng Bình đã truyền
đạt những kiến thức quý báu cho tôi suốt trong thời gian học tập vừa qua.
Xin chân thành cảm ơn TS. Hoàng Văn Dũng đã tận tình hướng dẫn, truyền
đạt kiến thức, kinh nghiệm cho tôi trong suốt quá trình thực hiện luận văn này.
Tác giả

Bùi Huy Hoàng


iii

MỤC LỤC
LỜI CAM ĐOAN .................................................................................................... ii
MỤC LỤC .............................................................................................................. iii
TÓM TẮT LUẬN VĂN ..........................................................................................vi
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ............................................ vii
DANH MỤC CÁC BẢNG ................................................................................... viii
DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ ............................................................ix
MỞ ĐẦU .................................................................................................................. 1
1. Lý do chọn đề tài .................................................................................................. 1
2. Mục đích và ý nghĩa đề tài .................................................................................... 2
3. Mục tiêu và nhiệm vụ ........................................................................................... 2
4. Đối tượng và phạm vi nghiên cứu ........................................................................ 3
5. Phương pháp nghiên cứu ...................................................................................... 3
6. Phương tiện, công cụ triển khai ............................................................................ 3
7. Cấu trúc của luận văn............................................................................................ 3
CHƯƠNG I. CƠ SỞ LÝ THUYẾT .......................................................................... 5
Tổng quan về trí tuệ nhân tạo (Artificial intelligence) ................................... 5
1.1.1.


Các lĩnh vực của trí tuệ nhân tạo ............................................................. 5

1.1.2. Một số ứng dụng của trí tuệ nhân tạo ...................................................... 6
Tổng quan về ảnh và một số kỹ thuật xử lý ảnh ............................................. 7
1.2.1. Tổng quan về ảnh ..................................................................................... 7
1.2.1.1. Một số khái niệm cơ bản ................................................................... 7
1.2.1.2. Một số dạng ảnh ................................................................................ 8
1.2.2. Một số kỹ thuật xử lý ảnh ........................................................................ 9
1.2.2.1. Lược đồ ảnh (Histogram) .................................................................. 9
1.2.2.2. Nhị phân hóa ảnh ............................................................................. 10
1.2.2.3. Làm mịn ảnh .................................................................................... 10
1.2.2.4. Phép co ảnh - Erosion ...................................................................... 11
Trích chọn và biểu diễn đặc trưng hình ảnh ................................................. 11
1.3.1. Đặc trưng ảnh......................................................................................... 11
1.3.1.1. Đặc trưng màu sắc ........................................................................... 11
1.3.1.2. Đặc trưng kết cấu............................................................................. 12
1.3.1.3. Đặc trưng hình dạng ........................................................................ 12
1.3.2. Một số phương pháp trích chọn đặc trưng đơn giản .............................. 12
1.3.2.1. Trích chọn đặc trưng ảnh dựa trên màu sắc .................................... 12


iv

1.3.2.2. Trích chọn đặc trưng ảnh dựa trên kết cấu ...................................... 12
1.3.2.3. Trích chọn đặc trưng ảnh dựa trên hình dạng.................................. 13
1.3.3. Mô tả đặc trưng HOG ............................................................................ 14
1.3.3.1. Đặc trưng HOG ............................................................................... 14
1.3.3.2. Quá trình trích rút đặc trưng HOG .................................................. 14
1.3.4. Mô tả đặc trưng SIFT............................................................................. 18

1.3.4.1. Đặc trưng SIFT ................................................................................ 18
1.3.4.2. Quá trình xử lý SIFT ....................................................................... 19
1.3.4.3. Mô tả đặc trưng keypoint ................................................................ 22
Phương pháp phân đoạn ảnh......................................................................... 22
Kỹ thuật học máy.......................................................................................... 26
1.5.1.
1.5.2.

Tổng quan .............................................................................................. 26
Máy phân loại Vector hỗ trợ (Support Vector Machine) ...................... 27

1.5.3.

Mạng neural nhân tạo ............................................................................ 29

1.5.4. Mạng neural sâu ..................................................................................... 32
CHƯƠNG 2. KỸ THUẬT HỌC SÂU CNN TRONG CHẨN ĐOÁN BỆNH ...... 33
Bài toán chẩn đoán bệnh ngoài da bằng hình ảnh ........................................ 33
2.1.1. Các nghiên cứu liên quan....................................................................... 33
2.1.1.1. Giới thiệu về Lưu trữ ISIC .............................................................. 33
2.1.1.2. Tổng quan về Ung thư da ................................................................ 33
2.1.2. Mục tiêu bài toán chẩn đoán bệnh ......................................................... 34
2.1.3. Dữ liệu chẩn đoán bệnh ......................................................................... 35
2.1.3.1. Dữ liệu đầu vào ............................................................................... 35
2.1.3.2. Dữ liệu đầu ra .................................................................................. 36
2.1.3.3. Chứng minh tính chính xác ............................................................. 36
2.1.4. Đánh giá chẩn đoán bệnh ....................................................................... 37
2.1.4.1. Mục tiêu số liệu ............................................................................... 37
2.1.4.2. Số liệu khác ..................................................................................... 37
2.1.5. Chạy thử chương trình chẩn đoán bệnh ................................................. 38

2.1.5.1. Xác thực........................................................................................... 38
2.1.5.2. Kiểm tra ........................................................................................... 38
Mạng neural học sâu sử dụng trong nhận dạng ............................................ 38
2.2.1. Giới thiệu về mô hình CNN ................................................................... 38
2.2.2. Cấu trúc mô hình CNN .......................................................................... 39
2.2.3. Hoạt động của mô hình CNN ................................................................ 41
2.2.4. Một số kiến trúc học sâu đã huấn luyện có thể sử dụng ........................ 42


v

2.2.4.1. Mô hình Mạng AlexNet .................................................................. 42
2.2.4.2. Mô hình Mạng ZFNet ...................................................................... 44
2.2.4.3. Mô hình mạng GoogLeNet.............................................................. 45
2.2.4.4. Mô hình mạng VGG19 .................................................................... 47
Thiết kế hệ thống học sâu chẩn đoán bệnh ................................................... 48
2.3.1. Kiến trúc tổng quát ................................................................................ 48
2.3.2. Kiến trúc học sâu dựa vào mạng Deepmind inception .......................... 49
2.3.3. Tăng cường dữ liệu cho mạng học sâu .................................................. 51
CHƯƠNG 3. THỰC NGHIỆM, ĐÁNH GIÁ KẾT QUẢ ...................................... 53
Cơ sở dữ liệu thực nghiệm............................................................................ 53
Xây dựng kiến trúc học máy và môi trường cài đặt ..................................... 54
3.2.1.
3.2.2.

Xây dựng kiến trúc mạng và tham số thực nghiệm ............................... 54
Môi trường và công cụ lập trình ............................................................ 57

Quy trình đánh giá, phân loại dữ liệu ........................................................... 58
Phân tích kết quả........................................................................................... 59

Kết quả thực nghiệm..................................................................................... 60
3.5.1. Kết quả đánh giá khối u ác tính trên bộ dữ liệu ISIC2017 .................... 60
3.5.2. Kết quả đánh giá các loại bệnh sắc tố da trên dữ liệu ISIC2018 ........... 61
Một số kết quả đánh giá so sánh các giải pháp............................................. 65
Một số kết quả so sánh, đánh giá sử dụng kết hợp nhiều phương pháp ....... 66
3.7.1. Các phương pháp trích xuất đặc trưng ................................................... 66
3.7.2. Các phương pháp học máy .................................................................... 67
3.7.3. Phân tích kết quả theo kỹ thuật tiền xử lý ............................................. 67
3.7.4. Phân tích kết quả theo đặc trưng............................................................ 68
3.7.5. Phân tích kết quả theo kỹ thuật học máy ............................................... 69
KẾT LUẬN VÀ KIẾN NGHỊ ................................................................................ 71
1. Kết luận ............................................................................................................... 71
2. Kiến nghị ............................................................................................................. 71
TÀI LIỆU THAM KHẢO ...................................................................................... 72


vi

TÓM TẮT LUẬN VĂN
ỨNG DỤNG KỸ THUẬT HỌC SÂU TRONG
CHẨN ĐOÁN BỆNH NGOÀI DA
Học viên: Bùi Huy Hoàng, Chuyên ngành: Khoa Học Máy Tính
Mã số: 8480101 Khóa: K35, Trường Đại học Bách khoa - ĐHĐN
Tóm tắt - Kỹ thuật học sâu là hướng tiếp cận mới đang thu hút đông đảo các nhà khoa học nghiên
cứu và các công ty công nghệ quan tâm. Với sự hỗ trợ về nguồn dữ liệu lớn và sức mạnh tính toán của
máy tính, các mạng học sâu trở nên hiệu quả hơn, đạt được độ chính xác vượt trội so với các phương pháp
truyền thống và có khả năng ứng dụng cao trong thực tế. Kỹ thuật học sâu đã cho thấy khả năng đáp ứng
tốt nhiệm vụ nhận dạng cũng như hiểu được nội dung và ngữ cảnh trong đó. Kỹ thuật học sâu thực sự đã
trở thành một lĩnh vực nghiên cứu tiềm năng. Tuy nhiên, có rất nhiều vấn đề thách thức trong kỹ thuật
học sâu như nguồn dữ liệu huấn luyện, thời gian tính toán và độ chính xác... Trong luận văn này, chúng

tôi đã nghiên cứu, xây dựng kiến trúc mạng neural nhân tạo học sâu dựa trên kiến trúc CNN và các kỹ
thuật phân tích hình ảnh để nhận dạng, phân loại bệnh ngoài da từ các mẫu ảnh vùng da bất thường, đồng
thời sử dụng các phương pháp tăng cường dữ liệu để cải thiện độ chính xác. Đầu tiên, mạng neural học
sâu được xây dựng bằng cách sử dụng một số inceptions được sử dụng phép tích chập song song khác
nhau nhằm rút ngắn thời gian xử lý. Thứ hai, tăng cường hình ảnh từ tập dữ liệu huấn luyện nhằm tạo ra
dữ liệu lớn hơn đủ cho mạng neural học sâu thực hiện huấn luyện. Mục đích của nó là tránh vấn đề dữ
liệu huấn luyện không đủ lớn dẫn tới kết quả kém chính xác. Kết quả đánh giá thử nghiệm trên các tập dữ
liệu thực cho thấy các cách phân loại được đề xuất có độ chính xác trung bình 85,44%; có cách phân loại
đối với một số bệnh có độ chính xác trên 90%. Kết quả này cho thấy rằng phương pháp đề xuất của tôi
trong luận văn này có thể ứng dụng để hỗ trợ chẩn đoán bệnh, nâng cao chất lượng phát hiện bệnh, góp
phần phát triển dịch vụ chăm sóc sức khỏe cộng đồng.
Từ khóa - Kỹ thuật học sâu, mạng neural nhân tạo, mạng neural sâu, dữ liệu huấn luyện.
TECHNICAL APPLICATION OF DEPARTMENT
IN DIAGNOSIS OF OUTSIDE OF SKIN DISEASE
Abstract - Deep learning technique is a new approach that is attracting a lot of research scientists
and technology companies interested. With the support of large data sources and computing power of
computers, deep learning networks become more efficient, achieve superior accuracy compared to
traditional methods and have high applicability in reality. Deep learning techniques have shown the ability
to respond well to the task of identification as well as understanding the content and context in it. Deep
learning techniques have really become a potential area of research. However, there are many challenges
in deep learning techniques such as training data sources, calculation time and accuracy ... In this thesis,
we have studied and built neural network architecture. artificial deep learning based on CNN architecture
and image analysis techniques to identify and classify skin diseases from abnormal skin areas, and use
data enhancement methods to improve degrees exactly. First, deep learning neural networks are built using
some inceptions that use different parallel convolution to shorten processing time. Second, enhance the
image from the training data set to generate data that is larger enough for deep learning neural networks
to carry out training. Its purpose is to avoid the problem of training data not large enough to result in
inaccurate results. The test evaluation results on real data sets show that the proposed classification has
an average accuracy of over 80%; there is a classification for some diseases with accuracy above 90%.
This result shows that my proposed method in this thesis can be applied to support disease diagnosis,

improve the quality of disease detection, contribute to the development of community health care services.
Key words - Deep learning techniques, artificial neural networks, deep neural network, training data.


vii

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Ký hiệu
AI
AKIEC
ANN
AP
BB
BCC
BKL
BRF
CNN
DF
DNN
GPU
HOG
HSV
LBP
LN
LR
MEL
NN
NV
PPV
ReLU

RF
SEN
SIFT
SOM
SPC
SVM
UAC
VASC

Diễn giải
Tiếng Anh
Artificial intelligence
Actinic Keratosis
Artificial Neural Network
Average Precision
Balanced Baggin
Basal cell carcinoma
Benign keratosis
Balanced Random Forest
Convolution Neural Network
Dermatofibroma
Deep Neural Network
Graphics Processing Unit
Histogram of Oriented
Gradients
Hue-Saturation-Value
Local Binary Pattern
Linear normalization
Logistic Regression
Melanoma

Neural Network
Nevus
Positive predictive value
Rectified Linear Unit
Random Forest
Sensitivity
Scale-Invariant Feature
Transform
Self Organizing Maps
Specificity
Support Vetor Machines
Area Under Curve
Vascular lesion

Tiếng Việt
Trí tuệ nhân tạo
Dày sừng quang hóa (rối loạn tế
bào sừng dạng tiền ung thư)
Mạng neural nhân tạo
Độ chính xác trung bình
Cân bằng đóng gói
Ung thư tế bào đáy
Chứng khô sừng quang hóa
Rừng ngẫu nhiên cân bằng
Mạng neural tích chập
U da lành tính
Mạng neural sâu
Đơn vị xử lý đồ họa
Biểu đồ định hướng
Giá trị bảo hòa

Mô hình nhị phân cục bộ
Chuẩn hóa tuyến tính
Hồi quy logistic
U ác tính
Mạng neural
Nốt ruồi
Giá trị tiên đoán tích cực
Hiệu chỉnh đơn vị tuyến tính
Rừng ngẫu nhiên
Độ nhạy
Biến đổi đặc trưng tỉ lệ không
thay đổi
Mạng neural tự tổ chức
Độ đặc hiệu
Máy vector hỗ trợ
Giá trị diện tích dưới đường cong
Thương tổn mạch máu


viii

DANH MỤC CÁC BẢNG
Bảng 2.1 Mô tả kiến trúc 25 lớp của mạng AlexNet trong Matlab. .............................. 43
Bảng 2.2 Kiến trúc mạng VGG19 ................................................................................. 48
Bảng 3.1 Kiến trúc mạng học sâu DAGNetworks với 73 lớp ẩn, 1 lớp đầu vào và lớp
phân loại cuối cùng ........................................................................................................ 54
Bảng 3.2 Kết quả thực hiện nhận dạng với bộ dữ liệu huấn luyện 2000 mẫu ảnh ........ 60
Bảng 3.3 Ký hiệu bệnh và số lượng mẫu dữ liệu .......................................................... 61
Bảng 3.4 Ma trận chéo kết quả chẩn đoán bệnh ............................................................ 61
Bảng 3.5 Ma trận chéo tỷ lệ phần trăm kết quả chẩn đoán bệnh................................... 62

Bảng 3.6 Kết quả đánh giá theo các tiêu chí chẩn đoán của từng loại bệnh ngoài da .. 62
Bảng 3.7 Số lượng mẫu theo các bệnh .......................................................................... 65
Bảng 3.8 Kết quả nhận dạng bệnh ................................................................................. 65
Bảng 3.9 Tỷ lệ nhận dạng đúng theo từng loại bệnh ..................................................... 65
Bảng 3.10 Phân loại AUC hiệu quả và các định nghĩa tiêu chuẩn khi sử dụng với các
phương pháp trích xuất .................................................................................................. 69


ix

DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ

Hình 1.1 Ảnh ký tự chữ A và ma trận số của vùng chọn ................................................ 7
Hình 1.2 Ma trận số biểu thị mức xám của các điểm ảnh. .............................................. 8
Hình 1.3 Lược đồ ảnh đa mức xám kích thước 64x64 pixels ......................................... 9
Hình 1.4 Lược đồ cường độ sáng theo chiều ngang ảnh (trục Ox) ................................ 9
Hình 1.5 Lược đồ cường độ sáng theo chiều dọc ảnh (trục Oy) ................................... 10
Hình 1.6 Minh họa phép co ảnh trên ảnh nhị phân ....................................................... 11
Hình 1.7 Ảnh nhị phân ký tự A trước và sau khi co ảnh ............................................... 11
Hình 1.8 Ảnh minh họa vector liên kết hệ số góc và liên kết giữa các biên cạnh......... 14
Hình 1.9 Quá trình trích đặc trưng HOG ....................................................................... 15
Hình 1.10 Mẫu ảnh đầu vào chia thành các cell và block để tính đặc trưng HOG. ...... 15
Hình 1.11 Tính hướng và độ lớn gradient ..................................................................... 16
Hình 1.12 Tính gradient ảnh .......................................................................................... 16
Hình 1.13 Chia hướng theo các bin của lược đồ hướng gradient .................................. 17
Hình 1.14 Sơ đồ tổng quan về trích rút đặc trưng HOG. .............................................. 18
Hình 1.15 Đối tượng trong vùng cửa sổ thay đổi khi co giãn ảnh ................................ 19
Hình 1.16 Tính DoG theo các mức tỷ lệ tạo thành hình chóp ....................................... 20
Hình 1.17 Xác định điểm cực trị dựa vào các mức giá trị DoG .................................... 21
Hình 1.18 Kết quả minh họa tính DoG và tính xác điểm cực trị................................... 21

Hình 1.19 Mô tả đặc trưng keypoint bằng lược đồ hướng gradient .............................. 22
Hình 1.20 Sử dụng các phương pháp phân đoạn khác nhau trong xử lý ảnh y tế ......... 24
Hình 1.21 Minh họa phân cụm bằng k-means............................................................... 25
Hình 1.22 Quá trình nhận dạng đối tượng ..................................................................... 27
Hình 1.23 Đường thẳng phân chia 2 lớp trong không gian 2 chiều .............................. 28
Hình 1.24 Margin trong SVM ....................................................................................... 28
Hình 1.25 Mô hình ANN ............................................................................................... 30
Hình 1.26 Quá trình xử lý thông tin của một ANN ....................................................... 30
Hình 1.27 Hàm chuyển đổi ............................................................................................ 31
Hình 1.28 Mô hình mạng neural.................................................................................... 32
Hình 2.1 Hình ảnh một số bệnh về da ........................................................................... 35


x

Hình 2.2 Mô hình mạng Neural tích chập ..................................................................... 39
Hình 2.3 Tính tích chập với filter .................................................................................. 39
Hình 2.4 Tính toán với phương pháp MaxPooling........................................................ 40
Hình 2.5 Hình ảnh kết quả ứng với 32 filter ................................................................. 41
Hình 2.6 Kiến trúc 8 lớp của mô hình AlexNet ............................................................ 42
Hình 2.7 Kiến trúc 8 lớp của mô hình FZNet. ............................................................... 44
Hình 2.8 Một dạng cụ thể của kiến trúc mạng GoogLeNet. ......................................... 46
Hình 2.9 Sơ đồ tổng quát giải pháp phân loại bệnh qua hình ảnh ................................. 49
Hình 2.10 Kiến trúc tổng thể của Inception V4 ............................................................ 50
Hình 3.1 Các hình ảnh u ác tính .................................................................................... 53
Hình 3.2 Các hình ảnh u lành tính ................................................................................. 53
Hình 3.3 Minh họa một số mẫu bệnh chuẩn đoán đúng ................................................ 63
Hình 3.4 Minh họa một số mẫu bệnh chẩn đoán nhầm ................................................. 64
Hình 3.5 Sơ đồ phương pháp đánh giá .......................................................................... 66
Hình 3.6 Kết quả AUC tốt nhất của các phương pháp tiền xử lý trên hai bộ dữ liệu ... 68

Hình 3.7 Kết quả AUC tốt nhất của các phương pháp trích xuất đặc trưng khác nhau
với các phương pháp tiền xử lý trước đó ....................................................................... 68


1

MỞ ĐẦU
1. Lý do chọn đề tài
Sức khỏe có vai trò quan trọng trong sự phát triển kinh tế - xã hội của đất nước.
Theo quan điểm chung, sự phát triển bền vững của mỗi quốc gia phụ thuộc chủ yếu vào
chất lượng nguồn nhân lực. Một quốc gia không thể phát triển nếu người dân không có
sức khỏe, không được học hành với những kiến thức và kỹ năng cần thiết. Sức khỏe
quan trọng đối với sự phát triển kinh tế - xã hội của mọi quốc gia và là một trong những
quyền lợi cơ bản nhất của con người. Do vậy, sức khỏe cần phải được nhìn nhận như tài
sản của con người và xã hội, hơn bất cứ của cải vật chất nào.
Cùng với sự phát triển nhanh chóng của khoa học công nghệ, các kỹ thuật dựa
trên trí tuệ nhân tạo và xử lý ảnh ứng dụng trong các hệ thống thông minh đạt được
những kết quả vượt bậc, có nhiều bước đột phá. Cuộc cách mạng công nghiệp lần thứ 4
(Industry 4.0) hiện đang diễn ra trên phạm vi toàn cầu, đặc biệt ở các nước có nền khoa
học kỹ thuật phát triển, qua đó, các hệ thống thông minh dần thay thế con người. Nền
tảng của các hệ thống thông minh có thể nói bắt nguồn từ lĩnh vực trí tuệ nhân tạo và xử
lý ảnh. Trong đó, xử lý ảnh là một trong những giác quan máy quan trọng nhất giúp cho
quá trình thu nhận tín hiệu, xử lý, phân tích nhằm đưa ra tri thức phục vụ các hệ thống
ra quyết định. Xử lý ảnh là một chuyên ngành có nhiều ứng dựng trong các lĩnh vực
khoa học, đời sống. Trong thiên văn học, xử lý ảnh giúp các nhà khoa học thu thập
và phân tích hình ảnh vũ trụ; trong địa lý, người ta có thể dựa vào xử lý ảnh để lập
chính xác các bản đồ địa hình, địa giới; nén ảnh rất cần thiết cho lĩnh vực thông tin
và truyền thông; kỹ thuật nhận dạng hình ảnh được dùng nhiều trong các lĩnh vực
liên quan đến kinh tế, quân sự. Đặc biệt, trong y học, xử lý ảnh hỗ trợ rất tốt cho
việc chẩn đoán hình ảnh các bệnh về khối u, xương, mạch, ung thư…, tuy nhiên,

trong quá trình thu nhận ảnh, ảnh thu được phần nhiều có chất lượng không như ý
muốn. Đối với ảnh y học, do đặc trưng thường chụp các bộ phận bên trong cơ thể
người bằng các thiết bị chuyên dụng như máy chụp X quang, máy chụp city, máy
siêu âm, máy nội soi… nên chất lượng hình ảnh thường bị mờ, nhiễu, không sắc
nét… gây khó khăn cho việc chẩn đoán bệnh.
Để khắc phục vấn đề trên, luận văn sử dụng kỹ thuật học sâu (deep learning)
để giải quyết. Kỹ thuật học sâu thể hiện tính ưu việt hơn các kỹ thuật khác trong việc
nhận diện hình ảnh cũng như nhiều lĩnh vực khác, những kết quả nghiên cứu gần đây áp
dụng kỹ thuật này cho độ chính xác cao hơn. Trong lĩnh vực y tế có nhiều công ty khởi
nghiệp (Enlitic, Freenome, Merck, Atomwise…) về y sinh đã đưa ra những sản phẩm
điện toán có khả năng đọc phim X-quang, cộng hưởng từ (MRI) và phim chụp cắt lớp
vi tính một cách nhanh chóng và chính xác bệnh chuẩn hơn cả bác sỹ điều trị.


2
2. Mục đích và ý nghĩa đề tài
a. Mục đích
Mục tiêu chính của đề tài là nghiên cứu các kỹ thuật trí tuệ nhân tạo, đặc biệt là
kỹ thuật học sâu và các ứng dụng của nó trong thực tế. Nghiên cứu hình ảnh về da, tập
trung vào các điểm ảnh bất thường dựa trên các kỹ thuật học sâu mạng tích chập 3DCNN trong lĩnh vực thị giác máy tính.
Thực nghiệm áp dụng kỹ thuật mạng tích chập 3D-CNN trong trích xuất đặc
trưng hình ảnh để dự đoán bệnh ngoài da. Từ đó phân tích, đánh giá hiệu quả và độ
chính xác trên các thư viện chuẩn có sẵn.
b. Ý nghĩa khoa học
- Kế thừa những nghiên cứu về các hệ thống nhận dạng hình ảnh y tế trước đây.
- Tìm hiểu, mô tả về mô hình hệ thống chẩn đoán bệnh qua ảnh chụp qua da.
- So sánh giữa các kỹ thuật được sử dụng trong hệ thống nhận dạng.
- Đánh giá hiệu suất của phương pháp bằng các thực nghiệm trên tập dữ liệu
thực.
- Vận dụng trí tuệ nhân tạo trong việc giải quyết bài toán chẩn đoán bệnh qua

ảnh chụp qua da với khả năng xử lý được nhiều loại bệnh.
c. Ý nghĩa thực tiễn
Thiết kế được mô hình chẩn đoán bệnh qua ảnh chụp qua da để xây dựng các hệ
thống ứng dụng hỗ trợ bác sỹ trong việc chẩn đoán một số bệnh về da.
3. Mục tiêu và nhiệm vụ
a. Mục tiêu
- Nắm vững được kỹ thuật học sâu trong bài toán chẩn đoán bệnh qua ảnh chụp
qua da.
- Đề xuất được mô hình chẩn đoán bệnh qua ảnh chụp qua da.
b. Nhiệm vụ
- Nghiên cứu kỹ thuật trí tuệ nhân tạo, mạng neural học sâu.
- Phát biểu bài toán.
- Phân tích và cài đặt giải thuật cho bài toán chẩn đoán bệnh qua ảnh chụp da.
- Đánh giá kết quả theo yêu cầu của đề tài.


3
4. Đối tượng và phạm vi nghiên cứu
a. Đối tượng nghiên cứu
Nghiên cứu các kỹ thuật trí tuệ nhân tạo, kỹ thuật mạng neural học sâu để ứng
dụng trong phân tích hình ảnh chụp qua da.
b. Phạm vi nghiên cứu
Nghiên cứu và đề xuất mô hình chẩn đoán bệnh qua ảnh chụp qua da để ứng dụng
cho các phòng khám trong chẩn đoán bệnh.
5. Phương pháp nghiên cứu
a. Phương pháp lý thuyết
- Phương pháp phân tích điều tra số liệu: Thu thập và nghiên cứu các tài liệu có
liên quan đến đề tài.
- Phương pháp nghiên cứu tài liệu: Các kỹ thuật xử lý ảnh, trí tuệ nhân tạo và
đặc biệt là kỹ thuật học sâu.

b. Phương pháp thực nghiệm
- Nghiên cứu và khai thác các mô hình nhận diện hình ảnh đã được đề xuất.
- Xây dựng chương trình ứng dụng vào nhận dạng các điểm đặc trưng qua ảnh
chụp qua da đối với từng loại bệnh.
- Kiểm tra, thử nghiệm, nhận xét và đánh giá kết quả.
6. Phương tiện, công cụ triển khai
- Sử dụng ngôn ngữ lập trình Matlab.
- Thư viện thị giác máy tính, thư viện trí tuệ nhân tạo OpenCV, Computer vision
tool, Neural network tool.
7. Cấu trúc của luận văn
Luận văn được trình bày trong 3 chương:
Mở đầu
Chương 1. Cơ sở lý thuyết
Trình bày được các cơ sở lý thuyết sau:
+ Tổng quan về trí tuệ nhân tạo
+ Tổng quan về ảnh và một số kỹ thuật xử lý ảnh
+ Trích chọn và biểu diễn đặc trưng hình ảnh


4
+ Phương pháp phân đoạn ảnh
+ Kỹ thuật học máy
Chương 2. Kỹ thuật học sâu CNN trong chẩn đoán bệnh
Trình bày về các nội dung:
+ Bài toán chẩn đoán bệnh ngoài da bằng hình ảnh
+ Mạng neural học sâu sử dụng trong nhận dạng
+ Thiết kế hệ thống học sâu chẩn đoán bệnh
Chương 3. Thực nghiệm, đánh giá kết quả
Trình bày về các nội dung:
+ Cơ sở dữ liệu thực nghiệm

+ Xây dựng kiến trúc học máy và môi trường cài đặt
+ Quy trình đánh giá, phân loại dữ liệu
+ Phân tích kết quả
+ Kết quả thực nghiệm
+ Một số kết quả đánh giá so sánh các giải pháp
+ Một số kết quả so sánh, đánh giá sử dụng kết hợp nhiều phương pháp
- Kết luận và kiến nghị.
- Tài liệu tham khảo.


5

CHƯƠNG I. CƠ SỞ LÝ THUYẾT

Tổng quan về trí tuệ nhân tạo (Artificial intelligence)
Vào năm 1943, Warren McCulioch và Walter Pitts bắt đầu thực hiện nghiên cứu
ba cơ sở lý thuyết cơ bản: Triết học cơ bản và chức năng của các neural thần kinh; phân
tích các mệnh đề logic; lý thuyết dự đoán của Turing. Các tác giả đã nghiên cứu đề xuất
mô hình neural nhân tạo, mỗi neural đặc trưng bởi hai trạng thái “bật”, “tắt” và phát hiện
mạng neural có khả năng học.
Trí tuệ nhân tạo (AI) được thiết lập bởi John McCarthy tại Hội thảo đầu tiên về
chủ đề này vào mùa hè năm 1956[1]. Đồng thời, ông cũng đề xuất ngôn ngữ lập trình
Lisp, một trong những ngôn ngữ lập trình hàm tiêu biểu, được sử dụng trong lĩnh vực
AI. Sau đó, Alan Turing đưa ra "Turing test" như một phương pháp kiểm chứng hành vi
thông minh.
Marvin Minsky và Seymour Papert đưa ra các chứng minh đầu tiên về giới hạn
của các mạng neural đơn giản. Ngôn ngữ lập trình logic Prolog ra đời và được phát triển
bởi Alain Colmerauer. Ted Shortliffe xây dựng thành công một số hệ chuyên gia đầu
tiên trợ giúp chẩn đoán trong y học, các hệ thống này sử dụng ngôn ngữ luật để biểu
diễn tri thức và suy diễn.

Vào đầu những năm 1980, những nghiên cứu thành công liên quan đến AI như các
hệ chuyên gia (expert systems), một dạng của chương trình AI mô phỏng tri thức và các
kỹ năng phân tích của một hoặc nhiều chuyên gia con người. AI được áp dụng trong logic,
khai phá dữ liệu, chẩn đoán y học và nhiều lĩnh vực ứng dụng khác trong công nghiệp. Sự
thành công dựa vào nhiều yếu tố: Tăng khả năng tính toán của máy tính, tập trung giải
quyết các bài toán con cụ thể, xây dựng các mối quan hệ giữa AI và các lĩnh vực khác giải
quyết các bài toán tương tự và một sự chuyển giao mới của các nhà nghiên cứu cho các
phương pháp toán học vững chắc và chuẩn khoa học chính xác.
1.1.1. Các lĩnh vực của trí tuệ nhân tạo
- Lập luận, suy diễn tự động: Khái niệm lập luận và suy diễn được sử dụng rất
phổ biến trong lĩnh vực AI. Lập luận là suy diễn logic, dùng để chỉ một tiến trình rút ra
kết luận (tri thức mới) từ những giả thiết đã cho (được biểu diễn dưới dạng cơ sở tri
thức). Như vậy, để thực hiện lập luận người ta cần có các phương pháp lưu trữ cơ sở tri
thức và các thủ tục lập luận trên cơ sở tri thức đó.
- Biểu diễn tri thức: Muốn máy tính có thể lưu trữ và xử lý tri thức thì cần có các
phương pháp biểu diễn tri thức. Các phương pháp biểu diễn tri thức ở đây bao gồm các
ngôn ngữ biểu diễn và các kỹ thuật xử lý tri thức. Một ngôn ngữ biểu diễn tri thức được
đánh giá là “tốt” nếu nó có tính biểu đạt cao và tính hiệu quả của thuật toán lập luận trên


6
ngôn ngữ đó. Tính biểu đạt của ngôn ngữ thể hiện khả năng biểu diễn một phạm vi rộng
lớn các thông tin trong một miền ứng dụng. Tính hiệu quả của các thuật toán lập luận
thể hiện chi phí về thời gian và không gian dành cho việc lập luận.
- Lập kế hoạch: Khả năng suy ra các mục đích cần đạt được đối với các nhiệm
vụ đưa ra và xác định dãy các hành động cần thực hiện để đạt được mục đích đó.
- Xử lý ngôn ngữ tự nhiên: Là một nhánh của AI, tập trung vào các ứng dụng trên
ngôn ngữ của con người. Các ứng dụng trong nhận dạng tiếng nói, nhận dạng chữ viết,
dịch tự động, tìm kiếm thông tin…
- Hệ chuyên gia: Cung cấp các hệ thống có khả năng suy luận để đưa ra những

kết luận. Các hệ chuyên gia có khả năng xử lý lượng thông tin lớn và cung cấp các kết
luận dựa trên những thông tin đó. Có rất nhiều hệ chuyên gia nổi tiếng như các hệ chuyên
gia y học MYCIN, đoán nhận cấu trúc phân tử từ công thức hóa học DENDRAL…
1.1.2. Một số ứng dụng của trí tuệ nhân tạo
Ngày nay, AI ngày càng được ứng dụng nhiều trong các lĩnh vực khác nhau, từ
việc phục vụ đời sống hàng ngày của con người cho đến giáo dục, tài chính ngân hàng,
y học, rô-bôt, ôtô tự hành… và thực tế chứng minh rằng việc ứng dụng AI giúp nâng
cao hiệu suất lao động, cải thiện chất lượng cuộc sống của con người, phát triển kinh
doanh cho các doanh nghiệp và nó cũng sẽ là nền tảng của rất nhiều các ứng dụng và
dịch vụ mới khác trong tương lai.
Nhờ sự phát triển khoa học vật lý lượng tử giúp cho việc tính toán và xử lý song
song của các hệ thống nhanh hơn đáng kể, vì thế việc áp dụng các phương pháp học máy
vào xử lý các bài toán thực tế ngày một thuận lợi hơn. Trong đó, kỹ thuật học sâu (deep
learning) đã được quan tâm và phát triển mạnh giúp cho máy tính giải quyết các bài toán
trong lĩnh vực học máy ngày càng tốt hơn, mà cụ thể đó là các bài toán tương tác người
- máy trong lĩnh vực thị giác máy tính, nhận thức sự vật, gợi ý trong các hệ thống lớn,
chẩn đoán các bệnh hiếm gặp...
Một số ứng dụng phổ biến hiện nay như[2]:
- Lĩnh vực giáo dục: Mô hình trường học thông minh hay học trực tuyến ngày
một phát triển nhờ ứng dụng AI vào quá trình tương tác học tập giữa nhà trường và học
sinh, sinh viên tạo ra một hệ sinh thái về giáo dục mà ở đó nhà trường và học sinh tương
tác với nhau một cách thuận lợi và nhanh chóng thông qua hệ sinh thái này.
- Lĩnh vực y tế: Chẩn đoán, điều trị và theo dõi bệnh giúp nâng cao chăm sóc sức
khỏe con người, giảm chi phí chữa bệnh cho người dân, trong đó kể cả các dự án như
điều trị ưng thư bằng AI, Rô-bôt chăm sóc y tế…


7
- Công nghiệp: Nhận dạng hình ảnh, giọng nói, rô-bôt thông minh, xe tự hành,
hệ thống tương tác thực ảo… đã phát triển mạnh mẽ nhờ sự phát triển của mạng Neural

học sâu, hệ thống xử lý phân tán song song (Parallel Distributed processing).
Tổng quan về ảnh và một số kỹ thuật xử lý ảnh
1.2.1. Tổng quan về ảnh
1.2.1.1. Một số khái niệm cơ bản
- Ảnh số: Ảnh số là tập hợp hữu hạn các điểm ảnh với mức xám phù hợp dùng để
mô tả ảnh gần với ảnh thật. Ảnh số bao gồm một tập hữu hạn các phần tử được biểu diễn
bởi giá trị số. Ảnh số có thể được biểu diễn dưới dạng ma trận hai chiều, mỗi phần tử
của ảnh số gọi là điểm ảnh (pixel). Số điểm ảnh xác định độ phân giải của ảnh. Ảnh có
độ phân giải càng cao thì càng thể hiện rõ nét các đặt điểm của tấm ảnh và càng làm cho
tấm ảnh trở nên thực và sắc nét hơn.

Hình 1.1 Ảnh ký tự chữ A và ma trận số của vùng chọn
- Điểm ảnh: Điểm ảnh (Pixel) là một phần tử của ảnh số tại toạ độ (x, y) với độ xám
hoặc màu nhất định. Kích thước và khoảng cách giữa các điểm ảnh đó được chọn thích hợp
sao cho mắt người cảm nhận sự liên tục về không gian và mức xám (hoặc màu) của ảnh số
gần như ảnh thật. Mỗi phần tử trong ma trận được gọi là một phần tử ảnh. Trong hình 1.1
mỗi điểm ảnh là một ô mang một giá trị số biểu thị mức xám từ 0 đến 255.
- Mức xám của ảnh: Mức xám: Là kết quả của sự biến đổi tương ứng 1 giá trị độ
sáng của 1 điểm ảnh với một giá trị nguyên dương. Thông thường nó xác định trong
[0, 255] tuỳ thuộc vào giá trị mà mỗi điểm ảnh được biểu diễn. Các thang giá trị mức
xám thông thường: 2, 16, 32, 64, 128. Ảnh đa mức xám thường dùng là 256, như vậy
mức xám thường xác định trong khoảng [0, 255] tùy thuộc vào giá trị mà mỗi điểm ảnh
được biểu diễn.


8

Hình 1.2 Ma trận số biểu thị mức xám của các điểm ảnh.
- Độ phân giải của ảnh
Độ phân giải (Resolution) của ảnh là mật độ điểm ảnh được ấn định trên một ảnh

số được hiển thị.
Theo định nghĩa, khoảng cách giữa các điểm ảnh phải được chọn sao cho mắt
người vẫn thấy được sự liên tục của ảnh. Việc lựa chọn khoảng cách thích hợp tạo nên
một mật độ phân bổ, đó chính là độ phân giải và được phân bố theo trục x và y trong
không gian hai chiều.
Một số độ phân giải thông thường được sử dụng trong các thiết bị hiển thị và lĩnh
vực xử lý ảnh như 640x480, 800x600, 1024x768 (HD), 192x1080 (full HD), 3840x2160
(UHD)[2].
1.2.1.2. Một số dạng ảnh
- Ảnh màu: thường là các ảnh chứa thông tin về đối tượng được biểu diễn dưới
dạng màu sắc mà mắc thường có thể quan sát được. Mỗi điểm ảnh có cấu trúc gồm nhiều
kênh khác nhau, thông thường trong máy tính, nó biểu diễn 3 lớp màu cơ bản RGB (Red,
Green, Blue)[2].
- Ảnh đa mức xám: thường biểu diễn thông tin liên quan đến cường độ đa xám
của đối tượng trong không gian mà không được thể hiện bởi màu sắc thực của nó[2].
- Ảnh nhị phân: Giá trị xám của tất cả các điểm ảnh chỉ nhận giá trị 1 hoặc 0 như
vậy mỗi điểm ảnh trong ảnh nhị phân được biểu diễn bởi 1 bit. Ảnh nhị phân thường
được dùng để biểu diễn, phân biệt sự xuất hiện đối tượng và nền trong mỗi bước ảnh.


9
1.2.2. Một số kỹ thuật xử lý ảnh
1.2.2.1. Lược đồ ảnh (Histogram)
Lược đồ ảnh là một đồ thị biểu diễn tần số xuất hiện của cường độ sáng điểm ảnh
theo các mức hay nói cách khác lược đồ Histogram của một hình ảnh biểu diễn lược đồ
về sự phân bố các mức cường độ xám của một bức ảnh[4].
Ví dụ: Cho ảnh đa mức xám đầu vào với kích thước 64x64 pixels. Như vậy số
lượng điểm ảnh 64x64 bằng 4.096 điểm ảnh. Với ảnh đa mức xám 8 bit thì các điểm ảnh
có giá trị nằm trong khoảng từ 0 đến 255. Lược đồ ảnh là kết quả của việc thực hiện
thống kê có bao nhiêu điểm ảnh có giá trị từ 0 đến 255 từ 4.096 điểm ảnh đã cho. Lược

đồ có thể tính theo từng giá trị hoặc có thể tính trong các khoảng giá trị.

Hình 1.3 Lược đồ ảnh đa mức xám kích thước 64x64 pixels
Lược đồ ảnh thể hiện mức cường độ sáng theo chiều ngang ảnh (trục Ox) là kết
quả của việc tính tổng giá trị của các điểm ảnh theo từng cột của ảnh. Ví dụ: cho ảnh
xám đầu vào có kích thước 600x200 pixels, khi đó lược đồ sẽ có 600 cột và độ cao mỗi
cột là tổng giá trị (từ 0 đến 255) của 200 điểm ảnh tương ứng với 200 dòng.

Hình 1.4 Lược đồ cường độ sáng theo chiều ngang ảnh (trục Ox)
Tương tự lược đồ thể hiện cường độ sáng theo chiều dọc (trục Oy) là kết quả của
việc tính tổng giá trị của các điểm ảnh theo từng dòng của ảnh.


10

Hình 1.5 Lược đồ cường độ sáng theo chiều dọc ảnh (trục Oy)
1.2.2.2. Nhị phân hóa ảnh
Để chuyển sang ảnh nhị phân trước tiên cần chuyển ảnh về dạng ảnh xám với các
mức xám có giá trị từ 0 đến 255 dựa trên ba giá trị red, green, blue theo công thức:
greycolor = r * 0.299 + g * 0.587 + b * 0.114
Sử dụng ngưỡng thích hợp để chuyển các điểm ảnh về dạng 0 (màu đen) hoặc
255 (màu trắng) theo nguyên tắc:
g(x, y) = 1 nếu f(x, y) > T và g(x, y) = 0 nếu f(x, y) ≤ T
Trong đó: - g(x, y) là giá trị kết quả tại điểm ảnh có tọa độ (x, y);
- f(x, y) là giá trị điểm ảnh (x, y) của ảnh cần xử lý;
- T là ngưỡng.
1.2.2.3. Làm mịn ảnh
Mịn ảnh được thực hiện dựa trên bộ lọc trơn (Smoothing filter) nhằm loại nhiễu,
bước này dùng trong quá trình tiền xử lý (Pre-processing) khi phải giảm bớt một số chi
tiết không cần thiết của một đối tượng nào đó trong ảnh. Một hướng áp dụng phổ biến

để giảm nhiễu là lọc tuyến tính, những bộ lọc tuyến tính theo hướng này được biết đến
như là lọc thông thấp.
Ý tưởng cho những bộ lọc thông thấp là thay thế giá trị mức sáng của mọi điểm
ảnh bằng giá trị mức sáng trung bình của các hàng xóm, định nghĩa theo mặt nạ lọc. Kết
quả trên dẫn tới ảnh số văn bản mất đi những chi tiết nhiễu, ma trận của một bộ lọc làm
mịn ảnh thường sử dụng có các hệ số như sau:


11
1.2.2.4. Phép co ảnh - Erosion
Xét tập hợp A và tập hợp B (Phần tử cấu trúc), phép co ảnh nhị phân của tập hợp
A bởi phần tử cấu trúc B được kí hiệu A⊝ B và viết dưới dạng công thức như sau[2]:
A⊝B={c
Trong đó:

(B) C  A }
A: Ma trận điểm ảnh của ảnh nhị phân.
B: Là phần tử cấu trúc.

Hình 1.6 Minh họa phép co ảnh trên ảnh nhị phân

Hình 1.7 Ảnh nhị phân ký tự A trước và sau khi co ảnh
Trích chọn và biểu diễn đặc trưng hình ảnh
1.3.1. Đặc trưng ảnh
1.3.1.1. Đặc trưng màu sắc
Màu sắc là một đặc trưng nổi bật và được sử dụng phổ biến nhất trong tìm kiếm
ảnh theo nội dung. Mỗi một điểm ảnh (thông tin màu sắc) có thể được biểu diễn như
một điểm trong không gian màu sắc ba chiều. Các không gian màu sắc thường dùng là:
RGB, Munsell, CIE, HSV.



12
1.3.1.2. Đặc trưng kết cấu
Kết cấu hay còn gọi là vân (texture) là một đối tượng dùng để phân hoạch ảnh ra
thành những vùng được quan tâm và để phân lớp những vùng đó. Vân cung cấp thông
tin sự sắp xếp về mặt không gian của màu sắc và cường độ của một ảnh.
1.3.1.3. Đặc trưng hình dạng
Hình dạng của một ảnh hay một vùng là một đặc trưng quan trọng trong việc xác
định và phân biệt ảnh trong nhận dạng mẫu. Mục tiêu chính của biểu diễn hình dạng
trong nhận dạng mẫu là đo thuộc tính hình học của một đối tượng được dùng trong phân
lớp, so sánh và nhận dạng đối tượng.
1.3.2. Một số phương pháp trích chọn đặc trưng đơn giản
1.3.2.1. Trích chọn đặc trưng ảnh dựa trên màu sắc
- Lược đồ màu (Histogram): Là đại lượng đặc trưng cho phân bố màu cục bộ
của ảnh. Độ đo tính tương tự về màu sắc được tính bằng phần giao của 2 lược đồ màu
ảnh truy vấn H(IQ) và ảnh trong cơ sở dữ liệu ảnh H(ID). Kết quả sẽ là một lược đồ màu
thể hiện độ giống nhau giữa 2 ảnh trên. Tuy nhiên vì lược đồ màu chỉ thể hiện tính phân
bố màu toàn cục của ảnh mà không xét đến tính phân bố cục bộ của điểm ảnh nên có thể
có 2 ảnh xem rất khác nhau nhưng lại có cùng lược đồ màu.
- Vector liên kết màu (Color Coherence Vector): Là lược đồ tinh chế lược đồ
màu, chia mỗi ô màu thành 2 nhóm điểm ảnh: nhóm liên kết màu (coherence pixels) và
nhóm không liên kết màu (noncoherence pixels). Vector liên kết màu còn giúp giải quyết
khuyết điểm về tính không duy nhất của lược đồ màu đối với ảnh. Hai ảnh có thể có
chung lược đồ màu nhưng khác nhau hoàn toàn, đây là khuyết điểm của lược đồ màu.
Nhưng với tìm kiếm theo đặc trưng vector liên kết màu thì nó sẽ giải quyết được khuyết
điểm không duy nhất này.
1.3.2.2. Trích chọn đặc trưng ảnh dựa trên kết cấu
Kết cấu hay còn gọi là vân (texture), là một đối tượng dùng để phân hoạch ảnh
ra thành những vùng được quan tâm và để phân lớp những vùng đó. Vân cung cấp thông
tin sự sắp xếp về mặt không gian của màu sắc và cường độ của một ảnh. Ví dụ cấu trúc

của vân của một số loại lá cây.
- Ma trận đồng hiện (Co-occurence Matrix): Ma trận đồng hiện là ma trận lưu
trữ số lần xuất hiện của những cặp điểm ảnh trên một vùng đang xét. Các cặp điểm này
được tính theo những quy luật cho trước.
Ví dụ với ảnh f như sau:


13
1
F= 1
0

1
1
0

0
0
2

0
0
2

4
= 2
0

0
2

0

2
0
2

Ta có ma trận đồng hiện P(1,0) với
P(1,0)

- Phép biến đổi Wavelet: Vân thu được từ biến đối wavelet được hầu hết các
nghiên cứu công nhận là đặc trưng về vân tốt nhất cho việc phân đoạn ảnh. Thuật toán
tính ra các đặc trưng vân theo biến đổi Wavelet:
+ Tính biến đổi Wavelet trên toàn ảnh.
+ Ứng với mỗi vùng cần tính, ta tính được 3 thành phần ứng với các miền HL,
LH và HH.
+ Khi áp dụng biến đổi wavelet ở những mức sâu hơn, ta sẽ có tương ứng 3xV
thành phần ứng với V là chiều sâu của biến đổi Wavelet.
- Các đặc trưng lọc Gabor: Lọc Gabor được sử dụng rộng rãi để trích rút các đặc
trưng ảnh, đặc biệt là các đặc trưng kết cấu. Nó tối ưu về mặt cực tiểu hoá sự không chắc
chắn chung trong miền không gian và miền tần số và thường được sử dụng như một
hướng và tỷ lệ biên điều hướng và phát hiện đường. Có nhiều cách tiếp cận đã được đề
xuất để mô tả các kết cấu của các ảnh dựa trên các lọc Gabor.
- Các đặc trưng biến đổi sóng: Tương tự với lọc Gabor, biến đổi sóng cung cấp
một cách tiếp cận đa độ phân giải đối với phân tích kết cấu và phân lớp. Các biến đổi
sóng phân rã một tín hiệu với một họ các hàm cơ sở ψmn(x) thu được thông qua dịch
chuyển sự có giãn của sóng ψ(x)
ψ(x) = 2-1/2 ψ(2-mx - n)
Hơn nữa, theo so sánh của các đặc trưng biến đổi sóng khác nhau, chọn riêng lọc
sóng không là then chốt cho phân tích kết cấu.
1.3.2.3. Trích chọn đặc trưng ảnh dựa trên hình dạng

- Trích chọn đặc trưng theo biên
+ Lược đồ hệ số góc: Lược đồ gồm 73 phần tử trong đó: 72 phần tử đầu chứa số
điểm ảnh có hệ số gốc từ 0 - 355 độ, các hệ số góc này cách nhau 5 độ. Phần tử cuối
chứa số phần tử không nằm trên biên cạnh.
+ Vector liên kết hệ số góc (Edge Direction Coherence Vector): Là lược đồ tinh
chế lược đồ hệ số góc, chia mỗi ô chứa thành 2 nhóm điểm ảnh: Nhóm điểm liên kết hệ


14
số góc (coherent pixels) và nhóm điểm không liên kết hệ số góc (non-coherence pixels).
Một pixel trong một ô chứa được gọi là điểm liên kết hệ số góc (coherent) nếu nó thuộc
vùng gồm các điểm thuộc cạnh có hệ số góc tương tự với kích thước lớn (thường vào
khoảng 0.1% kích thước ảnh).

Hình 1.8 Ảnh minh họa vector liên kết hệ số góc và liên kết giữa các biên cạnh
- Trích chọn đặc trưng theo vùng: Ảnh gồm tập hợp các vùng hay còn gọi là
đoạn. Đây là đặc trưng đặc biệt của ảnh. Với đặc trưng vùng sẽ giúp cho chúng ta có thể
giải quyết được một vấn đề lớn đang cản trở bước phát triển việc truy tìm ảnh dựa vào
nội dung là dữ liệu nhập được mô phỏng gần gũi hơn với suy nghĩ của con người và ảnh
tìm được có thể mang nội dung ngữ nghĩa rất khác so với ảnh truy vấn.
1.3.3.Mô tả đặc trưng HOG
1.3.3.1. Đặc trưng HOG
Đặc trưng HOG (Histograms of Oriented Gradients) được đề xuất bởi nhóm tác
giả Dalal và Trigg, trình bày lần đầu tại hội thảo quốc tế chuyên ngành thị giác máy tính
và nhận dạng mẫu năm 2005. Bộ mô tả đặc trưng HOG được dùng phổ biến trong nhiều
bài toán nhận dạng mẫu như nhận dạng người, nhận dạng xe, biển báo giao thông và
nhiều loại đối tượng khác. Đặc trưng HOG có thể mô tả hình dáng và tư thế của đối
tượng theo sự phân bố về hướng của gradient mức xám ảnh. HOG thuộc nhóm phương
pháp mô tả đặc trưng toàn vùng ảnh về đối tượng, đặc trưng được biểu diễn dưới dạng
một vector. Ví dụ, để mô tả hình dáng người, bộ mô tả HOG là một tập đặc trưng toàn

cục mô tả về phân phối hình dáng của đối tượng người trong mẫu (hay còn gọi trong
một window). Qua việc trích rút đặc trưng trên mẫu ảnh cho trước, ta thu được một
vector đặc trưng của đối tượng trong ảnh đó. Tương tự như các phương pháp biểu diễn
đặc trưng khác, HOG biến đổi không gian ảnh sang không gian vector đặc trưng để có
thể xử lý đơn giản hơn và đạt độ chính xác cao hơn trên ảnh thô bằng các công cụ trí tuệ
nhân tạo trong lĩnh vực nhận dạng mẫu[2].
1.3.3.2. Quá trình trích rút đặc trưng HOG
Quá trình xử lý liên quan đến cách chia mẫu ảnh đầu vào thành lưới các cell và
tính vector đặc trưng HOG theo phương pháp thông dụng nhất áp dụng cho bài toán


15
nhận dạng người. Để phù hợp với các bài toán nhận dạng đối tượng khác nhau, cần có
những biến đổi phù hợp nhằm đạt kết quả chính xác cao và thời gian tính toán tối ưu
nhất. Quá trình trích rút đặc trưng HOG được thực hiện theo các bước như sau:
Mẫu
ảnh
vào

Tiền
xử lý

Tính
gradient

Chia hướng,
nhóm theo
cell

Tính đặc trưng

và chuẩn hóa
theo block

Trích xuất đặc
trưng trên toàn
mẫu ảnh

Hình 1.9 Quá trình trích rút đặc trưng HOG
Quá trình chia mẫu ảnh đầu vào phục vụ tính đặc trưng HOG được thực hiện như
sau: Mỗi mẫu ảnh đầu vào (window) được xác định kích thước chuẩn hóa là 128×64
pixels, mẫu được chia thành các cell kích thước 8×8 pixels (có thể chia cell dạng hình
tròn), mỗi block gồm 2×2 cells (tương ứng 16×16 pixels) xếp chồng lên nhau, mỗi block
chồng lên 50% block láng giềng. Do đó, với kích thước mẫu đầu vào là 128×64 được
chia thành 7×15 blocks =105 blocks. Mỗi cell xây dựng lược đồ 9 bin dựa vào hướng
gradient (vector 9 phần tử), mỗi block hình thành nên 36 phần tử (4 cell× 9 phần tử/cell).
Cuối cùng, liên kết tập vector đặc trưng theo block hình thành nên vector đặc trưng HOG
của mỗi mẫu ảnh.

- Mỗi cell chứa 8x8 pixels
- Số cell theo chiều ngang 64pixel/8pixel =8
- Số cell theo chiều dọc 128pixel/8pixel =16
- Có 105 block với 7 block theo chiều theo chiều
ngang và 15 block dọc.

Hình 1.10 Mẫu ảnh đầu vào chia thành các cell và block để tính đặc trưng HOG.
Quá trình trích rút đặc trưng HOG như sau[2]:
- Bước 1: Tiền xử lý thực hiện chuẩn hóa màu, lọc nhiễu, chuyển ảnh màu qua
ảnh đa mức xám... Việc trích rút đặc trưng HOG thường được thực hiện trên ảnh đa mức
xám, nếu ảnh đầu vào là ảnh màu sẽ được chuyển thành ảnh đa mức xám. Tuy nhiên,
HOG cũng có thể trích rút trên ảnh màu theo từng kênh màu. Sau đó chuẩn hóa gamma

trên ảnh đa mức xám để giảm đi ảnh hưởng của sự thay đổi ánh sáng. Theo tác giả Dalal
and Triggs đã chỉ ra rằng việc chuẩn hóa này có thể được bỏ qua mà không làm ảnh
hưởng lớn đến độ chính xác của HOG.


×