Tải bản đầy đủ (.pdf) (83 trang)

PHÂN ĐOẠN HÌNH ẢNH Y TẾ SỬ DỤNG BỘ LỌC PHẦN TỬ (PARTICLE FILTERING) có code matlab

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.38 MB, 83 trang )

ÐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ÐẠI HỌC BÁCH KHOA
KHOA ÐIỆN – ÐIỆN TỬ
BỘ MÔN VIỄN THÔNG

LUẬN VĂN TỐT NGHIỆP

PHÂN ĐOẠN HÌNH ẢNH Y TẾ SỬ DỤNG BỘ
LỌC PHẦN TỬ (PARTICLE FILTERING)


TÓM TẮT LUẬN VĂN
Phát triển gần đây đã chứng minh rằng bộ lọc phần tử là một phương pháp mới nổi và
mạnh mẽ để xử lý tín hiệu tuần tự với một loạt các ứng dụng trong khoa học và kỹ thuật. Nó
đã chiếm được sự chú ý của nhiều nhà nghiên cứu trong các cộng đồng khác nhau bao gồm cả
xử lý tín hiệu, thống kê và kinh tế, và sự quan tâm này xuất phát từ tiềm năng của nó để đối
phó với khó khăn phi tuyến và các vấn đề non-Gaussian. Dựa trên khái niệm về lấy mẫu tuần
tự quan trọng và việc sử dụng lý thuyết Bayes, bộ lọc phần tử đặc biệt hữu ích trong việc giải
quyết vấn đề phi tuyến và non-Gaussian. Các nguyên tắc cơ bản của phương pháp này là xấp
xỉ phân phối có liên quan với các biện pháp ngẫu nhiên gồm các hạt và trọng lượng liên quan
của chúng.
Trong luận văn này, đầu tiên em sẽ trình bày về lý thuyết bộ lọc phần tử, khái niệm phân
đoạn ảnh và mơ hình PCA. Sau đó là tìm hiểu một số ứng dụng của nó trong phân đoạn hình
ảnh y tế. Phần cuối là mơ phỏng phân đoạn hình ảnh xương bàn tay sử dụng bộ lọc phần tử
kết hợp mô hình PCA được thực hiện trên MATLAB.
Cụ thể, nội dung của luận văn tốt nghiệp được trình bày trong 5 chương như sau:
Chương 1: Lý thuyết bộ lọc phần tử
Chương 2: Khái niệm phân đoạn ảnh và mơ hình PCA
Chương 3: Một số ứng dụng của bộ lọc phần tử trong phân đoạn hình ảnh y tế
Chương 4: Thực hiện phân đoạn xương bàn tay dùng bộ lọc phần tử kết hợp mơ hình PCA
Chương 5: Kết luận và hướng phát triển đề tài



TÓM TẮT LUẬN VĂN

iv

SVTH: NGUYỄN KHẮC HÙNG


MỤC LỤC

NHIỆM VỤ LUẬN VĂN TỐT NGHIỆP ................................ Error! Bookmark not defined.
PHIẾU CHẤM BẢO VỆ LVTN ............................................. iError! Bookmark not defined.
LỜI CẢM ƠN........................................................................... Error! Bookmark not defined.
TÓM TẮT LUẬN VĂN ............................................................................................................iii
MỤC LỤC .................................................................................................................................. v
DANH SÁCH HÌNH VẼ.........................................................................................................viii
DANH SÁCH CÁC TỪ VIẾT TẮT .......................................................................................... x
CHƯƠNG 0: ĐẶT VẤN ĐỀ, NHIỆM VỤ ĐỀ TÀI VÀ HƯỚNG GIẢI QUYẾT ................... 1
CHƯƠNG 1: LÝ THUYẾT BỘ LỌC PHẦN TỬ ..................................................................... 1
1.1. Giới thiệu ......................................................................................................................... 3
1.2. Cơ bản về Bộ lọc phần tử................................................................................................. 5
1.3. Tóm tắt thuật toán của bộ lọc phần tử............................................................................ 10
CHƯƠNG 2: KHÁI NIỆM PHÂN ĐOẠN ẢNH VÀ MƠ HÌNH PCA .................................. 12
2.1. Phân đoạn ảnh ................................................................................................................ 12
2.1.1. Giới thiệu................................................................................................................. 12
2.1.2. Các hướng tiếp cận phân đoạn ảnh ......................................................................... 12
2.1.3. Ứng dụng ................................................................................................................. 14
2.2. Mơ hình PCA ................................................................................................................. 14
2.2.1. Cơ bản về mơ hình PCA ......................................................................................... 14
2.2.2. Các bước cần để tạo mơ hình PCA từ một tập hợp dữ liệu ..................................... 15

CHƯƠNG 3: MỘT SỐ ỨNG DỤNG CỦA BỘ LỌC PHẦN TỬ TRONG PHÂN ĐOẠN
HÌNH ẢNH Y TẾ ..................................................................................................................... 21
3.1. Phân đoạn trong hình ảnh y tế bị nhiễu sử dụng mơ hình PCA và bộ lọc phần tử ........ 21
3.1.1. Tóm tắt .................................................................................................................... 21


3.1.2. Giới thiệu................................................................................................................. 21
3.1.3. Phân đoạn sử dụng mơ hình PCA dựa trên bộ lọc phần tử ..................................... 23
3.1.4. Kết quả thực nghiệm ............................................................................................... 26
3.1.5. Kết luận ................................................................................................................... 29
3.2. Phân đoạn sợi thần kinh sử dụng bộ lọc phần tử và tối ưu hóa rời rạc .......................... 29
3.2.1. Tóm tắt .................................................................................................................... 29
3.2.2. Giới thiệu................................................................................................................. 29
3.2.3. Phương pháp............................................................................................................ 31
3.2.4. Kết quả .................................................................................................................... 37
3.2.5. Kết luận ................................................................................................................... 41
3.3. Tổng quan về phân đoạn ảnh dựa trên đường viền tích cực và thống kê theo vùng...... 41
3.3.1. Giới thiệu................................................................................................................. 41
3.3.2. Phân đoạn dựa trên khu vực .................................................................................... 42
3.3.3. Mơ tả tính năng ....................................................................................................... 44
3.3.4. Phân đoạn với một hình dạng trước ........................................................................ 45
3.3.5. Chương trình giải quyết cho phân đoạn đường viền tích cực ................................. 45
3.3.6. Ví dụ phân đoạn hình ảnh y tế ................................................................................ 47
3.3.7. Kết luận ................................................................................................................... 51
CHƯƠNG 4: THỰC HIỆN PHÂN ĐOẠN XƯƠNG BÀN TAY SỬ DỤNG BỘ LỌC PHẦN
TỬ KẾT HỢP VỚI MƠ HÌNH PCA ....................................................................................... 52
4.1. Giới thiệu ....................................................................................................................... 52
4.2. Tạo mơ hình ................................................................................................................... 54
4.2.1. Mơ hình PCA (Principle Component Analysis ) ..................................................... 54
4.2.2. Tạo mơ hình hình dạng: .......................................................................................... 56

4.3. Những đặc tính Haar-like: ............................................................................................. 57
4.3.1. Cơ bản về đặc tính Haar-like................................................................................... 57
4.3.2. Đặc tính Haar-like: hai hình chữ nhật ..................................................................... 58


4.3.3. Hình ảnh tách rời ..................................................................................................... 58
4.4. Phân loại tập hợp ngẫu nhiên ......................................................................................... 59
4.4.1. Các bước thực hiện.................................................................................................. 59
4.4.2. Hàm chi phí ............................................................................................................. 60
4.4.3. Khai triển tích phân ................................................................................................. 60
4.5. Thực thi trên Matlab ...................................................................................................... 61
4.6. Kết quả thực hiện ........................................................................................................... 62
CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI ........................................... 64
5.1. Kết luận .......................................................................................................................... 64
5.2. Hướng phát triển đề tài .................................................................................................. 64
TÀI LIỆU THAM KHẢO ........................................................................................................ 65
PHỤ LỤC ................................................................................................................................. 67


DANH SÁCH HÌNH VẼ

Hình 1.1: Các ứng dụng trong thơng tin liên lạc ........................................................................ 4
Hình 1.2: Sơ đồ mơ tả việc lấy mẫu lại ...................................................................................... 9
Hình 1.3: Mơ tả bằng hình ảnh của bộ lọc phần tử .................................................................. 10
Hình 1.4: Sơ đồ khối của bộ lọc phần tử .................................................................................. 11
Hình 2.1: Ví dụ về dữ liệu PCA, dữ liệu gốc nằm ở bên trái, dữ liệu đã trừ đi trung bình nằm
bên phải, và một đồ thị của các dữ liệu .................................................................................... 15
Hình 2.2: Đồ thị của các dữ liệu chuẩn hóa (đã trừ trung bình) với các vector đặc trưng của
ma trận hiệp phương sai ........................................................................................................... 17
Hình 2.3: Bảng dữ liệu bằng cách áp dụng phân tích PCA sử dụng hai vector đặc trưng, và đồ

thị của các điểm dữ liệu mới..................................................................................................... 19
Hình 2.4: Dữ liệu sau khi chuyển đổi chỉ sử dụng vector đặc trưng quan trọng nhất .............. 20
Hình 3.1: Kết quả phân đoạn sử dụng phương pháp cắt đồ thị (đường cong xanh dương) và
phương pháp con rắn (đường cong màu xanh lá cây) .............................................................. 22
Hình 3.2: Mơ hình đồ họa của phân đoạn khung hình ảnh y tế. ............................................... 24
Hình 3.3: Biểu diễn khái niệm của mơ hình PCA đề xuất dựa trên phương pháp phân đoạn
trên dữ liệu tổng hợp................................................................................................................. 27
Hình 3.4: Các kết quả phân đoạn cho các dữ liệu lâm sàng thực tế.(a), (b), và (c) là hình chụp
X-quang tâm thất trái; (d) là hình ảnh siêu âm. ........................................................................ 28
Hình 3.5: Hình ảnh cường độ tối đa của tập dữ liệu các sợi thần kinh có ranh giới là khối đánh
dấu màu. Mỗi khối là một tập hình ảnh 3D màu xám .............................................................. 30
Hình 3.6: Minh hoạ của các xử lý trên một hình ảnh 2D tổng hợp. ......................................... 39
Hình 3.7: Hình ảnh MIP của việc phân loại cuối cùng 31 khối liền kề đầu tiên. ..................... 40
Hình 3.8: Phân đoạn thu được trong khối 14............................................................................ 40
Hình 3.9: Phân đoạn ảnh của một MRI lát tim thu được .......................................................... 47
Hình 3.10: Phân đoạn ảnh của tâm thất trái trong siêu âm tim bằng cách sử dụng một mơ hình
Rayleigh của nhiễu mà khơng có bất kỳ hình dạng trước ........................................................ 48
Hình 3.11: Kết quả phân đoạn MRI não T1-weighted (giải nén của White Matter) ................ 49
Hình 3.12: Giảm thiểu khoảng cách giữa các pdf khu vực hiện tại và một tham khảo ............ 50
Hình 4.1: Các điểm mốc được tạo ............................................................................................ 54


Hình 4.2: Tạo mơ hình hình dạng và PCA ............................................................................... 55
Hình 4.3: Vector đặc trưng sắp xếp theo thứ tự giá trị riêng giảm dần .................................... 55
Hình 4.4: Hình dạng trung bình ................................................................................................ 56
Hình 4.5: Tạo mơ hình hình dạng ............................................................................................. 57
Hình 4.6: Những đặc tính Haar-like ......................................................................................... 57
Hình 4.7: Tính tốn tổng các hình chữ nhật bất kì với hình ảnh tách rời ................................. 58
Hình 4.8: Xây dựng tập hợp ngẫu nhiên và bản đồ xác suất .................................................... 59
Hình 4.9: Tính tốn DE ............................................................................................................ 60

Hình 4.10: Kết quả phân đoạn xương bàn tay .......................................................................... 62
Hình 4.11: Kết quả phân đoạn dựa theo bản đồ xác suất ......................................................... 63


DANH SÁCH CÁC TỪ VIẾT TẮT

PF

Particle Filter

PCA

Principle Component Analysis

ASM

Active Shape Model

AAM

Active Appearance Model

MRI

Magnetic Resonance Imaging

CT

Computer Tomography


DE

Differential Evolution

CDMA

Code Division Multiple Access

OFDM

Orthogonal Frequency Division Multiplexing

CA

Correspondence Analysis

MFA

Multiple Factor Analysis

MRF

Markov Random Fields

RLPF

Random Local Probability Filtering

MIP


Maximum Intensity Projection

PDF

Probability Density Function

MICCAI

Medical Image Computing and Computer Assisted Intervention

AAMM

Active Appearance and Motion Models

WM

White Matter

GM

Gray Matter

CSF

Cerebrospinal Fluid

DANH SÁCH TỪ VIẾT TẮT

x


SVTH: NGUYỄN KHẮC HÙNG


CHƯƠNG 0
ĐẶT VẤN ĐỀ, NHIỆM VỤ ĐỀ TÀI VÀ HƯỚNG GIẢI QUYẾT

Phân đoạn ảnh là bước xử lý quan trọng trong nhiều lĩnh vực khác nhau như lĩnh vực hình
ảnh y tế, phát hiện và nhận dạng đối tượng, hệ thống camera giám sát, hệ thống điều khiển
giao thông… Kỹ thuật này là bước tiền xử lý quan trọng trong hầu hết các hệ thống xử lý ảnh,
kết quả phân đoạn tốt sẽ giúp cho quá trình xử lý về sau đạt hiệu quả cao hơn nhằm tiết kiệm
về chi phí tính tốn, thời gian cũng như tăng độ chính xác của các ứng dụng trên.
Trong lĩnh vực hình ảnh y tế, các kỹ thuật hình ảnh y tế như chụp CT (Computer
Tomography), chụp MRI (Magnetic Resonance Imaging), chụp X-quang, siêu âm khơng thể
thiếu để có thể phân tích chính xác nhiều bệnh lý khác nhau, qua đó đã hộ trợ đáng kể bác sĩ
trong việc chuẩn đoán bệnh. Trong q trình phân tích, việc chẩn đốn rất cần kĩ thuật phân
đoạn ảnh tiên tiến để trích xuất các đường biên cần thiết, các bề mặt hoặc các bộ phận cơ thể
ra khỏi bức hình. Các phân đoạn và đường biên này là rất quan trọng đối với các bác sĩ. Tuy
nhiên, q trình phân đoạn thủ cơng là rất tốn thời gian và có thể khơng cho kết quả tốt. Chính
vì vậy, trong vài thập kỷ qua, nhiều thuật toán phân đoạn ảnh y tế được đề xuất nhằm tăng độ
chính xác trong q trình phân đoạn ảnh. Một trong những kỹ thuật phân đoạn ảnh hiện nay là
sử dụng bộ lọc phần tử.
Bộ lọc phần tử là thuật toán dùng để ước lượng trực tiếp các mật độ hậu nghiệm của mơ
hình khơng gian trạng thái bằng cách triển khai thực hiện các phương trình đệ quy Bayesian.
Mơ hình khơng gian trạng thái có thể phi tuyến và phân bố nhiễu dưới bất kỳ hình thức nào.
Phương trình đệ quy Bayesian sử dụng một phương pháp tiếp cận dựa trên quần thể. Các mẫu
phân phối được thể hiện bằng một tập hợp các hạt; mỗi hạt được gán một trọng lượng đại diện
cho xác suất hạt được lấy mẫu từ hàm mật độ xác suất. Sự chênh lệch của các trọng lượng dẫn
đến sự thối hóa trọng lượng là một vấn đề thường gặp trong các thuật toán lọc. Tuy nhiên có
thể giảm thiểu bằng phương pháp tái chọn mẫu. Trong bước tái chọn mẫu các hạt có trọng
lượng không đáng kể được thay thế bằng các hạt mới lân cận được tạo ra từ các hạt có trọng

lượng lớn.


Hiện nay trên thế giới, bộ lọc phần tử đang được áp dụng rộng rãi trong nhiều lĩnh vực
khoa học cơng nghệ như xử lý tín hiệu, giao thơng, an ninh quốc phịng, hình ảnh y tế, thị giác
robot, di động khơng dây, …. Trong đó, các thuật tốn bộ lọc phần tử được cải tiến liên tục
nhằm đáp ứng các yêu cầu thực tế và có một vài nghiên cứu về bộ lọc phần tử thực hiện trên
phần cứng.
Luận văn tốt nghiệp này sẽ đề cập đến việc áp dụng bộ lọc phần tử trong phân đoạn hình
ảnh y tế. Những phân đoạn này rất quan trọng đối với các bác sĩ, giúp phát hiện kịp thời và
mức độ nghiêm trọng của các bệnh lý, nhờ đó có những kế hoạch điều trị và phục hồi thích
hợp.
Cụ thể, luận văn tốt nghiệp sẽ đề cập đến phân đoạn xương bàn tay sử dụng bộ lọc phần tử
kết hợp với mơ hình PCA. Trong bước đầu tiên, một mơ hình hình dạng tuyến tính sẽ được
tạo ra từ các tập dữ liệu. Bằng cách tìm các hướng chính của phương sai trong khơng gian
hình dạng, số chiều của mơ hình có thể được giảm đáng kể, phương pháp tiêu chuẩn là duy trì
khoảng 95% của phương sai hiện tại trong các tập dữ liệu. Trong bước thứ hai, các điểm ảnh
được phân loại, chúng ta sử dụng các mẫu trong các cơ sở dữ liệu để tạo ra phân loại này. Các
cơ sở dữ liệu chứa các hình ảnh mặt nạ, và gán nhãn cho mỗi điểm ảnh trên từng hình ảnh.
Đường biên của cấu trúc xương bàn tay được gán nhãn dương, trong khi các điểm ảnh còn lại
thuộc về lớp nền. Trong thực hiện này, 14 tính năng được chọn trước Haar-like đã được sử
dụng để đánh giá trong vùng lân cận của điểm ảnh trung tâm. Trong bước tiếp theo, một phân
loại tập hợp ngẫu nhiên sử dụng bộ lọc phần tử được tạo ra để phân biệt sự khác nhau giữa
những điểm ảnh trên đường biên và những điểm ảnh còn lại. Một giá trị xác suất của mỗi
điểm ảnh sẽ được đánh giá, xác suất này tương ứng với khả năng rằng điểm ảnh này có thuộc
về lớp đường biên hay khơng. Bằng cách đánh giá trên mỗi điểm ảnh của mỗi hình ảnh thử
nghiệm, chúng ta đã thu thập được một bản đồ xác suất cho mỗi hình ảnh thử nghiệm. Bước
cuối cùng của thuật toán của chúng ta sử dụng thuật toán DE để tối ưu hóa các hình dạng và
các thơng số chuyển đổi cho phù hợp với hình dạng trên bản đồ xác suất, nhờ đó sẽ tìm ra các
phân đoạn có độ chính xác tối đa.

Vì vậy, việc phân đoạn xương này sẽ giúp ích cho các bác sĩ trong việc chẩn đoán các bệnh
lý về xương bàn tay như gãy xương, biến dạng xương, viêm xương khớp,…và từ đó có biện
pháp điều trị và phục hồi phù hợp.


CHƯƠNG 1
LÝ THUYẾT BỘ LỌC PHẦN TỬ

1.1. Giới thiệu
Bộ lọc phần tử là một phương pháp tuần tự Monte Carlo, nơi ý tưởng cơ bản là tính tốn đệ
quy của phân bố xác suất có liên quan sử dụng các khái niệm về lấy mẫu quan trọng xấp xỉ
của phân bố xác suất với các biện pháp ngẫu nhiên rời rạc. Các ứng dụng đầu tiên của các
phương pháp tuần tự Monte Carlo là trong lĩnh vực phát triển polyme, và sau đó họ mở rộng
sang các lĩnh vực khác bao gồm cả vật lý và kỹ thuật. Phương pháp tuần tự Monte Carlo bị
hạn chế sử dụng trong quá khứ, chủ yếu là do tính tốn phức tạp rất cao và việc thiếu tài
nguyên máy tính. Tuy nhiên, những tiến bộ nhanh chóng của máy tính trong nhiều năm qua
và tiềm năng nổi bật của bộ lọc phần tử đã làm cho lĩnh vực này thời gian gần đây được
nghiên cứu một cách tích cực.
Một phần lớn của lý thuyết về xử lý tín hiệu tuần tự là về tín hiệu và hệ thống được biểu
diễn bởi khơng gian trạng thái và phương trình quan sát, phương trình đó có dạng

xt  ft (xt 1 , ut )
y t  g t ( xt , v t )

(1.1)

Với y t là vector quan sát, x t là vector trạng thái, g t (.) là hàm đo lường, ft (.) là hàm hệ
thống chuyển tiếp, u t và v t là vectơ nhiễu, và t biểu thị chỉ số thời gian. Phương trình đầu tiên
được gọi là phương trình trạng thái, và phương trình thứ hai là phương trình đo lường. Các giả
định tiêu chuẩn là các hình thức của hàm và sự phân bố của hai nhiễu đã biết. Dựa trên những

quan sát y t và các giả định, mục tiêu là ước tính x t đệ quy.
Một trong những phương pháp đã được nghiên cứu nhiều và được áp dụng thường xuyên
trong thực tế là các bộ lọc Kalman. Bộ lọc Kalman là tối ưu trong trường hợp các phương
trình là tuyến tính và nhiễu là độc lập, có tính cộng, và Gaussian. Trong tình huống này, các
phân phối quan tâm (lọc, tiên đoán, hoặc làm mịn) cũng là Gaussian và bộ lọc Kalman có thể
tính tốn chính xác chúng mà không cần xấp xỉ. Đối với trường hợp mà các mơ hình là phi
tuyến hoặc nhiễu là non-Gaussian, các phương pháp gần đúng khác nhau đã được đề xuất,


trong đó bộ lọc Kalman mở rộng có lẽ là nổi bật nhất trong tất cả. Tuy nhiên, bộ lọc Kalman
mở rộng vẫn có những hạn chế nhất định.
Vì vậy, phương pháp bộ lọc phần tử đã trở thành một sự thay thế quan trọng đối với bộ lọc
Kalman mở rộng. Với bộ lọc phần tử, phân phối liên tục được xấp xỉ bằng các biện pháp ngẫu
nhiên rời rạc, trong đó bao gồm các hạt có trọng số, nơi các hạt là các mẫu trạng thái chưa biết
từ không gian trạng thái, và trọng lượng hạt là khối lượng xác suất, được tính bằng cách sử
dụng lý thuyết Bayes. Trong việc thực hiện bộ lọc phần tử, việc lấy mẫu đóng một vai trị
quan trọng, nên phương pháp này cũng được gọi là phương pháp lấy mẫu quan trọng tuần tự.
Lợi thế của bộ lọc phần tử hơn các phương pháp khác là sự xấp xỉ không liên quan đến sự
tuyến tính xung quanh các ước tính hiện tại mà là xấp xỉ các đại diện của các phân phối mong
muốn bằng các biện pháp ngẫu nhiên rời rạc.
Tiếp theo là thảo luận về việc sử dụng bộ lọc phần tử trong một số vấn đề quan trọng trong
truyền thơng khơng dây. Hình 1.1 trình bày một biểu đồ phân loại ra các vấn đề giải quyết
thành hai nhóm, hệ thống đơn người dùng và hệ thống đa truy cập. Cho các hệ thống đơn
người dùng, sự quan tâm xoay quanh phát hiện trong kênh fading phẳng và cân bằng, trong đó
nhấn mạnh của cân bằng là vào các kênh thời gian bất biến, các kênh thời gian thay đổi, và hệ
thống ghép kênh phân chia tần số trực giao (OFDM).

Hình 1.1: Các ứng dụng trong thơng tin liên lạc
Cho nhiều hệ thống truy cập, bộ lọc phần tử tập trung vào phát hiện đa người dùng trong
phân chia mã đa truy nhập (CDMA) và giải mã hệ thống không gian - thời gian trong các

kênh fading. Trong tất cả các trường hợp, bước đầu tiên là xác định các vấn đề với biểu diễn


khơng gian trạng thái. Ví dụ, một mơ hình thơng tin liên lạc băng tần cơ sở chung của một
kênh fading có thể được viết như:

xt  ft (xt 1 , ut )
y t  st Tht  vt

(1.2)

Với 𝑦 𝑡 là tín hiệu thời gian rời rạc nhận được ở phía thu, và x t là trạng thái của hệ thống
bao gồm các vector truyền kí hiệu s t và hệ số kênh fading h t . Trạng thái khác nhau trong
cùng thời gian theo một hàm đã biết f t trong đó mơ tả một q trình Markov do nhiễu u t .
Cuối cùng, vt là nhiễu kênh. Mục tiêu chính là để tuần tự phát hiện những kí tự truyền và /
hoặc ước tính kênh như các quan sát đến. Từ quan điểm Bayesian, điều này hàm ý có được
ước tính p (h t , st | y0:t ) , với y0:t  {y0 , y1 ,..., yt } , đó là chính xác những gì các bộ lọc phần tử
được thiết kế.
1.2. Cơ bản về Bộ lọc phần tử
Xem xét một hệ thống hoặc một tín hiệu với mơ hình khơng gian trạng thái như (1.1). Như
đã chỉ ra, cơng việc chính của xử lý tín hiệu tuần tự là ước lượng trạng thái x t đệ quy từ
những quan sát y t . Nói chung, có ba hàm phân phối xác suất cần quan tâm, đó là những phân
phối lọc p(xt | y 0:t ) , phân phối dự đoán p(xt l | y 0:t ), l  1 , và phân phối làm mịn p (xt | y 0:T )
với T  t . Tất cả các thông tin về x t về lọc, dự báo, hoặc làm mịn được chụp bởi các phân
phối tương ứng, và vì vậy mục tiêu chính là theo dõi chúng, có được p(xt | y 0:t ) từ

p (xt 1 | y 0:t 1 ) , p (xt l | y 0:t ) từ p (xt l 1 | y 0:t ) , hay p (xt | y 0:T ) từ p(xt 1 | y 0:T ) .
Các thuật tốn theo dõi chính xác các phân phối được gọi là thuật tốn tối ưu. Tuy nhiên,
trong nhiều tình huống thực tế, các thuật tốn tối ưu là khơng thể thực hiện, chủ yếu là do các
cập nhật phân phối u cầu tích hợp mà khơng thể thực hiện phân tích hoặc sự tổng kết khơng

thể thực hiện do số lượng các điều khoản trong sự cộng lại.
Cho một phân phối hậu nghiệm chung của x0 , x1 ,..., xt trong trường hợp các nhiễu mẫu độc
lập đã được giả định, chúng ta có thể viết như trong [1]:
t

p(x0:t | y 0:t )  p(x0 | y 0 ) p(y k | x k ) p(x k | x k 1 )
k 1

(1.3)


Điều đó là đơn giản để cho thấy rằng một công thức đệ quy cho việc thu thập p(x0:t | y 0:t )
từ p (x0:t 1 | y 0:t 1 ) được cho bởi:
p(x0:t | y 0:t ) 

p(y t | xt ) p(xt | xt 1 )
p(x0:t 1 | y 0:t 1 )
p(y t | y 0:t 1 )

(1.4)

Bởi vì chuyển đổi từ p (x0:t 1 | y 0:t 1 ) sang p(x0:t | y 0:t ) thường gặp khó khăn, nên chúng ta
nhờ đến phương pháp được dựa trên xấp xỉ. Trong bộ lọc phần tử, các phân phối được xấp xỉ
bằng các biện pháp ngẫu nhiên rời rạc được xác định bởi các hạt và trọng lượng được gán cho
các hạt. Nếu phân phối quan tâm là p ( x) và tính tốn xấp xỉ ngẫu nhiên của nó là

   x ( m ) , w( m ) m1
M

(1.5)


Với 𝑥 (𝑚) là các phần tử, 𝑤 (𝑚) là trọng số của chúng, và M là số phần tử được sử dụng
trong xấp xỉ,  xấp xỉ phân bố p ( x) bởi
p( x)   w( m )  x  x ( m ) 
M

(1.6)

m 1

Với 𝛿(. ) là hàm Dirac. Với xấp xỉ này, tính tốn của những kỳ vọng (trong đó liên quan
đến tích phân phức tạp) được đơn giản hóa để cộng lại, ví dụ:
E ( g ( X ))   g ( x) p( x)dx

(1.7)

Được xấp xỉ bởi:
M

E ( g ( X ))   w( m ) g ( x ( m ) )

(1.8)

m 1

Khái niệm quan trọng tiếp theo được sử dụng trong bộ lọc phần tử là nguyên tắc lấy mẫu
quan trọng. Giả sử chúng ta muốn xấp xỉ một phân phối p ( x) bằng một tính tốn ngẫu nhiên
rời rạc. Nếu chúng ta có thể tạo ra các hạt từ p ( x) mỗi trong số chúng sẽ được chỉ định một
trọng lượng bằng 1 / M. Bởi vì lấy mẫu trực tiếp từ p ( x) là quá khó, người ta có thể tạo ra hạt
𝑥 (𝑚) từ một phân phối 𝜋(𝑥), còn được gọi là hàm quan trọng, và gán trọng lượng (khơng

chuẩn hóa) theo:

w*( m ) 

p ( x)
 ( x)

(1.9)


Khi được chuẩn hóa trở thành:

w

(m)



w*( m )
M

w

(1.10)

*( i )

i 1

Giả sử bây giờ phân phối hậu nghiệm p (x0:t 1 | y 0:t 1 ) được xấp xỉ bởi các đo lường ngẫu

( )
m M
nhiên rời rạc  t 1  {x0:m1 , wt(1) }m1 . Lưu ý rằng các quỹ đạo hoặc dòng của các hạt x(0:m )1 có thể
t
t

được coi là các hạt p (x0:t 1 | y 0:t 1 ) . Có được đo lường rời rạc ngẫu nhiên  t 1 và quan sát y t ,
mục tiêu là dùng  t 1 để có được  t . Phương pháp lấy mẫu quan trọng tuần tự đạt được điều
này bằng cách tạo ra các hạt xt( m ) và cùng với x(0:m )1 để tạo thành x(0:m ) , và cập nhật các trọng
t
t
lượng wt( m ) để  t cho phép ước lượng chính xác các quan tâm chưa biết tại thời điểm t.
Nếu chúng ta sử dụng một hàm quan trọng có thể được cấu tạo như

 (x0:t | y 0:t )   (xt | x0:t 1 , y 0:t ) (x0:t 1 | y 0:t 1 )

(1.11)

Và nếu
)
x(0:m1
t

 (x0:t 1 | y 0:t 1 )

(1.12)

m
wt(1) 


)
p(x(0:m1 | y 0:t 1 )
t
)
 (x(0:m1 | y 0:t 1 )
t

(1.13)



chúng ta có thể tăng cường quỹ đạo x(0:m )1 với xt( m ) , với
t
xt( m )

)
 (xt | x (0:m1 , y 0:t )
t

(1.14)

và dễ dàng kết hợp với nó một trọng lượng đã cập nhật wt( m ) có được theo

wt( m ) 

m
p(y t | xt( m ) ) p(xt( m ) | xt(1) ) ( m )
wt 1
)
 (xt( m ) | x(0:m1 , y 0:t )

t

(1.15)

Các thuật toán lấy mẫu quan trọng tuần tự do đó có thể được thực hiện bằng cách thực hiện
hai bước sau cho mỗi t:
1) Vẽ các hạt xt( m )

m
 (xt | xt(1) , y 0:t ) , với 𝑚 = 1,2, … , 𝑀.


2) Tính tốn trọng lượng của wt( m ) theo (1.15)
Hàm quan trọng đóng vai trị rất quan trọng trong việc thực hiện các bộ lọc phần tử. Hàm
này phải có sự hỗ trợ giống như phân phối xác suất đang được xấp xỉ. Nhìn chung, hàm quan
trọng càng gần phân phối, thì xấp xỉ càng tốt hơn. Trong tài liệu, hai hàm quan trọng thường
xuyên nhất được sử dụng là hàm đầu tiên và hàm quan trọng tối ưu. Hàm quan trọng đầu tiên
m
được đưa ra bởi p(xt | xt(1) ) , và khi đó trọng lượng hạt cập nhật là
m
wt( m )  wt(1) p (y t | xt( m ) )

(1.16)

Hàm quan trọng tối ưu giảm thiểu phương sai của trọng lượng quan trọng có điều kiện trên
)
quỹ đạo x(0:m )1 cùng các quan sát y 0:t và được cho bởi p (xt | x(0:m1 , y 0:t ) . Khi hàm tối ưu được
t
t


sử dụng, trọng lượng đã cập nhật được thực hiện theo
m
m
wt( m )  wt(1) p (y t | xt(1) )

(1.17)

Lưu ý rằng việc triển khai các bộ lọc phần tử với các hàm quan trọng đầu tiên dễ dàng hơn
m
nhiều so với các hàm quan trọng tối ưu. Lý do là việc tính tốn p(y t | xt(1) ) địi hỏi việc tính

tích phân phức tạp.
Một vấn đề lớn với bộ lọc phần tử là các đo lường ngẫu nhiên rời rạc thối hóa một cách
nhanh chóng. Nói cách khác, tất cả các hạt được gán trọng lượng không đáng kể, ngoại trừ
một số rất ít. Sự suy thối có nghĩa rằng hiệu suất của các bộ lọc phần tử sẽ xấu đi. Tuy nhiên,
sự suy thối có thể được giảm bằng cách sử dụng hàm lấy mẫu quan trọng tốt và lấy mẫu lại.
Lấy mẫu lại là một quá trình giúp loại bỏ các hạt có trọng lượng nhỏ và sao chép các hạt có
trọng lượng lớn. Về nguyên tắc, nó được thực hiện như sau:
1) Vẽ 𝑀 hạt, x*( m ) từ phân phối rời rạc  t .
t
2) Để xt( m )  x*( m ) , và gán trọng lượng bằng nhau (1/M) cho các hạt.
t
Ý tưởng của việc lấy mẫu lại được mơ tả trong hình 1.2 với 𝑀 = 10 hạt. Ở đó, cột bên trái
của vòng tròn đại diện cho hạt trước khi lấy mẫu lại, trong đó đường kính của vịng trịn tỷ lệ
thuận với trọng lượng của các hạt. Cột bên phải của vịng trịn là các hạt sau khi lấy mẫu lại.
Nói chung, các hạt lớn được nhân rộng và các hạt nhỏ được loại bỏ. Ví dụ, hạt màu xanh với
trọng lượng lớn nhất được tái bản ba lần và hạt màu vàng tái bản hai lần, trong khi các hạt
màu xanh lá cây, có trọng lượng nhỏ, được loại bỏ. Ngoài ra, sau khi lấy mẫu lại tất cả các



vịng trịn có đường kính bằng nhau, có nghĩa là, tất cả các trọng lượng được thiết lập bằng
1/M. Trong hình 1.3, ta đại diện cho các đo lường ngẫu nhiên và phân bố xác suất thực tế của
các quan tâm bằng ba bước của bộ lọc phần tử: tạo ra các hạt, cập nhật trọng lượng, và lấy
mẫu lại. Trong hình, các đường cong liền nét đại diện cho các phân phối được quan tâm, được
xấp xỉ bằng các biện pháp rời rạc. Kích thước của các hạt phản ánh trọng lượng được gán cho
chúng. Cuối cùng trong hình 1.4, chúng ta hiển thị một sơ đồ tóm tắt các thuật toán của bộ lọc
phần tử. Tại thời điểm t, các hạt mới được tạo ra, và trọng lượng của chúng được tính. Qua đó
chúng ta có được những đo lường ngẫu nhiên  t , có thể được sử dụng để ước tính các ẩn số
mong muốn. Trước khi chúng ta tiến hành tạo ra các hạt trong thời gian nhanh t +1, chúng ta
ước tính kích thước hạt có hiệu quả (một thước đo để đo sự suy thối của các hạt). Nếu kích
thước hạt có hiệu quả dưới một ngưỡng xác định trước, ta thực hiện lấy mẫu lại, nếu không,
chúng ta tiến hành các bước thơng thường của tạo ra hạt mới và tính tốn trọng lượng.

Hình 1.2: Sơ đồ mơ tả việc lấy mẫu lại


Gần đây, một mảng đặc biệt của các bộ lọc phần tử là xấp xỉ phân bố hậu nghiệm bằng
phân phối Gaussian đơn. Mặc dù nguồn gốc của nó là giả định rằng tất cả các phân phối có
liên quan là Gaussian, như được thực hiện với một số bộ lọc khác, bao gồm các bộ lọc
Kalman mở rộng và biến thể của nó, chúng được phân biệt ở chỗ cập nhật các bộ lọc và phân
phối dự đoán được thực hiện bằng cách nhân giống các hạt. Điều này ưu điểm là thực hiện dễ
dàng hơn so với trường hợp với các bộ lọc phần tử số tiêu chuẩn và cải thiện hiệu suất trên
các Gaussian dựa trên bộ lọc xấp xỉ. Bộ lọc phần tử Gaussian cũng đã được sử dụng như là
một nền tảng cho nhiều bộ lọc phức tạp gọi là bộ lọc tổng số phần tử Gaussian. Các bộ lọc
này xấp xỉ việc lọc và phân phối dự đốn bởi hỗn hợp Gaussian có trọng số và về cơ bản đại
diện cho các bộ lọc phần tử Gaussian.

Hình 1.3: Mơ tả bằng hình ảnh của bộ lọc phần tử

1.3. Tóm tắt thuật tốn của bộ lọc phần tử

Trước khi chúng ta tiếp tục trình bày các ứng dụng của bộ lọc phần tử cho các vấn đề
thơng tin liên lạc, chúng ta tóm tắt thủ tục để phát triển các thuật toán của bộ lọc phần tử. Các
thủ tục liên quan đến các bước sau:


1) Mơ tả vấn đề bằng một mơ hình khơng gian trạng thái rời rạc như trong (1.1)
2) Lựa chọn một hàm đề nghị cho việc tạo ra hạt
3) Lấy đạo hàm của các phương trình để có trọng lượng được cập nhật.

Hình 1.4: Sơ đồ khối của bộ lọc phần tử
Nhờ những ưu điểm vượt trội của mình, bộ lọc phần tử đã được ứng dụng rất nhiều vào
trong việc xử lý tín hiệu, có thể kể đến như theo dõi trong những mạng cảm biến không dây
[11], theo dõi trong nhà của thiết bị di động đầu cuối với dữ liệu RSS dùng thuật toán bộ lọc
phần tử nhiều mơ hình [12], phát hiện và theo dõi nhiều đối tượng [13], bộ lọc phần tử cho
định vị, điều hướng và theo dõi [14], bộ lọc phần tử dựa trên khu vực cho theo dõi và phân
đoạn đối tượng [15], bộ lọc phần tử dùng trong phát hiện đường viền của hình ảnh [16] và
nhiều ứng dụng quan trọng khác trong xử lý tín hiệu.


CHƯƠNG 2
KHÁI NIỆM PHÂN ĐOẠN ẢNH VÀ MƠ HÌNH PCA

2.1. Phân đoạn ảnh
2.1.1. Giới thiệu
Phân đoạn ảnh là một thao tác quan trọng trong tồn bộ q trình xử lý ảnh. Quá trình
này thực hiện việc phân đoạn ảnh thành các vùng rời rạc và đồng nhất với nhau hay nói
cách khác là xác định các biên của các vùng ảnh đó. Các vùng ảnh đồng nhất này thơng
thường sẽ tương ứng với tòan bộ hay từng phần của các đối tượng thật sự bên trong ảnh.
Vì thế, trong hầu hết các ứng dụng của lĩnh vực xử lý ảnh và thị giác máy tính, phân đoạn
ảnh ln đóng một vai trò quan trọng và thường là bước xử lý đầu tiên trong tồn bộ q

trình trước khi thực hiện các thao tác khác ở mức cao hơn như nhận dạng đối tượng, biểu
diễn đối tượng, nén ảnh dựa trên đối tượng, hay truy vấn ảnh dựa vào nội dung.
2.1.2. Các hướng tiếp cận phân đoạn ảnh
Phân đoạn ảnh là chia ảnh thành các vùng không trùng lắp. Mỗi vùng gồm một nhóm
điểm ảnh liên thơng và đồng nhất theo một tiêu chí nào đó. Tiêu chí này phụ thuộc vào
mục tiêu của q trình phân đoạn. Ví dụ như đồng nhất về màu sắc, mức xám, kết cấu, độ
sâu của các layer… Sau khi phân đoạn mỗi điểm ảnh chỉ thuộc về một vùng duy nhất. Để
đánh giá chất lượng của q trình phân đoạn là rất khó. Vì vậy trước khi phân đoạn ảnh
cần xác định rõ mục tiêu của quá trình phân đoạn là gì. Xét một cách tổng quát, ta có thể
chia các hướng tiếp cận phân đoạn ảnh thành ba nhóm chính như sau:
 Các kỹ thuật phân đoạn ảnh dựa trên không gian đặc trưng.
 Các kỹ thuật dựa trên không gian ảnh.
 Các kỹ thuật dựa trên các mơ hình vật lý.
Các phương pháp dựa trên không gian đặc trưng
Nếu chúng ta giả định màu sắc bề mặt của các đối tượng trong ảnh là một thuộc tính
bất biến và các màu sắc đó được ánh xạ vào một khơng gian màu nào đó, vậy thì chúng


ta sẽ có một cái nhìn đối với mỗi đối tượng trong ảnh như là một cụm (cluster) các điểm
trong khơng gian màu đó. Mức độ phân tán của các điểm trong trong một cụm được xác
định chủ yếu bởi sự khác biệt về màu sắc. Một cách khác, thay vì ánh xạ các điểm ảnh
trong ảnh vào một khơng gian màu cụ thể, ta xây dựng một histogram dựa trên các đặc
trưng màu dạng ad-hoc cho ảnh đó (ví dụ như Hue), và thông thường, các đối tượng
trong ảnh sẽ xuất hiện như các giá trị đỉnh trong histogram đó. Do đó, việc phân đoạn
các đối tượng trong ảnh tương ứng với việc xác định các cụm – đối với cách biểu diễn
thứ nhất – hoặc xác định các vùng cực trị của histogram – đối với cách biểu diễn thứ
hai.
Các phương pháp dựa trên không gian ảnh
Phương pháp được đề cập trong phần trên hoạt động dựa trên các không gian đặc
trưng của ảnh (thông thường là màu sắc). Do đó, các vùng ảnh kết quả là đồng nhất

tương ứng với các đặc trưng đã chọn cho từng khơng gian. Tuy nhiên, khơng có gì đảm
bảo rằng tất cả các vùng này thể hiển một sự cô đọng về nội dung xét theo ý nghĩa
không gian ảnh (ý nghĩa các vùng theo sự cảm nhận của hệ thần kinh con người). Mà
đặc tính này là quan trọng thứ hai sau đặc tính về sự thuần nhất của các vùng ảnh. Do
các phương pháp gom cụm cũng như xác định ngưỡng histogram đã nêu đều bỏ qua
thông tin về vị trí của các điểm ảnh trong ảnh.
Trong các báo cáo khoa học về phân đoạn ảnh mức xám, có khá nhiều kỹ thuật cố
thực hiện việc thoả mãn cùng lúc cả hai tiêu chí về tính đồng nhất trong khơng gian đặc
trưng của ảnh và tính cơ đọng về nội dung ảnh. Tuỳ theo các kỹ thuật mà các thuật giải
này áp dụng, chúng được phân thành các nhóm sau:


Các thuật giải áp dụng kỹ thuật chia và trộn vùng.



Các thuật giải áp dụng kỹ thuật tăng trưởng vùng.



Các thuật giải áp dụng lý thuyết đồ thị.



Các giải thuật áp dụng mạng neural.



Các giải thuật dựa trên cạnh.


Các phương pháp dựa trên mơ hình vật lý
Tất cả các giải thuật được xem xét qua, khơng ít thì nhiều ở mặt nào đó đều có khả
năng phát sinh việc phân đoạn lỗi trong các trường hợp cụ thể nếu như các đối tượng
trong ảnh màu bị ảnh hưởng quá nhiều bởi các vùng sáng hoặc bóng mờ, các hiện tượng


này làm cho các màu đồng nhất trong ảnh thay đổi nhiều hoặc ít một cách đột ngột. Và
kết quả là các thuật giải này tạo ra các kết quả phân đoạn quá mức mong muốn so với sự
cảm nhận các đối tượng trong ảnh bằng mắt thường. Để giải quyết vấn đề này, các giải
thuật phân đoạn ảnh áp dụng các mơ hình tương tác vật lý giữa bề mặt các đối tượng với
ánh sáng đã được đề xuất. Các cơng cụ tốn học mà các phương pháp này sử dụng thì
khơng khác mấy so với các phương pháp đã trình bày ở trên, điểm khác biệt chính là
việc áp dụng các mơ hình vật lý để minh hoạ các thuộc tính phản chiếu ánh sáng trên bề
mặt màu sắc của các đối tượng.
2.1.3. Ứng dụng
Phân đoạn ảnh là bước xử lý quan trọng trong nhiều lĩnh vực khác nhau như lĩnh
vực hình ảnh y tế, phát hiện và nhận dạng đối tượng, hệ thống camera giám sát, hệ thống
điều khiển giao thông… Kỹ thuật này là bước tiền xử lý quan trọng trong hầu hết các hệ
thống xử lý ảnh, kết quả phân đoạn tốt sẽ giúp cho quá trình xử lý về sau đạt hiệu quả cao
hơn nhằm tiết kiệm về chi phí tính tốn, thời gian cũng như tăng độ chính xác của các ứng
dụng trên.
Trong lĩnh vực hình ảnh y tế, các kỹ thuật hình ảnh y tế như chụp CT (Computer
Tomography), chụp MRI (Magnetic Resonance Imaging), chụp X-quang, siêu âm khơng
thể thiếu để có thể phân tích chính xác nhiều bệnh lý khác nhau, qua đó đã hộ trợ đáng kể
bác sĩ trong việc chuẩn đốn bệnh. Trong q trình phân tích, việc chẩn đoán rất cần kĩ
thuật phân đoạn ảnh tiên tiến để trích xuất các đường biên cần thiết, các bề mặt hoặc các bộ
phận cơ thể ra khỏi bức hình. Các phân đoạn và đường biên này là rất quan trọng đối với
các bác sĩ. Tuy nhiên, quá trình phân đoạn thủ cơng là rất tốn thời gian và có thể khơng cho
kết quả tốt. Chính vì vậy, trong vài thập kỷ qua, nhiều thuật toán phân đoạn ảnh y tế được
đề xuất nhằm tăng độ chính xác trong q trình phân đoạn ảnh.

2.2. Mơ hình PCA
2.2.1. Cơ bản về mơ hình PCA
Phân tích thành phần ngun lý (Principal component analysis, viết tắt là PCA) [2,3] là
một kỹ thuật đa biến để phân tích dữ liệu trong đó các quan sát được mô tả theo một số
biến phụ thuộc tương quan. Mục tiêu của phương pháp này là để xuất các thông tin quan
trọng từ bảng dữ liệu, để đại diện như là một tập hợp các biến trực giao mới được gọi là
thành phần chủ yếu, và để hiển thị các mơ hình tương tự của các quan sát và các biến như


các điểm trong đồ thị. Chất lượng của các mô hình PCA có thể được đánh giá bằng cách sử
dụng kỹ thuật như bootstrap. PCA có thể được khái quát như phân tích tương ứng
(Correspondence analysis: CA) để xử lý các biến định tính và phân tích nhiều yếu tố
(Multiple factor analysis: MFA) để xử lý sự không đồng nhất của tập hợp các biến. Về mặt
toán học, PCA phụ thuộc vào khai triển của ma trận tích cực và loại bỏ giá trị nhỏ của ma
trận hình chữ nhật.
2.2.2. Các bước cần để tạo mơ hình PCA từ một tập hợp dữ liệu
Bước 1: Lấy số dữ liệu
Trong ví dụ đơn giản này, ta sẽ sử dụng bộ dữ liệu được tạo sẵn. Nó chỉ có 2 kích
thước, và lý do tại sao ta đã chọn bộ dữ liệu này là để ta có thể vẽ đồ thị của dữ liệu để
hiển thị những phân tích PCA đang thực hiện tại mỗi bước. Các dữ liệu ta được sử dụng
nằm ở trong hình 2.1, cùng với một đồ thị của dữ liệu đó.
Bước 2: Trừ các trung bình
Đối với PCA, để làm việc đúng cách, bạn phải trừ đi giá trị trung bình từ mỗi kích
thước dữ liệu. Trung bình trừ là mức trung bình trên mỗi chiều. Vì vậy, tất cả các giá trị

x phải trừ x (trung bình của giá trị x của tất cả các điểm dữ liệu), và tất cả các giá trị
y phải trừ đi y . Điều này tạo ra một tập hợp dữ liệu có trung bình bằng khơng.

Hình 2.1: Ví dụ về dữ liệu PCA, dữ liệu gốc nằm ở bên trái, dữ liệu đã trừ đi trung bình
nằm bên phải, và một đồ thị của các dữ liệu

Bước 3: Tính tốn ma trận hiệp phương sai
Bởi vì dữ liệu có 2 chiều, nên ma trận hiệp phương sai sẽ là ma trận 2  2 . Ta dễ
dàng có kết quả


 0.616555556
cov  
 0.615444444

0.615444444 

0.716555556 

(2.1)

Vì vậy các thành phần không phải đường chéo trong ma trận hiệp phương sai này là
dương, vì vậy chúng ta hy vọng rằng cả hai biến x và y tăng cùng nhau.
Bước 4: Tính tốn vector đặc trưng và giá trị riêng của ma trận hiệp phương sai
Vì ma trận hiệp phương sai là ma trận vng, nên chúng ta có thể tính toán vector
đặc trưng và giá trị riêng cho ma trận này. Điều này khá quan trọng, vì chúng cho ta biết
thơng tin hữu ích về dữ liệu của chúng ta. Đây là các vector đặc trưng và giá trị riêng:

 0.0490833989 
eigenvalues  

1.28402771 

 0.735178656
eigenvectors  
 0.677873399


 0.677873399 

 0.735178656 

(2.2)

(2.3)

Cần lưu ý rằng các vector đặc trưng này đều là vector đặc trưng đơn vị, tức là độ dài
của chúng là 1. Điều này là rất quan trọng cho PCA, nhưng may mắn là hầu hết các tính
tốn, khi được u cầu vector đặc trưng, sẽ cung cấp cho bạn vector đặc trưng đơn vị.
Vì vậy, nếu nhìn vào đồ thị của dữ liệu trong hình 2.2, có thể thấy các dữ liệu đã có
một mơ hình khá mạnh mẽ như thế nào. Theo ma trận hiệp phương sai, hai biến thực sự
tăng với nhau. Ở phía trên của các dữ liệu ta đã vẽ cả hai vector đặc trưng khá tốt.
Chúng xuất hiện như đường chéo đứt đoạn trên đồ thị và vng góc với nhau. Nhưng,
quan trọng hơn, chúng cung cấp cho chúng ta thông tin về mơ hình trong dữ liệu, như
làm thế nào một trong những vector đặc trưng đi qua giữa các điểm, giống như vẽ một
đường phù hợp nhất. Vector đặc trưng này cho chúng ta thấy làm thế nào hai tập dữ liệu
có liên quan cùng với đường đó. Các vector đặc trưng thứ hai cho chúng ta mơ hình
trong dữ liệu ít quan trọng hơn, đây là tất cả các điểm theo đường chính, nhưng là ra
phía bên của đường chính bằng số lượng. Vì vậy, bằng cách lấy các vector đặc trưng
của ma trận hiệp phương sai, chúng ta có thể trích xuất các đường đặc trưng cho dữ liệu.
Phần còn lại của các bước liên quan đến việc chuyển đổi dữ liệu.


Hình 2.2: Đồ thị của các dữ liệu chuẩn hóa (đã trừ trung bình) với các vector đặc
trưng của ma trận hiệp phương sai
Bước 5: Chọn các thành phần và tạo vector đặc trưng
Đây là bước thực thi khái niệm về nén dữ liệu và giảm chiều. Nếu ta nhìn vào các

vector đặc trưng và giá trị riêng từ phần trước, ta sẽ thấy rằng các giá trị riêng là những
giá trị hồn tồn khác nhau. Trong thực tế, nó chỉ ra rằng các vector đặc trưng với giá trị
riêng cao nhất là thành phần nguyên tắc (principle component) của tập dữ liệu. Trong ví
dụ này, các vector đặc trưng với giá trị riêng lớn nằm ở giữa của dữ liệu. Đó là mối
quan hệ quan trọng nhất giữa kích thước dữ liệu.
Nói chung, khi có được vector đặc trưng từ ma trận hiệp phương sai, bước tiếp theo
là đặt cho chúng giá trị riêng, từ cao nhất đến thấp nhất. Điều này cho ta các thành phần
theo thứ tự quan trọng. Bây giờ, nếu thích, ta có thể quyết định bỏ qua các thành phần
có tầm quan trọng thấp hơn. Ta mất một số thông tin, nhưng nếu giá trị riêng nhỏ, ta
không mất nhiều. Nếu ta bỏ một số thành phần, tập dữ liệu cuối cùng sẽ có kích thước
nhỏ hơn so với bản gốc. Để được chính xác, nếu bạn ban đầu có n chiều trong dữ liệu,
và sau đó bạn tính tốn n vector đặc trưng và giá trị riêng, và sau đó bạn chỉ chọn p
vector đặc trưng đầu tiên, do đó tập dữ liệu cuối cùng chỉ có kích thước là p . Những gì


×