Tải bản đầy đủ (.doc) (34 trang)

Nghiên cứu và xây dựng hệ thống phân đoạn ảnh màu sử dụng thuật toán jseg

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (561.31 KB, 34 trang )

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
KHOA CÔNG NGHỆ THÔNG TIN
BÁO CÁO
THỰC TẬP HỆ THỐNG THÔNG TIN QUẢN LÝ
ĐỀ TÀI:
NGHIÊN CỨU XÂY DỰNG HỆ THỐNG
PHÂN ĐOẠN ẢNH MÀU SỬ DỤNG THUẬT TOÁN JSEG
Giảng viên hướng dẫn : TS. NGUYỄN HỮU QUỲNH
Sinh viên thực hiện : PHƯƠNG VĂN CẢNH
Chuyên ngành : CÔNG NGHỆ PHẦN MỀM
Lớp : D4-CNTT
Hà Nội - 2013
LỜI CẢM ƠN
Trong quá trình thực tập này, em luôn nhận được sự hướng dẫn, chỉ bảo tận
tình của TS. Nguyễn Hữu Quỳnh, giảng viên công nghệ thông tin trường Đại học
Điện Lực, thầy đã giành nhiều thời gian hướng dẫn, giúp đỡ tận tình cho em trong
quá trình thực tập.
Em xin chân thành cảm ơn sâu sắc tới các thầy cô giáo trong trường Đại học
Điện Lực và đặc biệt các thầy cô trong khoa Công Nghệ Thông Tin, những người
thầy, cô đã tận tình giảng dạy và truyền đạt cho em những kiến thức, những kinh
nghiệm quý báu trong suốt những năm học tập và rèn luyện ở trường Đại học Điện
Lực.
Xin chân thành cảm ơn các bạn sinh viên lớp Đại Học Đ4 - CNTT - trường
Đại học Điện Lực đã luôn động viên, giúp đỡ và nhiệt tình chia sẻ những kinh
nghiệm học tập trong suốt quá trình học tập ở trường.
Em xin được bày tỏ lòng biết ơn sâu sắc tới những người thân trong gia đình
và người thân xung quanh đã luôn động viên, khích lệ và tạo điều kiện tốt nhất cho
em trong suốt quá trình học tập và trong quá trình thực tập.
Hà nội, ngày 14 tháng 06 năm 2013
Sinh viên thực hiện
Phương Văn Cảnh


NHẬN XÉT
(Của cán bộ hướng dẫn)
Cán bộ hướng dẫn: TS. Nguyễn Hữu Quỳnh.
Hiện công tác tại: Khoa Công Nghệ Thông Tin – Trường Đại Học Điện Lực.
Nhận hướng dẫn sinh viên: Phương Văn Cảnh.
Ngành: Công nghệ thông tin.
Hệ: Đại học chính quy.
Trong thời gian hướng dẫn sinh viên thực tập, tôi có một số ý kiến nhận xét
như sau:









……………….
Hà Nội, ngày 17 tháng 06 năm 2013.
CÁN BỘ HƯỚNG DẪN
TS. Nguyễn Hữu Quỳnh
MỤC LỤC
LỜI CẢM ƠN 2
NHẬN XÉT 3
DANH MỤC CÁC HÌNH 5
DANH MỤC CÁC BẢNG 6
LỜI NÓI ĐẦU 1
CHƯƠNG 1: TỔNG QUAN VỀ PHÂN ĐOẠN ẢNH MÀU 2
1.1 GIỚI THIỆU PHÂN ĐOẠN ẢNH 2

1.2 CÁC HƯỚNG TIẾP CẬN PHÂN ĐOẠN ẢNH 2
1.2.1 Các phương pháp dựa trên không gian đặc trưng 3
1.2.2 Các phương pháp dựa trên không gian ảnh 3
1.2.3 Các phương pháp dựa trên mô hình vật lý 4
1.3 KẾT LUẬN CHƯƠNG 1 5
CHƯƠNG 2: PHÂN ĐOẠN ẢNH MÀU SỬ DỤNG JSEG 8
2.1 GIỚI THIỆU VỀ JSEG 8
2.2 TIÊU CHÍ ĐỂ PHÂN ĐOẠN 9
2.3 J-IMAGES 13
2.4 THUẬT TOÁN PHÂN ĐOẠN KHÔNG GIAN 15
2.4.1 Xác định thung lũng 17
2.4.2 Phát triển thung lũng 17
2.4.3 Hợp nhất vùng 18
2.5 KẾT LUẬN CHƯƠNG 2 18
CHƯƠNG 3: CÀI ĐẶT VÀ ĐÁNH GIÁ HỆ THỐNG 19
3.1 CÀI ĐẶT HỆ THỐNG 19
3.1.1 Nền tảng công nghệ 19
3.1.2 Lượng hóa màu – Color Quantization 20
3.1.3 J-Image 22
3.2 ĐÁNH GIÁ HỆ THỐNG 24
3.3 KẾT LUẬN CHƯƠNG 3 25
KẾT LUẬN 26
TÀI LIỆU THAM KHẢO 27
DANH MỤC CÁC HÌNH
DANH MỤC CÁC BẢNG

Báo cáo thực tập
LỜI NÓI ĐẦU
Trong vài năm trở lại đây, chúng ta đã thấy cùng với sự bùng nổ của các ứng
dụng Internet là sự tăng nhanh lượng dữ liệu ảnh. Khi số lượng ảnh còn ít, việc

nhận diện một bức ảnh hay so sánh giữa các bức ảnh có thể thực hiện được bằng
mắt thường, tuy nhiên khi có số lượng rất lớn dữ liệu ảnh thì việc nhận diện bằng
mắt thường sẽ trở nên khó khăn, Vì vậy, vấn đề đặt ra là phải có những phương
pháp tổ chức cơ sở dữ liệu ảnh tốt cùng với những kỹ thuật tìm kiếm, tra cứu ảnh
hiệu quả, có độ chính xác cao và hiệu năng tốt.
Lý do chọn đề tài:
Vấn đề tra cứu ảnh và quản trị cơ sở dữ liệu ảnh được cộng đồng nghiên cứu
quan tâm đến từ năm 1970 [9]. Với sự tăng nhanh về tốc độ máy tính và giảm chi
phí bộ nhớ, các cơ sở dữ liệu ảnh chứa hàng nghìn thậm chí hàng triệu ảnh được sử
dụng trong nhiều lĩnh vực ứng dụng khác nhau như y học, ảnh vệ tinh, các cơ sở dữ
liệu ảnh sinh học Các ứng dụng này đòi hỏi độ chính xác tra cứu cao. Với sự tăng
nhanh về số lượng ảnh, cách tiếp cận tra cứu ảnh dựa vào chú thích ảnh thủ công trở
nên không khả thi về cả thời gian và chi phí. Tra cứu ảnh dựa vào nội dung
(Content Base Image Retrieval - CBIR) là một công cụ mạnh do nó tìm kiếm cơ sở
dữ liệu ảnh bằng việc sử dụng dấu hiệu trực quan. Các hệ thống tra cứu ảnh dựa vào
nội dung trích rút các đặc trưng từ bản thân các ảnh thô và tính toán độ đo kết hợp
giữa ảnh truy vấn và các ảnh cơ sở dữ liệu dựa trên các đặc trưng này.
Phân đoạn ảnh là một thao tác ở mức thấp trong toàn bộ quá trình xử lý ảnh.
Quá trình này thực hiện việc phân vùng ảnh thành các vùng rời rạc và đồng nhất với
nhau hay nói cách khác là xác định các biên của các vùng ảnh đó. Các vùng ảnh
đồng nhất này thông thường sẽ tương ứng với toàn bộ hay từng phần của các đối
tượng thật sự bên trong ảnh. Chính vì vậy việc phân đoạn ảnh bước tiền xử lý đầu
tiên trong toàn bộ quá trình trước khi thực hiện các thao tác khác ở mức cao hơn
như nhận dạng đối tượng, biểu diễn đối tượng, nén ảnh dựa trên đối tượng, hay truy
vấn ảnh dựa vào nội dung …
Vì vậy, đề tài tra phân đoạn ảnh được đưa ra để tìm hiểu, nghiên cứu và ứng
dụng.
Tên đề tài : “Nghiên cứu và xây dựng hệ thống phân đoạn ảnh màu sử dụng
thuật toán JSEG”
Đối tượng nghiên cứu: ảnh màu.

Phương Văn Cảnh – D4CNTT Page 1
Báo cáo thực tập
CHƯƠNG 1: TỔNG QUAN VỀ PHÂN ĐOẠN ẢNH MÀU
1.1 GIỚI THIỆU PHÂN ĐOẠN ẢNH
Phân đoạn ảnh là một thao tác ở mức thấp trong toàn bộ quá trình xử lý ảnh.
Quá trình này thực hiện việc phân vùng ảnh thành các vùng rời rạc và đồng nhất với
nhau hay nói cách khác là xác định các biên của các vùng ảnh đó. Các vùng ảnh
đồng nhất này thông thường sẽ tương ứng với toàn bộ hay từng phần của các đối
tượng thật sự bên trong ảnh. Vì thế, trong hầu hết các ứng dụng của lĩnh vực xử lý
ảnh (image processing), thị giác máy tính, phân đoạn ảnh luôn đóng một vai trò cơ
bản và thường là bước tiền xử lý đầu tiên trong toàn bộ quá trình trước khi thực
hiện các thao tác khác ở mức cao hơn như nhận dạng đối tượng, biểu diễn đối
tượng, nén ảnh dựa trên đối tượng, hay truy vấn ảnh dựa vào nội dung … Vào
những thời gian đầu, các phương pháp phân vùng ảnh được đưa ra chủ yếu làm việc
trên các ảnh mức xám do các hạn chế về phương tiện thu thập và lưu trữ. Ngày nay,
cùng với sự phát triển về các phương tiện thu nhận và biểu diễn ảnh , các ảnh màu
đã hầu như thay thế hoàn toàn các ảnh mức xám trong việc biểu diễn và lưu trữ
thông tin do các ưu thế vượt trội hơn hẳn so với ảnh mức xám. Do đó, các kỹ thuật,
thuật giải mới thực hiện việc phân vùng ảnh trên các loại ảnh màu liên tục được
phát triển để đáp ứng các nhu cầu mới. Các thuật giải, kỹ thuật này thường được
phát triển dựa trên nền tảng các thuật giải phân vùng ảnh mức xám đã có sẵn.
1.2 CÁC HƯỚNG TIẾP CẬN PHÂN ĐOẠN ẢNH
Phân đoạn ảnh là chia ảnh thành các vùng không trùng lắp. Mỗi vùng gồm
một nhóm pixel liên thông và đồng nhất theo một tiêu chí nào đó [1]. Tiêu chí này
phụ thuộc vào mục tiêu của quá trình phân đoạn. Ví dụ như đồng nhất về màu sắc,
mức xám, kết cấu, độ sâu của các layer… Sau khi phân đoạn mỗi pixel chỉ thuộc về
một vùng duy nhất. Để đánh giá chất lượng của quá trình phân đoạn là rất khó. Vì
vậy trước khi phân đoạn ảnh cần xác định rõ mục tiêu của quá trình phân đoạn là gì.
Xét một cách tổng quát, ta có thể chia các hướng tiếp cận phân đoạn ảnh thành ba
nhóm chính như sau:

• Các kỹ thuật phân đoạn ảnh dựa trên không gian đặc trưng.
• Các kỹ thuật dựa trên không gian ảnh.
• Các kỹ thuật dựa trên các mô hình vật lý.
Phương Văn Cảnh – D4CNTT Page 2
Báo cáo thực tập
1.2.1 Các phương pháp dựa trên không gian đặc trưng
Nếu chúng ta giả định màu sắc bề mặt của các đối tượng trong ảnh là một
thuộc tính bất biến và các màu sắc đó được ánh xạ vào một không gian màu nào đó,
vậy thì chúng ta sẽ có một cái nhìn đối với mỗi đối tượng trong ảnh như là một cụm
(cluster) các điểm trong không gian màu đó. Mức độ phân tán của các điểm trong
trong một cụm được xác định chủ yếu bởi sự khác biệt về màu sắc. Một cách khác,
thay vì ánh xạ các pixel trong ảnh vào một không gian màu cụ thể, ta xây dựng một
histogram dựa trên các đặc trưng màu dạng ad-hoc cho ảnh đó (ví dụ như Hue), và
thông thường, các đối tượng trong ảnh sẽ xuất hiện như các giá trị đỉnh trong
histogram đó. Do đó, việc phân vùng các đối tượng trong ảnh tương ứng với việc
xác định các cụm – đối với cách biểu diễn thứ nhất – hoặc xác định các vùng cực trị
của histogram – đối với cách biểu diễn thứ hai.
Các phương pháp tiếp cận này chỉ làm việc trên một không gian màu xác định
chẳng hạn phương pháp của Park áp dụng trên không gian màu RGB, còn phương
pháp của Weeks và Hague thì áp dụng trên không gian màu HIS. Dựa trên không
gian đặc trưng, ta có các phương pháp phân đoạn: phương pháp phân nhóm đối
tượng không giám sát, phương pháp phân lớp trung bình-k thích nghi, phương pháp
lấy ngưỡng histogram.
1.2.2 Các phương pháp dựa trên không gian ảnh
Hầu hết những phương pháp được đề cập trong phần trên đều hoạt động dựa
trên các không gian đặc trưng của ảnh(thông thường là màu sắc). Do đó, các vùng
ảnh kết quả là đồng nhất tương ứng với các đặc trưng đã chọn cho từng không gian.
Tuy nhiên, không có gì đảm bảo rằng tất cả các vùng này thể hiển một sự cô đọng
(compactness) về nội dung xét theo ý nghĩa không gian ảnh (ý nghĩa các vùng theo
sự cảm nhận của hệ thần kinh con người). Mà đặc tính này là quan trọng thứ hai sau

đặc tính về sự thuần nhất của các vùng ảnh. Do các phương pháp gom cụm cũng
như xác định ngưỡng histogram đã nêu đều bỏ qua thông tin về vị trí của các pixel
trong ảnh.
Trong các báo cáo khoa học về phân vùng ảnh mức xám, có khá nhiều kỹ
thuật cố thực hiện việc thoả mãn cùng lúc cả hai tiêu chí về tính đồng nhất trong
không gian đặc trưng của ảnh và tính cô đọng về nội dung ảnh. Tuỳ theo các kỹ
thuật mà các thuật giải này áp dụng, chúng được phân thành các nhóm sau:
 Các thuật giải áp dụng kỹ thuật chia và trộn vùng.
Phương Văn Cảnh – D4CNTT Page 3
Báo cáo thực tập
 Các thuật giải áp dụng kỹ thuật tăng trưởng vùng.
 Các thuật giải áp dụng lý thuyết đồ thị.
 Các giải thuật áp dụng mạng neural.
 Các giải thuật dựa trên cạnh.
1.2.3 Các phương pháp dựa trên mô hình vật lý
Tất cả các giải thuật được xem xét qua, không ít thì nhiều ở mặt nào đó đều có
khả năng phát sinh việc phân vùng lỗi trong các trường hợp cụ thể nếu như các đối
tượng trong ảnh màu bị ảnh hưởng quá nhiều bởi các vùng sáng hoặc bóng mờ, các
hiện tượng này làm cho các màu đồng nhất trong ảnh thay đổi nhiều hoặc ít một
cách đột ngột. Và kết quả là các thuật giải này tạo ra các kết quả phân vùng quá
mức mong muốn so với sự cảm nhận các đối tượng trong ảnh bằng mắt thường. Để
giải quyết vấn đề này, các giải thuật phân vùng ảnh áp dụng các mô hình tương tác
vật lý giữa bề mặt các đối tượng với ánh sáng đã được đề xuất. Các công cụ toán
học mà các phương pháp này sử dụng thì không khác mấy so với các phương pháp
đã trình bày ở trên, điểm khác biệt chính là việc áp dụng các mô hình vật lý để
minh hoạ các thuộc tính phản chiếu ánh sáng trên bề mặt màu sắc của các đối
tượng.
Cột mốc quan trọng trong lĩnh vực phân vùng ảnh màu dựa trên mô hình vật lý
được Shafer đặt ra. Ông giới thiệu mô hình phản xạ lưỡng sắc cho các vật chất điện
môi không đồng nhất. Dựa trên mô hình này, Klinker đã đặt ra một giải thuật đặt ra

một số giả thiết quang học liên quan đến màu sắc, bóng sáng, bóng mờ của các đối
tượng và cố gắng làm phù hợp chúng với hình dạng của các cụm. Hạn chế chính
của giải thuật này là nó chỉ làm việc trên các vật chất điện môi không đồng nhất.
Hai ông cùng tên Tsang đã áp dụng mô hình phản xạ lưỡng sắc trong không gian
HSV để xác định các đường biên trong ảnh màu.
Healey đề xuất một mô hình phản xạ đơn sắc cho các vật chất kim loại. Các
phương pháp đề cập trong phần này chỉ áp dụng cho hai loại vật chất là kim loại và
điện môi không đồng nhất. Một thuật toán tổng quát và phức tạp hơn cũng được
Maxwell và Shafer đề xuất trong.
Phương Văn Cảnh – D4CNTT Page 4
Báo cáo thực tập
1.3 KẾT LUẬN CHƯƠNG 1.
Tóm lại, một cái nhìn tổng quan về các phưong pháp phân đoạn ảnh như sau:
Hinh 1. 1: Các phương pháp phân đoạn ảnh.
Mỗi phương pháp đều có những ưu nhược điểm nhất định:
Bảng 1. 1: Bảng ưu nhược điểm của các phương pháp phân đoạn ảnh.
Phương pháp phân
vùng
Ưu điểm Khuyết điểm
Featured-based techniques
Clustering  Phân loại không cần giám
sát.
 Tồn tại các phương pháp
heuristic và hữu hạn.
 Không quan tâm đến các
thông tin trong không gian ảnh.
 Có vấn đề trong việc xác
định số lượng các cụm ban đầu.
 Khó khăn trong việc điều
chỉnh các cụm sao cho phù hợp

với các vùng trong ảnh.
Adaptive Clustering  Sở hữu tính liên tục trong
không gian ảnh và tính thích
nghi cục bộ đối với các vùng
ảnh.
 Sử dụng các ràng buộc về
không gian ảnh.
 Cực đại hoá một xác suất
hậu điều kiện có thể bị sai do
các cực trị địa phương.
 Hội tụ chậm.
Phương Văn Cảnh – D4CNTT Page 5
Color Image Segmentation
techniques
Feature-based Spatial-based Physics-based
Clustering
Adaptive k-means clust.
Histogram thresholding
Split and merge
Region growing
Edge based
Neural network based
Graph theoretical
Báo cáo thực tập
Phương pháp phân
vùng
Ưu điểm Khuyết điểm
Histogram thresholding  Không cần biết trước bất kỳ
thông tin nào từ ảnh.
 Các giải thuật nhanh và dễ

dàng cài đặt.
 Bỏ qua các thông tin về
không gian ảnh.
 Lấy ngưỡng trong các
histogram đa chiều là một quá
trình phức tạp.
 Ảnh hưởng dễ dàng bởi
nhiễu xuất hiện trong ảnh.
Spatial-based techniques
Spit and Merge  Sử dụng các thông tin về
không gian ảnh là chính.
 Cho kết quả tốt với các ảnh
chứa nhiều vùng màu đồng
nhất.
 Định nghĩa mức độ đồng
nhất về màu sắc có thể phức tạp
và khó khăn.
 Quadtree có thể gây ra các
kết quả không như mong muốn.
Region growing  Các vùng ảnh đồng nhất và
liên thông.
 Có một số thuật giải có tốc
độ thực thi khá nhanh.
 Tốn kém chi phí sử dụng bộ
nhớ và tính toán.
 Gặp khó khăn trong việc thu
thập tập các điểm mầm và xác
định các điều kiện đồng nhất
đầy đủ.
 Chịu ảnh hưởng bởi các đặc

tính tự nhiên của kỹ thuật này.
Graph theories  Thể hiện tốt không gian ảnh
bằng đồ thị.
 Một số thuật toán có tốc
độ thực hiện nhanh.
 Một vài thuật giải mất khá
nhiều thời gian thực hiện.
 Các đặc trưng cục bộ đôi khi
được sử dụng nhiều hơn các đặc
trưng toàn cục.
Neural networks  Mức độ song song hoá cao
và có tốc độ thực thi nhanh.
 Khả năng chống chịu tốt
trước các thay đổi xấu.
 Một công cụ hữu hiệu cho
các ứng dụng nhận dạng và xử
lý ảnh y khoa.
 Màu sắc có thể làm tăng độ
phức tạp của mạng.
 Quá trình học cần phải biết
trước số lượng các phân
lớp/cụm.
Edge-based  Là phương pháp được hỗ trợ
mạnh bởi các toán tử dò biên.
 Khó khăn trong việc định
nghĩa một hàm gradient cho các
Phương Văn Cảnh – D4CNTT Page 6
Báo cáo thực tập
 Có hiệu năng tốt với các ứng
dụng dò biên đối tượng theo

đường cong.
ảnh màu.
 Nhiễu hoặc các ảnh có độ
tương phản kém ảnh hưởng xấu
đến kết quả phân vùng.
Phương pháp phân
vùng
Ưu điểm Khuyết điểm
Physics-based techniques
 Khẳng định tính chắc chắn
đối với các vùng bóng sáng/tối,
và vùng bóng chuyển tiếp
(diffuse hoặc shade)
 Phân vùng các đối
tượng dựa vào thành phần
vật liệu cấu tạo
 Bị giới hạn vào một số
lượng nhất định các loại vật
chất hình thành nên đối tượng.
 Khó khăn trong việc xác
định vùng bóng sáng và bóng
chuyển tiếp trong các ảnh thực.
 Một vài giải thuật đòi hỏi
các thông tin về hình dạng đối
tượng (không luôn luôn đáp
ứng được).
 Chi phí tính toán khá cao.
Phương Văn Cảnh – D4CNTT Page 7
Báo cáo thực tập
CHƯƠNG 2: PHÂN ĐOẠN ẢNH MÀU SỬ DỤNG JSEG

2.1 GIỚI THIỆU VỀ JSEG
Phân đoạn ảnh màu rất hữu ích trong nhiều ứng dụng. Từ các kết quả phân
đoạn, nó có thể xác định các khu vực quan tâm và đối tượng trong cảnh, nó rất có
lợi cho việc phân tích hình ảnh tiếp theo hoặc chú thích. Công việc gần đây bao
gồm một loạt các kỹ thuật: ví dụ, các cách tiếp cận dựa trên mô hình ngẫu nhiên [1],
[4], [8], [11], [12], hình thái khu vực đầu nguồn dựa trên phát triển [9], khuếch tán
năng lượng [7], và đồ thị phân vùng [10]. Phương pháp đánh giá định lượng cũng
đã được đề nghị [2]. Tuy nhiên, do tính chất khó khăn của vấn đề, có rất ít các thuật
toán tự động có thể làm việc tốt trên một lượng lớn các dữ liệu.
Các vấn đề của phân đoạn gặp khó khăn với hình ảnh kết cấu. Nếu một hình
ảnh có chứa các vùng màu chỉ đồng nhất, phương pháp phân nhóm trong không
gian màu sắc như [3] là đủ để xử lý vấn đề. Trong thực tế, những cảnh thiên nhiên
rất giàu màu sắc và kết cấu. Rất khó để xác định các khu vực hình ảnh có chứa các
mẫu màu sắc kết cấu. Các cách tiếp cận trong việc này giả định như sau:
• Mỗi khu vực trong các hình ảnh có chứa một mô hình màu sắc kết cấu phân
bố đồng đều.
• Các thông tin màu trên từng khu vực hình ảnh có thể được đại diện bởi một
vài màu sắc lượng tử, đó là sự thật đối với hầu hết các hình ảnh màu sắc của cảnh
quan thiên nhiên.
• Những màu sắc giữa hai khu vực lân cận được phân biệt - một giả định cơ
bản của bất kỳ màu sắc cho ảnh thuật toán phân đoạn.
Hương giải quyết được đưa ra:
• Tìm hiểu một tiêu chuẩn mới cho phân đoạn ảnh. Tiêu chí này liên quan đến
giảm thiểu chi phí liên quan đến việc phân vùng của hình ảnh dựa trên nhãn pixel.
Các nhãn điểm ảnh có nguồn gốc từ lượng tử hóa màu sắc, như được giải thích
trong mục 2 và mở rộng các tính năng hình ảnh khác là có thể.
• Một thuật toán thực tế, được gọi là JSEG, được đề xuất nhằm đạt được mục
tiêu phân khúc này. Khái niệm "J-Images" được giới thiệu trong phần 4. J-Images
tương ứng với số đo không đồng nhất hình ảnh địa phương ở các quy mô khác
nhau. Các thung lũng trong hình ảnh tương ứng với khu vực đồng nhất và các đỉnh

Phương Văn Cảnh – D4CNTT Page 8
Báo cáo thực tập
núi tương ứng với vị trí ranh giới tiềm năng. Một thuật toán phân chia không gian
sau đó được mô tả trong phần 5, trong đó phát triển vùng từ thung lũng của J-hình
ảnh để đạt được phân đoạn.
Hình 2.1 cho thấy một sơ đồ của thuật toán JSEG.
Hinh 2. 1: Sơ đồ thuật toán JSeg.
2.2 TIÊU CHÍ ĐỂ PHÂN ĐOẠN
Đầu tiên, màu sắc trong bức ảnh được lượng tử thô mà không làm giảm đáng
kể chất lượng màu sắc. Mục đích là để trích xuất một vài màu sắc đại diện có thể
được sử dụng để phân biệt các vùng lân cận trong hình ảnh. Thông thường, 10-20
màu sắc là cần thiết trong những hình ảnh của cảnh quan thiên nhiên. Một lượng tử
màu sắc tốt quan trọng đối với quá trình phân đoạn sau này.
Phương Văn Cảnh – D4CNTT Page 9
Báo cáo thực tập
Sau khi lượng tử hóa, màu sắc lượng tử được gán nhãn. Một lớp màu là tập
hợp các điểm ảnh của hình ảnh đã lượng tử có cùng màu. Các pixel màu sắc của
hình ảnh được thay thế bằng nhãn lớp màu tương ứng của chúng. Hình ảnh mới
được xây dựng của nhãn được gọi là một class-map. Ví dụ về các lớp bản đồ được
thể hiện trong Hình 2.2, nơi mà các giá trị nhãn được đại diện bởi ba biểu tượng, '*',
'+', và 'o'. Các thông tin màu sắc cần thiết để phân đoạn được trích xuất và được lưu
trữ trong một đơn giản class-map sau khi lượng tử hóa màu sắc. Thông thường, mỗi
khu vực hình ảnh có những điểm ảnh từ một tập hợp nhỏ của các lớp màu và mỗi
lớp được phân phối trong một vài khu vực hình ảnh.
Hinh 2. 2: Một ví dụ khác nhau của class-map và các độ đo J tương ứng của
chúng. '+', 'o', và '*' chỉ ra ba lớp học của điểm dữ liệu.
Các lớp bản đồ có thể được xem như là một tập hợp các điểm dữ liệu không
gian nằm trong một mặt phẳng 2-D. Giá trị của mỗi điểm là vị trí điểm ảnh, một
vector 2-D (x, y). Các điểm dữ liệu đã được phân loại và mỗi điểm được chỉ định
một nhãn, đó là giá trị của lớp bản đồ tại vị trí hình ảnh. Trong phần tiếp theo, một

tiêu chuẩn "tốt" để phân đoạn sử dụng các điểm dữ liệu không gian được đề xuất.
Trước khi tiếp tục, chúng ta đầu tiên hãy xem xét giá trị J được định nghĩa như
sau. Gọi Z là tập hợp của tất cả các điểm dữ liệu tồn tại trong các lớp bản đồ. Gọi
z = (x, y), z Z và m là được định nghĩa là :
Phương Văn Cảnh – D4CNTT Page 10
(2.1)
(2.2)
(2.3)
(2.4)
(2.5)
(2.2)
Báo cáo thực tập
Giả sử Z được phân loại vào các lớp C, , i = 1, , C. Gọi được định
nghĩa là giá trị trung bình của điểm dữ liệu của lớp ,
Gọi

Độ đo J được tính như sau:
Nó về cơ bản độ đo khoảng cách giữa các lớp khác nhau trên khoảng cách
giữa các phần tử trong mỗi lớp , một ý tưởng tương tự như đa lớp phân biệt
tuyến tính của Fisher [6], nhưng đối với phân phối lớp phi tuyến tùy ý. Một giá trị
cao hơn của J chỉ ra rằng các lớp là độc lập hơn với nhau và các thành viên trong
mỗi lớp là gần gũi nhau hơn, và ngược lại.
Đối với trường hợp khi một hình ảnh bao gồm một số vùng màu đồng nhất,
các lớp màu được độc lập hơn với nhau và giá trị của J là lớn. Mặt khác, nếu tất cả
các lớp màu được phân bố đều trên toàn bộ hình ảnh, giá trị của J có xu hướng nhỏ.
Ví dụ, trong Hình 2.2, ba lớp bản đồ được hiển thị, tương ứng với ba trường hợp
nêu trên. Có ba lớp trong mỗi bản đồ và số lượng các điểm trong mỗi lớp là như
nhau cho tất cả ba bản đồ. Nhận thấy rằng các giá trị J là khác nhau đáng kể cho ba
trường hợp.
Phương Văn Cảnh – D4CNTT Page 11

(2.6)
Báo cáo thực tập
Xem xét class-map 1 từ Hình 2.2, một phân đoan "tốt" cho trường hợp này sẽ
là ba khu vực riêng có một lớp duy nhất của các điểm dữ liệu. Class-map 2 là thống
nhất bởi chính nó và không phân chia là hợp lý. Với class-map 3, một phân đoạn
"tốt" sẽ là hai khu vực. Một khu vực có lớp "+" và một trong những khác chứa các
lớp '*' và 'o'. Việc phân định các lớp bản đồ 1 và 3 được thể hiện trong Hình 2.3.
Hinh 2. 3: Phân đoạn class-map và giá trị tương ứng của chúng.
Bây giờ chúng ta tính toán lại J trên từng khu vực phân đoạn thay vì toàn bộ
lớp bản đồ và xác định mức trung bình bằng:
Trong đó là J tính toán trên khu vực k, là số điểm trong khu vực k, N là
tổng số điểm trong các lớp bản đồ, và tổng kết là trên tất cả các khu vực trong các
class-map. Lưu ý rằng J có thể được coi là một trường hợp đặc biệt của mà chỉ có
một khu vực phân đoạn.
Đề xuất là tiêu chí để tối thiểu hóa trong tất cả các cách có thể phân chia các
hình ảnh. Đối với một số cố định của khu vực, phân đoạn "tốt hơn" có xu hướng có
Phương Văn Cảnh – D4CNTT Page 12
Báo cáo thực tập
giá trị thấp hơn của . Nếu phân đoạn là tốt, từng khu vực phân đoạn có chứa một
vài lớp màu phân bố đồng đều và kết quả là giá trị J cho khu vực đó là nhỏ. Do đó,
tổng thể cũng nhỏ.
Các giá trị của tính cho class-map 1 và 3 được thể hiện trong Hình 2.3. Rõ
ràng trong trường hợp của lớp bản đồ 1 rằng bất kỳ cách khác để phân chia bản đồ
thành ba khu vực sẽ có một giá trị lớn hơn so với hiện tại vì là không âm. Điều
này cũng đúng đối với trường hợp của lớp bản đồ 3 bởi vì nếu có một số lượng lớn
các điểm trên bản đồ, J {*, o} cũng xấp xỉ bằng 0. Trực giác, cho rằng ranh giới
phân chia nhỏ được thay đổi như vậy mà một khu vực được bổ sung thêm một khu
vực từ một vùng khác. Giá trị J cho các khu vực bị trừ số vẫn là 0, trong khi giá trị J
cho các khu vực khác tăng lên do các tạp chất thêm. Vì vậy, các phân đoạn mới sẽ
gây ra một giá trị lớn hơn của .

2.3 J-IMAGES.
Giảm thiểu giá trị cho toàn bộ hình ảnh là không thực tế. Tuy nhiên, nhận
thấy một thực tế là J, nếu áp dụng cho một khu vực địa phương của lớp bản đồ,
cũng là một chỉ số tốt cho dù khu vực đó nằm ở trung tâm khu vực hoặc gần khu
vực biên. Bây giờ chúng tôi giới thiệu các khái niệm về một J-Images:
J-Images là một hình ảnh xám có giá trị điểm ảnh là những giá trị J tính toán
trên các cửa sổ địa phương tập trung vào các điểm ảnh.
Trong phần còn lại, các giá trị J sẽ được gọi là giá trị J địa phương. Một giá trị
J địa phương cao, nhiều khả năng rằng các điểm ảnh này gần biên của khu vực hơn.
J-Images giống như một bản đồ địa hình 3-D có chứa các thung lũng và núi mà
tương ứng đại diện cho các trung tâm khu vực và biên khu vực.
Phương Văn Cảnh – D4CNTT Page 13
Báo cáo thực tập
Hinh 2. 4: (a) cửa sổ cơ bản để tính toán giá trị J địa phương. (b) minh họa
xuống lấy mẫu cho các cửa sổ ở quy mô 2. Chỉ điểm '+' được sử dụng để tính toán
giá trị J địa phương, hình thành các cửa sổ cơ bản tương tự như trong (a).
Kích thước của cửa sổ địa phương xác định kích thước của vùng hình ảnh có
thể được phát hiện. Cửa sổ có kích thước nhỏ rất hữu ích trong địa hóa mật độ / màu
sắc cạnh, trong khi các cửa sổ lớn có ích cho việc phát hiện ranh giới kết cấu.
Thông thường, nhiều quy mô khác nhau là cần thiết để phân đoạn một hình ảnh.
Cửa sổ cơ bản ở quy mô nhỏ nhất là 9 x 9 cửa sổ không có các góc, như thể hiện
trong Hình 2.4 (a). Các góc được loại bỏ để làm cho cửa sổ tròn hơn như vậy mà sự
lựa chọn của cửa sổ không có bất kỳ xu hướng thiên về đối tượng hình chữ nhật.
Quy mô nhỏ nhất được ký hiệu là tỷ lệ 1. Từ quy mô 1, kích thước cửa sổ là tăng
gấp đôi mỗi lần để có được quy mô lớn hơn tiếp theo như được liệt kê trong Bảng
2.1.
Bảng 2. 1: Kích thước cửa sổ với các quy mô khác nhau.
Phương Văn Cảnh – D4CNTT Page 14
Báo cáo thực tập
2.4 THUẬT TOÁN PHÂN ĐOẠN KHÔNG GIAN.

Các đặc tính của J-Images cho phép chúng ta sử dụng một phương pháp tăng
trưởng vùng để phân đoạn hình ảnh. Hình 2.5 cho thấy một biểu đồ luồng của các
bước trong thuật toán phân đoạn không gian. Xem xét các toàn hình ảnh như một
khu vực ban đầu. Các thuật toán bắt đầu phân đoạn tất cả các khu vực trong hình
ảnh ở một quy mô lớn đầu tiên. Sau đó nó lặp đi lặp lại quá trình tương tự trên các
vùng mới được phân đoạn ở quy mô nhỏ hơn tiếp theo cho đến khi đạt ngưỡng.
Phương Văn Cảnh – D4CNTT Page 15
Báo cáo thực tập
Hinh 2. 5: Biểu đồ luồng của các bước trong phân đoạn không gian.
Bảng 1 liệt kê một tập hợp các quy mô và kích cỡ khu vực phù hợp với các
quy mô được sử dụng trong việc thực tế. Ví dụ, nếu kích thước hình ảnh lớn hơn
256 x 256, nhưng nhỏ hơn so với 512 x 512, quy mô ban đầu là 3. Người dùng chỉ
định số lượng quy mô cần thiết cho hình ảnh, xác định quy mô tối thiểu là kết thúc
chương trình.
Trên thực tế, giá trị J địa phương được tính cho mỗi khu vực cá nhân thay vì
toàn bộ hình ảnh. Sự khác biệt giữa điều này và J-hình ảnh được đề cập trong Phần
4 là gần ranh giới khu vực cửa sổ được cắt ngắn theo hình dạng của ranh giới để
tránh được nhiễu biên từ các vùng lân cận.
Phương Văn Cảnh – D4CNTT Page 16
(2.7)
Báo cáo thực tập
2.4.1 Xác định thung lũng.
Lúc đầu, một tập hợp các khu vực nhỏ ban đầu được xác định là cơ sở cho khu
vực phát triển. Các khu vực có giá trị J địa phương thấp nhất và được gọi là thung
lũng. Nói chung, việc tìm kiếm các thiết lập tốt nhất của thung lũng trong một khu
vực là một vấn đề không nhỏ. Các chẩn đoán đơn giản sau đây đã cung cấp kết quả
tốt trong các thí nghiệm:
1. Tính trung bình và độ lệch chuẩn của các giá trị J địa phương trong khu
vực, ký hiệu tương ứng là và .
2. Thiết lập một ngưỡng tại:

Pixel với các giá trị J địa phương ít hơn TJ được coi là điểm thung lũng ứng
cử viên. Kết nối các điểm thung lũng ứng cử viên dựa trên 4 kết nối và có được
thung lũng ứng cử viên.
3. Nếu một thung lũng ứng cử viên có kích thước lớn hơn kích thước tối thiểu
được liệt kê trong Bảng 1 ở quy mô tương ứng, nó được xác định là một thung lũng.
4. được chọn từ tập các giá trị cái mà cung
cấp cho hầu hết các thung lũng.
2.4.2 Phát triển thung lũng.
Các khu vực mới này sau đó được phát triển từ các thung lũng. Nó từ từ phát
triển các thung lũng từng pixel một. Một cách tiếp cận nhanh hơn được sử dụng
trong việc thực hiện việc sau:
1. Loại bỏ các “lỗ hổng” trong các thung lũng.
2. Tính trung bình các giá trị J địa phương trong phần chưa phân đoạn còn lại
của khu vực và kết nối pixel dưới mức trung bình để hình thành các vùng trồng.
Nếu một khu vực đang phát triển tiếp giáp với một và chỉ một thung lũng, nó được
gán cho thung lũng.
3. Tính toán giá trị J địa phương cho các điểm ảnh còn lại ở quy mô nhỏ hơn
bên cạnh xác định vị trí chính xác hơn các ranh giới. Lặp lại bước 2.
4. Phát triển các điểm ảnh còn lại từng cái một ở quy mô nhỏ. Pixel được phân
loại ở ranh giới thung lũng được lưu trữ trong một bộ đệm. Mỗi lần, các điểm ảnh
Phương Văn Cảnh – D4CNTT Page 17
Báo cáo thực tập
với giá trị J địa phương tối thiểu được phân công lân cận "thung lũng" và bộ đệm
được cập nhật cho đến khi tất cả các điểm ảnh được phân loại.
2.4.3 Hợp nhất vùng.
Sau khi tăng trưởng vùng, một phân đoạn ban đầu của hình ảnh thu được. Nó
thường có các khu vực phân đoạn thừa. Những vùng này được sáp nhập dựa trên
tương tự màu sắc của chúng. Những màu sắc lượng tử là những bin biểu đồ màu tự
nhiên. Các đặc trưng của biểu đồ màu cho từng vùng được trích lập và khoảng cách
giữa các đặc trưng này có thể được tính toán. Kể từ khi màu sắc rất thô lượng tử

hóa, trong thuật toán của chúng tôi giả định rằng không có mối tương quan giữa các
màu sắc lượng tử. Do đó, một biện pháp khoảng cách Euclid được áp dụng trực
tiếp.
Một phương pháp kết tụ [6] được sử dụng để hợp nhất các khu vực. Đầu tiên,
khoảng cách giữa hai khu vực lân cận được tính toán và lưu trữ trong một bảng
khoảng cách. Cặp của khu vực với khoảng cách tối thiểu được sáp nhập với nhau.
Các tính năng màu vector cho khu vực mới được tính toán và bảng khoảng cách
được cập nhật. Quá trình này tiếp tục cho đến khi một ngưỡng tối đa cho khoảng
cách đạt được. Sau khi sáp nhập, thu được các kết quả phân đoạn cuối cùng.
2.5 KẾT LUẬN CHƯƠNG 2.
Trong phần này, một cách tiếp cận mới cho phân vùng ảnh màu hoàn toàn tự
động, được gọi là JSEG, được trình bày. Các phân đoạn bao gồm các lượng tử màu
và phân đoạn không gian. Một tiêu chí cho phân đoạn "tốt" được đề xuất. Áp dụng
tiêu chuẩn cho các cửa sổ hình ảnh địa phương kết quả trong J-Images, có thể được
phân đoạn sử dụng một phương pháp phát triển khu vực đa quy mô.
Phương Văn Cảnh – D4CNTT Page 18

×