Tải bản đầy đủ (.pdf) (87 trang)

Nghiên cứu một số kỹ thuật đánh giá độ tương tự và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.88 MB, 87 trang )


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ




Vũ Xuân Hùng





NGHIÊN CỨU MỘT SỐ KỸ THUẬT

ĐÁNH GIÁ ĐỘ TƢƠNG TỰ VÀ ỨNG DỤNG









LUẬN VĂN THẠC SĨ







Hà Nội – 2006


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ


Vũ Xuân Hùng



NGHIÊN CỨU MỘT SỐ KỸ THUẬT
ĐÁNH GIÁ ĐỘ TƢƠNG TỰ VÀ ỨNG DỤNG



Ngành : Công nghệ thông tin
Mã số : 1.01.10


LUẬN VĂN THẠC SĨ


NGƯỜI HƯỚNG DẪN KHOA HỌC
TIẾN SĨ : NGUYẾN THỊ HỒNG MINH


Hà Nội – 2006


Mở đầu Vũ Xuân Hùng – K10T3

Luận văn tốt nghiệp cao học
- 3 -

LỜI CAM ĐOAN
Tôi xin cam đoan công trình nghiên cứu này là do chính tôi thực hiện dưới sự
hướng dẫn của Tiến sĩ Nguyễn Thị Hồng Minh, cán bộ giảng dạy Khoa sau đại học -
Đại học quốc gia Hà nội.

Tất cả các công thức, lời trích dẫn, kết quả lấy từ các bài báo, các công trình đã
công bố trong luận văn là hoàn toàn trung thực, đều có xuất xứ, nguồn gốc rõ ràng. Phần
xây dựng chương trình là do tôi tự viết trong đó có sử dụng một số các thuật toán công
bố công khai, các thư viện mã nguồn mở hợp lệ.

Hà Nội, ngày 15 tháng 11 năm 2006.

Học viên




VŨ XUÂN HÙNG
Mở đầu Vũ Xuân Hùng – K10T3

Luận văn tốt nghiệp cao học
- 4 -

LỜI CẢM ƠN
Lòng biết ơn chân thành và sâu sắc nhất tôi xin gửi đến cô giáo hướng dẫn: tiến

sĩ Nguyễn Thị Hồng Minh - Khoa Sau đại học - Đại học quốc gia Hà Nội, người đã tận
tình chỉ bảo và cung cấp những tài liệu quý giá cho tôi trong quá trình hình thành ý
tưởng, nghiên cứu, triển khai và hoàn thành bản luận văn này.
Tôi xin dành lời cảm ơn tới các thầy cô giáo, những người đã hết lòng giảng dạy,
truyền đạt những kiến thức quý báu cho tôi trong suốt quá trình học tập và nghiên cứu
khoa học tại trường.
Tôi cũng xin bày tỏ lời cảm ơn tới gia đình, bạn bè, những người đã khuyến
khích, động viên và tạo điều kiện cho tôi trong thời gian làm luận văn vừa qua.
Do điều kiện về thời gian và năng lực có hạn, luận văn chắc chắn sẽ không tránh
khỏi thiếu sót, tôi rất mong nhận được sự góp ý của các thầy cô giáo, các bạn và tất cả
những ai quan tâm đến vấn đề của luận văn này.
Học viên

VŨ XUÂN HÙNG
Mở đầu Vũ Xuân Hùng – K10T3

Luận văn tốt nghiệp cao học
- 5 -

MỤC LỤC
LỜI CAM ĐOAN 3
LỜI CẢM ƠN 4
MỞ ĐẦU 8
CHƢƠNG 1 – PHÂN TÍCH NỘI DUNG CỦA ẢNH 10
1. Nhận thức qua thị giác của con ngƣời 11
1.1. Giải phẫu học về mắt 12
1.2. Nhận thức của mắt về ảnh qua màu sắc, hình dạng, cấu trúc. 14
1.2.1. Nhận thức về màu sắc 14
1.2.2. Nhận thức về hình dạng 15
1.2.3. Nhận thức về cấu trúc 16

2. Các hệ màu cơ bản 16
2.1. RGB 17
2.2. CMY/CMYK 18
2.3. HSI 20
2.4. YC
b
C
r
21
3. Xác định độ đo nội dung ảnh 22
3.1. Độ đo thuộc tính màu sắc 22
3.1.1. Histogram 23
3.1.2. Moment màu 26
3.1.3. Vectơ gắn kết màu 26
3.1.4. Tương quan màu 27
3.2. Độ đo thuộc tính hình dạng 27
3.2.1. Cơ sở vùng 28
3.2.2. Cơ sở biên 31
3.3. Độ đo thuộc tính cấu trúc bề mặt 33
3.3.1. Các phương pháp không gian 34
3.3.2. Phương pháp tần số 35
3.3.3. Phương pháp moment 36
3.4. Độ đo qua bố cục không gian 38
CHƢƠNG 2 - ĐÁNH GIÁ ĐỘ TƢƠNG TỰ 44
1. Lý thuyết về độ tƣơng tự 44
Mở đầu Vũ Xuân Hùng – K10T3

Luận văn tốt nghiệp cao học
- 6 -


1.1. Tính “ghép đúng” và tính “tương tự” 44
1.2. Khái niệm về độ tương tự giữa hai ảnh 45
1.3. Độ đo tương tự 45
1.3.1. Các tiên đề về đo 45
1.3.2. Tập các lý thuyết về độ tương tự 47
2. Đánh giá độ tƣơng tự 50
2.1. Mô hình không gian vector VSM 50
2.1.1. Phép so sánh histogram 51
2.1.2. Phép so sánh qua giá trị điểm ảnh 55
2.2. Mô hình Vector 57
2.2.1. SVM 57
2.2.2. SVM trong kỹ thuật tra cứu ảnh 59
2.3. Mô hình k-phần tử kề cận (k-NN) 62
2.3.1. Thuật toán k-NN 62
2.3.2. k-NN trong so khớp điểm ảnh 64
2.4. Mô hình kết hợp 65
CHƢƠNG 3 – ỨNG DỤNG 66
1. Ứng dụng trong các hệ thống tra cứu ảnh theo nội dung 66
1.1. Mô hình hoạt dộng 66
1.1.1. Bộ mô tả nội dung trực quan 66
1.1.2. Bộ so sánh đánh giá độ tương tự 67
1.2. Giới thiệu một số hệ thống tra cứu ảnh theo nội dung 68
1.2.1. QBIC 68
1.2.2. Blob World 68
1.2.3. SIMBA 68
1.2.4. GIFT 68
1.2.5. CIRES 69
1.2.6. Hệ phân lớp trước 69
1.2.7. IRMA 69
2. Ứng dụng trong quản lý đăng ký lôgô thƣơng mại 70

2.1. Giới thiệu bài toán 70
2.2. Xây dựng chương trình 70
Mở đầu Vũ Xuân Hùng – K10T3

Luận văn tốt nghiệp cao học
- 7 -

2.2.1. Lựa chọn môi trường 70
2.2.2. Phân tích về lôgô 70
2.2.3. Đánh giá độ tương tự về lôgô 71
2.2.4. Một số thuật toán sử dụng trong chương trình 72
2.2.5. Hướng dẫn sử dụng chương trình và kết quả 76
KẾT LUẬN 81
TÀI LIỆU THAM KHẢO 83
PHỤ LỤC - ẢNH LÔGÔ TRONG CƠ SỞ DỮ LIỆU 85

Mở đầu Vũ Xuân Hùng – K10T3

Luận văn tốt nghiệp cao học
- 8 -

MỞ ĐẦU
Trong những năm gần đây, lĩnh vực xử lý ảnh số ngày càng được nhiều người
quan tâm, sự phát triển nhanh chóng của các thiết bị đồ hoạ cũng như dung lượng của
các thiết bị lưu trữ ngày càng tăng nhanh là những nhân tố tích cực thúc đẩy nghiên
cứu các ứng dụng thực tế từ công nghệ xử lý ảnh.

Nhận dạng ảnh chính là việc dùng chương trình máy tính để phân tích nội dung
của ảnh. Có rất nhiều các hướng nghiên cứu xác định nội dung của ảnh cũng như phân
định các đối tượng thuộc bức ảnh. Các kết quả đạt được ở mỗi phương pháp đều có thể

được đưa vào ứng dụng trong thực tiễn để giải quyết một vấn đề cụ thể nào đó.

Với việc không còn bị hạn chế về độ lớn của bộ nhớ dùng để lưu trữ, vấn đề đặt ra
là khai thác kho dữ liệu ảnh như thế nào cho hiệu quả. Bằng trực quan con nguời có
thể dễ dàng hiểu được nội dung một bức ảnh, nhưng để máy tính cũng hiểu được nội
dung đó thì quả thực là một vấn đề khó. Ngay cả khi chúng ta hạn chế vấn đề ở chỗ chỉ
đem so sánh nội dung các bức ảnh với nhau theo góc độ đánh giá tính tương tự thì
cũng đã đặt ra nhiều vấn đề lớn cho việc nghiên cứu: so sánh dựa trên các đặc trưng
nào, giống nhau hay khác nhau ở mức độ bao nhiêu? Để tìm hiểu sâu hơn vấn đề này,
thực tế đặt ra cho chúng ta bài toán là hãy xác định xem liệu một đối tượng (được mô
tả dưới dạng ảnh – có thể là trích một phần từ một bức ảnh lớn hơn) có xuất hiện ở một
ảnh nào trong tập ảnh (cơ sở dữ liệu đầu vào) cho trước hay không? Trong các nghiên
cứu khoa học hiện nay, vấn đề này được xếp vào nhóm các kỹ thuật tra cứu ảnh theo
nội dung. Các kỹ thuật này cho phép trích chọn đặc điểm dựa vào nội dung trực quan
bao gồm màu sắc, kết cấu, hình dạng, bố cục không gian… của ảnh, từ đó làm cơ sở
cho việc tra cứu, sắp xếp, tổ chức cơ sở dữ liệu ảnh.

Nghiên cứu - tìm hiểu - đánh giá các phương pháp đã có để đi tìm lời giải cho bài
toán trên đây chính là nội dung của đề tài “Nghiên cứu một số kỹ thuật đánh giá độ
tương tự và ứng dụng”. Để đánh giá được độ tương tự của ảnh như đã phân tích,
trước hết là phải xác định được các độ đo nội dung cần thiết để so sánh, sau đó phải
xây dựng được hàm đánh giá. Đó chính là hai mục tiêu cơ bản được nghiên cứu trong
đề tài này. Trên cơ sở các nghiên cứu đó, đề tài sẽ thử nghiệm một phương pháp cụ thể
để xây dựng một chương trình phần mềm cho phép tra cứu một mẫu lôgô thương mại
xem nó đã có hay chưa có trong kho cơ sở dữ liệu về ảnh lôgô thương mại đã lưu trữ
Mở đầu Vũ Xuân Hùng – K10T3

Luận văn tốt nghiệp cao học
- 9 -


(đã đăng ký) bằng cách liệt kê ra 20 mẫu lôgô có nội dung ảnh gần giống nhất với mẫu
lôgô đưa vào, qua đó cho phép người dùng quan sát và quyết định có cho đăng ký (lưu
trữ) mẫu lôgô đó hay không. Vì vậy, nội dung chính của luận văn được trình bày theo
cấu trúc như sau:

Chương 1 : Phân tích nội dung của ảnh
Nội dung chương này đi vào phân tích các chi tiết cấu thành nội dung của bức ảnh
theo khía cạnh nhận thức của thị giác con người. Sau khi tìm hiểu sơ qua về giải phẫu
học cùng các nguyên lý cảm nhận của mắt người, luận văn giới thiệu các phương pháp
cũng như các vector đặc trưng dùng để mô tả nội dung của một bức ảnh. Đây chính là
cơ sở để chúng ta thực hiện các phép tính toán so sánh các bức ảnh với nhau ở
chương 2.

Chương 2 : Đánh giá độ tương tự
Đưa ra các kỹ thuật đánh giá độ tương tự giữa các bức ảnh dựa trên độ đo nội
dung ảnh (vector đặc trưng). Tính đến nay, đã có rất nhiều các kỹ thuật được giới
thiệu. Để hệ thống hoá và phân loại, các kỹ thuật này sẽ được trình bày theo tiêu chí
phân loại các mô hình độ tương tự.

Chương 3 : Ứng dụng
Giới thiệu một số hệ thống, một số chương trình ứng dụng đã sử dụng các kỹ thuật
đánh giá độ tương tự có trong chương 2. Tiếp đó là một chương trình phần mềm tự xây
dựng nhằm mô phỏng cho các lý thuyết đã đề cập trong luận văn.

Chƣơng 1 Vũ Xuân Hùng – K10T3

Luận văn tốt nghiệp cao học
- 10 -

CHƢƠNG 1 – PHÂN TÍCH NỘI DUNG CỦA ẢNH

Tra cứu ảnh dựa theo nội dung (Content Based Image Retrieval - sau đây sẽ viết
tắt là CBIR) là kỹ thuật dựa trên nội dung trực quan của ảnh để tra cứu ảnh trong cơ sở
dữ liệu. Tuỳ theo mục đích người dùng, kỹ thuật này đã được nghiên cứu và có những
bước tiến nhanh chóng từ những năm 1990. Trong những năm cuối thập kỷ trước, một
vài chương trình phần mềm đã đạt được một số kết quả nhất định, thể hiện trên cả lĩnh
vực nghiên cứu lý thuyết và phát triển hệ thống. Tuy nhiên vẫn còn những vấn đề
thách thức trong nghiên cứu, chúng tiếp tục hấp dẫn các nhà nghiên cứu từ nhiều lĩnh
vực khác nhau.

Chúng ta hãy điểm qua về lịch sử phát triển kỹ thuật này. Trước tiên hãy quay lại
cuối những năm thập kỷ 1970. Vào năm 1979, một hội nghị về “Cơ sở dữ liệu hình
ảnh” được tổ chức ở Florence đã tập trung nhận định và đánh giá cao tiềm năng ứng
dụng về kỹ thuật quản lý cơ sở dữ liệu hình ảnh. Thực tế đã cho thấy từ đó đến nay vấn
đề này luôn thu hút sự quan tâm của các nhà nghiên cứu. Ban đầu, các kỹ thuật quản lý
và tra cứu ảnh nhìn chung đều không dựa trên các đặc trưng trực quan mà nó chủ yếu
dựa trên các chú giải bằng văn bản của bức ảnh. Nói cách khác, các bức ảnh trước tiên
được ghi chú bằng các đoạn văn bản, sau đó thông tin của bức ảnh sẽ được lưu trữ vào
cơ sở dữ liệu dựa trên các mô tả văn bản đó. Thông qua sự mô tả bằng ngôn ngữ văn
bản, các hình ảnh có thể được sắp xếp theo thứ tự về chủ đề hoặc ngữ nghĩa nhằm tạo
thuận lợi cho các chuẩn tra cứu lô-gic. Tuy nhiên, do việc mô tả bằng văn bản đối với
các chuỗi hình ảnh rất phức tạp và sẽ là không khả thi bởi hầu hết các hệ thống thu
thập hình ảnh dựa trên cơ sở văn bản chữ viết đòi hỏi phải có sự chú thích bằng thủ
công cho mỗi bức ảnh đưa vào. Rõ ràng, việc chú thích các hình ảnh theo phương pháp
này là một nhiệm vụ nặng nề và chi phí đối với các cơ sở dữ liệu hình ảnh lớn là rất
cao, ngoài ra nó còn mang tính chủ quan, thiếu hoàn thiện và phụ thuộc vào nhiều yếu
tố ngoại cảnh, do đó rất khó hỗ trợ các tra cứu hoặc khai thác về sau.

Đầu thập kỷ 1990, cùng với những tiến bộ của Internet và các công nghệ mới về
cảm biến hình ảnh số, các ứng dụng khoa học, giáo dục, y tế, công nghệ và các ứng
dụng khác đưa ra các bức ảnh có dung lượng tăng đột biến. Các khó khăn của việc thu

thập hình ảnh dựa trên cơ sở văn bản ngày càng trở nên rõ ràng. Việc quản lý hiệu quả
thông tin trực quan được mở rộng nhanh chóng từng ngày đã trở thành một vấn đề cấp
bách. Điều đó tạo ra động lực thúc đẩy sự xuất hiện của các kỹ thuật thu thập hình ảnh
dựa trên cơ sở nội dung. Năm 1992, Trung tâm Khoa học Quốc gia Mỹ đã tổ chức một
Chƣơng 1 Vũ Xuân Hùng – K10T3

Luận văn tốt nghiệp cao học
- 11 -

cuộc hội thảo về hệ thống quản lý thông tin trực quan nhằm xác định một hướng đi
mới trong hệ thống quản lý cơ sở dữ liệu hình ảnh. Người ta nhận thức được rằng có
một cách hiệu quả và mang tính trực giác hơn để thể hiện và chú dẫn thông tin trực
quan, đó là dựa trên các thuộc tính vốn có của bản thân các hình ảnh.

Các nhà nghiên cứu trong các lĩnh vực trực quan máy tính, quản trị cơ sở dữ liệu,
giao tiếp người-máy, tra cứu thông tin rất quan tâm đến vấn đề này. Vì vậy nghiên cứu
về tra cứu ảnh phát triển rất nhanh. Tính đến năm 1997 người ta thống kê được một
con số khổng lồ các nghiên cứu công bố các kỹ thuật trích chọn thông tin ảnh, tổ chức,
chỉ số hoá ảnh, tra cứu và tương tác người dùng, quản trị cơ sơ dữ liệu ảnh. Tương tự
như vậy, một số lượng lớn các hệ thống tra cứu thương mại hoá và nghiên cứu đã được
phát triển bởi các trường đại học, các tổ chức chính phủ, các công ty và các bệnh viện.
Tra cứu ảnh theo nội dung là sử dụng nội dung trực quan của ảnh như màu sắc, hình
dạng, cấu trúc và tương quan không gian để thể hiện và số hoá cho ảnh. Trong một hệ
tra cứu ảnh điển hình nói chung, các nội dung trực quan của ảnh lưu trong cơ sở dữ
liệu được trích chọn và mô tả theo các vector đặc trưng nhiều chiều. Các vector đặc
trưng của ảnh trong cơ sở dữ liệu ảnh tạo nên cơ sở dữ liệu các đặc trưng. Để tra cứu
ảnh, người dùng đưa ra một ảnh cần tra cứu. Hệ thống sau đó sẽ chế mẫu này thành
các vector đặc trưng, sau đó so sánh vector đặc trưng này với vector đặc trưng của
từng hình ảnh sẵn có trong cơ sở dữ liệu với sự hỗ trợ của sơ đồ chỉ số hoá. Tất nhiên
việc nghiên cứu các phương pháp trích chọn vector đặc trưng cho ảnh phải dựa trên cơ

sở nhận thức trực quan qua thị giác của con người, do đó chúng ta tìm hiểu thêm về
vấn đề này qua phần dưới đây.

1.

Nhận thức qua thị giác của con ngƣời
Rõ ràng việc nghiên cứu về sự nhận thức của thị giác con người đóng vai trò quan
trọng trong việc phát triển các ứng dụng tra cứu ảnh. Nhận biết trực giác trước một bức
ảnh độc lập có thể rất mông lung, song khi cần có sự liên hệ so sánh với một bức ảnh
khác, nhận thức có thể dẫn đến việc xem xét lựa chọn các đặc tính cụ thể nào đó, sau
đó bằng tri thức, ước lượng đánh giá độ tương tự ra sao. Chi tiết về lý thuyết nhận thức
tri giác không đề cập kỹ ở đây, song một số khía cạnh quan trọng liên quan đến màu
sắc, hình dạng và cấu trúc bề mặt sẽ được đề cập một cách ngắn gọn. Liên quan đến
nhận thức nội dung trực quan, trước tiên chúng ta xem xét tới một tính chất hữu dụng
của hệ thống trực giác con người, đó là khái niệm giới hạn bên. Sau đó ta sẽ xem xét
xem hệ thống trực giác đó quan sát ra sao. Cuối cùng sẽ là liên hệ so sánh việc đánh
giá tương tự giữa một hệ thống CBIR và con người.
Chƣơng 1 Vũ Xuân Hùng – K10T3

Luận văn tốt nghiệp cao học
- 12 -


1.1.

Giải phẫu học về mắt
Để hiểu được mắt người nhận biết được thế giới xung quanh như thế nào, một điều
cần biết cốt yếu là tìm hiểu giải phẫu học về mắt, về các hệ thần kinh nhận biết tín hiệu
và ánh sáng của mắt. Hình 1 cho ta thấy các bộ phận chính của mắt người. Khi ánh
sáng tới mắt người, nó trước tiên xuyên qua giác mạc sau đó tới thấu kính, tiếp theo là

tới phần thuỷ tinh thể và cuối cùng tiếp cận tới võng mạc. Võng mạc bao gồm hàng
triệu các tế bào cảm nhận ánh sáng nó có thể nhận biết được các tia sáng và chuyển
chúng thành các xung điện. Các xung điện này sẽ di chuyển dọc theo các thần kinh thị
giác quang học trên võng mạc rồi đi đến não, tại đó chúng lại được chuyển thành hình
ảnh. Ở mỗi bước xử lý, mỗi tế bào trên võng mạc sinh ra một tín hiệu liên quan đến
cường độ ánh sáng đi tới từ điểm tương ứng trên vật quan sát. Các tế bào cảm nhận
này đáp ứng đối với các vùng tín hiệu sáng trên vật thể là tốt hơn so với các tín hiệu
vùng tối [2].


Hình 1 – Giải phẫu mắt

Các tín hiệu thu được từ ánh sáng sẽ chuyển vào các tế bào, không được gửi trực
tiếp đến não trên các dây thần kinh thị giác nhưng nó được xử lý trước theo một số
cách bởi một loạt các tế bào thần kinh trên võng mạc, trong số đó phải kể đến mạng
giới hạn bên (The lateral inhibition network). Hình 2 đưa ra một mô tả đơn giản vể
mạng giới hạn bên. Tuy thực chất võng mạc ở người có 3 lớp nơron không giống như
hình vẽ thể hiện nhưng việc mô tả chức năng thì giống như nhau.


Chƣơng 1 Vũ Xuân Hùng – K10T3

Luận văn tốt nghiệp cao học
- 13 -


Hình 2 – Sơ đồ nhận biết ánh sáng của võng mạc

Mạng giới hạn bên có thể được mô hình hoá bởi một bộ lọc thông cao, cho phép
phát hiện vùng biên (vùng có biến thiên cường độ sáng lớn). Sơ đồ Hình 2 mô tả một

phần nhỏ của võng mạc, trong đó mẫu thay đổi độ sáng từ tối đến sáng, như ta thấy
trên phía trên đỉnh hình vẽ. Các hình chữ nhật mô tả các tế bào quang học, mỗi tế bào
đó sẽ sinh ra các tín hiệu tương ứng xấp xỉ với lượng ánh sáng nó thu được. Các hình
tròn mô tả các nơron đầu ra của võng mạc, tín hiệu từ đó sẽ được chuyển tới não qua
dây thần kinh thị giác. Mỗi nơron đầu ra cho thấy nó nhận được kích thích từ đầu vào
trên một tế bào cảm nhận ánh sáng (các đường dọc) cùng với sự tham gia của tín hiệu
vào từ các tế bào cảm nhận ánh sáng liền kề (đường chéo). Đây chính là hạn chế lan
truyền kế bên và cũng là lý do nó có tên là mạng “hạn chế bên”. Phía dưới sơ đồ thể
hiện các tín hiệu đầu ra của các nơron. Các nơron đầu ra ở sát bên phải đường ranh
giới sáng/tối sẽ được kích thích bởi một tế bào cảm quang phủ bên trên nhưng cũng bị
hạn chế bởi các tế bào cảm quang phát sáng tương tự liền kề. Điều tương tự cũng xảy
ra với phần bên trái đường ranh giới sáng/tối.

Vì vậy, giả thiết rằng mạng này được tổ chức sao cho sự phát sáng tương đương
giữa tế bào cảm quang kích thích và tế bào cảm quang hạn chế là cân bằng hoàn toàn,
mọi nơron đầu ra ở sâu bên trong đều có chung các tín hiệu đầu ra. Chỉ có các nơron
gần ranh giới sáng/tối là có các tín hiệu đầu ra khác nhau. Khi 1 điểm ảnh nằm trong
ranh giới sáng/tối phía bên trái (phía tối), các tín hiệu sẽ giảm xuống do hạn chế bởi
các tế bào cảm quang được chiếu sáng hơn ở bên phải sẽ làm giảm kích thích từ các tế
bào cảm quan phủ bên trên vốn không được chiếu sáng bằng. Khi một điểm ảnh nằm ở
bên phải ranh giới (phía sáng), các tín hiệu sẽ tăng lên do kích thích từ các tế bào cảm
quang được chiếu sáng nhiều hơn sẽ không hoàn toàn bị bù trừ bởi hạn chế từ các tế
bào cảm quang được chiếu sáng ít hơn ở phía bên trái.

Chƣơng 1 Vũ Xuân Hùng – K10T3

Luận văn tốt nghiệp cao học
- 14 -

1.2.


Nhận thức của mắt về ảnh qua màu sắc, hình dạng, cấu trúc.
1.2.1. Nhận thức về màu sắc
Màu sắc chỉ có thể được nhận biết khi hội tụ đủ 3 yếu tố : người quan sát, vật thể
và ánh sáng. Mặc dù ánh sáng trắng thường được ngầm hiểu như là một màu sắc,
nhưng thực ra nó bao gồm tất cả các màu sắc trong phổ ánh sáng nhìn thấy được (Hình
3). Khi một tia sáng trắng đi tới vật thể, một số trong các thành phần đó được vật hấp
thụ, chỉ có các thành phần phản xạ là được phát tán tới mắt người quan sát mà do đó
người quan sát nhận thức được màu sắc trên vật thể.


Hình 3 – Phân tích phổ của ánh sáng trắng

Mắt người cảm nhận vùng phổ này thông qua sự kết hợp từ sự nhận biết của các tế
bào hình trụ và các tế bào hình nón. Các tế bào hình trụ nhận biết ánh - sáng - yếu tốt
hơn, nhưng chúng chỉ có thể cảm nhận được các ánh sáng cường độ cao trong khi các
tế bào hình nón có thể phân biệt được màu sắc và hoạt động tốt nhất với ánh - sáng -
mạnh. Có 3 loại tế bào hình nón tương ứng rất nhạy với các ánh sáng có bước sóng
ngắn (S), trung bình (M) và dài (L). Tập các tín hiệu có thể nhận biết được qua 3 loại
tế bào nón trên sẽ cho ta vùng màu sắc mà mắt người có thể nhận biết. Hình 4 mô tả
quan hệ độ nhạy cảm của 3 loại tế bào nón đối với vùng phổ ánh sáng nhìn thấy (có
bước sóng ~ 400 nm - 700 nm).

Hình 4 – Độ cảm nhận của 3 loại tế bào nón trên phổ ánh sáng nhìn thấy
Chƣơng 1 Vũ Xuân Hùng – K10T3

Luận văn tốt nghiệp cao học
- 15 -



Trên cơ sở của 3 loại tế bào nón nhận biết màu sắc này người ta đưa ra hệ màu dựa
trên cơ sở 3 màu RGB (Red, Green, Blue). Chúng ta sẽ tìm hiểu kỹ hơn các hệ màu
trong phần 2. của chương này.

1.2.2. Nhận thức về hình dạng
1.2.2.1.

Lý thuyết cổ điển về nhận thức hình dạng
Từ trước đến nay, các lý thuyết cổ điển về nhận thức trực giác vốn gây rất nhiều
tranh cãi. Ban đầu, trường Tâm lý Gestalt đóng vai trò tiên phong trong phương pháp
tiếp cận rất mới đối với dạng tri thức về trực giác bằng cách đưa ra một số các luật về
các dạng trực giác này. Trong tất cả các luật này, các dạng trực giác được xem xét một
cách tổng thể. Ngược lại với Gestalt, Hebb lại lập luận rằng dạng trực giác không thể
được xem xét theo tổng thể mà phải theo từng phần. Bởi vậy, vấn đề tìm hiểu và kết
hợp mọi khía cạnh về nhận thức đóng vai trò quan trọng trong lý thuyết của Hebb.
Gibson lại phát triển một lý thuyết khác về nhận thức, ông tập trung vào vấn đề về sự
cảm nhận các vật thể ở góc độ 3D thực chứ không phải góc độ là hình chiếu 2D. Tuy
nhiên, do những cách tiếp cận cổ điển này mang bản chất phi tính toán nên chúng
không tỏ ra hữu dụng đối với các hoạt động công nghệ [2].

1.2.2.2.

Lý thuyết hiện đại về nhận thức hình dạng
Trong hầu hết các lý thuyết hiện đại về nhận thức hình dạng, các tác giả đều thừa
nhận sự quan trọng của các vùng điểm có độ cong cao (HCP) - tạm hiểu là điểm quan
trọng đối với nhận thức trực giác. Các kỹ thuật dùng để tách ra các vùng điểm quan
trọng đó có thể được chia thành hai loại chính: một loại thực hiện việc tách các điểm
quan trọng dựa trên một ngưỡng (mức) nào đó và loại kia tách theo đa ngưỡng (nhiều
mức) khác nhau. Tuy nhiên, các kỹ thuật dùng một ngưỡng duy nhất có rất nhiều bất
tiện, để tìm được các chi tiết không thuộc loại quan trọng (thứ yếu), kỹ thuật này sẽ bỏ

qua một lượng lớn các góc tròn (cong không cao). Còn kỹ thuật đa ngưỡng không chỉ
tránh được những vấn đề nêu trên mà còn cung cấp các thông tin phụ về tầm quan
trọng “mang tính cấu trúc” của các vùng điểm cong cao.

Như đã biết, hệ thống trực giác của con người tập trung vào các đường biên và bỏ
qua các khu vực đồng nhất. Các hình ảnh này được đưa về võng mạc, nơi các dây thần
kinh hoạt động tương tự toán tử Laplacian. Hoạt động này như đã biết được gọi là hạn
chế kế cận bên và nó giúp chúng ta tách ra được đường biên của đối tượng [2].

Chƣơng 1 Vũ Xuân Hùng – K10T3

Luận văn tốt nghiệp cao học
- 16 -

1.2.3. Nhận thức về cấu trúc
Nhận thức cấu trúc bề mặt có vai trò quan trọng trong nhận thức của tri giác, được
tiếp cận theo hai hướng chính: theo đặc trưng và theo tần số.

1.2.3.1.

Tiếp cận theo đặc trƣng
Nhận thức trực giác hoạt động theo hai dạng là chú tâm và tiền chú tâm. Dạng tiền
chú tâm là quá trình song song và tức thời nhằm trích chọn ra các đặc trưng của đối
tượng. Nhận thức theo dạng này không phụ thuộc vào số lượng các đặc trưng và
thường bao quát một lĩnh vực tri giác lớn. Dạng chú tâm là một quá trình liên tục tích
hợp các đặc trưng riêng biệt ban đầu để tạo thành một đối tượng đơn nhất. Vùng nhận
thức của dạng chú tâm được hạn chế trong phạm vi về khoảng cách nhỏ, tựa như trong
việc nhận biết về hình dạng. Ở đây, các đặc trưng trích chọn mang ý nghĩa là cấu trúc
bề mặt, chẳng hạn như các hình chữ nhật, e-lip hoặc các đoạn thẳng với các màu sắc,
các góc định hướng, các bề rộng và bề dài xác định. Theo lý thuyết về cấu trúc bề mặt,

cái nhìn tiền chú tâm chỉ dẫn cái nhìn chú tâm tới các vị trí xuất hiện sự khác biệt về
cường độ cấu trúc nhưng nó lại bỏ qua các mối quan hệ vị trí giữa các cấu trúc này [2].

1.2.3.2.

Tiếp cận theo tần số
Lớp vỏ não tri giác của con người có rất nhiều tế bào riêng biệt để phản ứng với
các tần số và phương hướng khác nhau. Bộ lọc Gabor là một phương pháp phổ biến
được sử dụng trong việc hình dung cấu trúc bề mặt, bởi bộ lọc này có khả năng cho
phép khoanh vùng năng lượng đồng thời trong cả hai vùng không gian và tần số tựa
như vỏ não. Hàm phân rã Gabor cũng được sử dụng cả trong bộ mô tả cấu trúc bề mặt
đồng đều và bộ mô tả duyệt qua cấu trúc bề mặt. Bộ mô tả duyệt qua cấu trúc bề mặt
cũng sử dụng hai trong số các đặc trưng tựa như đặc trưng Tamura [2], các đặc trưng
đó được xem như là dấu hiệu cho nhận thức của tri giác.

2.

Các hệ màu cơ bản
Một mô hình màu (không gian màu) là cách để thể hiện các màu sắc và mối quan
hệ giữa chúng. Các hệ thống xử lý ảnh khác nhau sử dụng các không gian màu khác
nhau với những lý do khác nhau. Các bức ảnh tronh kỹ nghệ xuất bản sử dụng hệ màu
CMY. Màu sắc màn hình CRT và đa số các hệ thống máy tính đồ hoạ sử dụng hệ màu
RGB. Các hệ thống phân chia màu sắc, độ bão hoà, cường độ sáng thường sử dụng hệ
màu HSI.

Chƣơng 1 Vũ Xuân Hùng – K10T3

Luận văn tốt nghiệp cao học
- 17 -


Nhận thức của con người về màu là một hàm đáp ứng 3 chiều hình nón. Vì vậy,
các hệ màu đều dựa trên 3 con số. Các con số này gọi là bộ ba các giá trị kích thích.
Chúng ta sẽ làm rõ các hệ màu RGB, CMY, HIS và YCbCr ở phần tiếp theo.

Có nhiều hệ màu dựa trên các giá trị kích thích. Hệ màu YIQ được sử dụng trong
truyền hình. Hệ XYZ không tương thích với vật lý thực tại nhưng lại được sử dụng
làm chuẩn. Có thể dễ dàng chuyển đổi hệ màu XYZ sang một hệ màu khác bằng cách
nhân ma trận. Một số hệ màu khác nữa là Lap, YUV, UVW.

Tất cả các không gian màu vừa đề cập tới đều được được chuẩn hoá (các giá trị
màu sắc nằm trong khoảng 0 – 1.0). Điều này được thực hiện đơn giản bằng cách chia
cho giá trị màu lớn nhất. Ví dụ, màu 8-bit được chuẩn hoá bằng cách chia cho 255.

2.1.

RGB
Không gian màu RGB gồm 3 thành phần chính: đỏ, xanh lá cây, và xanh da trời
(Red, Green, Blue). Các thành phần phổ của các màu này kết hợp lại để cho ra màu sắc
tổng hợp [5].

Mô hình RGB được biểu diễn bởi hình lập phương 3 chiều tương ứng với các màu
chính Red, Green và Blue theo các góc trên mỗi trục (Hình 5) Màu đen đặt ở gốc. Màu
trắng tại cuối đối diện của gốc hình hộp. Đường chéo từ đen đến trắng mô tả mức xám.
Trong hệ đồ họa 24-bit với 8 bit/một kênh màu, màu red là (255,0,0), và trên hình hộp
màu đó là (1,0,0).

Red=(1,0,0)
Black=(0,0,0)
Magenta=(1,0,1)
Blue=(0,0,1)

Cyan=(0,1,1)
White=(1,1,1)
Green=(0,1,0)
Yellow=(1,1,0)


Hình 5 - Khối màu RGB

Chƣơng 1 Vũ Xuân Hùng – K10T3

Luận văn tốt nghiệp cao học
- 18 -

Mô hình màu RGB đơn giản hóa thiết kế của hệ thống đồ họa máy tính nhưng nó
không lý tưởng cho tất cả các ứng dụng. Các thành phần màu bao gồm red, green và
blue là liên quan chặt chẽ với nhau. Điều đó khiến cho khó có thể thực thi một số thuật
toán xử lý ảnh. Nhiều kỹ thuật xử lý – chẳng hạn như đồng hóa histogram, chỉ thực thi
trên thành phần cường độ sáng cao của ảnh. Xử lý này chỉ thực hiện được dễ dàng khi
sử dụng hệ màu HSI.

Nhiều khi buộc phải chuyển đổi một ảnh RGB thành một ảnh mức xám, có thể là
do yêu cầu cho ta một bản in từ máy in đen trắng. Để chuyển một ảnh từ RGB sang
ảnh xám, sử dụng công thức sau:
Cường độ mức sáng = 0.299R + 0.587G + 0.114B
Công thức này lấy từ chuẩn NTSC cho độ chói sáng.

Một cách khác để chuyển đổi màu RGB sang mức xám là sử dụng công thức tính
bình quân:
Cường độ mức sáng = 0.333R + 0.333G + 0.333B


2.2.

CMY/CMYK
Hệ màu CMY bao gồm các màu cyan (lục lam), magenta (đỏ tươi), và yellow
(vàng). Đó là các thành phần có trong hệ màu RGB bởi vì cyan, magenta và yellow là
các thành phần bù của red, green và blue tương ứng. Cyan, magenta và yellow được
coi là các màu bù cơ bản (the subtractive primaries). Các thành phần cơ bản này được
trích ra từ ánh sáng trắng để làm nên màu sắc mong muốn. Cyan thu hút red, magenta
thu hút green và yellow thu hút màu blue. Ta có thể tăng green trong ảnh bằng cách
tăng yellow và cyan hoặc bằng cách giảm màu magenta (bổ sung green) [5].

Do RGB và CMY là các phần bù nên có thể dễ dàng chuyển đổi giữa 2 hệ màu
này. Để chuyển từ RGB sang CMY, sử dụng phép trừ phần bù:
C = 1.0 – R
M = 1.0 - G
Y = 1.0 - B



Chƣơng 1 Vũ Xuân Hùng – K10T3

Luận văn tốt nghiệp cao học
- 19 -

Và từ CMY thành RGB:
R = 1.0 - C
G = 1.0 - M
B = 1.0 - Y

Phần lớn người ta hay dùng cách trộn màu cơ bản trong hệ màu RGB. Trẻ em

thường được dạy trộn các màu red và green sẽ cho ra màu brown. Trong hệ RGB, màu
red cộng với green cho ra màu yellow. Các hoạ sĩ giỏi thường dễ dàng tạo ra các màu
sắc mong muốn bằng cách kết hợp các thành phần bù cơ bản. Hệ màu CMY cho ta mô
hình màu bù.
Additive
Red

Blue
Green
Cyan
Magenta
Yellow
White
Substractive
Yellow
Magenta
Red
Green
Blue
Black
Cyan


Hình 6 - Màu cộng và màu trừ

Các giá trị trong biểu thức và không gian màu đều là các giá trị chuẩn hóa, các giá
trị đó đều nằm giữa 0.0 và 1.0. Trong hệ màu 24-bit, màu cyan sẽ bằng 255-red (Hình
6). Trong công nghệ in, người ta sẽ đưa thêm màu thứ 4 vào mô hình này.

Việc cộng ba màu C, M, Y với màu K (black) thường thấy trong xử lý in ấn. Một

mô hình khác là CMYK. Màu K được thêm vào trong xử lý in bởi vì nó làm đen hơn
so với việc kết hợp các với các thành phần màu khác. Độ đen thuần khiết cho độ tương
phản lớn hơn. Hơn thế nữa đó là do mực in màu đen có giá thành rẻ hơn mực màu.

Để chuyển đổi từ hệ CMY sang CMYK ta dùng công thức:
K = min(C, M, Y)
C = C - K
M = M - K
Y = Y - K
Chƣơng 1 Vũ Xuân Hùng – K10T3

Luận văn tốt nghiệp cao học
- 20 -


Để chuyển đổi từ CMYK thành CMY, chỉ việc cộng thành phần màu black vào
các thành phần C, M và Y.

2.3.

HSI
Vì màu sắc, độ bão hòa và cường độ là ba đặc tính dùng để mô tả màu sắc, nó
tương ứng với một hệ màu, đó là hệ HSI. Khi dùng không gian màu HSI, không cần
biết có bao nhiêu phần màu là blue hay green để cấu thành nên màu đó, chỉ đơn giản
điều chỉnh thành phần hue là có thể được màu sắc mong muốn. Để thay đổi độ đậm
màu red cho mực in, người ta điều chỉnh thành phần độ bão hòa. Để sẫm hơn hay sáng
hơn thì thay đổi thành phần về cường độ [5].

Có rất nhiều ứng dụng dùng hệ HSI. Máy ảo giác dùng hệ HSI trong việc xác định
các đối tượng có màu sắc khác nhau. Các ứng dụng xử lý ảnh, chẳng hạn như trong

các thao tác tính histogram, biến đổi cường độ, và các phép cuộn… sẽ được thực hiện
trên ảnh cường độ cao. Các thao tác này sẽ thực hiện được dễ dàng hơn đối với ảnh sử
dụng hệ màu HSI.

Hệ màu HSI được mô hình theo hệ tọa độ trụ, như Hình 7. Thành phần hue (H)
được biểu diễn là góc 0, giải từ 0
o
đến 360
o
. Thành phần độ bão hòa (S) tương ứng với
bán kính trụ, khoảng từ 0 đến 1. Cường độ (I) dọc theo trục Z với 0 là đen và
1 là trắng.
Khi S = 0, màu là xám với cường độ là 1. Khi S = 1, màu sắc phụ thuộc đường
biên của đỉnh nón cơ sở. Độ bão hòa càng lớn, màu sắc càng xa hơn white/gray/black
(tùy thuộc vào cường độ).

Điều chỉnh hue sẽ cho phép biến đổi màu sắc từ red ở 0
o
, đến green ở 120
o
, blue ở
240
o
, và black đến red ở 360
o
. Khi I = 0, màu là black và tuy nhiên H là không xác
định. Khi S = 0, màu là xám. H cũng không xác định trong trường hợp này. Bằng việc
điều chỉnh I, một màu có thể được tạo ra sẫm hơn hoặc sáng hơn, còn nếu thay đổi S =
1 và chỉnh I có thể tạo ra bóng cho màu.


Chƣơng 1 Vũ Xuân Hùng – K10T3

Luận văn tốt nghiệp cao học
- 21 -

I
1.0 White
0.5
Blue
240
0
Cyan
120
0
Green
Yellow
Red
0
0
Magenta
H
S
0,0
Black

Hình 7 - Mô hình không gian màu HSI

Công thức sau cho ta cách chuyển màu từ RGB sang HSI:
 
 

   
 
    

















BGBRGR
BRGR
2
1
cosH
BG,R,min
BGR
3
1S
B)G(R

3
1
I
2
1


2.4.

YC
b
C
r

YC
b
C
r
là một hệ màu khác, nó phân chia độ chói từ các thông tin màu sắc. Độ chói
được mã hóa trên Y và các màu blue và red mã trên C
b
C
r
[5].
Công thức chuyển đổi RGB thành YC
b
C
r
:
Y = 0.29900R + 0.58700G + 0.11400B

C
b
=

0. 16874R

0.33126G + 0.50000B
Chƣơng 1 Vũ Xuân Hùng – K10T3

Luận văn tốt nghiệp cao học
- 22 -

C
r
= 0.50000R-0.41869G

0.08131B
Và chuyển lại thành RGB:
R = 1.00000Y + 1.40200C
r
G = 1.00000Y

0.34414C
b


0.71414C
r
,
B = 1.00000Y + 1.77200C

b

3.

Xác định độ đo nội dung ảnh
Để có thể đánh giá độ tương tự giữa các ảnh, trước hết phải xác định độ đo nội
dung ảnh. Các đặc trưng được trích chọn để xác định nên nội dung cần phải lựa chọn
giống như trong giai đoạn nhận thức chú tâm của con người. Cảm nhận của giác quan
là rộng lớn, các thuộc tính có thể chia thành các mức thấp và cao. Các thuộc tính mức
thấp bao gồm màu sắc, cấu trúc, hình dạng, bố cục không gian còn ở mức cao - mức
ngữ nghĩa đó là khái niệm, từ khoá. Việc chỉ sử dụng các đặc trưng mức thấp có thể
không đưa ra được kết quả như ý muốn, do đó có thể đưa thêm ngữ nghĩa ở mức cao
vào để nâng cao kết quả trong việc xác định nội dung ảnh. Ngữ nghĩa có thể hoặc là
các ghi chú thủ công, hoặc được cấu trúc tự động từ các đặc trưng ở mức thấp. Trong
phạm vi nghiên cứu này chúng ta chỉ tập trung vào việc xác định các độ đo dựa trên
các đặc trưng ở dạng mức thấp của thuộc tính ảnh.

3.1.

Độ đo thuộc tính màu sắc
Màu sắc là một trong những thuộc tính trực quan quan trọng nhất trên một bức
ảnh. Các hệ tra cứu ảnh nổi tiếng như QBIC, Netra, VisualSEEK cho thấy việc sử
dụng thuộc tính màu sắc là tốt nhất. Nghiên cứu thuộc các ngành tâm lý học và nghệ
thuật đều đã chứng tỏ rằng sự hiện diện và phân bố màu sắc đem lại cảm giác và mang
chuyển ý nghĩa đến cho người quan sát một cách hiệu quả nhất.

Phương pháp phân tích màu phổ biến nhất là dùng Histogram. Histogram màu
phản ánh sự phân bố mang tính thống kê, hay sự ghép nối xác suất các cường độ của 3
kênh màu. Histogram màu được tính toán qua việc thống kê rời rạc màu sắc trong
phạm vi ảnh và đếm số lượng của các điểm ảnh theo mỗi màu. Nhân tố về màu sắc

nhìn chung mô tả điểm ảnh trong không gian màu 3 chiều. Trước khi xây dựng nên
histogram, không gian màu thường được định hướng chuyển đổi thành một số không
gian màu đồng nhất chẳng hạn như hệ HSV (hue, saturation,value). Hue mô tả bước
Chƣơng 1 Vũ Xuân Hùng – K10T3

Luận văn tốt nghiệp cao học
- 23 -

sóng thực của màu sắc nhận thức qua tri giác, saturation (độ bão hoà) chỉ ra lượng ánh
sáng trắng trong sắc màu và value (giá trị) là độ sáng biểu thị cường độ của sắc màu.

3.1.1. Histogram
Histogram là thống kê về điểm ảnh, nó mô tả đặc trưng về mật độ của ảnh.
Histogram cung cấp thông tin về độ tương phản và cường độ phát tán nói chung trên
một bức ảnh. Nó đơn giản là một đồ thị thanh về mật độ các điểm ảnh. Cường độ sáng
điểm ảnh được vẽ dọc theo trục x và số lượng các điểm ảnh cho mỗi giá trị cường độ
sáng thể hiện trên trục y. Hình 8 cho thấy một ví dụ về histogram của một bức ảnh
đơn giản.

Ảnh sẫm màu có histogram phân tán lệch về phía trái, ảnh sáng hơn sẽ cho ta
histogram phân tán lệch về phía phải. Một ảnh lý tưởng, sự phân bố điểm ảnh trên
histogram là đồng đều. Một số thao tác trên Histogram vẫn thường dùng trong xử lý
ảnh có thể được áp dụng cho việc xác định độ đo cho ảnh như sau.

Image
4
4
4
4
4

3
3
3
2
3
0
1
2
3
3
1

Pixel intensity
1
2
3
4
5
6
1
2
3
4
5
6
7

Hình 8 - Ảnh và histogram của ảnh

3.1.1.1.


Histogram cân bằng
Histogram cân bằng hoá háy phép cân bằng histogram là một trong những xử lý
quan trọng trong một phần mềm về bất cứ công việc xử lý ảnh nào. Để cải thiện độ
tương phản tức là nhằm đạt được một histogram đồng đều cho ảnh chính là mục đích
của việc cân bằng histogram. Kỹ thuật này có thể sử dụng trong toàn bộ bức ảnh hoặc
có thể chỉ trên phạm vi một phần nhỏ của bức ảnh [5].
Chƣơng 1 Vũ Xuân Hùng – K10T3

Luận văn tốt nghiệp cao học
- 24 -


Cân bằng histogram sẽ không có nghĩa là “san bằng” ảnh. Nó chỉ có nghĩa là phân
bố lại mật độ ảnh. Nếu như histogram của bất cứ một ảnh nào có nhiều các đỉnh và
các vũng, nó sẽ vẫn giữ nguyên các đỉnh và vũng sau khi cân bằng, nhưng các đỉnh và
vũng lúc này đã được dịch chuyển. Vì vậy, dùng khái niệm “dàn trải” sẽ là tốt hơn
dùng khái niệm “san bằng” để mô tả cho cân bằng histogram.

Do cân bằng histogram là việc xử lý điểm, quá trình xử lý không đưa thêm giá trị
cường độ mới vào trong ảnh. Các giá trị đã có sẽ được ghép với các giá trị mới nhưng
số lượng thực sự về các giá trị cường độ trong bức ảnh kết quả sẽ vẫn bằng hoặc ít hơn
so với số lượng về giá trị cường độ trong bức ảnh ban đầu.

Các thao tác chính khi cân bằng histogram :
+ Tính toán histogram
+ Tính toán chuẩn hoá tổng của các histogram
+ Biến đổi ảnh vào thành ảnh kết quả

Bước đầu tiên là đếm mỗi giá trị khác nhau của các điểm ảnh trong ảnh. Ta có thể

bắt đầu với một mảng các số 0. Với điểm ảnh 8-bit, kích cỡ của một mảng là 256 phần
tử (0-255). Phân tích ảnh và tăng mỗi phẩn tử mảng tương ứng với mỗi điểm ảnh khi
xét đến.

Bước thứ 2 đòi hỏi một mảng khác để lưu tổng của tất cả các giá trị histogram.
Trong mảng này phần tử 1 sẽ lưu tổng histogram của các phần tử 1 và 0. Phần tử 255
sẽ lưu tổng histogram của các phần tử 255, 254, …, 1, 0. Mảng này sau đó sẽ được
chuẩn hoá bằng cách nhân mỗi phần tử với giá trị tính:
= giá trị điểm ảnh lớn nhất/tổng số các điểm ảnh. (Chẳng hạn ảnh 8-bit cỡ
512x512 sẽ có giá trị đó là 255/262144).

Kết quả của bước 2 cho ta một ảnh LUT mà ta có thể sử dụng để chuyển dịch vào
ảnh ban đầu.
Hình 9 cho thấy bước 2 và 3 của tiến trình xử lý và ảnh kết quả. Từ tổng chuẩn
hoá trong Hình 9(a) ta có thể xác định các giá trị ánh xạ bằng cách làm tròn tới giá trị
nguyên gần nhất. 0 sẽ ghép với 0; 1 sẽ ghép với 1; 2 sẽ ghép với 2; 3 sẽ ghép với 5…

Chƣơng 1 Vũ Xuân Hùng – K10T3

Luận văn tốt nghiệp cao học
- 25 -

Cân bằng histogram cho phép các chi tiết rõ ràng hơn trong vùng tối. Trong một số
trường hợp người ta thực hiện cân bằng histogram trên tất cả các bức ảnh trước khi
tiến hành các thao tác xử lý ảnh khác. Thực tế đó không nên thực hiện việc làm này
khi mà chất lượng của các bức ảnh đã cho là tốt. Sử dụng đúng lúc, cân bằng
histogram có thể là một công cụ rất mạnh.


Hình 9 - (a) Ảnh gốc; (b) Histogram gốc; (c) Ảnh cân bằng ; (d) Histogram cân bằng


3.1.1.2.

Histogram đặc tả
Cân bằng hoá histogram xấp xỉ tới một histogram đồng nhất. Khi một histogram
đồng nhất không mang lại kết quả như ý muốn, hoặc có lúc ta muốn làm sáng hoặc tối
một ảnh hoặc ta cần một ảnh có độ tương phản tốt hơn. Thay đổi này có thể thực hiện
thông qua histogram đặc tả [5].

Để có được Histogram đặc tả, người ta dùng các thông số đầu vào là histogram và
ảnh gốc và nó được thực hiện theo 2 bước đơn giản như sau: Đầu tiên bức ảnh ban đầu
được tính histogram cân bằng. Sau đó tính histogram nghịch đảo của histogram
cân bằng.

Khi tính nghịch đảo của histogram cân bằng đòi hỏi phải sinh được ảnh LUT sau
đó tính biến đổi nghịch đảo cho LUT. Biến đổi nghịch đảo được tính bằng cách phân
tích các đầu ra của LUT. Đầu ra gần nhất đối với đầu vào cụ thể sẽ là giá trị
nghịch đảo.

×