ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
Hà Minh Hải
MỘT SỐ KỸ THUẬT GÁN NHÃN ĐỐI TƢỢNG
TRONG ẢNH VÀ ỨNG DỤNG
LUẬN VĂN THẠC SỸ
Thái Nguyên – 2014
Số hóa bởi Trung tâm Học liệu
/>
ĐẠI HỌC THÁI NGUYÊN
ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
Hà Minh Hải
MỘT SỐ KỸ THUẬT GÁN NHÃN ĐỐI TƢỢNG
TRONG ẢNH VÀ ỨNG DỤNG
Ngành: Công nghệ thông tin
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01
LUẬN VĂN THẠC SỸ
NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS. TS ĐỖ NĂNG TOÀN
Thái nguyên: 2014
Số hóa bởi Trung tâm Học liệu
/>
LỜI CAM ĐOAN
Tơi xin cam đoan tồn bộ nội dung bản luận văn này là do tôi tự sƣu
tầm, tra cứu và sắp xếp cho phù hợp với nội dung yêu cầu của đề tài.
Nội dung luận văn này chƣa từng đƣợc cơng bố hay xuất bản dƣới bất
kỳ hình thức nào và cũng không sao chép từ bất kỳ một cơng trình nghiên cứu
nào.
Tất cả phần mã nguồn của chƣơng trình đều do tơi tự thiết kế và xây
dựng, trong đó có sử dụng một số thƣ viện chuẩn và các thuật tốn đƣợc các
tác giả xuất bản cơng khai và miễn phí trên mạng Internet.
Nếu sai tơi xin hoàn toàn chịu trách nhiệm.
Thái Nguyên, ngày 20 tháng 05 năm 2014
Học viên thực hiện
Hà Minh Hải
Số hóa bởi Trung tâm Học liệu
/>
LỜI CẢM ƠN
Trong suốt thời gian học tập và nghiên cứu tại lớp cao học K11C
trƣờng Đại học Công nghệ thông tin và Truyền thông – Đại học Thái Nguyên
chuyên ngành khoa học máy tính, tơi đã nhận đƣợc rất nhiều sự bảo ban, quan
tâm, định hƣớng, nhiệt tình của các thầy cô trong trƣờng. Các thầy cô giáo
quản lý sau đại học đã luôn giúp đỡ tạo điều kiện giúp tơi có thể học tập cũng
nhƣ nghiên cứu một cách tốt trong suốt thời gian học tập tại trƣờng. Nhân dịp
này, tôi xin bày tỏ lời cảm ơn chân thành tới tập thể các thầy cô trong trƣờng
Đại học Công nghệ thông tin và Truyền thông – Đại học Thái Nguyên.
Tôi xin chân thành cảm ơn sâu sắc tới Thầy PGS.TS Đỗ Năng Tồn đã
cho tơi nhiều sự chỉ bảo quý báu, đã tận tình hƣớng dẫn và tạo điều kiện cho
tơi hồn thành tốt luận văn tốt nghiệp này.
Tôi xin cảm ơn các đồng nghiệp và ngƣời thân đã động viên, giúp đỡ
tơi trong q trình nghiên cứu và thực hiện luận văn này.
Quá trình thực hiện đề tài khơng tránh khỏi các thiếu sót, rất mong tiếp
tục nhận đƣợc sự đóng góp ý kiến của các thầy, các cô giáo, các bạn đồng
nghiệp đối với đề tài nghiên cứu của tơi để đề tài đƣợc hồn thiện hơn.
Tơi xin trân trọng cảm ơn!
Số hóa bởi Trung tâm Học liệu
/>
i
MỤC LỤC
LỜI CAM ĐOAN
LỜI CẢM ƠN
MỤC LỤC ......................................................................................................... i
DANH MỤC CÁC KÝ HIỆU, CHỮ CÁI VIẾT TẮT ................................ iii
DANH MỤC HÌNH VẼ SỬ DỤNG TRONG LUẬN VĂN ........................ iv
MỞ ĐẦU .......................................................................................................... 1
Chƣơng 1 KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ BÀI TOÁN GÁN NHÃN
ĐỐI TƢỢNG ................................................................................................... 5
1.1. Khái quát về xử lý ảnh ............................................................................ 5
1.1.1. Xử lý ảnh là gì? ............................................................................... 6
1.1.2. Các giai đoạn chính trong xử lý ảnh ............................................... 6
1.1.3. Một số vấn đề cơ bản trong xử lý ảnh............................................. 9
1.2. Tổng quan về bài toán gán nhãn ........................................................... 11
1.2.1. Giới thiệu bài tốn ......................................................................... 11
1.2.2. Mơ tả bài toán gán nhãn cho đối tƣợng ........................................ 12
Chƣơng 2 MỘT SỐ KỸ THUẬT TÍNH TỐN VÀ HIỂN THỊ NHÃN
ĐỐI TƢỢNG ................................................................................................. 17
2.1. Kỹ thuật GFLP (Graphical Feature Label Placement) ......................... 18
2.1.1. Giới thiệu....................................................................................... 18
2.1.2. Khái quát thuật toán ...................................................................... 19
2.2. Kỹ thuật ELP (Edge Label Placement) ................................................. 24
2.2.1. Giới thiệu....................................................................................... 24
2.2.2. Thuật toán Fast ELP ...................................................................... 25
2.3. Kỹ thuật NLP (Node Label Placement) ................................................ 33
2.4. Kỹ thuật MLP (Multiple Label Placement) .......................................... 34
2.4.1. Giới thiệu....................................................................................... 34
Số hóa bởi Trung tâm Học liệu
/>
ii
2.4.2. Thuật toán Iterative ....................................................................... 39
2.4.3. Thuật toán Flow-based .................................................................. 42
2.5. Kỹ thuật gán nhãn dựa vào hiệu chỉnh đối tƣợng ................................. 46
Chƣơng 3 CÀI ĐẶT CHƢƠNG TRÌNH ỨNG DỤNG ............................ 48
3.1. Bài tốn ................................................................................................ 48
3.2. Chƣơng trình ........................................................................................ 48
3.3. Kết quả thực nghiệm ............................................................................ 49
KẾT LUẬN .................................................................................................... 51
TÀI LIỆU THAM KHẢO ............................................................................ 53
Số hóa bởi Trung tâm Học liệu
/>
iii
DANH MỤC CÁC KÝ HIỆU, CHỮ CÁI VIẾT TẮT
GFLP
Graphical Feature Label Placement
ELP
Edge Label Placement
NLP
Node Label Placement
MLP
Multiple Label Placement
Số hóa bởi Trung tâm Học liệu
/>
iv
DANH MỤC HÌNH VẼ SỬ DỤNG TRONG LUẬN VĂN
Hình 1.1. Quá trình xử lý ảnh ........................................................................... 6
Hình 1.2. Quá trình xử lý ảnh ........................................................................... 7
Hình 1.3. (a) Gán nhãn của một nút. (b) Gán nhãn của một cạnh. (c) Gán nhãn
của một khu vực. ............................................................................................. 14
Hình 1.4. (a) Gán nhãn đúng. (b) Gán nhãn gây hiểu nhầm. .......................... 15
Hình 2.1. Bản vẽ hƣớng nơi nhãn đƣợc định vị bằng các kỹ thuật phù hợp cho
kỹ thuật GFLP. Các nhãn đƣợc đặt song song với trục ngang. Hộp màu xám
là nút nhãn và hộp trắng cạnh nhãn................................................................. 20
Hình 2.2. Vị trí nhãn có thể cho một điểm...................................................... 21
Hình 2.3. Một đồ thị với vị trí nhãn đƣợc gán cho mỗi cạnh của bản vẽ. ...... 22
Hình 2.4. Khả năng gán các nhãn của hình vẽ ................................................ 26
Hình 2.5. (a) Một bản vẽ đơn giản với các vị trí nhãn cho mỗi cạnh. (b) Các
đồ thị phù hợp tƣơng ứng. ............................................................................... 27
Hình 2.7. Kết quả gán nhãn cạnh cho một bản vẽ trực giao có nhiều cạnh
nằm ngang, áp dụng Fast ELP. Hình đƣợc lấy trong [11] .............................. 31
Hình 2.8. Bản vẽ hình trịn với các nhãn cạnh, nơi nhãn đƣợc phép chồng lên
các đối tƣợng hình khác, đƣợc sản xuất bằng kỹ thuật ELP ........................... 32
Hình 2.9. (a) Phân nhãn thích hợp hơn. (b) Đặt nhãn gây hiểu nhầm. (c) Xác
định ràng buộc khoảng cách chặt chẽ. (d) Xác định ràng buộc tự do ............. 36
Hình 2.10. (a) Gán nhãn thích hợp hơn. (b) Việc gán nhãn chấp nhận đƣợc.
(c) Việc gán nhãn gây hiểu nhầm................................................................... 38
Số hóa bởi Trung tâm Học liệu
/>
v
Hình 2.12. Một bản vẽ phân cấp với vị trí hai nhãn mỗi cạnh sự dụng thuật
tốn Iterative .................................................................................................... 41
Hình 2.13. Đồ thị Flowbased .......................................................................... 42
Hình 2.14. Bản vẽ với vị trí hai nhãn mỗi cạnh bởi thuật tốn Flow-based ... 44
Hình 2.15. Một bản vẽ vịng trịn với ba nhãn cho mỗi cạnh và nút đƣợc định
vị bằng thuật tốn Flow-based trên. Các ơ màu trắng là các nhãn cạnh và các
hộp đen là nút nhãn ......................................................................................... 45
Hình 3.1. Hình ảnh sau khi gán nhãn cho bản đồ trƣờng Cao đẳng Cơng
nghiệp và Xây dựng ở chể độ phóng to ảnh.................................................... 49
Hình 3.2. Hình ảnh sau khi gán nhãn cho bản đồ trƣờng Cao đẳng Công
nghiệp và Xây dựng ở chể độ thu nhỏ ảnh...................................................... 50
Số hóa bởi Trung tâm Học liệu
/>
1
MỞ ĐẦU
1. Lí do chọn đề tài
Cơng nghệ thơng tin đã mang lại cho con ngƣời những thành tựu to lớn
trong nhiều lĩnh vực đời sống nhƣ xây dựng kiến trúc, bản đồ (đƣờng đi, dầu
mỏ...). Đặc biệt trong lĩnh vực khoa học, nhiều ngành cần có sự hỗ trợ của
cơng nghệ thơng tin nhƣ nghiên cứu địa lí, sinh, hóa học, ...
Một trong những ứng dụng quan trọng, đặc biệt trong địa lí, là việc gán
nhãn cho các loại bản đồ, hay chú thích các loại sơ đồ, đồ thị. Tự động đặt vị
trí nhãn là một lĩnh vực trong trực quan hóa thơng tin. Nhãn là các đoạn văn
bản nhằm truyền đạt thông tin, làm rõ ý nghĩa của các cấu trúc phức tạp đƣợc
biểu diễn ở dạng đồ họa. Bài toán tự động gán nhãn đƣợc xác định là một lĩnh
vực nghiên cứu quan trọng của ACM Computational Geometry Task Force
(Đội tính tốn hình học ACM):
“Gán nhãn là nguồn của nhiều bài tốn tối ưu hóa hình học. Ngay cả
khi nhãn được đặt vào vị trí cố định tương ứng với một điểm, đây vẫn là bài
toán NP-hard. Các bản đồ cần được gán nhãn, vậy cần có các giải thuật hiệu
quả, giải thuật heuristics để xác định những ràng buộc, vị trí có thể.”1
Bài tốn này có ứng dụng trong nhiều lĩnh vực bao gồm vẽ bản đồ, hệ
thống thông tin địa lý và vẽ đồ thị. Hiện trên thế giới đã có nhiều cơng trình
nghiên cứu về bài toán gán nhãn tự động. Tuy nhiên ở Việt Nam, bài tốn này
cịn đƣợc đề cập đến một cách hạn chế.
Từ sự định hƣớng của cán bộ hƣớng dẫn, căn cứ vào sự phát triển và
những ứng dụng của bài toán này, học viên đã quyết định lựa chọn đề tài:
“Label placement is a source of many geometric optimization problems. Even when labels are to be placed
in fixed positions relative to point features these are typically NP-hard. Since maps do need labels, heuristics
and efficient algorithms for identifying constraints and possible positions are needed.” – Application
Challenges to Computational Geometry, CG Impact Task Force Report, pp. 18.
1
Số hóa bởi Trung tâm Học liệu
/>
2
“MỘT SỐ KỸ THUẬT GÁN NHÃN ĐỐI TƢỢNG TRONG ẢNH VÀ
ỨNG DỤNG”, bởi đây là một đề tài có mang tính thực tiễn cao và đồng thời
mở ra nhiều hƣớng phát triển nghiên cứu.
2. Lịch sử nghiên cứu
Tài liệu đầu tiên có liên quan tới bài tốn gán nhãn có thể là một bản đồ
địa lí, do bản đồ ln bao gồm hai yếu tố hình vẽ và chữ viết. Bằng chứng đầu
tiên là một tấm bản đồ ƣớc chừng khoảng 2300 năm trƣớc, với tỉ lệ xích
1
500
của vùng ngày nay là miền nam thị trấn Heibei ở Trung Quốc. Bài báo đầu
tiên về bài tốn gán nhãn đƣợc cơng bố năm 1962 bởi Eduard Imhof [4],
ngƣời đã đặt ra các nguyên tắc cho chất lƣợng của bản đồ. Trƣớc đó, những
ngƣời vẽ bản đồ đánh giá chất lƣợng một tấm bản đồ đƣợc gán nhãn tốt hay
khơng tốt hồn toàn chỉ dựa vào kinh nghiệm. Mƣời năm sau, Pinhas Yoeli
lần đầu tiên thử xây dựng một hệ thống gán nhãn tự động [11]. Trong khoảng
gần hai thập kỉ sau đó, có rất ít nghiên cứu về bài tốn gán nhãn tự động.
Tuy nhiên vào đầu những thập niên 80, lƣợng nghiên cứu về lĩnh vực
gán nhãn tự động tăng đáng kể, thể hiện qua số lƣợng các bài báo đã đƣợc
công bố. Nhiều nhà khoa học trong các lĩnh vực khác nhƣ tính tốn hình học
hay vẽ đồ thị cũng quan tâm tới chủ đề này. Độ phức tạp của bài tốn gán
nhãn thuộc lớp NP-Hard nên đã có nhiều hƣớng tiếp cận đƣợc đề cập nhƣ
trong [10]...
3. Mục đích, đối tƣợng và phạm vi nghiên cứu
Bài tốn gán nhãn đã đƣợc đề cập, nghiên cứu nhiều trên thế giới. Tuy
nhiên ở Việt Nam dƣờng nhƣ còn chƣa chú trọng nhiều tới bài tốn này. Vì
vậy, đề tài này đƣợc xây dựng với các mục đích: Tìm hiểu về bài tốn gán
nhãn, ứng dụng của nó trong các lĩnh vực; Tìm hiểu một số vấn đề, các thuật
Số hóa bởi Trung tâm Học liệu
/>
3
toán liên quan; Đặt nền tảng cho cá nhân nghiên cứu, tìm hiểu sâu hơn về vấn
đề này. Từ đó thiết kế một chƣơng trình thử nghiệm gán nhãn cho một hình
vẽ cụ thể.
Đối tƣợng và phạm vi nghiên cứu của đề tài tập chung vào các loại bản
đồ địa lí, đồ thị.
4. Phƣơng pháp nghiên cứu
Trong Luận văn này tôi sử dụng một số các phƣơng pháp sau:
- Phƣơng pháp quan sát, tìm hiểu thực tế.
- Phƣơng pháp lý thuyết.
- Phƣơng pháp phân tích tổng hợp.
Với những mục đích nghiên cứu, phạm vi và đối tƣợng nghiên cứu đề
ra, trong luận văn này tơi trình bày một số các nội dung đƣợc trình bày và
phân bố trong các chƣơng nhƣ sau:
Chƣơng 1: Giới thiệu khái quát xử lý ảnh, một số vấn đề cơ bản. Trình
bày tổng quan về bài toán gán nhãn cho đối tƣợng trong ảnh.
Chƣơng 2: Trình bày một số thuật tốn gán nhãn cho bài tốn ghi nhãn
tổng hợp hay bài tốn vị trí nhãn các đối tƣợng đồ họa (GFLP: Graphical
Feature Label Placement), một tập hợp các điểm (NLP: Node Label
Placement), gán nhãn cho một tập hợp các đƣờng hoặc cạnh (ELP: Edge
Label Placement), nhiều nhãn trên mỗi đối tƣợng (MLP: Multiple Label
Placement) và kỹ thuật gán nhãn dựa vào hiệu chỉnh đối tƣợng.
Chƣơng 3: Chƣơng trình
Số hóa bởi Trung tâm Học liệu
/>
4
Ở đây, tơi sẽ cài đặt theo thuật tốn đƣợc trình bày trong chƣơng 2 tìm
vị trí thích hợp nhất khi phóng to và thu nhỏ ảnh để hiển thị nhãn tối đa cho
các đối tƣợng trong một bức ảnh.
Số hóa bởi Trung tâm Học liệu
/>
5
Chƣơng 1
KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ BÀI TOÁN GÁN NHÃN ĐỐI TƢỢNG
Trong ngành khoa học máy tính, xử lý ảnh là một dạng của xử lý tín
hiệu cho đầu vào là một ảnh hoặc các frame của phim ảnh. Đầu ra có thể là
một hình ảnh, hoặc tập hợp các ký tự hoặc các tham số liên quan tới hình ảnh.
Thƣờng thì kỹ thuật xử lý ảnh có liên quan tới xử lý tín hiệu hai chiều và
đƣợc áp dụng bằng một chuẩn riêng về kỹ thuật xử lý ảnh cho nó. Các khái
niệm cơ bản để xử lý tín hiệu nhƣ, khái niệm về tích chập, các biến đổi
Fourier, biến đổi Laplace, các bộ lọc hữu hạn,… Ngồi ra cịn cần tới các
cơng cụ tốn học nhƣ đại số tuyến tính, thống kê. Và một số kiến thức cần
thiết nhƣ trí tuệ nhân tao, mạng nơron nhân tạo cũng đƣợc đề cập trong q
trình phân tích và xử lý ảnh.
1.1. Khái quát về xử lý ảnh
Cũng nhƣ xử lý dữ liệu bằng đồ hoạ, xử lý ảnh là một lĩnh vực của tin
học ứng dụng. Xử lý dữ liệu bằng đồ họa đề cập đến những ảnh nhân tạo, các
ảnh này đƣợc xem xét nhƣ là một cấu trúc dữ liệu và đƣợc tạo ra bởi các
chƣơng trình. Xử lý ảnh bao gồm các phƣơng pháp và kỹ thuật để biến đổi, để
truyền tải hoặc mã hóa các ảnh tự nhiên. Mục đích của xử lý ảnh gồm:
Thứ nhất: biến đổi ảnh và làm đẹp ảnh.
Thứ hai: tự động nhận dạng ảnh hay đoán nhận ảnh và đánh giá các nội
dung của ảnh.
Nhận dạng ảnh là quá trình liên quan đến các mơ tả đối tƣợng mà ngƣời
ta muốn đặc tả nó. Q trình nhận dạng thƣờng đi sau q trình trích chọn các
đặc tính chủ yếu của đối tƣợng. Có hai kiểu mơ tả đối tƣợng:
- Mô tả tham số (nhận dạng theo tham số).
- Mô tả theo cấu trúc (nhận dạng theo cấu trúc).
Số hóa bởi Trung tâm Học liệu
/>
6
Nhận biết và đánh giá các nội dung của ảnh là sự phân tích một hình
ảnh thành những phần có nghĩa để phân biệt đối tƣợng này với đối tƣợng
khác. Dựa vào đó ta có thể mơ tả cấu trúc của hình ảnh ban đầu.
Có thể liệt kê một số phƣơng pháp nhận dạng cơ bản nhƣ nhận dạng
biên của một đối tƣợng trên ảnh, tách cạnh, phân đoạn hình ảnh,... Kỹ thuật
này đƣợc sử dụng nhiều trong y học (xử lý tế bào, nhiễm sắc thể).
Trong thực tế ngƣời ta đã áp dụng kỹ thuật nhận dạng khá thành công
với nhiều đối tƣợng khác nhau nhƣ: nhận dạng ảnh vân tay, nhận dạng chữ
(chữ cái, chữ số, chữ có dấu). Nhận dạng chữ in hoặc đánh máy trong văn bản
phục vụ cho việc tự động hố q trình đọc tài liệu, tăng nhanh tốc độ và chất
lƣợng thu nhận thơng tin từ máy tính, nhận dạng chữ viết tay (với mức độ
ràng buộc khác nhau về cách viết, kiểu chữ,...).
1.1.1. Xử lý ảnh là gì?
Con ngƣời thu nhận thơng tin qua các giác quan, trong đó thị giác đóng
vai trò quan trọng nhất. Những năm trở lại đây với sự phát triển của phần
cứng máy tính, xử lý ảnh và đồ hoạ đó phát triển một cách mạnh mẽ và có
nhiều ứng dụng trong cuộc sống. Xử lý ảnh và đồ hoạ đóng một vai trị quan
trọng trong tƣơng tác ngƣời máy.
Xử lý ảnh đƣợc xem nhƣ là quá trình thao tác ảnh đầu vào nhằm cho ra
kết quả mong muốn. Kết quả đầu ra của một quá trình xử lý ảnh có thể là một
ảnh “tốt hơn” hoặc một kết luận.
Ảnh “Tốt hơn”
Ảnh đầu vào
XỬ LÝ ẢNH
Kết luận
Hình 1.1. Q trình xử lý ảnh
1.1.2. Các giai đoạn chính trong xử lý ảnh
Giai đoạn xử lý ảnh đƣợc mô tả bằng sơ đồ sau:
Số hóa bởi Trung tâm Học liệu
/>
7
Phân đoạn
Tiền xử lý ảnh
Biểu diễn và
mô tả ảnh
CƠ SỞ
TRI THỨC
Thu nhận
Nhận dạng
và giải thích
Hình 1.2. Q trình xử lý ảnh
Thu nhận ảnh: Đây là công đoạn đầu tiên mang tính quyết định đối với
q trình xử lý ảnh. Ảnh đầu vào sẽ đƣợc thu nhận qua các thiết bị nhƣ
camera, sensor, máy quét, vv… và sau đó các tín hiệu này sẽ đƣợc số
hóa. Các thơng số quan trọng ở bƣớc này là độ phân giải, chất lƣợng
màu, dung lƣợng bộ nhớ và tốc độ thu nhận ảnh của các thiết bị.
Tiền xử lý: Ở bƣớc này ảnh sẽ đƣợc cải thiện về độ tƣơng phản, khử
nhiễu, khử bóng, khử độ lệch, vv… với mục đích làm cho chất lƣợng
ảnh trở nên tốt hơn và thƣờng đƣợc thực hiện bởi các bộ lọc.
Phân đoạn ảnh: Phân đoạn ảnh là bƣớc then chốt trong xử lý ảnh, giai
đoạn này nhằm phân tích ảnh thành những thành phần có cùng tính chất
nào đó, dựa theo biên hay các vùng liên thông. Tiêu chuẩn đễ xác định
các vùng liên thơng có thể là cùng màu, cùng mức xám hay cùng độ
nhám, vv… Mục đích của phân đoạn ảnh là để có một miêu tả tổng hợp
từ nhiều phần tử khác nhau cấu tạo nên ảnh thơ. Vì lƣợng thơng tin
chứa trong ảnh rất lớn, trong khi đó trong đa số các ứng dụng chúng ta
chỉ cần trích chọn một vài đặc trƣng nào đó, do vậy cần có một q
trình để giảm lƣợng thơng tin khổng lồ ấy. Q trình này bao gồm phân
vùng ảnh và trích chọn đặc tính chủ yếu.
Số hóa bởi Trung tâm Học liệu
/>
8
Biểu diễn và mô tả ảnh: Kết quả của bƣớc phân đoạn ảnh thƣờng đƣợc
cho dƣới dạng dữ liệu điểm ảnh thơ, trong đó hàm chứa biên của một
vùng ảnh, hoặc tập hợp các điểm ảnh thuộc về chính vùng ảnh đó.
Trong cả hai trƣờng hợp sự chuyển đổi dữ liệu thơ này thành một dạng
thích hợp hơn cho việc xử lý trong máy tính là rất cần thiết. Để chuyển
đổi chúng, câu hỏi đầu tiên cần phải trả lời là nên biểu diễn một vùng
ảnh dƣới dạng biên hay dƣới dạng một vùng hoàn chỉnh gồm tất cả
những điểm ảnh thuộc về nó. Biểu diễn dạng biên cho một vùng phù
hợp với những ứng dụng chỉ quan tâm chủ yếu đến các đặc trƣng hình
dạng bên ngồi của đối tƣợng, ví dụ nhƣ các góc cạnh và điểm uốn trên
biên. Biểu diễn dạng vùng lại thích hợp cho những ứng dụng khai thác
các tính chất bên trong của đối tƣợng, ví dụ nhƣ vân ảnh hay cấu trúc
xƣơng của nó. Sự chọn lựa cách biểu diễn thích hợp cho một vùng ảnh
chỉ mới là một phần trong việc chuyển đổi dữ liệu ảnh thơ sang một
dạng thích hợp hơn cho những xử lý về sau. Chúng ta còn phải đƣa ra
một phƣơng pháp mô tả dữ liệu đã đƣợc chuyển đổi đó sao cho những
tính chất cần quan tâm đến sẽ đƣợc làm nổi bật lên, thuận tiện cho việc
xử lý chúng.
Nhận dạng và giải thích: Đây là bƣớc cuối cùng trong quá trình xử lý
ảnh. Nhận dạng ảnh có thể đƣợc nhìn nhận một cách đơn giản là việc
gán nhãn cho các đối tƣợng trong ảnh. Giải thích là cơng đoạn gán
nghĩa cho một tập các đối tƣợng đã đƣợc nhận biết.
Chúng ta có thể thấy rằng, không phải bất kỳ một ứng dụng xử lý ảnh
nào cũng bắt buộc phải tuân theo các bƣớc xử lý đã nêu ở trên, ví dụ nhƣ các
ứng dụng chỉnh sửa ảnh nghệ thuật chỉ dừng lại ở bƣớc tiền xử lý. Một cách
tổng quát thì những chức năng xử lý bao gồm cả nhận dạng và giải thích
Số hóa bởi Trung tâm Học liệu
/>
9
thƣờng chỉ có mặt trong hệ thống phân tích ảnh tự động hoặc bán tự động,
đƣợc dùng để rút trích ra những thơng tin quan trọng từ ảnh, ví dụ nhƣ các
ứng dụng nhận dạng kí tự quang học, nhận dạng chữ viết tay vv…
1.1.3. Một số vấn đề cơ bản trong xử lý ảnh
1.1.3.1. Điểm ảnh – Pixel
Ảnh trong thực tế là một ảnh liên tục về không gian và về giá trị độ
sáng. Để có thể xử lý ảnh bằng máy tính cần phải tiến hành số hố ảnh. Trong
q trình số hố, ngƣời ta biến đổi tín hiệu liên tục sang tín hiệu rời rạc thơng
qua q trình lấy mẫu (rời rạc hố về khơng gian) và lƣợng hoá thành phần
giá trị mà về nguyên tắc bằng mắt thƣờng không phân biệt đƣợc hai điểm kề
nhau. Trong quá trình này ngƣời ta sử dụng khái niệm Picture element mà ta
quen gọi là Pixel - phần tử ảnh. Nhƣ vậy, một ảnh là một tập hợp các Pixel.
1.1.3.2. Mức xám – Gray level
Mức xám là kết quả của sự mã hóa tƣơng ứng một cƣờng độ sáng của
mỗi điểm ảnh với một giá trị sáng, kết quả của q trình lƣợng tử hóa. Cách
mã hóa kinh điển thƣờng dùng là 16, 32 hay 64 mức. Phổ dụng nhất là mã hóa
ở mức 256, ở mức này mỗi Pixel sẽ đƣợc mã hóa bởi 8 bít.
1.1.3.3. Biên
Biên là một đặc tính rất quan trọng của đối tƣợng trong ảnh, nhờ vào
biên mà chúng ta phân biệt đƣợc đối tƣợng này với đối tƣợng kia. Một điểm
ảnh có thể gọi là điểm biên nếu ở đó có sự thay đổi đột ngột về mức xám. Tập
hợp các điểm biên gọi là biên hay còn gọi là đƣờng bao ảnh.
1.1.3.4. Láng giềng
Trong xử lý ảnh có một khái niệm rất quan trọng, đó là khái niệm láng
giềng. Có hai loại láng giềng: 4 láng giềng và 8 láng giềng.
Số hóa bởi Trung tâm Học liệu
/>
10
4 láng giềng của một điểm (x,y) là một tập hợp bao gồm láng giềng dọc và
láng giềng ngang của nó:
N4((x,y)) = {(x+1,y), (x-1,y), (x,y+1), (x,y-1)}
(1.1)
8 láng giềng của (x,y) là một tập cha của 4 láng giềng và bao gồm láng giềng
ngang, dọc và chéo:
N8((x,y)) = N4((x,y)) {(x+1,y+1), (x-1,y-1), (x+1,y-1), (x-1,y+1)}
(1.2)
1.1.3.5. Vùng liên thông
Một vùng R đƣợc gọi là liên thông nếu bất kỳ hai điểm (xA,yA) và
(xB,yB) thuộc vào R có thể đƣợc nối bởi một đƣờng (xA,yB) ... (xi-1,yi-1), (xi,yi),
(xi+1,yi+1) ... (xB,yB), mà các điểm (xi,yi) thuộc vào R và bất kỳ điểm (xi,yi) nào
đều kề sát với điểm trƣớc (xi-1,yi-1) và điểm tiếp theo (xi+1,yi+1) trên đƣờng đó.
Một điểm (xk,yk) đƣợc gọi là kề với điểm (xl,yl) nếu (xl,yl) thuộc vào láng
giềng trực tiếp của (xk,yk).
1.1.3.6. Biểu diễn ảnh
Trong biểu diễn ảnh, ngƣời ta dùng các phần tử đặc trƣng của ảnh là
pixel. Có thể xem một hàm hai biến chứa các thông tin nhƣ biểu diễn của ảnh,
việc xử lý ảnh số yêu cầu ảnh phải đƣợc mã hóa và lƣợng tử hóa. Việc lƣợng
tử hóa ảnh là chuyển đổi tín hiệu tƣơng tự sang tín hiệu số của một ảnh đã lấy
mẫu sang một số hữu hạn mức xám.
Một số mơ hình thƣờng đƣợc dùng trong xử lý ảnh, mơ hình tốn, mơ hình
thống kê.
1.1.3.7. Tăng cường và khôi phục ảnh
Tăng cƣờng ảnh là bƣớc quan trọng tạo tiền đề cho xử lý ảnh, gồm một
loạt các kỹ thuật nhƣ: lọc độ tƣơng phản, khử nhiễu, nổi màu…
Số hóa bởi Trung tâm Học liệu
/>
11
Khôi phục ảnh là nhằm loại bỏ các suy giảm trong ảnh.
1.1.3.8. Biến đổi ảnh
Trong thuật ngữ biến đổi ảnh thƣờng đƣợc dùng để nói đến một lớp các
ma trận đơn vị và các kỹ thuật dùng để biến đổi ảnh. Một số loại biến đổi
đƣợc dùng nhƣ: biến đổi Fourier, Sin, Cosin, Hadamard, tích Kronecker, biến
đổi Karhumen oeve…
1.1.3.9. Phân tích ảnh
Liên quan đến việc xác định các độ đo định lƣợng của một ảnh để đƣa
ra một mô tả đầy đủ về ảnh. Các kỹ thuật đƣợc sử dụng ở đây nhằm mục đích
xác định biên của ảnh.
1.1.3.10. Nhận dạng ảnh
Là q trình liên quan đến việc mơ tả các đối tƣợng mà ngƣời ta muốn
đặc tả nó. Quá trình nhận dạng thƣờng đi sau q trình trích chọn các đặc tính
chủ yếu của đối tƣợng.
Có hai kiểu mơ tả đối tƣợng đó là: mơ tả tham số (nhận dạng theo tham số) và
mô tả theo cấu trúc (nhận dạng theo cấu trúc).
1.1.3.11. Nén ảnh
Dữ liệu ảnh cũng nhƣ các dữ liệu khác cần phải lƣu trữ hay truyền đi
trên mạng, lƣợng thông tin để biểu diễn cho một ảnh là rất lớn. Do đó làm
giảm lƣợng thơng tin hay nén dữ liệu là một nhu cầu cần thiết.
1.2. Tổng quan về bài toán gán nhãn
1.2.1. Giới thiệu bài tốn
Đây là bài tốn có ứng dụng trong nhiều lĩnh vực bao gồm vẽ bản đồ,
hệ thống thông tin địa lý và vẽ đồ thị.
Số hóa bởi Trung tâm Học liệu
/>
12
Do quá trình gán nhãn là nhiệm vụ đơn điệu nhƣng lại rất cần thiết nên
rất thích hợp cho tự động hóa. Rất khó để định lƣợng tất cả các đặc tính của
một vị trí tốt để gán nhãn do những vị trí này cịn phụ thuộc vào cảm nhận của
con ngƣời nhƣ trực giác và kinh nghiệm..., đặc biệt là khi những cảm giác,
kinh nghiệm này đƣợc hoàn thiện qua nhiều thế kỷ bởi những nhà vẽ bản đồ
và đƣợc họ nâng lên thành một nghệ thuật. Vì vậy các vị trí nhãn do các hệ
thống máy tính cung cấp khó có thể có chất lƣợng tƣơng đƣơng so với làm
thủ cơng bởi những ngƣời làm bản đồ có kinh nghiệm. Tuy vậy vẫn có nhiều
lĩnh vực khơng có nhiều địi hỏi cao, nghiêm ngặt về tính thẩm mĩ, các kỹ
thuật tự động gán nhãn có thể đƣợc áp dụng trong những trƣờng hợp này. Ví
dụ có thể áp dụng để gán nhãn tức thời cho những hệ thống thơng tin địa lý
trực tuyến, tìm kiếm bản đồ trên internet hay một số bản đồ với mục đích đặc
biệt khác nhƣ hiển thị điều tra dân số, thăm dò dầu khí, điều tra đất. Hiện tại,
các hệ thống tƣơng tác bán tự động có thể là hƣớng tiếp cận phổ biến nhất cho
nghiên cứu gán nhãn tự động. Các hệ thống có thể cung cấp các vị trí nhãn,
những vị trí này sau đó đƣợc chỉnh sửa thủ cơng để đạt đƣợc kết quả nhƣ
mong muốn. Hơn nữa toàn bộ khái niệm của gán nhãn bản đồ tự động có thể
thay đổi phụ thuộc vào khả năng của máy tính. Bản đồ có thể đƣợc thể hiện
dƣới dạng điện tử, cho phép tƣơng tác với ngƣời dùng để hiển thị những
thơng tin theo u cầu thay vì hiển thị tồn bộ mọi thơng tin.
1.2.2. Mơ tả bài tốn gán nhãn cho đối tượng
Cho Γ là một bản vẽ và F là tập hợp các đối tƣợng đồ họa của Γ đƣợc
gán nhãn. Một giải pháp cho bài toán gán nhãn cho bản vẽ Γ bằng văn bản
hoặc ký tự cho mỗi thành phần f của F sao cho các thơng tin có liên quan
đƣợc truyền đạt một cách tốt nhất có thể. Điều này có thể đạt đƣợc bằng cách
định vị các nhãn ở các vị trí thích hợp nhất.
Số hóa bởi Trung tâm Học liệu
/>
13
Vị trí nhãn tốt sẽ hỗ trợ trong việc truyền đạt thơng tin và tăng cƣờng
tính thẩm mỹ của bản vẽ. Rất khó để xác định đƣợc tất cả các đặc tính của
một vị trí nhãn tốt, bởi vì chúng phụ thuộc vào nhận thức thị giác và trực giác
của con ngƣời. Việc gán nhãn sẽ dễ dàng trong trƣờng hợp các đối tƣợng của
bức vẽ có vị trí độc lập. Khó khăn xảy ra khi vị trí có thể gán nhãn bị hạn chế
bởi sự hiện diện của các đối tƣợng khác gần đó. Trong trƣờng hợp thƣờng gặp
này, thông thƣờng ta không phải chỉ quan tâm tới đặt vị trí của một nhãn cho
thích hợp với đối tƣợng của nó mà cịn cần chú ý đến cả các nhãn và đối
tƣợng khác trong khoảng không gian xung quanh đó.
Trong bài tốn gán nhãn cho đối tƣợng thành cơng, nhãn phải đƣợc đặt
sao cho ngƣời xem dễ đọc và theo tiêu chuẩn chất lƣợng thẩm mỹ cơ bản.
Theo nhƣ những ngƣời chuyên vẽ bản đồ nhƣ Imhof [4] và Yoeli [5], những
ngƣời đã nghiên cứu rộng rãi chủ đề này, nhãn phải đƣợc đặt ở vị trí tốt nhất
có sẵn theo một số quy tắc cơ bản: Nhãn phải đƣợc dễ dàng đọc, nhanh chóng
xác định vị trí một nhãn và đối tƣợng mà nó thuộc về thì nên đƣợc dễ dàng
thừa nhận, nhãn phải đƣợc đặt rất gần với các đối tƣợng của chúng, nhãn
không đƣợc che khuất các nhãn khác hoặc các đối tƣợng khác, một nhãn phải
đƣợc đặt ở vị trí thích hợp nhất trong số tất cả các vị trí dễ đọc. Tóm tắt các
đánh giá chất lƣợng gán nhãn trong ba quy tắc cơ bản sau đây:
Khơng có sự chồng chéo của một nhãn với các nhãn khác, các đối
tƣợng đồ họa khác của bản vẽ.
Mỗi nhãn có thể dễ dàng đƣợc xác định là của đối tƣợng nào trong
hình vẽ.
Mỗi nhãn phải đƣợc đặt ở vị trí tốt nhất có thể (trong số tất cả các
nhãn có vị trí chấp nhận đƣợc). Thứ tự hiển thị ƣu tiên giữa các vị trí
nhãn có thể thay đổi tùy theo ứng dụng cụ thể.
Số hóa bởi Trung tâm Học liệu
/>
14
(a)
(b)
(c)
Hình 1.3. (a) Gán nhãn của một điểm. (b) Gán nhãn của một đường thẳng.
(c) Gán nhãn của một khu vực.
Trong việc sản xuất các bản đồ địa lý, việc sắp xếp thứ tự vị trí nhãn
theo nguyên tắc xây dựng qua nhiều năm kinh nghiệm, mà thƣờng nắm bắt
đƣợc chất lƣợng thẩm mỹ của vị trí nhãn. Một nguyên tắc đặc trƣng khi gán
nhãn điểm nút là nhãn phải đƣợc đặt ở bên phải và bên trên điểm. Ví dụ, trong
hình 1.3 (a) số thứ tự của từng vị trí nhãn cho thấy thứ hạng ƣu tiên của nhãn
cho nút này. Ngoài ra, nhãn của một điểm đƣợc phép chạm vào nhƣng không
chồng chéo lên điểm liên quan hoặc bất kỳ đối tƣợng đồ họa khác trong bản
vẽ. Trong trƣờng hợp gán nhãn cho đƣờng thẳng (cạnh), một nhãn đƣợc chấp
nhận khi chạm vào đƣờng đó, nhƣng nó khơng nên chồng chéo bất kỳ đối
tƣợng đồ họa khác trong một bản vẽ. Trong hình 1.3 (b), nơi mà đối tƣợng đồ
họa đƣợc gán nhãn là một đoạn thẳng, nhãn nhƣ A, B và D có vị trí thích hợp
hơn nhãn C, nhãn đƣợc đặt chồng lên cạnh liên quan, nó có thể chấp nhận
đƣợc với một số thời gian thích hợp để gán nhãn cho nó. Thực tế đƣợc chấp
nhận cho việc đặt một nhãn gắn liền với một khu vực là phải có nhãn trải dài
tồn bộ khu vực và phù hợp với hình dạng của nó, nhƣ thể hiện trong hình 1.3
(c).
Khi các đối tƣợng đồ họa đƣợc gán nhãn thuộc về một bản đồ kỹ thuật
hoặc bản vẽ, sau đó là một bộ quy tắc khác nhau của quy định quản lý các vị
Số hóa bởi Trung tâm Học liệu
/>
15
trí nhãn thích hợp. Những quy định này phụ thuộc vào các ứng dụng cụ thể,
và phải tuân theo thông số kỹ thuật ngƣời dùng.
(a)
(b)
Hình 1.4. (a) Gán nhãn đúng. (b) Gán nhãn gây hiểu nhầm.
Ví dụ, nếu các đối tƣợng đồ họa là một cạnh của một bản vẽ đồ thị,
ngƣời sử dụng phải có khả năng xác định rằng vị trí thuận lợi nhất để một
nhãn là gần với các nguồn hoặc nút đích. Ví dụ, một nhãn của một cạnh duy
nhất có liên quan đến nút nguồn của nó phải đƣợc đặt gần nút nguồn (xem
hình 1.4 (a)) để tránh cách gán nhãn gây nhầm lẫn (xem hình 1.4(b)). Điều
quan trọng cần nhấn mạnh là ngƣời sử dụng phải có khả năng tùy chỉnh các
quy tắc về loại nhãn để đáp ứng nhu cầu cụ thể. Vì vậy, bất kỳ thuật tốn ghi
nhãn nào tốt phải tính đến ngƣời sử dụng.
Bài tốn gán nhãn
Kí hiệu: Cho tập hợp F là tập các đối tƣợng đồ họa của một bản đồ
hoặc một bản vẽ, để gán nhãn cho chúng thì ta định nghĩa nhƣ sau:
Số hóa bởi Trung tâm Học liệu
/>
16
Λf là tập tất cả các vị trí nhãn cho đối tƣợng đồ họa f (f ∈ F).
Λ là tập hợp của tất cả các vị trí nhãn cho các đối tƣợng đồ họa đƣợc
gán nhãn.
λ: F → Λ là một hàm gán vị trí nhãn trong Λ cho đối tƣợng đồ thị f (f ∈
F), hay λ (f) = λ f ∈ Λf.
Định nghĩa:
Giả thiết: Cho F là tập hợp đối tƣợng đồ họa đƣợc gán nhãn.
Câu hỏi: Tìm cách gán nhãn tối thiểu hóa hàm sau đây:
COST( (i)) P(i, j )
i F j
i
1, nếu (i)=j
0, trường hợp khác
Vi P(i, j)
P(i, j )
Và
i F j
F
i
P(i, j ) 1, i
Trong đó
j
F.
i
Bài tốn gán nhãn có thể đƣợc xem nhƣ là một vấn đề tối ƣu hóa mà
mục tiêu là để tìm cách gán nhãn với thời gian tối thiểu mà mỗi đối tƣợng đồ
họa có một vị trí nhãn đƣợc gán. Mỗi vị trí nhãn λf là một phần nhiệm vụ để
gán nhãn cuối cùng với thời gian thực. COST: Λ → N là hàm cung cấp cho vị
trí nhãn λf với thời gian ngắn và tối ƣu nhất.
Số hóa bởi Trung tâm Học liệu
/>