Tải bản đầy đủ (.docx) (47 trang)

Kỹ thuật lấy mẫu nén và ứngdụng trong xử lý ảnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (724.95 KB, 47 trang )

1

PHẦN I. MỞ ĐẦU
1. Lí do chọn đề tài
Sự phát triển của khoa học kỹ thuật nói chung và những thành tựu trong
lĩnh vực điện tử - viễn thông nói riêng đã góp phần thúc đẩy những tiến bộ
trong đời sống kinh tế, chính trị, xã hội. Sự ra đời của những phương pháp,
công nghệ mới trong lĩnh vực điện tử - viễn thông là cơ sở cho sự ra đời những
thiết bị, hệ thống thông tin với các đặc điểm nổi bật như sự chính xác cao, tốc
độ nhanh gọn nhẹ, tiện dụng… Đó là những yếu tố rất cần thiết, làm phương
tiện hỗ trợ cho hoạt động của con người đạt hiệu quả ngày càng cao hơn.
Kỹ thuật lấy mẫu nén (Compressed Sensing) là một trong những lý
thuyết mới của lĩnh vực viễn thông và xử lý tín hiệu hiện nay. Đây là một kỹ
thuật lấy mẫu với tốc độ thấp hơn tốc độ Nyquist, một trong những tiêu chuẩn
được coi là chuẩn mực trong xử lý tín hiệu, mà vẫn đảm bảo việc khôi phục
lại tín hiệu ban đầu. Kỹ thuật lấy mẫu nén có nhiều ứng dụng trong viễn
thông, xử lý tín hiệu nói chung và hình ảnh nói riêng.
Qua quá trình tìm hiểu về kỹ thuật lấy mẫu nén và ảnh số, nhận thấy đây
là một vấn đề mới mẻ và hấp dẫn, em đã chọn “Kỹ thuật lấy mẫu nén và ứng
dụng trong xử lý ảnh” làm đề tài khóa luận của mình.
2. Lịch sử vấn đề nghiên cứu
Kỹ thuật lấy mẫu nén là một trong những lý thuyết mới trong lĩnh vực xử
lý tín hiệu được giới thiệu bởi Emannuel Candès, Justin Romberg và Terence
Tao vào năm 2006. Đây là một lĩnh vực có sức hấp dẫn lớn đối với những
người làm về xử lý tín hiệu trên thế giới cũng như một số nhóm nghiên cứu
trong nước.
Kỹ thuật xử lý ảnh số là một lĩnh vực không còn mới nhưng đang được
nghiên cứu ứng dụng nhiều hiện nay.


2



Vì vậy, việc tìm hiểu kỹ thuật lấy mẫu nén và ứng dụng trong xử lý ảnh
là một vấn đề mới đối với sinh viên hiện nay.
3. Mục đích nghiên cứu
Tìm hiểu kỹ thuật lấy mẫu nén và ứng dụng trong xử lý ảnh.
4. Nhiệm vụ nghiên cứu
-

Tìm hiểu về kỹ thuật lấy mẫu nén
Tìm hiểu về ảnh số
Tìm hiểu ứng dụng của kỹ thuật lấy mẫu nén trong xử lý ảnh số
Tìm hiểu phần mềm Matlab

5. Đối tượng nghiên cứu
Kỹ thuật lấy mẫu nén và ảnh số.
6. Phương pháp nghiên cứu
- Phương pháp nghiên cứu lý thuyết:

+ Tổng hợp các tài liệu, sách tham khảo, bài báo khoa học...
+ Tìm kiếm các tài liệu lập trình
- Phương pháp nghiên cứu mô phỏng:

+ Mô phỏng khâu có ứng dụng của kỹ thuật lấy mẫu nén trong xử lý ảnh.
7. Phạm vi của đề tài
Do hạn chế về mặt thời gian và kiến thức cơ sở về xử lý tín hiệu, về ảnh
số còn hạn chết, khóa luận chỉ tập trung giải quyết vấn đề về kỹ thuật lấy mẫu
nén và ứng dụng trong xử lý ảnh.
8. Giới thiệu về khóa luận
Sau một thời gian tìm hiểu, nghiên cứu, tôi đã thực hiện thành công khóa
luận của mình. Ngoài phần mở đầu và kết luận, khóa luận được trình bày

trong 3 chương.


3

Chương 1 trình bày những vấn đề cơ bản về kỹ thuật lấy mẫu nén.
Chương 2 trình bày về cơ bản về ảnh số bao gồm những vấn đề cơ bản
của hệ thống xử lý ảnh số, các vấn đề về thu nhận ảnh và nén ảnh.
Chương 3 trình bày một số ứng dụng của kỹ thuật lấy mẫu nén trong việc
nén ảnh và thu nhận ảnh.


4

PHẦN II. NỘI DUNG
Chương 1
KỸ THUẬT LẤY MẪU NÉN

1.1 GIỚI THIỆU

Trong thực tế, ở nhiều hệ thống như xử lý âm thanh, xử lý hình ảnh, thiết
bị thu ảnh y học, bộ thu vô tuyến…, việc nén tín hiệu là cần thiết để tiết kiệm
băng thông trên đường truyền, tiết kiệm bộ nhớ lưu trữ dữ liệu. Lấy mẫu là
quá trình biến đổi tín hiệu tương tự thành tín hiệu rời rạc theo thang thời gian.
Định lý lẫy mẫu của Shannon Nyquist nói rằng muốn khôi phục một tín hiệu
băng tần gốc liên tục theo thời gian thì băng thông của tín hiệu ban đầu phải
có giới hạn và tần số lấy mẫu phải lớn hơn hai lần băng thông của tín hiệu ban
gốc. Đối với các tín hiệu không có băng thông giới hạn, thông thường phải sử
dụng bộ lọc thông thấp để hạn chế băng thông của tín hiệu trước khi lấy mẫu.
Mặt khác trong các ứng dụng khác như ảnh số tốc độ cao, kỹ thuật siêu cao

tần, thu thập dữ liệu từ rada, tín hiệu có tần số rất cao như vậy nếu lấy mẫu
theo nguyên lý Nyquist thì yêu cầu phải có bộ chuyển đổi ADC tốc độ cao gây
ra khó khăn cho việc chế tạo và giá thành đắt.
Trong chương này của khóa luận trình bày về một phương pháp đã tạo ra
cuộc cách mạng trong xử lý tín hiệu. Đó là phương pháp lẫy mẫu nén
(Compressed Sensing hay Compressed Sampling - CS) sử dụng ánh xạ tuyến
tính của tín hiệu, sau đó tín hiệu được tái tạo lại sử dụng các thuật toán trong
lý thuyết tối ưu. Đây một phương pháp mới để thu tín hiệu với tốc độ lấy mẫu
nhỏ hơn tốc độ Nyquist mà vẫn đảm bảo được việt khôi phục lại tín hiệu ban
đầu. Hai tiền đề quan trọng để có thể sử dụng kỹ thuật lấy mẫu nén là i) tín hiệu có biểu
diễn thưa theo một cơ sở nào đó và ii) điều kiện không liên kết – đây là điều kiện liên
quan đến cấu trúc của ma trận lấy mẫu và cơ sở biểu diễn tín hiệu.


5

1.2 MỘT SỐ KHÁI NIỆM
1.2.1 Biểu diễn tín hiệu

Để thuận lợi cho việc thiết kế các giải thuật thu, xử lý và tái tạo tín hiệu,
tín hiệu thường được biểu diễn như là một véc tơ trong không gian véc tơ phù
hợp. Khi tín hiệu f thuộc , ta có thể biểu diễn tín hiệu qua cơ sở của . Một tập
chuẩn được gọi là một cơ sở củanếu chuẩn là một hệ véc tơ độc lập tuyến tính
và sinh ra không gian . Tất cả các véc tơ thuộc không gian đều có biểu diễn
duy nhất dưới dạng một tổ hợp tuyến tính của các véc tơ cơ sở. Nói một cách
chính xác, bất kỳ một tín hiệu rời rạc có chiều dài hữu hạn là N, được xem
như một vectơ cột có kích thước N x 1 với các phần tử là

f [i]


(với i= 1, 2,

3…) thì có thể biểu diễn được như công thức (1.1):
(1.1)
hay ta có thể biểu diễn ngắn gọn hơn như (1.2)
(1.2)
Trong công thức (1.2), là các vectơ cột kích thước, là ma trận kích
thước với các cột là các cơ sở của , biểu diễn toán học là ; là véc tơ cột có
kích thước là gồm các hệ số của tín hiệu ; giá trị các hệ số này được tính như
sau: với là ma trận chuyển vị của . Nếu là tín hiệu liên tục trong miền thời
gian thì bằng cách tương tự có thể biểu diễn trong hệ các véc tơ trực chuẩn
như (1.3):
(1.3)
Và là hệ số của ; . Có thể nói, là biểu diễn trong hệ cơ sở trực chuẩn của
tín hiệu
1.2.2 Tín hiệu thưa và tín hiệu có thể nén

Khi tín hiệu là sự kết hợp tuyến tính của véc tơ cơ sở, nói cách khác
trong biểu diễn theo hệ các véc tơ cơ sở trực chuẩn thì chỉ có hệ số là khác
không và trọng số là bằng không, với thì f được gọi là tín hiệu thưa ( -


6

sparse). Véc tơ các hệ số lúc đó được gọi là véc tơ thưa Trong khái niệm này,
chúng ta chỉ đề cập đến số lượng các trọng số bằng 0 mà không quan tâm đến
vị trí bằng 0 của các trọng số.
Trong thực tế, có ít tín hiệu tự nhiên có tính chất thưa nghiêm ngặt như
định nghĩa ở trên. Nếu trong biểu diễn theo một cơ sở trực chuẩn nào đó, có
hệ số x có giá trị lớn, và trọng số có giá trị nhỏ, lúc đó ta có thể xấp xỉ với

một véc tơ thưa . Lúc này, tín hiệu f được gọi là tín hiệu có thể nén.
Kỹ thuật lấy mẫu nén áp dụng thành công đối với tín hiệu thưa hoặc tín
hiệu có thể nén.
1.3 KỸ THUẬT LẤY MẪU NÉN
1.3.1 Phương pháp lấy mẫu thông thường

Hình 1.1. thể hiện phương pháp lấy mẫu nén thông thường theo chuẩn
Nyquist, sau đó thực hiện nén dữ liệu cho các mục đích khác nhau.

Hình 1.1.Phương pháp lấy mẫu và nén truyền thống [10].
Trong mô hình này thì tín hiệu thưa có chiều dài được đo đạc lấy N
mẫu; sau đó sử dụng một phương pháp nén nào đó (như biến đổi sóng con hay
biến đổi cosin rời rạc) để nén tín hiệu chỉ còn trọng số lớn đáng quan tâm;
thực hiện việc truyền phát tín hiệu. Ở phía thu, chúng ta thực hiện quá trình
giải nén (theo phương pháp phù hợp với phương pháp nén đã thực hiện ở phía
phát) để khôi phục lại tín hiệu.


7

Nhận thấy, ở những phương pháp này, phải thu mẫu trong khi chỉ có
mẫu có giá trị được giữ lại sau khi nén, như vậy đã làm chậm tốc độ xử lý tín
hiệu; trong khi nếu tín hiệu có băng tần cao lại đòi hỏi tốc độ lẫy mẫu lớn để
đảm bảo khôi phục lại dữ liệu theo tiêu chuẩn Nyquist.
1.3.2 Phương pháp lấy mẫu thưa

Theo nguyên lý lấy mẫu của Nyquist: để đảm bảo cho việc khôi phục
chính xác một tín hiệu thì tần số lấy mẫu tín hiệu đó phải lớn hơn hoặc bằng
hai lần tần độ rộng băng tần của tín hiệu đó , nếu không đảm bảo điều này thì
sẽ xảy ra hiện tượng chồng phổ. Tuy nhiên, trong một số trường hợp như xử

lý ảnh, nén ảnh số hay chuyển đổi từ tương tự sang số (ADC) của tín hiệu
thưa thì tần số lấy mẫu không cần thiết phải đáp ứng theo đúng yêu cầu
Nyquist, tức là số lượng mẫu cần lấy nhỏ hơn nhiều so với số lượng mẫu cần
thiết theo tiêu chí Nyquist [7, 9].
Tín hiệu f(t) được thu bởi m phép đo tuyến tính với:
(1.4)
Trong công thức này, là các dạng sóng chuẩn. Nếu phép đo nhỏ hơn rất
nhiều so với kích thước của tín hiệu thì thì trường hợp đó được gọi là lấy
mẫu thưa (undersampled). Có một vài vấn đề đước đặt ra khi lấy mẫu thưa
như sau:
-

- Có thể khôi phục lại tín hiệu chỉ với phép đo hay không?
Có thể thiết kế những dạng sóng nén thích hợp để lấy được toàn bộ thông tin

-

của chỉ với phép đo ?
Làm thế nào có thể xấp xỉ được từ các thông tin thu được thông qua các giá
trị này?
Giả sử ma trận là ma trận nén thì nó sẽ là ma trận của các véc tơ hàng ;
quá trình khôi phục từ là không đúng trong trường hợp do sẽ có rất nhiều tín
hiệu “ứng cử” của cho trường hợp (Điều này có thể hiểu như trong trường
hợp số nghiệm của hệ phương trình là lớn hơn 1). Nhưng yêu cầu của việc


8

khôi phục luôn là tín hiệu tìm được sẽ tương đồng với tín hiệu thực nhất.
Cách giải quyết những vấn đề này sẽ được trình bày trong phần tiếp dưới.

1.3.3 Kỹ thuật lấy mẫu nén

Kỹ thuật lấy mẫu nén được đề xuất như một lý thuyết về lấy mẫu mới
vào năm 2006 bởi Emannuel Candès, Justin Romberg và Terence Tao cho
phép thu trực tiếp tín hiệu nén mà không thông qua việc thu mẫu rồi mới sử
dụng các phương pháp nén như thông thường. Trước hết việc này làm giảm
đáng kể (về thời gian và cũng độ phức tạp của cấu trúc thực hiện) việc đo đạc
để thu tín hiệu.
a. Mô hình lấy mẫu nén

Mô hình lấy mẫu nén được thể hiện như hình 1.2.

Hình 1.2 Mô hình lấy mẫu nén [10].
Theo mô hình này, với một tín hiệu có chiều dài phương pháp lấy mẫu
nén sử dụng phép lấy mẫu thưa. Dùng M phép đo tuyến tính (), khi đó các
mẫu đo được biểu diễn bởi phép nhân giữa và các véc tơ :
(1.5)
Tập hợp các phép đo được sắp xếp trong một vectơ chiều dài và các véc
tơ hàng trong ma trận :
(1.6)


9

Ma trận là ma trận đo trong phương pháp lấy mẫu nén, đó là một ma
trận đo không thích nghi (tức là cố định và không phụ thuộc vào tín hiệu ).
Ma trận đo này phải được thiết kế để có thể thu và lưu trữ các thông tin về
tín hiệu thưa- () trong phép đo mà vẫn đảm bảo khôi phục lại được tín
hiệu. Và cần tìm thuật toán khôi phục lại tín hiệu từ giá trị đo này.
b. Điều kiện khôi phục được tín hiệu


Một tín hiệu thưa- có kích thước , được lấy mẫu nén với giá trị từ phép
đo tuyến tính không thích nghi: (với ).

Hình 1.3. M phép đo Y của tín hiệu thưa- sử dụng ma trận đo [8].
Do việc lấy mẫu tín hiệu không tuân theo nguyên lý lấy mẫu Nyquist nên
việc để có thể khôi phục lại tín hiệu thì ma trận đo sử dụng trong phương pháp
này phải có tính chất đẳng cự giới hạn, tính chất này được phát biểu thông qua
điều kiện RIP như sau:
Điều kiện RIP (Ristricted Isometry Property): (điều cần và đủ về giới
hạn đẳng cự của ma trận đo để có thể xấp xỉ tín hiệu đã được đo từ mẫu).
Một tín hiệu thưa - được lấy mẫu nén bởi ma trận đo thì ma trận phải
thỏa mãn điều kiện sau:
(1.7)


10

Với là véc tơ hệ số của tín hiệu trong hệ các véc tơ trực chuẩn ; ; là
một hệ số lớn hơn 0, nhỏ hơn 1; nên
Ta có thể giải thích điều kiện này như sau: Khi đảm bảo điều kiện 1.7 thì
ma trận có tính chất gần như bảo toàn khoảng cách Euclide đối với các véc tơ
thưa K.
Như vậy, muốn sử dụng làm ma trận đo, chúng ta phải kiểm tra điều kiện
của ma trận sao cho thỏa mãn RIP. Điều kiện tách biệt sau đây cũng là một
điều kiện để đảm bảo RIP và khôi phục trung thực tín hiệu.
Điều kiện tách biệt (incoherence): Điều kiện tách biệt yêu cầu về cơ cấu
đo và biểu diễn phải thỏa mãn tính chất tách biệt giữa hai ma trận và . Sự tách
biệt chính là nghịch đảo mối quan hệ tương quan giữa hai ma trận, được tính
bằng giá trị lớn nhất của vectơ hàng và véc tơ cột :

(1.8)
Nếu hai véc tơ này có nhiều phần tử tương quan thì sự tương quan là lớn;
và ngược lại. Giá trị tương quan biến đổi theo đại số tuyến tính: . Phương
pháp lấy mẫu nén chủ yếu quan tâm tới những trường hợp có tương quan thấp:
ví dụ như khi là các xung delta và là ma trận cơ sở của biến đổi fourier thì
tương quan của hai ma trận là nhỏ nhất .
Trong nghiên cứu của Emmanuel Candès, Justin Romberg, và Terence
Tao đã chứng minh rằng: “Việc sử dụng ma trận đolà ma trận ngẫu nhiên theo
phân bố Gauss thì điều kiện RIP và điều kiện tách biệt đều được thỏa mãn.
Với việc sử dụng số các phép đo thỏa mãn với là một hằng số nhỏ thì hoàn
toàn có thể tái tạo được tín hiệu thưa có chiều dài ban đầu.”
c. Khôi phục tín hiệu

Một tín hiệu thưa có chiều dài được đo đạc và lấy mẫu theo phương
pháp lấy mẫu nén với mẫu có giá trị các hệ số là (với ).


11

Bài toán đặt ra là: Làm thế nào để khôi phục lại tín hiệu khi đã biết giá
trị của các mẫu?
Cách giải quyết: như đã trình bày ở trên thì tín hiệu được biểu diễn bởi
các hệ số trong hệ các vectơ cơ sở trực chuẩn là là: ; do đó cần tìm các hệ số
của . Như vậy cần biết thêm thông tin hay điều kiện nào đó về các hệ số và
phải dùng thuật toán dự đoán, tối thiểu hóa để ước lượng các hệ số sao cho
đúng với giá trị thực nhất.
Phương pháp khôi phục
Khôi phục tín hiệu sử dụng thuật toán L1- minimization là thuật toán
tương đối đơn giản để khôi phục tín hiệu đã được lấy mẫu nén.


-

Sử dụng:
(1.9)
Với giả thiết là:
(1.10)
Phương pháp này có thể khôi phục chính xác dữ liệu tuy nhiên số lượng

phép toán lớn do phải thử tất cả các trường hợp cho cả hai phương trình trên
nên tốc độ tính toán là chậm nên không được dùng để khôi phục tín hiệu trong
lấy mẫu nén.
- Sử dụng :

(1.11)
Với giả thiết như (1.10) là:

Thuật toán này cho khôi phục tương đối chính xác (kém hơn so với sử
dụng ) tín hiệu thưa- từ phép đo tuyến tính không thích nghi ().


12

Phương pháp này đã được nghiên cứu cải thiện bởi Emmanuel J.candès,
Michael B.Walkin và Stephen P.Boyd vào năm 2007 cho phép khôi phục
chính xác hơn gọi là

minimization được trọng số hóa (Reweighted L1

minimization). Tín hiệu được khôi phục bằng phương trình:
(1.12)

Cùng với giả thiết là:

Ở đó ma trận là ma trận chéo kích thước với các trọng số dương ; còn
lại các trọng số khác là bằng không. Các trọng số trên đường chéo được tính
bằng cách:
o
o
o
o

Thiết đặt và
Tính với
Cập nhật các giá trị trọng số :
hội tụ hoặc đạt tới một giá trị cực đại thì kết thúc thuật toán, ngược lại

tăng lên 1 đơn vị và trở lại bước tính .
- Sử dụng :
(1.13)
Với giả thiết là:

Tuy phương pháp này được đưa ra nhưng khôi phục không đúng dữ liệu.
- Phương pháp BP (Basis Pursuit)

Sử dụng phương pháp tối thiểu hóa BP dùng cho khôi phục tín hiệu được
lấy mẫu nén, khi mà tín hiệu có nhiễu cộng trong quá trình lấy mẫu - khi đó
phương pháp còn gọi là Basis Pursuit denoise ()
Trong quá trình đo đạt và lẫy mẫucủa tín hiệu thưa-được các giá trị mẫu
có nhiễu cộng :



13

(1.14)
Với là ma trận đo trong phép lẫy mẫu đó. Phương pháp là áp dụng thuật
tối thiểu hóa theo với – là các hệ số của tín hiệu và theo với là nhiễu cộng;
từ phương trình trên ta có thể biểu diễn nhiễu cộng này: .
Tín hiệu khôi phục theo thuật tối thiểu hóa theo [7]:
(1.15)
Với giả thiết:
(1.16)
Ở đó là số phân vị tương ứng của phân bố theo lý thuyết xác suất.
Ngoài cách sử dụng thuật toán toán -minimization thì còn có thể dùng
thuật toán OMP (Orthogonal Matching Pursuit) trong kỹ thuật lấy mẫu nén
nghiên cứu để khôi phục tín hiệu trong lấy mẫu nén. Tuy nhiên do giới hạn
của khóa luận nên vấn đề này không được trình bày ở đây.


14

Chương 2
CƠ BẢN VỀ XỬ LÝ ẢNH SỐ

2.1 GIỚI THIỆU

Xử lý ảnh là một một lĩnh vực khoa học và ứng dụng còn tương đối mới
mẻ so với các lĩnh vực khác, nhất là trên qui mô công nghiệp, song trong xử lý
ảnh đã bắt đầu xuất hiện những máy tính chuyên dụng. Để có thể hình dung
cấu hình một hệ thống xử lý ảnh chuyên dụng hay một hệ thống xử lý ảnh
dùng trong nghiên cứu, đào tạo, trước hết chúng ta sẽ xem xét các bước cần
thiết trong xử lý ảnh được thể hiện qua hình 2.1 [2].

Trước hết là quá trình thu nhận ảnh. Ảnh có thể thu nhận qua camera.
Thường ảnh thu nhận qua camera là tín hiệu tương tự (loại camera ống kiểu
CCIR), nhưng cũng có thể là tín hiệu số hoá (loại CCD - Charge Coupled
Device).
Lưu trữ
CAMERA

Thu nhận ảnh

SENNOR

Số hóa

Lưu trữ

Phân tích ảnh

Nhận
dạng

Hệ Q.Định

Hình 2.1 Các giai đoạn chính trong xử lý ảnh
Ảnh cũng có thể thu nhận từ vệ tinh qua các bộ cảm ứng (sensing), hay
ảnh, tranh được quét trên scanner. Tiếp theo là quá trình số hoá (Digitalizer)


15

để biến đổi tín hiệu tương tự sang tín hiệu rời rạc (lấy mẫu), lượng tử hóa và

số hoá trước khi chuyển sang giai đoạn xử lý, phân tích hay lưu trữ lại.
Quá trình phân tích ảnh thực chất bao gồm nhiều công đoạn nhỏ. Trước
hết là công việc tăng cường ảnh để nâng cao chất lượng ảnh. Do những
nguyên nhân khác nhau: có thể do chất lượng thiết bị thu nhận ảnh, do nguồn
sáng hay do nhiễu, ảnh có thể bị suy biến. Do vậy cần phải tăng cường và khôi
phục lại ảnh để làm nổi bật một số đặc tính chính của ảnh, hay làm cho ảnh
gần giống nhất với trạng thái gốc- trạng thái trước khi ảnh bị biến dạng. Giai
đoạn tiếp theo là phát hiện các đặc tính như biên, phân vùng ảnh, trích chọn
các đặc tính, v.v... Cuối cùng, tuỳ theo mục đích của ứng dụng, sẽ là giai đoạn
nhận dạng, phân lớp hay các quyết định khác.
Hình 2.2, 2.3, 2.4, 2.5 là một số hình ảnh thu được từ các kỹ thuật khác
nhau [11].

(a)

( b)

Hình 2.2 Ảnh MRI của con người (a) đầu gối, và (b) gai. (Hình ảnh (a)
của Dr.Thomas R. Gest, Division of Anatomical Sciences, Trường Đại học
Michigan trường y; và hình ảnh (b) của Dr. David R. Pickens, Cục Phóng xạ
học và Khoa học Phóng xạ học, Vanderbilt Đại học Y Dược.)


16

(a)

(b)

(c)


(d)

Hình 2.3 Ảnh tia gama. ( a ) chụp cắt lớp xương. (b)ảnh PET. (c)
Cygnus Loop. (d) Bức xạ gama (đốm sáng loá) từ van bình phản ứng.(Hình
ảnh (a) của G.E. Medical Systems; hình ảnh (b) của Dr. Michael E. Casey,
CTI PET Systems; hình ảnh (c) là của NASA; hình ảnh (d) của Professors
Zhong He and David K.Wehe, University of Michigan.)


17

(a)

(b)

(d)

(c)

(e)

Hình 2.4 Ảnh Tia X. (a) Chụp X - quang ngực. (b) Chụp X-quang động
mạch chủ. (c) CT đầu. (d) Bảng mạch điện. (e) Cygnus Loop. (Hình ảnh (a)
và (c) của Mr. David R. Pickens, Khoa X Quang và Khoa học phóng xạ,
Trung tâm Y tế Đại học Vanderbilt; hình ảnh (b) của Dr.Thomas R. GEST,
Phòng Khoa học giải phẫu, Đại học Michigan y tế; hình ảnh (d) của Mr.
Joseph E. Pascente, Lixi, Inc; hình (e) của NASA.)



18

(a)

(b)

Hình 2.5 Một số hình ảnh siêu âm: (a) Baby. (2) Góc nhìn khác của baby.
2.2 CÁC VẤN ĐỀ CƠ BẢN TRONG XỬ LÝ ẢNH

Như đã đề cập trong phần giới thiệu, chúng ta đã thấy được một cách
khái quát các vấn đề chính trong xử lý ảnh. Để hiểu chi tiết hơn, trước tiên ta
xem xét hai khái niệm (thuật ngữ) thường dùng trong xử lý ảnh đó là Pixel
(phần tử ảnh) và grey level (mức xám), tiếp theo là tóm tắt các vấn đề chính.
2.2.1 Một số khái niệm
a. Phần tử ảnh (điểm ảnh – pixel)

Ảnh trong thực tế là một ảnh liên tục về không gian và về giá trị độ sáng.
Để có thể xử lý ảnh bằng máy tính cần thiết phải tiến hành số hoá ảnh. Trong
quá trình số hoá, người ta biến đổi tín hiệu liên tục sang tín hiệu rời rạc thông
qua quá trình lấy mẫu (rời rạc hóa về không gian) và lượng hoá thành phần giá
trị mà thể về nguyên tắc bằng mắt thường không phân biệt được hai điểm kề
nhau. Trong quá trình này, người ta sử dụng khái niệm điểm ảnh (Picture
element – Pixel) hay phần tử ảnh. Ở đây cũng cần phân biệt khái niệm pixel
hay đề cập đến trong các hệ thống đồ họa máy tính. Để tránh nhầm lẫn ta tạm
gọi khái niệm pixel này là pixel thiết bị. Khái niệm pixel thiết bị có thể xem
xét như sau: khi ta quan sát màn hình (trong chế độ đồ hoạ), màn hình không
liên tục mà gồm nhiều điểm nhỏ, gọi là pixel. Mỗi pixel gồm một cặp toạ độ
x, y và màu.



19

Cặp toạ độ x, y tạo nên độ phân giải (resolution). Như màn hình máy tính
có nhiều loại với độ phân giải khác nhau: màn hình CGA có độ phân giải là
320 x 200; màn hình VGA là 640 x 350,...
Như vậy, một ảnh là một tập hợp các điểm ảnh. Khi được số hoá, nó
thường được biểu diễn bởi bảng hai chiều I(n,p): n dòng và p cột. Ta nói ảnh
gồm n x p pixels. Người ta thường kí hiệu I(x,y) để chỉ một pixel. Thường giá
trị của n chọn bằng p và bằng 256 [2].
b. Gray level: Mức xám

Mức xám là kết quả sự mã hoá tương ứng một cường độ sáng của mỗi
điểm ảnh với một giá trị số - kết quả của quá trình lượng hoá. Cách mã hoá
kinh điển thường dùng 16, 32 hay 64 mức. Mã hoá 256 mức là phổ dụng nhất
do lý do kỹ thuật. Vì 28 = 256 (0, 1, ..., 255), nên với 256 mức, mỗi pixel sẽ
được mã hoá bởi 8 bit.
2.2.2 Phân tích ảnh

Phân tích ảnh liên quan đến việc xác định các độ đo định lượng của một
ảnh để đưa ra một mô tả đầy đủ về ảnh. Các kỹ thuật được sử dụng ở đây
nhằm mục đích xác định biên của ảnh. Có nhiều kỹ thuật khác nhau như lọc vi
phân hay dò theo quy hoạch động.
Người ta cũng dùng các kỹ thuật để phân vùng ảnh. Từ ảnh thu được,
người ta tiến hành kỹ thuật tách (split) hay hợp (fusion) dựa theo các tiêu
chuẩn đánh giá như: màu sắc, cường độ, v.v.. Các phương pháp được biết đến
như Quad-Tree, mảnh hoá biên, nhị phân hoá đường biên. Cuối cùng, phải kể
đến cac kỹ thuật phân lớp dựa theo cấu trúc.


20


2.2.3 Nhận dạng ảnh

Nhận dạng ảnh là quá trình liên quan đến các mô tả đối tượng mà người
ta muốn đặc tả nó. Quá trình nhận dạng thường đi sau quá trình trích chọn
các đặc tính chủ yếu của đối tượng. Có hai kiểu mô tả đối tượng:
- Mô tả tham số (nhận dạng theo tham số).
- Mô tả theo cấu trúc ( nhận dạng theo cấu trúc).

Trên thực tế, người ta đã áp dụng kỹ thuật nhận dạng khá thành công với
nhiều đối tượng khác nhau như: nhận dạng ảnh vân tay, nhận dạng chữ (chữ
cái, chữ số, chữ có dấu).
Nhận dạng chữ in hoặc đánh máy phục vụ cho việc tự động hoá quá trình
đọc tài liệu, tăng nhanh tốc độ và chất lượng thu nhận thông tin từ máy
tính.Nhận dạng chữ viết tay (với mức độ ràng buộc khác nhau về cách viết,
kiểu chữ, v...,v phục vụ cho nhiều lĩnh vực.
Ngoài 2 kỹ thuật nhận dạng trên, hiện nay một kỹ thuật nhận dạng mới dựa
vào kỹ thuật mạng nơ ron đang được áp dụng và cho kết quả khả quan [1].
2.3 THU NHẬN ẢNH
2.3.1 Thiết bị thu nhận ảnh

Một hệ thống xử lý ảnh có thể trang bị kèm theo các hệ thống thông tin
địa lý - GIS (Geographical Information System) hay hệ MORPHO (giá
khoảng 7 đến 8 triệu USD) hoặc có thể là hệ thống máy tính cá. Các thiết bị
thu ảnh thông thường gồm máy quay (camera) cộng với bộ chuyển đổi tương
tự số AD (Analog to Digital) hoặc máy quét (scanner) chuyên dụng.
Các thiết bị thu nhận ảnh này có thể cho ảnh trắng đen B/W (Black &
White) với mật độ từ 400 đến 1600 dpi (dot per inch) hoặc ảnh màu 600 dpi.
Với ảnh B/W mức màu z là 0 hoặc 1. Với ảnh đa cấp xám, mức xám biến
thiên từ 0 đến 255. Khi dùng scanner, một dòng photodiot sẽ quét ngang ảnh

(quét theo hàng) và cho ảnh với độ phân giải ngang khá tốt. Đầu ra của


21

scanner là ảnh ma trận số mà ta quen gọi là bản đồ ảnh (ảnh Bitmap). Bộ số
hoá (digitalizer) sẽ tạo ảnh vector có hướng.
Trong xử lý ảnh bằng máy tính, ta không thể không nói đến thiết bị
monitor (màn hình) để hiện ảnh. Monitor có nhiều loại khác nhau:
-

CGA : 640 x 320 x 16 màu,
EGA : 640 x 350 x 16 màu,
VGA : 640 x 480 x 16 màu,
SVGA: 1024 x 768 x 256 màu.

Với ảnh màu, có nhiều cách tổ hợp màu khác nhau. Theo lý thuyết màu
do Thomas đưa ra từ năm 1802, mọi màu đều có thể tổ hợp từ 3 màu cơ bản:
Red (đỏ), Green (xanh lục) và Blue (xanh dương).
Thiết bị ra ảnh có thể là máy in đen trắng, máy in màu hay máy vẽ
(ploter). Máy vẽ cũng có nhiều loại: loại dùng bút, loại phun mực.
Nhìn chung, các hệ thống thu nhận ảnh thực hiện 2 quá trình:
- Cảm biến: biến đổi năng lượng quang học (ánh sáng) thành năng lượng điện.
- Tổng hợp năng lượng điện thành ảnh.
2.3.2 Các định dạng ảnh cơ bản trong xử lý ảnh

Ảnh thu được sau quá trình số hoá có nhiều loại khác nhau, phụ thuộc
vào kỹ thuật số hoá ảnh. Như đã nói ở phần trên, ta chia làm 2 loại: ảnh đen
trắng và ảnh màu. Ảnh thu nhận được có thể lưu trữ trên tệp để phục vụ cho
các bước xử lý tiếp theo. Dưới đây sẽ trình bày một số định dạng ảnh thông

dụng hay dùng trong quá trình xử lý ảnh hiện nay [2].
2.3.2.1

Định dạng ảnh IMG

Ảnh IMG là ảnh đen trắng. Phần đầu của ảnh IMG có 16 bytes chứa các
thông tin cần thiết :
-

6 bytes đầu: dùng để đánh dấu định dạng ảnh IMG. Giá trị của 6 bytes này
viết dưới dạng Hexa: 0x0001 0x0008 0x0001.


22

-

2 bytes tiếp theo: chứa độ dài mẫu tin. Đó là độ dài của dãy các bytes kề liền
nhau mà dãy này sẽ được lặp lại một số lần nào đó. Số lần lặp này sẽ được lưu
trong
-

byte đếm. Nhiều dãy giống nhau được lưu trong một byte.
4 bytes tiếp: mô tả kích cỡ pixel
2 bytes tiếp : số pixel trên một dòng ảnh
2 bytes cuối: số dòng ảnh trong ảnh.

Ảnh IMG được nén theo từng dòng. Mỗi dòng bao gồm các gói(pack).
Các dòng giống nhau cũng được nén thành một gói.
2.3.2.2


Định dạng ảnh PCX

Định dạng ảnh PCX là một trong những định dạng ảnh cổ điển nhất. Nó
sử dụng phương pháp mã loạt dài RLE (Run-Length-Encoded) để nén dữ liệu
ảnh. Quá trình nén và giải nén được thực hiện trên từng dòng ảnh. Thực tế,
phương pháp giải nén PCX kém hiệu quả hơn so với kiểu IMG. Tệp PCX gồm
3 phần: đầu tệp (header), dữ liệuảnh (image data) và bảng màu mở rộng.
Header của tệp PCX có kích thước cố định gồm 128 byte và được phân
bố như sau:
+ 1 byte : chỉ ra kiểu định dạng. Nếu là kiểu PCX/PCC nó luôn có giá trị
là 0Ah.
+ 1 byte: chỉ ra version sử dụng để nén ảnh
+ 1 byte: chỉ ra phương pháp mã hoá. Nếu là 0 thì mã hoá theo phương
pháp BYTE PACKED, nếu không là phương pháp RLE.
+ 1 byte: số bit cho một điểm ảnh plane.
+ 1 word: toạ độ góc trái trên của ảnh. Với kiểu PCX nó có giá trị là
(0,0); còn PCC thì khác (0,0).
+ 1 word: toạ độ góc phải dưới.
+ 1 word: kích thước bề rộng và bề cao ảnh.
+ 1 word: số điểm ảnh.


23

+ 1 word: độ phân giải màn hình.
+ 1 word.
+ 48 byte: chia thành 16 nhóm, mỗi nhóm 3 byte. Mỗi nhóm này chứa
thông tin về một thanh ghi màu. Như vậy ta có 16 thanh ghi màu.
+ 1 byte: không dùng đến và luôn đặt là 0.

+1 byte: số bit plane mà ảnh sử dụng. Với ảnh 16 màu, giá trị này là 4,
với ảnh 256 màu (1 pixel/8 bit) thì số bit plane lại là 1.
+ 1 byte: số bytes cho một dòng quét ảnh.
+ 1 word: kiểu bảng màu.
+ 58 byte: không dùng.
Tóm lại, định dạng ảnh PCX thường được dùng để lưu trữ ảnh vì thao tác
đơn giản, cho phép nén và giải nén nhanh. Tuy nhiên vì cấu trúc của nó cố
định, nên trong một số trường hợp nó làm tăng kích thước lưu trữ. Và cũng vì
nhược điểm này mà một số ứng dụng lại sử dụng một kiểu định dạng khác
mềm dẻo hơn: định dạng TIFF (Targed Image File Format) sẽ mô tả dưới đây.
2.3.2.3

Định dạng ảnh TIFF

Kiểu định dạng TIFF được thiết kế để làm nhẹ bớt các vấn đề liên quan
đến việc mở rộng tệp ảnh cố định. Về cấu trúc, nó cũng gồm 3 phần chính:
-

Phần Header (IFH): có trong tất cả các tệp TIFF và gồm 8 byte:
+ 1 word: chỉ ra kiểu tạo tệp trên máy tính PC hay Macintosh. Hai loại

này khác nhau rất lớn ở thứ tự các byte lưu trữ trong các số dài 2 hay 4 byte.
Nếu trường này có giá trị là 4D4Dh thì đó là ảnh cho máy Macintosh; nếu là
4949h là của máy PC.
+ 1 word: version. Từ này luôn có giá trị là 42. Có thể coi đó là đặc
trưng của file TIFF vì nó không thay đổi.


24


+ 2 word: giá trị Offset theo byte tính từ đầu file tới cấu trúc IFD
(Image File Directory) là cấu trúc thứ hai của file. Thứ tự các byte ở đây phụ
thuộc vào dấu hiệu trường đầu tiên.
-

Phần thứ 2 (IFD): Nó không ở ngay sau cấu trúc IFH mà vị trí của nó được
xác định bởi trường Offset trong đầu tệp. Có thể có một hay nhiều IFD cùng
tồn tại trong file (nếu file có nhiều hơn 1 ảnh).
Một IFD gồm:
+ 2 byte: chứa các DE (Directory Entry).
+ 12 byte là các DE xếp liên tiếp. Mỗi DE chiếm 12 byte.
+ 4 byte : chứa Offset trỏ tới IFD tiếp theo. Nếu đây là IFD cuối cùng thì
trường này có giá trị là 0.

-

Cấu trúc phần dữ liệu thứ 3: các DE.
Các DE có độ dài cố định gồm 12 byte và chia làm 4 phần:
+ 2 byte: Chỉ ra dấu hiệu mà tệp ảnh đã được xây dựng.
+ 2 byte: kiểu dữ liệu của tham số ảnh.
+ 4 byte: trường độ dài (bộ đếm) chứa số lượng chỉ mục của kiểu dữ
liệu đã chỉ ra . Nó không phải là tổng số byte cần thiết để lưu trữ. Để có số
liệu này ta cần nhân số chỉ mục với kiểu dữ liệu đã dùng.
+ 4 byte: đó là Offset tới điểm bắt đầu dữ liệu thực liên quan tới dấu
hiệu, tức là dữ liệu liên quan với DE không phải lưu trữ vật lý cùng với
nó nằm ở một vị trí nào đó trong file.
Dữ liệu chứa trong tệp thường được tổ chức thành các nhóm dòng
(cột) quét của dữ liệu ảnh. Cách tổ chức này làm giảm bộ nhớ cần thiết
cho việc đọc tệp. Việc giải nén được thực hiện theo bốn kiểu khác nhau
được lưu trữ trong byte dấu hiệu nén.



25

Như đã nói ở trên, file ảnh TIFF là dùng để giải quyết vấn đề khó mở
rộng của file PCX. Tuy nhiên, với cùng một ảnh thì việc dùng file PCX
chiếm ít không gian nhớ hơn.
2.3.2.4

Định dạng ảnh GIF

Cách lưu trữ kiểu PCX có lợi về không gian lưu trữ: với ảnh đen trắng
kích thước tệp có thể nhỏ hơn bản gốc từ 5 đến7 lần. Với ảnh 16 màu, kích
thước ảnh nhỏ hơn ảnh gốc 2-3 lần, có trường hợp có thể xấp xỉ ảnh gốc. Tuy
nhiên, với ảnh 256 màu thì nó bộc lộ rõ khả năng nén rất kém. Điều này có thể
lý giải như sau: khi số màu tăng lên, các loạt dài xuất hiện ít hơn và vì thế,
lưu trữ theo kiểu PCX không còn lợi nữa. Hơn nữa, nếu ta muốn lưu trữ nhiều
đối tượng trên một tệp ảnh như kiểu định dạng TIFF, đòi hỏi có một định dạng
khác thích hợp [2, 3].
Dạng ảnh GIF cho chất lượng cao, độ phân giải đồ hoạ cũng đạt cao, cho
phép hiển thị trên hầu hết các phần cứng đồ hoạ.
Định dạng GIF có rất nhiều ưu điểm và đã được công nhận là chuẩn để
lưu trữ ảnh màu thực tế (chuẩn ISO 10918-1). Nó được mọi trình duyệt Web
(Web Browser) hỗ trợ với nhiều ứng dụng hiện đại. Cùng với nó có chuẩn
JPEG (Joint Photograph Expert Group). GIF dùng cho các ảnh đồ hoạ
(Graphic), còn JPEG dùng cho ảnh chụp (Photographic).


×