NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIẾM VĂN BẢN TRONG HÌNH ẢNH TÀI LIỆU

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.89 MB, 25 trang )

- 1 -

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

LẠI QUỐC ANH

NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIẾM
VĂN BẢN TRONG HÌNH ẢNH TÀI LIỆU

Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01

TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2013

- 2 -

Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học:
PGS. TS. Ngô Quốc Tạo

Phản biện 1:
………………………………………………………………

Phản biện 2:
………………………………………………………………

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc
sĩ tạ i Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: giờ ngày tháng năm

Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

- 3 -

MỞ ĐẦU
Hiện nay công nghệ hiện đại đã giúp giảm tải quá trình xử lý,
lưu trữ, truyền tải hình ảnh tài liệu hiệu quả. Các công ty thường phát
triển hướng đến văn phòng không cầ n giấy tờ, một số lượng lớn các
tài liệu in được số hoá và lưu trữ như hình ảnh trong cơ sở dữ liệu.
Sự phổ biến, tầm quan trọng của hình ảnh tài liệu như nguồn thông
tin gốc. Hàng triệu tài liệu kỹ thuật số được truyền tải liên tục từ
điểm này đến điểm khác trên Internet. Định dạng phổ biến của các tài
liệu kỹ thuậ t số là văn bả n, trong đó các ký tự được mã hoá và máy
có thể hiểu được. Mặt khác, để thực hiện cho hàng tỷ tài liệu truyền
thống và di sản sẵn có dễ dàng tiếp cận trên Internet, chúng được
quét và chuyển đổi sang kỹ thuật số hoá hình ảnh bằng cách sử dụng
thiết bị số hóa. Mặc dù công nghệ xử lý hình ảnh tài liệu DIP có thể
được sử dụng để tự động chuyển đổi hình ảnh kỹ thuật số của các tài
liệu này về định dạng văn bản mà máy có thể đọc được, bằng cách sử
dụng công nghệ Nhận dạng ký tự quang học OCR, thường không
phải là một cách hiệu quả và thiết thực để xử lý một số lượng lớn các
tài liệu giấy.
Một lý do là các kỹ thuật phân tích cấu trúc trang trong xử lý
văn bản với các bố trí phức tạp chưa được hoàn thiện đầy đủ.
Một lý do khác là khả năng nhận dạng của công nghệ OCR
vẫn kém, đặc biệt là với hình ảnh tài liệu có chất lượng kém (giấy in
kém chất lượng, trang in sau bị hằn lên trang trước, tài liệu photo
kém, mực in kém, chữ mất nét, in chữ bị dính, ). Nhận dạng xong và
sửa chữ a kết quả OCR thường là không thể tránh khỏi trong hầu hết
các hệ thống DIP.
Kết quả, lưu trữ tài liệu ở định dạng hình ảnh truyền thống
và di sản sẵn có trở thành giải pháp thay thế trong nhiều trường hợp.
Ngày nay, chúng ta có thể tìm thấy trên Internet và rất nhiều các tài

- 4 -
liệu kỹ thuật số trong định dạng ảnh, bao gồm cả giấy tờ tạp chí, hội
nghị, luận án sinh viên, sổ tay, Hơn nữa, nhiều thư viện kỹ thuật số
và các cổng web như MEDLINE, ACM, IEEE, lưu giữ hình ảnh tài
liệu quét mà không có đ ịnh dạng văn bản tương đương.
Yêu cầu đặt ra cho người sử dụng là làm sao có thể tìm kiếm
thông tin lưu trữ trên theo nội dung một cách hiệu quả ? Trên cơ sở
đó em chọn đề tài "Nghiên cứu tìm kiếm văn bản trong hình ảnh
tài liệu".
Cấu trúc đề tài luận văn
Chương 1: Tổng quan về tìm kiếm văn bản trong hình ảnh tài liệu
- Trình bày giới thiệu, thách thức đối với hệ thống hệ truy vấn thông
tin từ hình ả nh tài liệu, khái quát về xử lý ảnh.
Chương 2: Các phương pháp trích chọn đặc trưng từ hình ảnh tài
liệu
- Trình bày các phương pháp trích chọn đặc trưng từ hình ảnh tài liệu
Chương 3: Các phươ ng pháp so sánh hình ảnh từ
- Trình bày các phương pháp so sánh hình ảnh từ dựa trên hình ảnh
tài liệu.
Chương 4: Chương trình thử nghiệm tìm kiếm vă n bản trong hình
ảnh tài liệu trên cơ sở lý thuyết đã xây dựng.

- 5 -
CHƯƠNG 1 - TỔNG QUAN VỀ TÌM KIẾM VĂN
BẢN TRONG HÌNH ẢNH TÀI LIỆU
1.1. Giới thiệu

!

Hình 1.1: Sơ đồ khối hệ thống duyệt từ khoá cho hình ảnh tài liệu.
1.2. So sánh và truy vấn từ các tài liệu thu thập
Nhiều thư viện kỹ thuật số hiện nay, hình ảnh tài liệu được
dùng phổ biến như là một nguồn thông tin. Do đó khi truy cập vào
Máy quét
ảnh, máy
ảnh,
Tài liệu,
Văn bản,
Fax,
Hình ảnh
Tài liệu,
Văn bản,
Fax,
Tiền xử lý ảnh
Trích chọn các
thành phần kết nố i
Trích chọn đặc trưng
Sử dụng các

phương pháp so
sánh hình ảnh từ
Đưa ra kết quả
Người sử
dụng
Đưa ra
từ khoá
Gắn cho
hình ảnh từ
Trích chọn
đặc trưng

- 6 -
các nộ i dung của cơ sở dữ liệu hình ảnh tài liệu là quan trọng và là
thách thức trong bài toán xử lý hình ảnh tài liệu. Hai hướng chính là
truy vấn không nhận dạng và truy vấn dựa trên nhận dạng. Truy vấn
dựa trên OCR sẽ rất kém nếu như dữ liệu hình ảnh ký tự quét vào lỗi
lớn hơn 5%. Nhưng với phần lớn các tài liệu cũ, photocopy nhiều
lần, bản Fax kém chất lượng thì hầu như không OCR được. Quá trình
xử lý sẽ hướng đến truy vấn không OCR. Như vậy tuỳ theo mức độ
hình ảnh tài liệu khác nhau, chữ viết tay, bản in ấn, báo chí, thì lựa
chọn hướng truy vấn phù hợp.
Phương pháp N-Gram xây dựng lược đồ lập chỉ mục hình
ảnh tài liệu dựa trên lược đồ hàm băm nội dung chính yếu. Đặ c trưng
ảnh cụ thể là, mật độ chiề u dọc (VTD), mật đ ộ chiều ngang (HTD),
được trích chọn. Một vector n-gram được xây dựng cho mỗi tài liệu
dựa trên các đặc trưng này. Văn bản tương tự giữa các tài liệu sau đó
được đo bằng cách tính toán điểm của các vector tài liệu.
Phương pháp đối sánh đặc trưng không chính xác, so sánh

các chuỗi đ ể lập chỉ mục liên quan đến rất nhiều bài toán về ký tự và
là nhân tố chính trong truy vấn hình ảnh tài liệu. Hình ảnh từ được
biểu diễn bởi một chuỗimẫu, kỹ thuật so sánh một phần hình ảnh từ
để đánh giá một hình ảnh từ liên quan đến hình ảnhtừ khác như thế
nào và quyết định liệu một từ có là một phần của từ khác.
Phương pháp xoắn thời gian động DTW sử dụng cho đối
sánh và truy vấn đối với hình ảnh tài liệu chữ viết tay. Thuật toán tìm
từ dựa trên DTW cho lập chỉ mục và truy vấn các tài liệu trực tuyến.
Đối sánh hình ảnh từ chữ viết tay sử dụng các đặc trưng mã hoá nhị

- 7 -
phân gradient. Rút trích các đặc trưng nhị phân, độ đo tương tự dựa
trên sự tương quan đ ư ợc sử dụng cho các hình ảnh đối sánh từ.
Những khó khăn của việc đối sánh các ảnh từ của tài liệu in
ấn như sau:
- Ngôn ngữ: Mỗi ngôn ngữ có các quy ước riêng, phụ thuộc vào các
biến đổi hình thái của từ được tạo ra.
- Chấ t lư ợng in ấn: Tài liệu in ấn thường có chất lượng kém. Mẫu in
thực tế, từ thường bị mất nét, hay nét dầy thì từ dính nhau, hay có các
nhiễu dính xung quanh từ,
1.3. Những thách thức cho truy vấn thông tin từ hình ảnh
tài liệu chữ in
Hầu hết các sách in, tài liệu, tờ báo, lưu trữ tại các thư viện
số hoá đều có chất lượng kém, nhiều dạng in ấn, mẫu từ khác nhau.
Lập chỉ mục và truy vấn hình ảnh tài liệu có những thách thức lớn
trong các tình huống này.
1.3.1. Mô hình chất lượng trong tài liệu chữ in
Một số lỗi thường xuất hiện trong tài liệu in ấn như: mực in
tạo thành các đốm nhiễu tại các ký tự, mất nét chữ, dính chữ, chữ in

bị đậm hằn lên trang trước, nguyên nhân do chất lượng kém của
giấy và mực in. Mô hình chất lượng tài liệu dễ dàng cho chúng ta
kiểm tra sự thực hiện của lược đồ đối sánh.
1.3.2. Ngôn ngữ
Các ngôn ngữ khác nhau có những quy tắc ngôn ngữ riêng
cho sự hình thành từ. Trên cơ sở các quy tắc, từ với nghĩa tươ ng tự
có thể xuất hiện các hình thức khác nhau trong văn bản. Ngôn ngữ

- 8 -
tiếng Anh đượ c đánh giá cao bởi sử dụng tiền tố, hậu tố cho mẫu từ
và diễn đạt mối quan hệ ngữ pháp.
1.4. Một số khái niệm cơ sở xử lý ảnh
1.4.1. Ảnh số
! Trong thực tế ảnh liên lục về không gian và độ sáng. Để xử
lý được bằng máy tính thì ảnh phải được số hóa. Số hóa ảnh là sự
biến đổi gần đúng một ảnh liên tục thành tập điểm phù hợp với ảnh
thật về vị trí và độ sáng.!
1.4.2. Ảnh biểu diễn theo mô hình Raster
Đây là mô hình biểu diễn ảnh thông dụng nhất hiện nay. Ảnh
được biểu diễn dưới dạng ma trận các điểm ảnh.
1.4.3. Ảnh biểu diễn theo mô hình Vector
Trong mô hình Vector người ta sử dụng hướng giữa các
Vector của điểm ảnh lân cận để mã hoá và tái tạo hình ảnh ban đầu.
1.4.4. Độ phân giải của ảnh
Độ phân giải là số lượng điểm ảnh (pixel) dùng để tập hợ p
thành hình ảnh. Số lượng điểm ảnh càng nhiều và càng nhỏ thì độ nét
và chi tiết ảnh sẽ càng cao.
1.4.5. Mức xám của ảnh
Kết quả của sự mã hoá tương ứng một cường độ sáng của

mỗi điểm ảnh với một giá trị số - kết quả của quá trình lượng hoá.
1.5. Một số kỹ thuật nâng cao chất lượng ảnh
1.5.1. Lọc nhiễu

- 9 -
1.5.1.1. Các loại nhiễu
Các tín hiệu nhiễu thường được chia thành các loại chính
như sau:
Nhiễu do thiết bị thu nhận ảnh là loại nhiễu gây ra do giới
hạn nhiễu xạ và quang sai của thấu kính, nhiễu do bộ phận cảm
quang, ảnh mờ nhòe do ống kính, nhiễu do rung động thiết bị trong
quá trình thu nhận.
Nhiễu ngẫu nhiên độc lập là các loại nhiễu gây ra do ảnh
hưởng của môi trường xung quanh, do ảnh hưởng của khí quyển.
Nhiễu do vật quan sát. Đây là nhiễu gây ra do bề mặt của bản
thân vật có độ nhám gồ ghề. Chính nhiễu này gây hiện tượng tán xạ
của các tia đơn sắc và sinh ra hiện tượng nhiễu lốm đốt.
1.5.1.2. Lọc nhiễu lốm đốm:
Mô hình quan sát có nhiễu lốm đốm như sau:
w
N
[m,n]= z[m,n] +η
N
[m,n] (1.1)
Trong công thức 1.5 thì η
N
[m,n] là nhiễu trắng dừ ng. Với
N≥2 thì ηN[m,n] có thể mô tả gắn với nhiễu ngẫu nhiên Gauusian

với mật độ phổ được định nghĩa như sau:
S ηN (ξ1, ξ2)= σ2 =
π
!
/6! !!!!N = 1
1/N!!!!!!!!N > 1
(1.2)
1.5.2. Hiệu chỉnh góc nghiêng trang văn bản
Trong quá trình thu thập, ảnh có thể bị nghiêng do đó cần
phải căn chỉnh độ nghiêng của ảnh bằng các xác định góc nghiêng và
xoay ảnh trở lại như ảnh gốc.

- 10 -
1.5.2.1. Phương pháp dựa trên biến đổi Hough
Biến đổi Hough là phép biến đổi điểm ảnh từ hệ tọa độ x-y
sang hệ tọa độ ρ-θ do đó rất hữu ích cho việc dò tìm đường thẳng
trong ảnh vì thế rất thích hợp cho việc xác định góc nghiêng của ảnh
có chứa các thành phần là các dòng văn bản.
1.5.2.2. Phương pháp láng giềng gần nhất
Phương pháp này dựa trên một nhận xét rằng trong một trang
văn bản, khoảng cách giữa các kí tự trong một từ và giữa các kí tự
của từ trên cùng một dòng là nhỏ hơn khoảng cách giữa hai dòng văn
bản, vì thế đối với mỗi kí tự, láng giềng gần nhất của nó sẽ là các kí
tự liền kề trên cùng một dòng văn bản.
1.5.2.3. Phương pháp sử dụng chiếu nghiêng
Dựa vào hình chiếu ngang/dọc của ảnh để tìm góc nghiêng.
1.6. Kết luận
Chương này đưa ra các khái niệm tổng quan về hệ thống truy

vấn từ dựa trên hình ảnh tài liệu. Giới thiệu sơ qua một số các
phương pháp trích chọn đặc trưng hình ảnh, đối sánh hình ảnh từ (N-
Gram, đối sánh đặc trưng chuỗi không chính xác, DTW).Các khái
niệm cơ sở xử lý ảnh. Các khái niệm về nâng cao chất lượng ảnh như
xoá nhiễu, hiệu chỉnh độ nghiêng của ảnh.
!

- 11 -
CHƯƠNG 2 - CÁC PHƯƠNG PHÁP TRÍCH
CHỌN ĐẶC TRƯNG TỪ HÌNH ẢNH TÀI LIỆU
Trích chọn đặc trưng là bài toán thu thập thông tin từ dữ liệu
thô, phù hợ p nhất cho một ứng dụng nhất định. Trích chọn đặc trưng
là trích chọn những thông tin hữu ích từ hình ảnh tài liệu. Bộ nhớ
được giảm tải chỉ cần lưu giữ thông tin cần thiết, tạo cho hệ thống trở
nên nhanh hơn và truy tìm tài liệu hiệu quả hơn. Khi một hoặc nhiều
đặc trưng được trích chọn sẽ được lưu trong cơ sở dữ liệu để sử dụng
cho công việc sau này. Số lượng thông tin hữu ích mà một máy tính
lấy ra từ hình ảnh là yếu tố rất quan trọng quyết định tính thông
minh, cũng như hiệu quả của hệ thống truy tìm hình ảnh. Nhiều đặc
trưng khác nhau đ ã được sử dụng trong xử lý ảnh và nhận dạng mẫu
(đại diện hình ảnh tài liệu). Thử nghiệm với các đặc trưng: cấu hình
từ, mô tả moment bất biến thống kê, biểu diễn miền biến đổi, sử
dụng phép chiếu ngang, biểu diễn đặc trưng của hình ảnh từ.
2.1. Cấu hình từ
Cung cấp biểu diễn thô của hình ảnh từ đối sánh. Phép chiế u,
chuyển vị, trên và thấ p hơn của cấu hình là các đặc trưng được xem
xét biểu diễn cho các hình ảnh từ.
2.2. Mô tả moment bất biến thống kê

Các đặc trưng dựa vào moment được tính toán để phân tích
hình dạng của hình ảnh từ, mỗi yêu cầu của moment có các thông tin
khác nhau cho cùng một hình ảnh.

- 12 -
2.3. Biểu diễn miền biến đổi
Sử dụng Fourier rời rạc để mô tả biểu diễn các hình dạng từ.
N Fourier mô tả: G(i), i=0,1,2, ,N-1 độ dài theo chiều dọc của hình
ảnh từ, N là đ ộ rộng của từ.
2.4. Sử dụng phép chiếu ngang
Chia hình ảnh tài liệu thành nhiề u vùng hình chữ nhật, mỗi
vùng biểu diễn cho một dòng văn bản. Các thành phần kết nối tại các
vùng khác nhau phụ thuộc vào các đối tượng ký tự khác nhau.
Tuỳ thuộc vào các đặc trưng, các đối tượng ký tự được phân
lớp dựa trên một độ đo khoảng cách. Đối với hai đối tượng ký tự i và
j, khoảng cách D
ij
được định nghĩa dưới đây;
D
ij
= diff(HTD
i
, HTD
j
) + diff(VTD
i
, VTD
j

), (2.1)
diff(Vi, Vj) là hàm tính toán khoảng cách giữa hai vector Vi và Vj.

Hình 2.1. (a) Ảnh gốc, (b) các đối tượng ký tự được nhận biết và
đánh dấu trong các hình hộp, (c) gắn các số lớp cho các đối tượng ký
tự, (d) tập hợ p tất cả các lớp đố i tượ ng được tìm thấ y trong ảnh gốc.

- 13 -
2.5. Mô tả chuỗi đặc trưng cho hình ảnh từ
Các đặc trưng được sử dụng biểu diễn cho hình ảnh từ
LRPS, chuỗi được mã hoá trình tự từ tận cùng bên trái đến ngoài
cùng bên phải của một từ. Đặc trưng dòng, mật độ ký tự được sử
dụng để trích chọn từ hình ảnh ban đầu. Một từ in trong các tài liệu
có các kích cỡ, phông chữ, khoảng cách khác nhau, sẽ được xem
xét khi trích chọn các đặc trưng.
2.5.1. Biểu diễn đặc trưng LRPS
Từ được phân tách một cách rõ ràng, từ tận cùng bên trái đến
ngoài cùng bên phải, thành các phần rời rạc. Mỗi phần ban đầu được
biểu diễn bằng các thuộc tính xác định. Một p ban đầu được mô tả
bằng cách sử dụng một bộ (𝜎, 𝜔), 𝜎 là các đ ặc trưng LTA ban đầu, 𝜔
là đặc trưng phần đầu, phần thấp của ký tự ADA. Kết quả, hình ảnh
từ được biểu diễn bởi dãy P tuần tự như sau:
P=<p
1
p
2
p
n

>=<(𝜎
!
, 𝜔
!
) (𝜎
!
, 𝜔
!
). (𝜎
!
, 𝜔
!
)>, (2.2)
!
Hình 2. 2. Chuỗi trích chọn ban đầu, hình ảnh từ được trích chọn từ
hình ảnh tài liệu chứa các thông tin của baseline, x-line, đường biên

- 14 -
trên (top boundary), đườ ng biên dưới (bottom boundary). (a) đặc
trưng đườ ng nét thẳng, (b) một phần còn lại của (a), (c) đường ngang
T
N
=2, (d) đường ngang T
N
=4, (e) đường ngang T
N
=6.
2.5.2. Tính các đặc trưng đường nét thẳng hoặc đường
ngang (LTA)

Tính LTA gồm 2 bước. Bước đầu tiên trích chọn các đặc
trưng đường nét thẳng của hình ảnh từ (Hình 2.2a). Bước này chỉ có
đường nét dọc, đường nét chéo được trích chọn. Sau đó, đặc trưng
đường ngang của phần còn lại được tính toán.
2.5.2.1. Đặc trưng đường nét thẳng
Phương pháp run-lenght-based sử dụng trích chọn đường nét
thẳng củ a hình ảnh từ. Sử dụng R(a,𝜃) biểu diễn cho một hướng
chạy, được định nghĩa là một tập hợp của các điểm ả nh kết nối màu
đen có chứa một điểm a, dọc theo hướng qui định 𝜃. 𝑅(𝑎, 𝜃) độ dài
khoảng chạy của R(a,!𝜃) , là số điểm điể m đen của khoảng chạ y.
2.5.2.2. Đặc trưng đường ngang
Để trích chọn các đặc trưng đường ngang, quét hình ảnh từ
cột theo cột, và số đư ờng ngang T
N
được ghi lại bằng cách đếm số
lượng quá trình chuyển đổi từ điểmảnh màuđen đến đ iểm ảnh màu
trắng, hoặc ngược lại, dọc theo mỗi cột.
2.5.3. Hậu xử lý
Để có thể để đối phó với các phông chữ khác nhau, chuỗi
gốc nên có kiểu chữ độc lập.Trong số các phông chữ khác nhau, sự
khác biệt đáng kể ảnh hưởng đến trích chọn của một LRPS được biểu

- 15 -
diễn của font serif, đặc biệt là ở những phần thể hiện bởi các đặc
trưng đườ ng ngang.
2.6. Kết luận
Trong chương này đã giới thiệu các đặc trưng được trích
chọn trong hình ảnh tài liệu như: cấu hình từ, mô tả moment bất biến
thống kê, biểu diễn miền biến đổi, sử dụng phép chiếu ngang, mô tả

chuỗi đặ c trưng cho hình ảnh từ.

- 16 -
CHƯƠNG 3 - CÁC PHƯƠNG PHÁP SO SÁNH
HÌNH ẢNH TỪ
Việc tìm kiếm tài liệu được thực hiện bằng một thuật toán so
sánh hình ảnh truy vấn với tất cả các hình ảnh có trong cơ sở dữ liệu.
Thực hiện so sánh tốt có thể đạt được bởi một kỹ thuật sắp xếp và
tìm kiếm so sánh tố t nhất giữa các cặp của truy vấn và hình ảnh từ
được tham chiếu. Công việc chính của thuật toán là so sánh những
đặc trưng với những đặc trưng đã được xử lý, đánh chỉ số trong cơ sở
dữ liệu. Độ đo tương tự được tính toán từ vector đặc trưng của hình
ảnh truy vấn với những vector đặc trưng khác của tất cả các hình ảnh
trong cơ sở dữ liệu bằ ng việc sử dụng độ đo khoảng cách. Kết quả
những bức ảnh được sắp xếp dựa trên độ đo khoảng cách.
3.1. Thuật toán DTW
DTW sử dụng để tính toán khoảng cách giữa hai chuỗi thời
gian. Một chuỗi thời gian là một danh sách các mẫu lấy từ mộ t tín
hiệu, được sắp xếp theo các mẫu tương ứng được biểu diễn thành
những dãy số thực, thí dụ T = t
1
,…t
n

Thuật toán sử dụng các đặc trưng trích trọn cấu hình từ, mô
tả moment bất biến thông kê, mô tả miền biến đổi trong các mục 2.1,
2.2, 2.3. Sắp xếp các tập vector đặc trưng tuần tự và tính toán độ đo
tương tự.
Cho hai hình ảnh từ được biểu diễn bởi các vetor đặc trưng

tuần tự:
G = G
1
, G
2
,…,G
M
, H = H
1
, H
2
,…H
N
.

- 17 -
Giá trị trị DTW giữa hai dãy tuần tự là D(M,N), M, N là độ
dài của hai dãy tuần tự. Tính toán như sau:
D(i, j) = min
𝐷(𝑖 − 1, 𝑗 − 1)
𝐷(𝑖, 𝑗 − 1)
𝐷(𝑖 − 1, 𝑗)
+ 𝑑( 𝑖, 𝑗) (3.1)
d(i, j) là giá trị sắp xếp phần tử thứ i!∈G với phần tử thứ j!∈H.
Đường xoắn tối ưu (optimal warping path -OWP) là giá trị
nhỏ nhất trong các khoảng cách tối thiểu, trong số tấ t cả các đường
trong không gian đối sánh DTW, bắt đầu từ D(0, 0) đến D(M, N) với
độ dài L. Định nghĩa như sau:
OWP (G, H) =

𝑎𝑟𝑔 𝑚𝑖𝑛 𝑐𝑜𝑠𝑡 (𝑊
!
)
𝑖
(3.2)

Hình 3.1. Các từ đối sánh sử dụng DTW. a) Sắp xếp theo cấu hình từ
phía trên của hai từ tiếng Anh, b) đường đối sánh tối ưu.
3.2. Thuật toán N-Gram
Thuật toán trích chọn đặc trưng sử dụng phép chiếu ngang
trong mục 2.4. Đ ánh giá sự giống nhau của các văn bản điện tử. N-
gram là một chuỗi của n ký tự liên tiếp. Một chuỗi các n-gram thu
được bằng cách trượt một ký tự phía trước đi một cửa sổ độ rộng n-
mụ c trong văn bản tại một thời điểm. Một bảng hàm băm đượ c tạo ra

- 18 -
để gán một số duy nhất cho mỗi n-gram đặc trưng, theo dõi tần suất
xuất hiệ n của tấ t cả các n-gram đặc trưng. sự giống nhau giữ a hình
ảnh tài liệu m và n sẽ được xác định như sau:
Similarity(X
m
,X
n
) =
!
!"
!
!"
!

!!!
!
!"
!
!
!!!
!
!"
!
!
!!!
(3.3)
X
m
, X
n
là các vectơ tài liệu của hình ảnh m và n, j là số chiều của mỗi
vectơ tài liệu và X
i
=x
i1
x
i2
x
iJ
. Như vậy văn bản tương tự trên ảnh
tương ứng với các đối tượng ký tự. Một n-gram sẽ là n đối tượng ký
tự liên tiếp được xác định dựa trên các trích chọn đặc trưng mô tả
ban đầu.
3.3. Phương pháp đối sánh đặc trưng không chính xác

Hai vấn đề trong truy xuất hình ảnh tài liệu: tìm kiếm và đo
độ tương tự giữa các tài liệu. Đ ầu tiên, mỗi hình ảnh từ được biểu
diễn bởi một chuỗi khởi tạo. Sau đó, kỹ thuật đối sánh chuỗi không
chính xác được sử dụng để đo lường sự giống nhau giữa hai chuỗi
khởi tạo được tạo ra từ hai hình ảnh từ. Chuỗi gốc A có độ dài n và
chuỗi gốc B có độ dài m, V(i, j) là giá trị đo sự tương tự của tiền tố
[a
1
, a
2
, ,a
i
] và [b
1
,b
2
, b
j
]. Đ ộ giống nhau của A và B được biểu diễn
bởi giá trị V(n, m).Sự giống nhau của hai chuỗi A và B được tính
toán bởi lập trình động vớ i phép truy hồi. Các điều kiện cơ sở :
∀i, j:
𝑉(𝑖, 0) ! = !0
𝑉(0, 𝑗) ! = !0
(3.4)
Mối liên hệ của phép truy hồi là: 1 ≤ 𝑖 ≤ 𝑛, 1 ≤ 𝑗 ≤ 𝑚:

- 19 -
V(i, j) = max

0
𝑉(𝑖 − 1, 𝑗 − 1) ! + 𝜖(𝑎
!
, 𝑏
!
)
𝑉 𝑖 − 1, 𝑗 + 𝜇 𝑎
!
, −
𝑉(𝑖, 𝑗 − 1) + 𝑣(−, 𝑏
!
).
(3.5)
3. 4. Kết luận
Trong chương này đã giới thiệu các thuật toán tương ứng đối
với mỗi đ ặc trưng trích chọn tại chương 2 như: DTW, N-Gram, so
sánh đặc trưng không chính xác.

- 20 -
CHƯƠNG 4 - CHƯƠNG TRÌNH THỬ NGHIỆM
4.1. Môi trường cài đặt
- Hệ thống đề xuất được cài đặt với sự giúp đỡ của công cụ lập
trình Visual Studio 2010 và phát triển dựa trên
Microsoft.NET Framework 3.5.
- Ngôn ngữ lập trình là C#.
- Dữ liệu ảnh là 100 bức ảnh tham khảo từ trang
Sau đó, những bức ảnh này

được tiền xử lý và đẩy vào cở sỡ dữ liệ u.
- Cở sở dữ liệu sử dụng là Microsoft SQL Server 2008
- Chương trình được thử nghiệm trên máy PC, tốc độ 3,4GHz,
bộ nhớ RAM 1,0 GB.

- 21 -
4.2. Sơ đồ chức năng

Máy quét
ảnh, máy ảnh,
Interrnet
Tài liệu,
Văn bản,
Fax,
Dữ liệu hình
ảnh tài liệu,
Văn bản,
Fax,

Tiền xử lý ảnh
Rút trích các thành
phần kết nối
Trích chọn đặc trưng
Sử dụng các
phương pháp so
sánh hình ảnh từ
Đưa ra kết quả
Người
sử dụng
Đưa ra
từ khoá
Gắn cho
hình ảnh từ
Trích chọn
đặc trưng
Cơ sở
dữ liệu

- 22 -
4.3. Giao diện chương trình

Hình 4. 1.Giao diện chương trình với phần cửa sổ nhập từ cần
truy vấn.

Hình 4. 2.Hiển thị kết quả các hình ảnh chứa từ cầm tìm kiếm.

- 23 -

!

Hình 4. 3.Hiển thị từ tìm kiếm trong hình ảnh
4.3. Một số kết quả
+ Đánh giá độ chính xác của tìm kiếm văn bản trong hình ảnh tài
liệu sử dụng:
+ Độ chính xác (Precision)
+ Khả năng phản hồi (Recall)
+ Thước đo hiệu năng (F-measure):
𝐹 = !
2 ∗ 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑅𝑒𝑐𝑎𝑙𝑙
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙

4.4. Đánh giá
+ Độ chính xác (Precision) trong khoảng 89,09 - 99,36%.
+ Khả năng phản hồi (Recall) trong khoảng 85.67 - 99.19%.
+ Độ chính xác (Precision): 97.08 và Khả năng phản hồi
(Recall): 93.94%, tương ứng với Thước đo hiệu năng (F-
measure) tốt nhất là: 0.9548.

- 24 -
4.5. Kết luận
Trong quá trình nghiên cứu và thực hiện luận văn, tôi nhận
thấy đã đạ t đư ợ c một số kết quả chính sau:
+ Nắm bắt được các bước chính trong một hệ thống
tìm kiếm văn bản trong hình ảnh tài liệu, hiểu được
các khái niệm cơ bản trong xử lý ảnh. Thấy được vai
trò quan trọng của xử lý ảnh đối với một hệ tìm
kiếm, đó là bước tiền xử lý nhằm nâng cao chất

lượng của ảnh.
+ Tìm hiểu được một số thuật toán xử lý ảnh hay được
dùng trong bước tiền xử lý ả nh, căn chỉnh độ
nghiêng của trang văn bản, xoá nhiễu. Trên cở sở
hiểu biết đó có thể vận dụng được vào các bài toán
khác.
+ Tìm hiểu và tổng quát hoá các phương pháp trích
chọn đặc trưng hình ảnh tài liệu, cũng như nắm được
các phương pháp so sánh hình ảnh từ tương ứng. Từ
đó đưa ra được các giải pháp cho bài toán đặt ra
trong luận văn.
+ Đã áp dụng thành công các kiến thứ c tìm hiểu được
vào cài đặt thử nghiệm chương trình tìm kiếm văn
bản trong hình ảnh tài liệu. Kết quả của chươ ng trình
đạt đư ợc là tốt và có thể áp dụng vào thực tế. Đây là
bài toán khó, hiện nay chưa có giả i pháp nào khác

- 25 -
được đưa gia để giải quyế t bài toán này. Đó là đóng
góp lớn nhất của luận văn.
Tuy nhiên, do thời gian làm luận văn hạn chế, trong khi khối
lượng công việc lớn nên còn nhiều vấn đề tồn tại chưa được giải
quyết:
+ Chương trình mới dừng lại ở bước thử nghiệm, chưa
phải là một chươ ng trình hoàn chỉnh, đầy đủ các tính
năng
Hướng phát triển tiếp theo là, tiếp tục nghiên cứu hoàn thiện
chương trình để có thể áp dụ ng vào thực tế. Mở rộng các tính năng
của chương trình (như thêm phần nhận dạng, ) để thành một chương

trình hoàn chỉnh.

NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIẾM VĂN BẢN TRONG HÌNH ẢNH TÀI LIỆU

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về