-1-
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
---------------------------------------
LẠI QUỐC ANH
NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIẾM
VĂN BẢN TRONG HÌNH ẢNH TÀI LIỆU
Chun ngành: Khoa học máy tính
Mã số: 60.48.01
TĨM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2013
-2-
Luận văn được hồn thành tại:
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
Người hướng dẫn khoa học:
PGS. TS. Ngơ Quốc Tạo
Phản biện 1:
………………………………………………………………
Phản biện 2:
………………………………………………………………
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc
sĩ tại Học viện Cơng nghệ Bưu chính Viễn thơng
Vào lúc: ....... giờ ....... ngày ....... tháng ....... .. năm
...............
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thơng
-3-
MỞ ĐẦU
Hiện nay công nghệ hiện đại đã giúp giảm tải quá trình xử lý,
lưu trữ, truyền tải hình ảnh tài liệu hiệu quả. Các công ty thường phát
triển hướng đến văn phịng khơng cần giấy tờ, một số lượng lớn các
tài liệu in được số hoá và lưu trữ như hình ảnh trong cơ sở dữ liệu.
Sự phổ biến, tầm quan trọng của hình ảnh tài liệu như nguồn thông
tin gốc. Hàng triệu tài liệu kỹ thuật số được truyền tải liên tục từ
điểm này đến điểm khác trên Internet. Định dạng phổ biến của các tài
liệu kỹ thuật số là văn bản, trong đó các ký tự được mã hố và máy
có thể hiểu được. Mặt khác, để thực hiện cho hàng tỷ tài liệu truyền
thống và di sản sẵn có dễ dàng tiếp cận trên Internet, chúng được
qt và chuyển đổi sang kỹ thuật số hố hình ảnh bằng cách sử dụng
thiết bị số hóa. Mặc dù cơng nghệ xử lý hình ảnh tài liệu DIP có thể
được sử dụng để tự động chuyển đổi hình ảnh kỹ thuật số của các tài
liệu này về định dạng văn bản mà máy có thể đọc được, bằng cách sử
dụng công nghệ Nhận dạng ký tự quang học OCR, thường không
phải là một cách hiệu quả và thiết thực để xử lý một số lượng lớn các
tài liệu giấy.
Một lý do là các kỹ thuật phân tích cấu trúc trang trong xử lý
văn bản với các bố trí phức tạp chưa được hoàn thiện đầy đủ.
Một lý do khác là khả năng nhận dạng của công nghệ OCR
vẫn kém, đặc biệt là với hình ảnh tài liệu có chất lượng kém (giấy in
kém chất lượng, trang in sau bị hằn lên trang trước, tài liệu photo
kém, mực in kém, chữ mất nét, in chữ bị dính,..). Nhận dạng xong và
sửa chữa kết quả OCR thường là không thể tránh khỏi trong hầu hết
các hệ thống DIP.
Kết quả, lưu trữ tài liệu ở định dạng hình ảnh truyền thống
và di sản sẵn có trở thành giải pháp thay thế trong nhiều trường hợp.
Ngày nay, chúng ta có thể tìm thấy trên Internet và rất nhiều các tài
-4liệu kỹ thuật số trong định dạng ảnh, bao gồm cả giấy tờ tạp chí, hội
nghị, luận án sinh viên, sổ tay,...Hơn nữa, nhiều thư viện kỹ thuật số
và các cổng web như MEDLINE, ACM, IEEE,... lưu giữ hình ảnh tài
liệu qt mà khơng có định dạng văn bản tương đương.
Yêu cầu đặt ra cho người sử dụng là làm sao có thể tìm kiếm
thơng tin lưu trữ trên theo nội dung một cách hiệu quả ? Trên cơ sở
đó em chọn đề tài "Nghiên cứu tìm kiếm văn bản trong hình ảnh
tài liệu".
Cấu trúc đề tài luận văn
Chương 1: Tổng quan về tìm kiếm văn bản trong hình ảnh tài liệu
- Trình bày giới thiệu, thách thức đối với hệ thống hệ truy vấn thơng
tin từ hình ảnh tài liệu, khái quát về xử lý ảnh.
Chương 2: Các phương pháp trích chọn đặc trưng từ hình ảnh tài
liệu
- Trình bày các phương pháp trích chọn đặc trưng từ hình ảnh tài liệu
Chương 3: Các phương pháp so sánh hình ảnh từ
- Trình bày các phương pháp so sánh hình ảnh từ dựa trên hình ảnh
tài liệu.
Chương 4: Chương trình thử nghiệm tìm kiếm văn bản trong hình
ảnh tài liệu trên cơ sở lý thuyết đã xây dựng.
-5-
CHƯƠNG 1 - TỔNG QUAN VỀ TÌM KIẾM VĂN
BẢN TRONG HÌNH ẢNH TÀI LIỆU
1.1. Giới thiệu
Tài liệu,
Văn bản,
Fax,...
Máy qt
ảnh, máy
ảnh,...
Hình ảnh
Tài liệu,
Văn bản,
Fax,...
Tiền xử lý ảnh
Người sử
dụng
Đưa ra
từ khố
Trích chọn các
thành phần kết nối
Trích chọn đặc trưng
Sử dụng các
phương pháp so
sánh hình ảnh từ
Gắn cho
hình ảnh từ
Trích chọn
đặc trưng
Đưa ra kết quả
Hình 1.1: Sơ đồ khối hệ thống duyệt từ khố cho hình ảnh tài liệu.
1.2. So sánh và truy vấn từ các tài liệu thu thập
Nhiều thư viện kỹ thuật số hiện nay, hình ảnh tài liệu được
dùng phổ biến như là một nguồn thơng tin. Do đó khi truy cập vào
-6các nội dung của cơ sở dữ liệu hình ảnh tài liệu là quan trọng và là
thách thức trong bài tốn xử lý hình ảnh tài liệu. Hai hướng chính là
truy vấn không nhận dạng và truy vấn dựa trên nhận dạng. Truy vấn
dựa trên OCR sẽ rất kém nếu như dữ liệu hình ảnh ký tự quét vào lỗi
lớn hơn 5%. Nhưng với phần lớn các tài liệu cũ, photocopy nhiều
lần, bản Fax kém chất lượng thì hầu như khơng OCR được. Q trình
xử lý sẽ hướng đến truy vấn khơng OCR. Như vậy tuỳ theo mức độ
hình ảnh tài liệu khác nhau, chữ viết tay, bản in ấn, báo chí,...thì lựa
chọn hướng truy vấn phù hợp.
Phương pháp N-Gram xây dựng lược đồ lập chỉ mục hình
ảnh tài liệu dựa trên lược đồ hàm băm nội dung chính yếu. Đặc trưng
ảnh cụ thể là, mật độ chiều dọc (VTD), mật độ chiều ngang (HTD),
được trích chọn. Một vector n-gram được xây dựng cho mỗi tài liệu
dựa trên các đặc trưng này. Văn bản tương tự giữa các tài liệu sau đó
được đo bằng cách tính tốn điểm của các vector tài liệu.
Phương pháp đối sánh đặc trưng khơng chính xác, so sánh
các chuỗi để lập chỉ mục liên quan đến rất nhiều bài toán về ký tự và
là nhân tố chính trong truy vấn hình ảnh tài liệu. Hình ảnh từ được
biểu diễn bởi một chuỗimẫu, kỹ thuật so sánh một phần hình ảnh từ
để đánh giá một hình ảnh từ liên quan đến hình ảnhtừ khác như thế
nào và quyết định liệu một từ có là một phần của từ khác.
Phương pháp xoắn thời gian động DTW sử dụng cho đối
sánh và truy vấn đối với hình ảnh tài liệu chữ viết tay. Thuật tốn tìm
từ dựa trên DTW cho lập chỉ mục và truy vấn các tài liệu trực tuyến.
Đối sánh hình ảnh từ chữ viết tay sử dụng các đặc trưng mã hoá nhị
-7phân gradient. Rút trích các đặc trưng nhị phân, độ đo tương tự dựa
trên sự tương quan được sử dụng cho các hình ảnh đối sánh từ.
Những khó khăn của việc đối sánh các ảnh từ của tài liệu in
ấn như sau:
- Ngơn ngữ: Mỗi ngơn ngữ có các quy ước riêng, phụ thuộc vào các
biến đổi hình thái của từ được tạo ra.
- Chất lượng in ấn: Tài liệu in ấn thường có chất lượng kém. Mẫu in
thực tế, từ thường bị mất nét, hay nét dầy thì từ dính nhau, hay có các
nhiễu dính xung quanh từ,...
1.3. Những thách thức cho truy vấn thơng tin từ hình ảnh
tài liệu chữ in
Hầu hết các sách in, tài liệu, tờ báo,...lưu trữ tại các thư viện
số hố đều có chất lượng kém, nhiều dạng in ấn, mẫu từ khác nhau.
Lập chỉ mục và truy vấn hình ảnh tài liệu có những thách thức lớn
trong các tình huống này.
1.3.1. Mơ hình chất lượng trong tài liệu chữ in
Một số lỗi thường xuất hiện trong tài liệu in ấn như: mực in
tạo thành các đốm nhiễu tại các ký tự, mất nét chữ, dính chữ, chữ in
bị đậm hằn lên trang trước,...nguyên nhân do chất lượng kém của
giấy và mực in. Mô hình chất lượng tài liệu dễ dàng cho chúng ta
kiểm tra sự thực hiện của lược đồ đối sánh.
1.3.2. Ngôn ngữ
Các ngơn ngữ khác nhau có những quy tắc ngơn ngữ riêng
cho sự hình thành từ. Trên cơ sở các quy tắc, từ với nghĩa tương tự
có thể xuất hiện các hình thức khác nhau trong văn bản. Ngơn ngữ
-8tiếng Anh được đánh giá cao bởi sử dụng tiền tố, hậu tố cho mẫu từ
và diễn đạt mối quan hệ ngữ pháp.
1.4. Một số khái niệm cơ sở xử lý ảnh
1.4.1. Ảnh số
Trong thực tế ảnh liên lục về không gian và độ sáng. Để xử
lý được bằng máy tính thì ảnh phải được số hóa. Số hóa ảnh là sự
biến đổi gần đúng một ảnh liên tục thành tập điểm phù hợp với ảnh
thật về vị trí và độ sáng.
1.4.2. Ảnh biểu diễn theo mơ hình Raster
Đây là mơ hình biểu diễn ảnh thơng dụng nhất hiện nay. Ảnh
được biểu diễn dưới dạng ma trận các điểm ảnh.
1.4.3. Ảnh biểu diễn theo mơ hình Vector
Trong mơ hình Vector người ta sử dụng hướng giữa các
Vector của điểm ảnh lân cận để mã hoá và tái tạo hình ảnh ban đầu.
1.4.4. Độ phân giải của ảnh
Độ phân giải là số lượng điểm ảnh (pixel) dùng để tập hợp
thành hình ảnh. Số lượng điểm ảnh càng nhiều và càng nhỏ thì độ nét
và chi tiết ảnh sẽ càng cao.
1.4.5. Mức xám của ảnh
Kết quả của sự mã hoá tương ứng một cường độ sáng của
mỗi điểm ảnh với một giá trị số - kết quả của quá trình lượng hoá.
1.5. Một số kỹ thuật nâng cao chất lượng ảnh
1.5.1. Lọc nhiễu
-91.5.1.1. Các loại nhiễu
Các tín hiệu nhiễu thường được chia thành các loại chính
như sau:
Nhiễu do thiết bị thu nhận ảnh là loại nhiễu gây ra do giới
hạn nhiễu xạ và quang sai của thấu kính, nhiễu do bộ phận cảm
quang, ảnh mờ nhịe do ống kính, nhiễu do rung động thiết bị trong
quá trình thu nhận.
Nhiễu ngẫu nhiên độc lập là các loại nhiễu gây ra do ảnh
hưởng của mơi trường xung quanh, do ảnh hưởng của khí quyển.
Nhiễu do vật quan sát. Đây là nhiễu gây ra do bề mặt của bản
thân vật có độ nhám gồ ghề. Chính nhiễu này gây hiện tượng tán xạ
của các tia đơn sắc và sinh ra hiện tượng nhiễu lốm đốt.
1.5.1.2. Lọc nhiễu lốm đốm:
Mơ hình quan sát có nhiễu lốm đốm như sau:
wN[m,n]= z[m,n] +ηN[m,n]
(1.1)
Trong cơng thức 1.5 thì ηN[m,n] là nhiễu trắng dừng. Với
N≥2 thì ηN[m,n] có thể mơ tả gắn với nhiễu ngẫu nhiên Gauusian
với mật độ phổ được định nghĩa như sau:
S ηN (ξ1, ξ2)= σ2 =
π! /6 N = 1
(1.2)
1/N N > 1
1.5.2. Hiệu chỉnh góc nghiêng trang văn bản
Trong q trình thu thập, ảnh có thể bị nghiêng do đó cần
phải căn chỉnh độ nghiêng của ảnh bằng các xác định góc nghiêng và
xoay ảnh trở lại như ảnh gốc.
- 10 1.5.2.1. Phương pháp dựa trên biến đổi Hough
Biến đổi Hough là phép biến đổi điểm ảnh từ hệ tọa độ x-y
sang hệ tọa độ ρ-θ do đó rất hữu ích cho việc dị tìm đường thẳng
trong ảnh vì thế rất thích hợp cho việc xác định góc nghiêng của ảnh
có chứa các thành phần là các dịng văn bản.
1.5.2.2. Phương pháp láng giềng gần nhất
Phương pháp này dựa trên một nhận xét rằng trong một trang
văn bản, khoảng cách giữa các kí tự trong một từ và giữa các kí tự
của từ trên cùng một dịng là nhỏ hơn khoảng cách giữa hai dịng văn
bản, vì thế đối với mỗi kí tự, láng giềng gần nhất của nó sẽ là các kí
tự liền kề trên cùng một dịng văn bản.
1.5.2.3. Phương pháp sử dụng chiếu nghiêng
Dựa vào hình chiếu ngang/dọc của ảnh để tìm góc nghiêng.
1.6. Kết luận
Chương này đưa ra các khái niệm tổng quan về hệ thống truy
vấn từ dựa trên hình ảnh tài liệu. Giới thiệu sơ qua một số các
phương pháp trích chọn đặc trưng hình ảnh, đối sánh hình ảnh từ (NGram, đối sánh đặc trưng chuỗi khơng chính xác, DTW).Các khái
niệm cơ sở xử lý ảnh. Các khái niệm về nâng cao chất lượng ảnh như
xoá nhiễu, hiệu chỉnh độ nghiêng của ảnh.
- 11 -
CHƯƠNG 2 - CÁC PHƯƠNG PHÁP TRÍCH
CHỌN ĐẶC TRƯNG TỪ HÌNH ẢNH TÀI LIỆU
Trích chọn đặc trưng là bài tốn thu thập thơng tin từ dữ liệu
thơ, phù hợp nhất cho một ứng dụng nhất định. Trích chọn đặc trưng
là trích chọn những thơng tin hữu ích từ hình ảnh tài liệu. Bộ nhớ
được giảm tải chỉ cần lưu giữ thông tin cần thiết, tạo cho hệ thống trở
nên nhanh hơn và truy tìm tài liệu hiệu quả hơn. Khi một hoặc nhiều
đặc trưng được trích chọn sẽ được lưu trong cơ sở dữ liệu để sử dụng
cho cơng việc sau này. Số lượng thơng tin hữu ích mà một máy tính
lấy ra từ hình ảnh là yếu tố rất quan trọng quyết định tính thơng
minh, cũng như hiệu quả của hệ thống truy tìm hình ảnh. Nhiều đặc
trưng khác nhau đã được sử dụng trong xử lý ảnh và nhận dạng mẫu
(đại diện hình ảnh tài liệu). Thử nghiệm với các đặc trưng: cấu hình
từ, mơ tả moment bất biến thống kê, biểu diễn miền biến đổi, sử
dụng phép chiếu ngang, biểu diễn đặc trưng của hình ảnh từ.
2.1. Cấu hình từ
Cung cấp biểu diễn thơ của hình ảnh từ đối sánh. Phép chiếu,
chuyển vị, trên và thấp hơn của cấu hình là các đặc trưng được xem
xét biểu diễn cho các hình ảnh từ.
2.2. Mơ tả moment bất biến thống kê
Các đặc trưng dựa vào moment được tính tốn để phân tích
hình dạng của hình ảnh từ, mỗi u cầu của moment có các thơng tin
khác nhau cho cùng một hình ảnh.
- 12 2.3. Biểu diễn miền biến đổi
Sử dụng Fourier rời rạc để mơ tả biểu diễn các hình dạng từ.
N Fourier mô tả: G(i), i=0,1,2,...,N-1 độ dài theo chiều dọc của hình
ảnh từ, N là độ rộng của từ.
2.4. Sử dụng phép chiếu ngang
Chia hình ảnh tài liệu thành nhiều vùng hình chữ nhật, mỗi
vùng biểu diễn cho một dòng văn bản. Các thành phần kết nối tại các
vùng khác nhau phụ thuộc vào các đối tượng ký tự khác nhau.
Tuỳ thuộc vào các đặc trưng, các đối tượng ký tự được phân
lớp dựa trên một độ đo khoảng cách. Đối với hai đối tượng ký tự i và
j, khoảng cách Dij được định nghĩa dưới đây;
Dij = diff(HTDi, HTDj) + diff(VTDi, VTDj), (2.1)
diff(Vi, Vj) là hàm tính tốn khoảng cách giữa hai vector Vi và Vj.
Hình 2.1. (a) Ảnh gốc, (b) các đối tượng ký tự được nhận biết và
đánh dấu trong các hình hộp, (c) gắn các số lớp cho các đối tượng ký
tự, (d) tập hợp tất cả các lớp đối tượng được tìm thấy trong ảnh gốc.
- 13 2.5. Mơ tả chuỗi đặc trưng cho hình ảnh từ
Các đặc trưng được sử dụng biểu diễn cho hình ảnh từ
LRPS, chuỗi được mã hố trình tự từ tận cùng bên trái đến ngoài
cùng bên phải của một từ. Đặc trưng dòng, mật độ ký tự được sử
dụng để trích chọn từ hình ảnh ban đầu. Một từ in trong các tài liệu
có các kích cỡ, phơng chữ, khoảng cách khác nhau,... sẽ được xem
xét khi trích chọn các đặc trưng.
2.5.1. Biểu diễn đặc trưng LRPS
Từ được phân tách một cách rõ ràng, từ tận cùng bên trái đến
ngoài cùng bên phải, thành các phần rời rạc. Mỗi phần ban đầu được
biểu diễn bằng các thuộc tính xác định. Một p ban đầu được mô tả
bằng cách sử dụng một bộ (𝜎, 𝜔), 𝜎 là các đặc trưng LTA ban đầu, 𝜔
là đặc trưng phần đầu, phần thấp của ký tự ADA. Kết quả, hình ảnh
từ được biểu diễn bởi dãy P tuần tự như sau:
P=
=<(𝜎! , 𝜔! ) (𝜎! , 𝜔! ). .. (𝜎! , 𝜔! )>,
(2.2)
Hình 2. 2. Chuỗi trích chọn ban đầu, hình ảnh từ được trích chọn từ
hình ảnh tài liệu chứa các thông tin của baseline, x-line, đường biên
- 14 trên (top boundary), đường biên dưới (bottom boundary). (a) đặc
trưng đường nét thẳng, (b) một phần còn lại của (a), (c) đường ngang
TN=2, (d) đường ngang TN=4, (e) đường ngang TN=6.
2.5.2. Tính các đặc trưng đường nét thẳng hoặc đường
ngang (LTA)
Tính LTA gồm 2 bước. Bước đầu tiên trích chọn các đặc
trưng đường nét thẳng của hình ảnh từ (Hình 2.2a). Bước này chỉ có
đường nét dọc, đường nét chéo được trích chọn. Sau đó, đặc trưng
đường ngang của phần cịn lại được tính tốn.
2.5.2.1. Đặc trưng đường nét thẳng
Phương pháp run-lenght-based sử dụng trích chọn đường nét
thẳng của hình ảnh từ. Sử dụng R(a,𝜃) biểu diễn cho một hướng
chạy, được định nghĩa là một tập hợp của các điểm ảnh kết nối màu
đen có chứa một điểm a, dọc theo hướng qui định 𝜃. 𝑅(𝑎, 𝜃) độ dài
khoảng chạy của R(a, 𝜃), là số điểm điểm đen của khoảng chạy.
2.5.2.2. Đặc trưng đường ngang
Để trích chọn các đặc trưng đường ngang, quét hình ảnh từ
cột theo cột, và số đường ngang TN được ghi lại bằng cách đếm số
lượng quá trình chuyển đổi từ điểmảnh màuđen đến điểm ảnh màu
trắng, hoặc ngược lại, dọc theo mỗi cột.
2.5.3. Hậu xử lý
Để có thể để đối phó với các phơng chữ khác nhau, chuỗi
gốc nên có kiểu chữ độc lập.Trong số các phông chữ khác nhau, sự
khác biệt đáng kể ảnh hưởng đến trích chọn của một LRPS được biểu
- 15 diễn của font serif, đặc biệt là ở những phần thể hiện bởi các đặc
trưng đường ngang.
2.6. Kết luận
Trong chương này đã giới thiệu các đặc trưng được trích
chọn trong hình ảnh tài liệu như: cấu hình từ, mô tả moment bất biến
thống kê, biểu diễn miền biến đổi, sử dụng phép chiếu ngang, mô tả
chuỗi đặc trưng cho hình ảnh từ.
- 16 -
CHƯƠNG 3 - CÁC PHƯƠNG PHÁP SO SÁNH
HÌNH ẢNH TỪ
Việc tìm kiếm tài liệu được thực hiện bằng một thuật tốn so
sánh hình ảnh truy vấn với tất cả các hình ảnh có trong cơ sở dữ liệu.
Thực hiện so sánh tốt có thể đạt được bởi một kỹ thuật sắp xếp và
tìm kiếm so sánh tốt nhất giữa các cặp của truy vấn và hình ảnh từ
được tham chiếu. Cơng việc chính của thuật tốn là so sánh những
đặc trưng với những đặc trưng đã được xử lý, đánh chỉ số trong cơ sở
dữ liệu. Độ đo tương tự được tính tốn từ vector đặc trưng của hình
ảnh truy vấn với những vector đặc trưng khác của tất cả các hình ảnh
trong cơ sở dữ liệu bằng việc sử dụng độ đo khoảng cách. Kết quả
những bức ảnh được sắp xếp dựa trên độ đo khoảng cách.
3.1. Thuật tốn DTW
DTW sử dụng để tính tốn khoảng cách giữa hai chuỗi thời
gian. Một chuỗi thời gian là một danh sách các mẫu lấy từ một tín
hiệu, được sắp xếp theo các mẫu tương ứng được biểu diễn thành
những dãy số thực, thí dụ T = t1,…tn..
Thuật tốn sử dụng các đặc trưng trích trọn cấu hình từ, mơ
tả moment bất biến thông kê, mô tả miền biến đổi trong các mục 2.1,
2.2, 2.3. Sắp xếp các tập vector đặc trưng tuần tự và tính tốn độ đo
tương tự.
Cho hai hình ảnh từ được biểu diễn bởi các vetor đặc trưng
tuần tự:
G = G1, G2,…,GM, H = H1, H2,…HN.
- 17 Giá trị trị DTW giữa hai dãy tuần tự là D(M,N), M, N là độ
dài của hai dãy tuần tự. Tính tốn như sau:
D(i, j) = min
𝐷(𝑖 − 1, 𝑗 − 1)
𝐷(𝑖, 𝑗 − 1) + 𝑑(𝑖, 𝑗)
𝐷(𝑖 − 1, 𝑗)
(3.1)
d(i, j) là giá trị sắp xếp phần tử thứ i ∈G với phần tử thứ j ∈H.
Đường xoắn tối ưu (optimal warping path -OWP) là giá trị
nhỏ nhất trong các khoảng cách tối thiểu, trong số tất cả các đường
trong không gian đối sánh DTW, bắt đầu từ D(0, 0) đến D(M, N) với
độ dài L. Định nghĩa như sau:
OWP (G, H) =
𝑎𝑟𝑔
𝑚𝑖𝑛
𝑖
𝑐𝑜𝑠𝑡(𝑊! )
(3.2)
Hình 3.1. Các từ đối sánh sử dụng DTW. a) Sắp xếp theo cấu hình từ
phía trên của hai từ tiếng Anh, b) đường đối sánh tối ưu.
3.2. Thuật tốn N-Gram
Thuật tốn trích chọn đặc trưng sử dụng phép chiếu ngang
trong mục 2.4. Đánh giá sự giống nhau của các văn bản điện tử. Ngram là một chuỗi của n ký tự liên tiếp. Một chuỗi các n-gram thu
được bằng cách trượt một ký tự phía trước đi một cửa sổ độ rộng nmục trong văn bản tại một thời điểm. Một bảng hàm băm được tạo ra
- 18 để gán một số duy nhất cho mỗi n-gram đặc trưng, theo dõi tần suất
xuất hiện của tất cả các n-gram đặc trưng. sự giống nhau giữa hình
ảnh tài liệu m và n sẽ được xác định như sau:
Similarity(Xm,Xn) =
!
!!! !!" !!"
!
!
!!! !!"
!
!
!!! !!"
(3.3)
Xm, Xn là các vectơ tài liệu của hình ảnh m và n, j là số chiều của mỗi
vectơ tài liệu và Xi=xi1xi2...xiJ. Như vậy văn bản tương tự trên ảnh
tương ứng với các đối tượng ký tự. Một n-gram sẽ là n đối tượng ký
tự liên tiếp được xác định dựa trên các trích chọn đặc trưng mô tả
ban đầu.
3.3. Phương pháp đối sánh đặc trưng khơng chính xác
Hai vấn đề trong truy xuất hình ảnh tài liệu: tìm kiếm và đo
độ tương tự giữa các tài liệu. Đầu tiên, mỗi hình ảnh từ được biểu
diễn bởi một chuỗi khởi tạo. Sau đó, kỹ thuật đối sánh chuỗi khơng
chính xác được sử dụng để đo lường sự giống nhau giữa hai chuỗi
khởi tạo được tạo ra từ hai hình ảnh từ. Chuỗi gốc A có độ dài n và
chuỗi gốc B có độ dài m, V(i, j) là giá trị đo sự tương tự của tiền tố
[a1, a2,...,ai] và [b1,b2,...bj]. Độ giống nhau của A và B được biểu diễn
bởi giá trị V(n, m).Sự giống nhau của hai chuỗi A và B được tính
tốn bởi lập trình động với phép truy hồi. Các điều kiện cơ sở:
∀i, j:
𝑉(𝑖, 0) = 0
𝑉(0, 𝑗) = 0
(3.4)
Mối liên hệ của phép truy hồi là: 1 ≤ 𝑖 ≤ 𝑛, 1 ≤ 𝑗 ≤ 𝑚:
- 19 0
𝑉(𝑖 − 1, 𝑗 − 1) + 𝜖(𝑎! , 𝑏! )
V(i, j) = max
𝑉 𝑖 − 1, 𝑗 + 𝜇 𝑎! , −
𝑉(𝑖, 𝑗 − 1) + 𝑣(−, 𝑏! ).
(3.5)
3. 4. Kết luận
Trong chương này đã giới thiệu các thuật toán tương ứng đối
với mỗi đặc trưng trích chọn tại chương 2 như: DTW, N-Gram, so
sánh đặc trưng khơng chính xác.
- 20 -
CHƯƠNG 4 - CHƯƠNG TRÌNH THỬ NGHIỆM
4.1. Mơi trường cài đặt
-
Hệ thống đề xuất được cài đặt với sự giúp đỡ của cơng cụ lập
trình
Visual
Studio
2010
và
phát
triển
dựa
trên
Microsoft.NET Framework 3.5.
-
Ngơn ngữ lập trình là C#.
-
Dữ liệu ảnh là 100 bức ảnh tham khảo từ trang
Sau đó, những bức ảnh này
được tiền xử lý và đẩy vào cở sỡ dữ liệu.
-
Cở sở dữ liệu sử dụng là Microsoft SQL Server 2008
-
Chương trình được thử nghiệm trên máy PC, tốc độ 3,4GHz,
bộ nhớ RAM 1,0 GB.
- 21 4.2. Sơ đồ chức năng
Tài liệu,
Văn bản,
Fax,...
Máy quét
ảnh, máy ảnh,
Interrnet...
Dữ liệu hình
ảnh tài liệu,
Văn bản,
Fax,...
Người
sử dụng
Tiền xử lý ảnh
Đưa ra
từ khố
Rút trích các thành
phần kết nối
Gắn cho
hình ảnh từ
Trích chọn đặc trưng
Trích chọn
đặc trưng
Cơ sở
dữ liệu
Đưa ra kết quả
Sử dụng các
phương pháp so
sánh hình ảnh từ
- 22 4.3. Giao diện chương trình
Hình 4. 1.Giao diện chương trình với phần cửa sổ nhập từ cần
truy vấn.
Hình 4. 2.Hiển thị kết quả các hình ảnh chứa từ cầm tìm kiếm.
- 23 -
Hình 4. 3.Hiển thị từ tìm kiếm trong hình ảnh
4.3. Một số kết quả
+ Đánh giá độ chính xác của tìm kiếm văn bản trong hình ảnh tài
liệu sử dụng:
+ Độ chính xác (Precision)
+ Khả năng phản hồi (Recall)
+ Thước đo hiệu năng (F-measure):
𝐹 =
2 ∗ 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑅𝑒𝑐𝑎𝑙𝑙
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙
4.4. Đánh giá
+ Độ chính xác (Precision) trong khoảng 89,09 - 99,36%.
+ Khả năng phản hồi (Recall) trong khoảng 85.67 - 99.19%.
+ Độ chính xác (Precision): 97.08 và Khả năng phản hồi
(Recall): 93.94%, tương ứng với Thước đo hiệu năng (Fmeasure) tốt nhất là: 0.9548.
- 24 4.5. Kết luận
Trong quá trình nghiên cứu và thực hiện luận văn, tôi nhận
thấy đã đạt được một số kết quả chính sau:
+
Nắm bắt được các bước chính trong một hệ thống
tìm kiếm văn bản trong hình ảnh tài liệu, hiểu được
các khái niệm cơ bản trong xử lý ảnh. Thấy được vai
trò quan trọng của xử lý ảnh đối với một hệ tìm
kiếm, đó là bước tiền xử lý nhằm nâng cao chất
lượng của ảnh.
+
Tìm hiểu được một số thuật toán xử lý ảnh hay được
dùng trong bước tiền xử lý ảnh, căn chỉnh độ
nghiêng của trang văn bản, xố nhiễu. Trên cở sở
hiểu biết đó có thể vận dụng được vào các bài tốn
khác.
+
Tìm hiểu và tổng qt hố các phương pháp trích
chọn đặc trưng hình ảnh tài liệu, cũng như nắm được
các phương pháp so sánh hình ảnh từ tương ứng. Từ
đó đưa ra được các giải pháp cho bài toán đặt ra
trong luận văn.
+
Đã áp dụng thành cơng các kiến thức tìm hiểu được
vào cài đặt thử nghiệm chương trình tìm kiếm văn
bản trong hình ảnh tài liệu. Kết quả của chương trình
đạt được là tốt và có thể áp dụng vào thực tế. Đây là
bài tốn khó, hiện nay chưa có giải pháp nào khác
- 25 được đưa gia để giải quyết bài toán này. Đó là đóng
góp lớn nhất của luận văn.
Tuy nhiên, do thời gian làm luận văn hạn chế, trong khi khối
lượng cơng việc lớn nên cịn nhiều vấn đề tồn tại chưa được giải
quyết:
+
Chương trình mới dừng lại ở bước thử nghiệm, chưa
phải là một chương trình hồn chỉnh, đầy đủ các tính
năng
Hướng phát triển tiếp theo là, tiếp tục nghiên cứu hồn thiện
chương trình để có thể áp dụng vào thực tế. Mở rộng các tính năng
của chương trình (như thêm phần nhận dạng,...) để thành một chương
trình hồn chỉnh.