Tải bản đầy đủ (.pdf) (64 trang)

Phát hiện và nhận dạng văn bản trong video

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.6 MB, 64 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
----------------------------------

Ngô Ngọc Hà

PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

HÀ NỘI - 2019


HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
----------------------------------

Ngô Ngọc Hà

PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

Chuyên ngành: Hệ thống thông tin
Mã số: 8480104

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. VŨ HỮU TIẾN

HÀ NỘI - 2019




i

LỜI CAM ĐOAN
Tôi cam đoan đề tài: “Phát hiện và nhận dạng văn bản trong Video” là
công trình nghiên cứu của riêng tôi dưới sự hướng dẫn của TS. Vũ Hữu Tiến.
Các kết quả, phân tích, kết luận trong luận văn thạc sỹ này (ngoài phần được
trích dẫn) đều là kết quả làm việc của tác giả, các số liệu nêu trong luận văn là trung
thực và chưa từng được công bố trong bất kỳ công trình nào khác.
Nếu sai tôi xin hoàn toàn chịu trách nhiệm.

Hà Nội, ngày 10 tháng 02 năm 2019
Tác giả

Ngô Ngọc Hà


ii

LỜI CẢM ƠN
Lời đầu tiên cho em xin gửi lời cảm ơn chân thành đến các thầy, cô giáo
thuộc Khoa CNTT, Khoa QT&ĐT sau đại học thuộc Học viện Công nghệ Bưu
chính viễn thông đã tận tình giảng dạy, truyền đạt các nội dung kiến thức, kinh
nghiệm quý báu trong suốt quá trình em theo học tại Học viện. Với những bài học
quý giá, sự kèm cặp, chỉ bảo và truyền thụ tâm huyết của các thầy, cô đã giúp cá
nhân em hoàn thiện hơn nữa hệ thống kiến thức chuyên ngành, phục vụ tốt hơn yêu
cầu công tác của đơn vị đồng thời nâng cao hơn vốn tri thức của bản thân.
Đặc biệt, em xin gửi lời cảm ơn trân thành tới thầy hướng dẫn khoa học TS.
Vũ Hữu Tiến đã tâm huyết, tận tình chỉ bảo, hướng dẫn, cung cấp tài liệu và các
nội dung kiến thức quý báu, đồng thời có sự định hướng đúng đắn giúp em hoàn

thành được luận văn này.
Em cũng xin được bày tỏ sự cảm ơn sâu sắc tới gia đình, đồng nghiệp đã tạo
điều kiện, dành sự ủng hộ đối với bản thân em để có nhiều thời gian cho khóa học,
đạt được những kết quả khả quan trong quá trình học tập. Đồng thời xin chân thành
cảm ơn tập thể lớp Cao học Hệ thống thông tin – Đợt 1 năm 2016 đã đồng hành,
khích lệ và chia sẻ trong suốt quá trình học tập.
Trong quá trình thực hiện luận văn, mặc dù bản thân đã cố gắng, chủ động
trong việc sưu tầm tài liệu, củng cố kiến thức… tuy nhiên chắc chắn luận văn vẫn
còn nhiều thiếu sót. Em rất mong nhận được sự chỉ dạy, đóng góp tận tình của các
thầy, cô để luận văn của em được hoàn thiện hơn nữa và có tính ứng dụng cao hơn
trong thực tiễn.
Xin trân trọng cảm ơn!
Hà Nội, ngày 10 tháng 02 năm 2019
Học viên

Ngô Ngọc Hà


iii

MỤC LỤC

LỜI CAM ĐOAN ...................................................................................................... i
LỜI CẢM ƠN ........................................................................................................... ii
MỤC LỤC ................................................................................................................ iii
DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT ............................................v
DANH MỤC CÁC BẢNG ...................................................................................... vi
DANH MỤC CÁC HÌNH ...................................................................................... vii
MỞ ĐẦU ....................................................................................................................1
Chương 1 - TỔNG QUAN VỀ PHÂN TÍCH DỮ LIỆU VIDEO ..........................4

1.1. Phát biểu bài toán ...........................................................................................4
1.2. Các nghiên cứu trước đây về phân tích dữ liệu video...................................4

1.2.1. Tổng quan về video ......................................................................... 4
1.2.2. Những nghiên cứu liên quan ........................................................... 6
1.2.3. Phát hiện và nhận dạng văn bản trong thời điểm hiện tại ............... 8
1.3. Hướng nghiên cứu của tác giả.......................................................................9
1.4. Kết luận chương 1.........................................................................................10
Chương 2 - PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO .......11
2.1. Bài toán nhận dạng văn bản Video trong lĩnh vực dịch thuật bài giảng
trực tuyến..............................................................................................................11
2.2. Kỹ thuật phân đoạn video thành ảnh ...........................................................13
2.3. Kỹ thuật nhận dạng và trích xuất văn bản từ ảnh ......................................15

2.3.1. Các giải thuật trong nhận dạng văn bản ........................................ 15
2.3.2. Phát hiện và nhận dạng văn bản bằng công nghệ OCR ................ 20


iv

Chương 3 – XÂY DỰNG VÀ THỬ NGHIỆM CHƯƠNG TRÌNH PHÁT HIỆN
VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO. .................................................44
3.1. Phân tích, thiết kế bài toán nhận dạng nội dung video bằng kỹ thuật nhận
dạng ký tự quang học. .........................................................................................44
3.2. Nghiên cứu và xây dựng chương trình dựa trên phần mềm mã nguồn mở
Tesseract – OCR. ..................................................................................................45

3.2.1. Công cụ và môi trường xây dựng chương trình ............................ 45
3.2.2. Giao diện chương trình ................................................................. 46
3.3. Thử nghiệm chương trình trên tập dữ liệu thực .........................................48

3.4. Kết luận chương 3.........................................................................................51
KẾT LUẬN ..............................................................................................................52
DANH MỤC TÀI LIỆU THAM KHẢO ...............................................................53


v

DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT

Từ viết tắt

Tiếng Anh

Tiếng Việt

CC

Connected component

Thành phần liên thông

OCR

optical character recognition

Nhận dạng ký tự quang học

SVM

supper vector machines


Máy véc tơ hỗ trợ

K

keyframes

Khung hình chính

ANN

Artificial Neural Network

Mạng nơ ron nhân tạo

LSTM

Long Short Term Memory networks

Mạng thần kinh tái phát


vi

DANH MỤC CÁC BẢNG
Bảng 2. 1: Minh họa ký tự dưới dạng ảnh ................................................................16
Bảng 2. 2: Nhị phân hóa mẫu ký tự mẫu...................................................................16
Bảng 2. 3: Đối sánh nhận dạng ký tự số ...................................................................17
Bảng 2. 4: Các phần mềm OCR tiêu biểu .................................................................23
Bảng 3. 1: Cấu hình môi trường xây dựng chương trình…………………………..45

Bảng 3. 2: Công cụ sử dụng xây dựng chương trình ................................................45
Bảng 3. 3: Danh sách và đặc điểm tập dữ liệu thực ..................................................49
Bảng 3. 4: Kết quả nhận dạng của chương trình trên tập dữ liệu thực .....................51


vii

DANH MỤC CÁC HÌNH
Hình 1. 1: Kiến trúc chương trình phát hiện và nhận dạng văn bản trong video ......10
Hình 2. 1: Phân đoạn video thành ảnh theo keyframes……………………………14
Hình 2. 2: Nút neural nhân tạo ..................................................................................18
Hình 2. 3: Mạng truyền thẳng nhiều tầng .................................................................19
Hình 2. 4: Các đường cơ bản trong văn bản .............................................................25
Hình 2. 5: Minh họa thành phần liên thông ..............................................................26
Hình 2. 6: Quy trình hoạt động của hệ thống OCR...................................................26
Hình 2. 7: Độ nghiêng và hướng của văn bản ...........................................................29
Hình 2. 8: Văn bản bị nhiễu trong ảnh ......................................................................29
Hình 2. 9: Bố cục của văn bản trong tài liệu .............................................................31
Hình 2. 10: Quy trình hoạt động của Tesseract.........................................................36
Hình 2. 11: Ảnh và ảnh đa cấp xám ..........................................................................38
Hình 2. 12: Xác định vùng văn bản trong Tesseract .................................................38
Hình 2. 13: Xác định các đường của văn bản trong Tesseract ..................................38
Hình 2. 14: Phân tách từ thành ký tự trong Tesseract ...............................................39
Hình 2. 15: Xác định khoảng cách giữa các từ trong Tesseract ................................39
Hình 2. 16: Quy trình phân tích từ thành ký tự trong Tesseract ...............................41
Hình 2. 17: Xác định đặc trưng của ký tự trong Tesseract .......................................42

Hình 3. 1: Phân cấp chức năng của chương trình

………………………...44


Hình 3. 2: Chức năng tách và xử lý ảnh thành ảnh đa cấp xám...................... 46
Hình 3. 3: Chức năng sử dụng Tesseract OCR để nhận dạng văn bản ........... 47
Hình 3. 4: Chức năng lọc trùng văn bản ......................................................... 48
Hình 3. 5: Khung hình minh họa tập dữ liệu kiểm thử ................................... 48
Hình 3. 6: Các lỗi nhận dạng văn bản sai của chương trình ........................... 50


1

MỞ ĐẦU
1. Lý do chọn đề tài
Cùng với sự phát triển của công nghệ thông tin, ngoài những điểm như tốc
độ, dịch vụ internet được cải thiện rõ nét thì việc nội dung đăng tải trên đó cũng
tăng đến chóng mặt. Có thể kể ra như Youtube có hơn 1 tỉ người dùng và mỗi ngày
mọi người xem hàng triệu giờ trên Youtube và tạo ra hàng tỉ lượt xem. Hay trung
bình 13 người trên trái đất thì có 1 người dùng Facebook và đăng tải ít nhất 3 ảnh
trên đó. Tính riêng số lượng video bài giảng, diễn thuyết… phục vụ học tập cho mọi
lứa tuổi đang được tải lên và chia sẻ trên internet đã là một con số khổng lồ. ELearning không còn là khái niệm mới lạ với người dùng và đang phát triển mạnh
mẽ. Bài giảng có thể ở nhiều cách tiếp cận khác nhau, từ trình chiếu đến tư liệu
quay phim ….
Trong thời điểm hiện tại, người dùng có nhu cầu học tập dưới mọi loại tài
liệu và mọi loại ngôn ngữ khác nhau, đặc biệt là tiếng Anh, từ các bài hướng dẫn
thủ thuật được chia sẻ miễn phí trên Youtube hay tài liệu chuyên ngành. Tuy nhiên,
sẽ bất tiện cho người học khi liên tục phải xem hết tài liệu qua video. Từ đó đòi hỏi
phải có một công cụ có thể rút ngắn thời gian xem mà vẫn đáp ứng thu nhận đầy đủ
nội dung truyền tải từ tài liệu đó. Để làm được điều này, ta sẽ sử dụng kỹ thuật nhận
dạng ký tự quang học để nhận dạng nội dung từ ảnh chụp trong video ra thành văn
bản. Điều này vừa giữ nguyên nội dung vừa giảm thiểu dung lượng lưu trữ, tái sử
dụng dưới nhiều mục đích khác nhau.

Từ ý nghĩa khoa học và thực tiễn nêu trên, học viên chọn đề tài: “Phát hiện
và nhận dạng văn bản trong Video”.

2. Tổng quan về đề tài
Những nghiên cứu ở Việt Nam và ngoài nước trong 20 năm trở lại đây về
vấn đề phát hiện và nhận dạng văn bản nói chung đều chỉ ra rằng khối lượng thông
tin đến từ nội dung của video là rất lớn. Những thông tin được lấy ra được áp dụng
vào những lĩnh vực khác nhau như: giao thông, kho bãi, bán hàng hoặc thậm chí cả


2

tìm kiếm và dịch thuật… Tuy nhiên do những vấn đề khác nhau của dữ liệu đầu vào
như: chất lượng video, kiểu văn bản, kích thước văn bản … đã đã trở ngại cho các
nghiên cứu tìm ra được phương án tối ưu cho vấn đề này
Google Books (tên gọi ban đầu Google Print hay Google Book Search) là
một công cụ của Google cho phép tìm một đoạn văn đầy đủ trong một cuốn sách do
Google scan lại và qua nhận dạng ký tự OCR, và lưu trữ trong một cơ sở dữ liệu số.
Dịch vụ này được biết đến lúc đầu với cái tên là Google Print khi nó được giới thiệu
tại Frankfurt Book Fair vào tháng 10 năm 2004. Khi một cụm từ khớp với những từ
khóa người dùng nhập vào, Google sẽ đưa ra một bảng danh sách các đầu sách có
chứa từ khóa ở trên. Nhấp vào kết quả từ Google Book Search sẽ mở ra một giao
diện mới trong đó người dùng có thể xem từng trang trong cuốn sách cũng như các
quảng cáo chứa thông tin liên quan và các đường link đến trang web của nhà xuất
bản và nhà bán sách. Đây là bước đi đầu cho việc Google mở rộng ra các dịch vụ
sau như tìm kiếm nội dung video bài giảng trực tuyến trong thời gian tới.
Mục tiêu chính của của Luận văn là tập trung nghiên cứu xây dựng một công
cụ như vậy để phát hiện và nhận dạng nội dung các bài giảng, thuyết trình, trình
diễn dưới dạng video. Người dùng chỉ cần chọn video đầu vào, kết quả trả về sẽ là
các nội dung dưới dạng văn bản có trong video đó.

Vấn đề cần giải quyết ở trong đề tài này là giải pháp xử lý video đầu vào.
Phát hiện và nhận dạng văn bản có trong video. Đầu tiên, video sẽ được phân tách
thành từng ảnh nhỏ theo từng khung hình với khoảng thời gian nhất định. Tiếp theo,
các dữ liệu văn bản chứa trong hình ảnh của khung hình được trích xuất bằng cách
sử dụng kĩ thuật nhận dạng kí tự quang học. Các văn bản trích xuất sẽ được xử lý
trùng lặp, và lưu trữ dưới dạng văn bản để người dùng có thể đọc lại nội dung từ đó.

3. Nhiệm vụ nghiên cứu
- Tìm hiểu phương pháp phân đoạn ảnh từ video và trích xuất văn bản .
- Cài đặt chương trình tìm kiếm thử nghiệm, đánh giá độ chính xác của mô
hình phát hiện và nhận dạng.

4. Đối tượng và phạm vi nghiên cứu


3

Đối tượng nghiên cứu:
Các phương pháp xử lý video, phát hiện và nhận dạng ký tự quang học.
Phạm vi nghiên cứu:
- Kỹ thuật xử lý video.
- Kỹ thuật trích xuất văn bản từ ảnh
- Kỹ thuật phát hiện và nhận dạng ký tự quang học
- Xây dựng và thử nghiệm chương trình

5. Phương pháp nghiên cứu
- Nghiên cứu lý thuyết: Sử dụng các phương pháp phân tích, tổng hợp thông
tin để tổng kết các kiến thức nền tảng, các công bố khoa học và các ứng dụng của
các phương pháp xử lý video, phương pháp phát hiện và nhận dạng ký tự quang từ
các nguồn tài liệu trên internet và các nguồn tài liệu khác: bao gồm các bài báo khoa

học trên các kỷ yếu hội thảo, tạp chí chuyên ngành…
- Nghiên cứu thực nghiệm: Bao gồm các nội dung:
1) Tìm hiểu bài toán trích xuất nội dung video từ kĩ thuật nhận dạng ký tự
quang.
2) Cài đặt chương trình và thử nghiệm chương trình trên dữ liệu thử nghiệm.

6. Bố cục luận văn
Luận văn có bố cục gồm: Phần mở đầu, 3 chương chính, phần kết luận, tài
liệu tham khảo và phụ lục. Được bố trí theo thứ tự:
- Mở đầu.
- Chương 1: Tổng quan về phân tích dữ liệu Video.

- Chương 2: Phát hiện và nhận dạng văn bản trong Video.
- Chương 3: Xây dựng và thử nghiệm chương trình Phát hiện và nhận
dạng văn bản trong Video.
- Kết luận.
- Tài liệu tham khảo.


4

Chương 1 - TỔNG QUAN VỀ PHÂN TÍCH DỮ LIỆU VIDEO

1.1. Phát biểu bài toán
Ngày nay, khối lượng dữ liệu chứa trong video là rất lớn. Điều đó đòi hỏi cần
thiết để tạo ra các công cụ hữu ích cho phép trích xuất thông tin từ các chuỗi video
này để phân loại hoặc phân tích mà không cần sự giám sát của con người. Chú thích
hoặc văn bản trên ảnh nền là được sử dụng hơn cả trong việc tách lọc thông tin.
Mặc dù văn bản có thể dễ dàng phát hiện đối với con người, ngay cả trong trường
hợp viết tắt hoặc loại ngoại ngữ khác. Tuy nhiên ở thời điểm hiện tại, không có

phương pháp nào cho phép trích xuất văn bản một cách tối ưu nhất. Điều này là do
thực tế rằng văn bản tồn tại trong video có rất nhiều các cách thể hiện khác nhau (Ví
dụ: kích thước, phong cách, định hướng, ...), hoặc do độ phân giải thấp của hình ảnh
(chất lượng) và độ phức tạp của nền. Mặc dù những hạn chế này, các dòng văn bản
vẫn thể hiện một số tính đồng nhất, làm cho nó có thể phát hiện được như độ tương
phản, độ bám dính không gian, bề ngoài kết cấu, độ đồng nhất màu, độ dày nét, độ
đồng nhất theo thời gian, chuyển động theo trình tự, vị trí trên khung, vv [9]. Do đó,
mục đích của luận văn này là một giải pháp cho việc phát hiện và nhận dạng văn
bản trong video dựa vào xử lý ảnh và công nghệ OCR.
Trong khuôn khổ luận văn này, tác giả chỉ đề cập đến các video bài giảng,
thuyết trình dưới dạng slide hoặc có phụ đề và bài toán liên quan đến quá trình nhận
dạng văn bản từ những video dạng nói trên. Ngoài ra, còn rất nhiều chủng loại video
khác nữa, và nội dung nghiên cứu các video khác là nằm ngoài khuôn khổ trong
luận văn. Trọng tâm của luận văn là nghiên cứu cách thức xử lý và nhận dạng văn
bản cho video đầu vào.

1.2. Các nghiên cứu trước đây về phân tích dữ liệu video
1.2.1. Tổng quan về video
Về mặt bản chất thì video được cấu thành từ những ảnh tĩnh. Những ảnh này
sau đó được sắp xếp liên tiếp nhau và cùng trình diễn trong một đơn vị thời gian đủ


5

nhỏ để làm cho mắt của chúng ta cảm nhận rằng các đối tượng này đang chuyển
động. Thông thường thì các video được quay ở khoảng 24-30 hình mỗi giây. Tuy
nhiên khi các ảnh được trình chiếu nhanh hơn thì chúng ta cảm nhận được mượt mà
và linh động hơn.
Mỗi hình này được gọi là một frame. Số frame trên một giây được đo bằng
một số nguyên được kí hiệu FPS. Một video đơn giản được hiểu là tổng số khung

hình được lưu trữ cùng nhau và trình chiếu theo một thứ tự, do vậy một video thông
thường có khoảng vài trăm đến vài trăm nghìn khung hình.
Một số thuộc tính đặc trưng của Video ta cần biết
Video có bốn đặc trưng chính: Color (màu sắc), texture (kết cấu), shape (hình
dáng), motion (chuyển động)
 Color: Màu là một thuộc tính quan trọng của ảnh. Biểu đồ màu, biểu diến sự
phân bố màu, là một đặc trưng màu phổ biến nhất hiện nay. Biểu đồ màu
không phụ thuộc vào sự quay, dịch chuyển ảnh cũng như chiều nhìn ảnh.
Tính hiệu quả của nó lại phụ thuộc vào hệ màu và phương pháp định lượng
được dùng. Có một vấn đề với biểu đồ màu là nó không biểu diễn thông tin
về không gian phân bố các điểm ảnh, do đó hai ảnh có cùng biểu đồ màu có
thể có nội dung rất khác nhau.
 Texture: Đây là một đặc trưng quan trọng của bề mặt, nơi xảy ra việc lặp lại
mẫu cơ bản. Có hai dạng biểu diễn texture phổ biến: biểu diễn dạng ma trận
đồng thời và biểu diễn Tamura. Ma trận đồng thời mô tả hướng và khoảng
cách giữa các điểm ảnh, nhờ đó các thống kê có nghĩa có thể được trích
chọn. Ngược lại, người ta thấy rằng entropi và mô men chênh lệch nghịch
đảo lại có khả năng phân biệt tốt nhất. Biểu diễn Tamura được thúc đẩy nhờ
các nghiên cứu về tâm lý trong việc thu nhận trực giác của con người và nó
bao gồm các đại lượng đo tính thô, độ tương phản, hướng, tính trơn, tính cân
đối và độ ráp. Các đặc trưng Tamura rất hấp dẫn trong việc hiểu nội dung
ảnh vì nó biểu đạt trực quan. Ngoài ra còn có một số các dạng biểu diễn khác
như trường ngẫu nhiên Markov, biến đổi Gabor, biến đổi gợn sóng,..


6

 Shape: Các đặc trưng hình dáng có thể được biểu diễn sử dụng phân tích
hình dáng truyền thống như bất biến mô men, mô tả Fourier, mô hình học tự
động quay lui và các thuộc tính hình học. Các đặc trưng này có thể được

phân chia thành đặc trưng toàn cục và đặc trưng cục bộ. Đặc trưng toàn cục
là đặc trưng thuộc tính thu được từ toàn bộ hình dáng ảnh, chẳng hạn như
chu vi, tính tròn, mô men trung tâm, hướng trục chính... Đặc trưng cục bộ là
đặc trưng thu được từ việc thao tác với một phần của ảnh, không phụ thuộc
vào toàn bộ ảnh.
 Motion: Chuyển động là thuộc tính quan trọng của video. Thông tin về
chuyển động có thể được sinh ra bằng các kỹ thuật ghép khối hoặc luồng ánh
sáng. Các đặc trưng chuyển động như mô men của trường chuyển động, biểu
đồ chuyển động hoặc là các tham số chuyển động toàn cục có thể được trích
chọn từ vectơ chuyển động. Các đặc trưng mức cao phản ánh di chuyển
camera như quét camera (pan), nghiêng (tilt), phóng to (zoom out), thu nhỏ
(zoom in) cũng có thể được trích chọn.

1.2.2. Những nghiên cứu liên quan
Kể từ năm 1994 đến nay, đã có rất nhiều những nghiên cứu khác nhau về
việc phát hiện và nhận dạng văn bản trong video của các tác giả trên thế giới. Trong
đó có những nghiên cứu cho thấy tính khả quan trong những phương pháp có thể áp
dụng trong việc phát hiện và nhận dạng văn bản trong video, và cũng có những
nghiên cứu chỉ ra những điểm còn hạn chế của việc làm này. Có thể kể đến như sau:
Ohya và các cộng sự (1994) [6] đã trình bày một phương pháp bốn giai đoạn
cho việc trích xuất văn bản từ hình ảnh theo khung hình. Họ cũng làm việc trên các
ký tự khác nhau, kích cỡ, vị trí và phông chữ trong điều kiện chiếu sáng khác nhau
trong hình ảnh văn bản theo khung hình. Bài báo kết luận rằng phương pháp đề xuất
không thích hợp cho các tài liệu video, do sự hiện diện của một số đối tượng trong
đó quá với các cấp độ xám khác nhau và do ảnh hưởng của mức độ vỡ ảnh cao và
các biến thể trong chiếu sáng.


7


Chen và cộng sự (2001) [3] đã sử dụng toán tử canny để phát hiện các cạnh
trong một hình ảnh. Hình thái giãn nở được thực hiện để kết nối các cạnh thành các
cụm. Một số kiến thức heuristic, chẳng hạn như tỷ lệ chiều ngang và chiều cao
ngang, được sử dụng để thay đổi các cụm không phải văn bản. Theo bài báo, nghiên
cứu đã loại bỏ hoặc làm nhòe các cấu trúc không có thang đo đặc biệt. Phát hiện văn
bản đã được áp dụng cho hình ảnh nâng cao. Các tác giả đã sử dụng gói OCR
thương mại (gói Reader OCR) sau khi kích thước chuẩn hóa các ký tự riêng lẻ thành
128 pixel bằng cách sử dụng phép nội suy song tuyến.
Chunmei Liu và cộng sự (2005) [5] đã đề xuất một thuật toán để phát hiện
văn bản trong các khung hình của video và hình ảnh. Nó được thực hiện bởi ba
bước chính: phát hiện cạnh, phát hiện các ứng cử viên văn bản, và phát hiện các
sàng lọc văn bản. Lúc đầu, nó áp dụng quy trình phát hiện cạnh để có được bốn bản
đồ cạnh theo hướng lên trên, lên trên, dọc và ngang. Trong bước tiếp theo, việc trích
xuất đối tượng địa lý được thực hiện từ bốn bản đồ cạnh để thể hiện đặc tính kết cấu
của văn bản. Sau đó, thuật toán của kmeans được áp dụng cho việc phát hiện các
ứng cử viên của văn bản ban đầu.
C. Misra và cộng sự (2012) [4] đã đề xuất một kỹ thuật trích xuất và nhận
dạng văn bản từ hình ảnh bằng cách sử dụng NN. Các phương pháp dựa trên HSV
đã được áp dụng để giảm màu. Các tính năng được trích xuất từ mọi ROI cho mặt
phẳng màu cụ thể đó và sau đó sử dụng chúng trong một trình phân loại dựa trên
tính năng để tìm hiểu xem ROI có khối văn bản hay không phải văn bản. Các khối
được xác định được cung cấp bên cạnh OCR làm đầu vào. Đầu ra của OCR dưới
dạng ký tự của các từ khung hình ASCII được lưu trữ trong cơ sở dữ liệu dưới dạng
từ khóa có tham chiếu để truy xuất trong tương lai.
S. Ranjini và cộng sự (2013) [14] thảo luận về việc trích xuất văn bản tiếng
Anh từ hình ảnh của truyện tranh blob bằng cách sử dụng các chiến lược khác nhau.
Quá trình trích xuất văn bản từ hình ảnh truyện tranh giúp bảo tồn văn bản và cung
cấp văn bản có chất lượng cao từ tài liệu được in. Tự động trích xuất văn bản từ các
hình ảnh liên quan đến truyện tranh được phát triển xem xét do ứng dụng đã lên kế



8

hoạch trong việc truy xuất hình ảnh. Trong tác phẩm đã có, nội dung tiếng Nhật
được trích từ hình ảnh Manga Comic bằng cách sử dụng các chức năng của Blob
Extraction. Trong thời gian đó, việc trích xuất văn bản được thực hiện từ các ràng
buộc khác nhau bằng cách sử dụng OCR và biên dịch bản dịch tiếng Nhật của
Manga sang vài ngôn ngữ khác nhau trong phương pháp đôi khi để chia sẻ niềm vui
khi đọc Manga qua Internet.
Shilpa Arora và cộng sự (2014) [15] trình bày sự công nhận văn bản
Gurmukhi từ các hình ảnh biển hiệu được chụp qua camera điện thoại di động.
Những hình ảnh không được chuẩn bị và không vỡ hình. Văn bản được trích xuất
được phân đoạn thành các ký tự sử dụng cấu hình dự án. Các phương pháp phân
vùng được sử dụng để trích xuất các tính năng. Các ký tự được phân loại bằng kỹ
thuật SVM.
Lienhart và cộng sự [11] đề xuất một phương pháp phát hiện văn bản trong
video và hình ảnh. Họ xây dựng một mạng noron nhiều tầng để huấn luyện phát
hiện văn bản. Thuật toán của họ xử lý với tất cả các khung hình phân đoạn được và
cách tiếp cận này kém hiệu quả về thời gian xử lý.

1.2.3. Phát hiện và nhận dạng văn bản trong thời điểm hiện tại
Sự nhận dạng chính xác ký tự Latin đánh máy được xem là vấn đề đã được
giải quyết. Tỷ lệ chính xác thực tế đạt tới 99%, mặc dù một số ứng dụng đòi hỏi tỷ
lệ chính xác cao hơn nữa cần phải con người kiểm tra lại lỗi. Tuy nhiên, việc nhận
dạng chữ in bằng tay, chữ viết tay, văn bản trong video, vẫn còn là một đề tài của
các nghiên cứu.[16]
Các hệ thống nhận dạng văn bản đã đạt được những thành công lớn về mặt
thương mại trong những năm gần đây. Trong số đó là thiết bị nhập cho những thiết
bị hỗ trợ cá nhân (PDA) như những phần mềm chạy trên Palm OS. hãng Apple
Newton đi tiên phong trong công nghệ này. Những giải thuật sử dụng trong những

thiết bị này sử dụng những ưu điểm rằng thứ tự, tốc độ, và hướng của những đoạn
dòng đơn lẻ đã được biết trước. Tương tự, người dùng có thể được yêu cầu sử dụng
chỉ một vài loại kiểu chữ nhất định. Những phương pháp này không thể dùng được


9

trong phần mềm scan tài liệu giấy, do đó sự nhận dạng chính xác văn bản in bằng
tay vẫn là một vấn đề lớn đang được bỏ ngỏ. Với mức chính xác từ 80% đến 90%,
những ký tự in bằng tay sạch sẽ có thể được nhận ra, nhưng độ chính xác đó vẫn tạo
ra hàng tá lỗi mỗi trang, khiến cho công nghệ đó chỉ hiệu quả trong vài trường hợp
nào đó. Sự đa dạng của OCR hiện nay được biết đến trong công nghiệp là ICR,
(Intelligent Character Recognition - Nhận dạng Ký tự Thông minh).
Hiện nay, với chữ Việt, phần mềm nhận dạng chữ Việt in VnDOCR 4.0 có
khả năng nhận dạng trực tiếp các loại tài liệu được quét qua máy quét, không cần
lưu trữ dưới dạng tệp ảnh trung gian. Các trang tài liệu có thể được quét và lưu trữ
dưới dạng tệp tin nhiều trang. Kết quả nhận dạng được lưu trữ sang định dạng của
Microsoft Word, Excel... phục vụ rất tốt nhu cầu số hóa dữ liệu.
Ngoài ra, còn có một dự án OCR Tiếng Việt có tên VietOCR, được phát triển
dựa trên nền tảng mã nguồn mở tesseract-ocr do Google tài trợ. VietOCR có khả
năng nhận dạng chữ Việt rất tốt. Đây là một chương trình nguồn mở Java/.NET, hỗ
trợ nhận dạng cho các dạng ảnh PDF, TIFF, JPEG, GIF, PNG, và BMP.

1.3. Hướng nghiên cứu của tác giả
Dựa vào các phương pháp tiếp cận nghiên cứu đã nêu trong phần 1.1 và 1.2,
tác giả lựa chọn phương pháp tiếp cận để trích xuất văn bản từ video bằng công
nghệ OCR thay vì sử dụng các công nghệ khác vì tính ứng dụng cao của công nghệ
này.
Công cụ phát hiện và nhận dạng văn bản từ video mà tác giả mong muốn xây dựng
được hình thành từ cách giải quyết các bài toán cụ thể sau:

 Phân đoạn video.
 Trích xuất văn bản đại diện:
o Nhận dạng kí tự quang học.
o Xử lý trùng lặp văn bản.
Kiến trúc của chương trình phát hiện và nhận dạng văn bản từ video mà tác giả đề
xuất được mô tả trong hình dưới đây:


10

Hình 1. 1: Kiến trúc chương trình phát hiện và nhận dạng văn bản trong video

1.4. Kết luận chương 1
Trong chương 1, học viên đã trình bày khái quát về bài toán phát hiện và
nhận dạng văn bản trong video. Đồng thời dựa trên những nghiên cứu trước đây của
các tác giả khác và công nghệ trong thời gian hiện tại để đưa ra hướng giải quyết bài
toán có thể áp dụng trong lĩnh vực phát hiện và nhận dạng văn bản trong video. Học
viên cũng đã đề xuất được kiến trúc của chương trình phát hiện và nhận dạng văn
bản trong viđeo để từ đó tạo tiền đề cho các chương tiếp theo để tiến hành nghiên
cứu và xây dựng chương trình kiểm thử trên tập dữ liệu thực.


11

Chương 2 - PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG
VIDEO
2.1. Bài toán nhận dạng văn bản Video trong lĩnh vực dịch thuật bài
giảng trực tuyến
Văn bản trong video
Văn bản trong video có thể được phân loại thành hai loại: văn bản nằm trên

cảnh và văn bản hậu xử lý. Văn bản nằm trên cảnh là một phần của môi trường và
được máy ảnh chụp cùng với phần còn lại của cảnh. Văn bản nhân tạo được tạo
riêng biệt từ quay video và phủ lên cảnh trong giai đoạn hậu xử lý[10]. Chúng tôi
quan tâm đến các phương pháp phát hiện văn bản nhân tạo (hoặc được nhúng) trong
video vì nó mang thông tin quan trọng về ngữ nghĩa của nội dung video. Ví dụ: văn
bản phụ đề có trong chương trình phát sóng tin tức và phim tài liệu thường chú
thích thông tin về vị trí, thời gian và sự kiện được báo cáo. Cũng trong các chương
trình thể thao, điểm số và tên người chơi hoặc tên nhóm thường được xếp chồng lên
video ở dạng văn bản thay vì được nói to.
Một số đặc tính chính của văn bản mà ta cần biết: [3]
 Độ tương phản giữa văn bản và nền (Contrast between text and
background)
Độ tương phản là một tính năng quan trọng vì trong hầu hết ảnh muốn đọc
được thì ảnh không được mờ hay bị che khuất. Thông thường ảnh phải có độ
tương phản cao cũng như ánh sáng ổn định. Một trong những vấn đề chính
khiến rất khó phát hiện văn bản chính là độ tương phản thấp và nền phức tạp.
Trong trường hợp này, ta cần một số công cụ nâng cao để xử lý ảnh trước.
 Không gian kết nối (Spatial cohesion)
Các tính năng được nhắc đến trong phần này liên quan đến khía cạnh hình
học của ký tự, chẳng hạn như:
 Kiểu in (Typography): đề cập đến loại font sử dụng, kích thước, chiều
cao và độ rộng tối thiểu mà người ta có thể đọc được. Chiều dài từ và


12

câu cũng có thể được tính toán để tách các từ bằng khoảng trắng giữa
chúng.
 Độ gắn kết (Compactness): phụ thuộc vào cách bố trí của tác giả khi
từ hay đoạn văn bản được đặt trong một hộp giới hạn.

 Hướng của văn bản (Direction): một văn bản có định hướng sẽ dễ đọc
hơn và thường được hiển thị theo chiều ngang.
 Kiến trúc bên ngoài (Textured appearance):
Hai tính năng ở trên, độ tương phản và không gian kết nối có thể khiến việc
phát hiện văn bản trở thành phân đoạn kết cấu. Việc xem xét văn bản dưới
dạng toàn bộ xem nó có đủ các tính năng để phát hiện là văn bản hay không.
Sự cố xảy ra khi kiến trúc của hình ảnh và văn bản giống nhau sẽ khiến việc
phát hiện là rất khó khăn.
 Đồng nhất màu sắc (Colour homogeneit):
Chữ in thường là đơn sắc. Một số loại giấy tờ yêu cầu tính đồng nhất về màu
sắc là yếu tố hàng đầu, vì phân chia màu giữa đường biên sẽ dễ dàng hơn là
phân chia bằng độ tương phản. Các chữ đa sắc cũng có thể được phát hiện,
tuy nhiên chúng mang tính nghệ thuật nhiều hơn là thông tin, do đó một vài
tác giả có xu hướng bỏ qua chúng.
 Độ dày của nét (Strokes thickness):
Thông thường độ dày của nét chữ là không đổi, ngoại trừ một số kiểu chữ
đặc biệt. Độ dày nét còn phụ thuộc vào mật độ của nó trong ký tự .
 Tính đồng nhất và dư thừa tạm thời (Temporal uniformity redundancy)
Con người cần thời gian để đọc 1 câu. Điều này có nghĩa là cứ sau 25 khung
hình thứ hai xuất hiện. Cùng một văn bản sẽ được chồng lên nhau trong
nhiều khung hình để người có thể đủ thời gian để đọc được. Nghiên cứu chỉ
ra rằng con người cần 2-3 giây để hiểu và xử lý một hình ảnh phức tạp.
Ngoài thời gian hiển thị thì còn là sự biến đổi và kích thước hoặc chuyển
động của chúng trong suốt video mà không thay đổi quá nhiều trong mỗi
khung hình.


13

 Chuyển động trên khung hình (Movement on the frame):

Là sự dịch chuyển của văn bản trên khung hình. Có thể là chuyển động tuyến
tính hoặc theo chiều từ phải sang trái, cuộn từ dưới lên hoặc bay tự do trên
khung hình. Khi đó khối văn bản có thể bị loại bỏ do giả định rằng văn bản
này thường không có ý định cung cấp thông tin, nhưng để thu hút sự chú ý.
Mặt khác vận tốc trong chuyển động cũng là một yếu tố. Khi vận tốc quá
nhanh thì có nghĩa là vùng đó không để đọc.
 Vị trí trong khung hình (Position in the frame):
Thông thường, văn bản thường xếp chồng lên nhau trong cùng một vùng
trong khung hình. Ta vẫn thường thấy chúng xuất hiện ở những vị trí không
bao gồm nội dung video (Ví dụ: Bảng tỉ số trận bóng nằm ở góc trên bên
trái/phải khung hình)
Vì vậy, có thể nói việc nhận dạng văn bản từ Video là ta sẽ lấy văn bản từ
từng frame được cắt. Sau đó tổng hợp lại và xử lý lọc trùng lặp các văn bản giống
nhau. Để từ đó rút gọn lại được thành văn bản hoàn chỉnh.

2.2. Kỹ thuật phân đoạn video thành ảnh
Như đã nói ở phần trên, thì một video có thể được trích xuất ra đến hàng
trăm, hàng nghìn hoặc thậm chí hàng vạn bức ảnh. Tuy nhiên trên thực tế lượng
thông tin nằm trong video không nhiều đến vậy. Thông tin hay trong khuôn khổ
luận văn này là văn bản được trích xuất chỉ nằm trên các khung hình chính của
video (keyframes)[17], là những hình ảnh được sử dụng làm tham chiếu trong
video. Chúng được sử dụng làm tham chiếu để ta có thể tìm kiếm và dễ dàng tham
chiếu đến các khung hình phía sau để có thể nén video lưu trữ sự khác biệt giữa các
khung hình chính và các khung hình sau nó thay vì lưu trữ tất cả chúng. Đó là lý do
ta có thể mong đợi chất lượng hình ảnh và thông tin trên khung hình chính này.
Khoảng cách giữa các khung hình chính phụ thuộc vào video được sử dụng. Tuy
nhiên thông thường thì khoảng cách này dao động từ 2-5 giây. Chúng ta có thể tìm
kiếm được phần mềm, công cụ khác nhau để hỗ trợ việc chuyển đổi video thành các



14

frames như phần mềm total video converter, video to picture converter… Nhưng tác
giả quan tâm nhất là công cụ mã nguồn mở Ffmpeg bởi ba lý do chính:
 Hỗ trợ nhiều định dạng video khác nhau, ví dụ .mp4, avi, flv…
 Điều chỉnh được FPS.
 Mã nguồn mở.
FFMpeg là một thư viện có rất nhiều tiện ích cho việc xử lý video. Tính năng nổi
bật nhất có lẽ là khả năng encode/decode nhiều video định dạng khác nhau, giúp
chuyển đổi qua lại nhiều định dạng video. Ngoài ra, chúng ta cũng có thể dùng
FFMpeg để chia cắt một đoạn video, chụp lại các frame và xuất ra dạng hình ảnh,…
Để trích xuất các khung hình chính từ tệp video bằng ffmpeg, ta có thể sử dụng lệnh
sau:
ffmpeg –I {IP} –vf “select=eq(pict_type\,I)” –vsync vfr {OP} –hide_banner
Trong đó:
-vf: Bộ lọc của video. Trong trường hợp này, bộ lọc video phức tạp hơn một
chút so với trước đây. “select = eq (pict_type \, I)” sẽ làm cho bộ lọc chọn tất cả
hình ảnh là khung hình chính. (“pict_type \, I” dùng để chỉ loại hình ảnh chỉ mục,
“eq” đề cập đến bằng nhau, vì vậy chúng tôi có thể đọc nó là “chọn tất cả bằng hình
ảnh chỉ mục”)
-vsync vfr: Đây là thông số cho bộ lọc sử dụng đồng bộ hóa bitrate của biến.
Nếu chúng ta không sử dụng tham số này ffmpeg sẽ không tìm thấy chỉ các khung
hình chính và trích xuất các khung hình khác có thể không được xử lý chính xác.

Hình 2. 1: Phân đoạn video thành ảnh theo keyframes [17]


15

2.3. Kỹ thuật nhận dạng và trích xuất văn bản từ ảnh

2.3.1. Các giải thuật trong nhận dạng văn bản
Ứng dụng Logic mờ trong nhận dạng văn bản
Hệ logic đơn giản nhất là logic mệnh đề, bất cứ một mệnh đề chỉ có thể nhận
một trong hai giá trị là đúng hay sai. Các mệnh đề kết hợp với nhau qua các phép
toán phủ định, và, hoặc, kéo theo… Nhược điểm của logic mệnh đề là nó thiếu cơ
chế diễn tả các quan hệ giữa các đối tượng, nó cũng không tổng quát hóa được các
đối tượng trong tự nhiên.
Logic vị từ là một phương tiện để nâng cao tính rõ nghĩa của logic mệnh đề.
Sự tổng quát hóa của nó cho phép ta biểu diễn tri thức cũng như lập luận về các đối
tượng và các thực thể quan hệ. Cần phải nhấn mạnh rằng, phát biểu trong logic vị từ
không mang giá trị đúng hoặc sai trừ phi các đối số nhận giá trị rõ. Tuy nhiên, logic
vị từ vẫn là hệ logic hai giá trị, điều này dẫn tới sự hình thành hệ logic đa trị có giá
trị thứ ba là không xác định (0.5).
Logic mờ (Fuzzy logic) được xây dựng dựa trên sự tổng quát của logic đa trị,
nó cho phép lập luận trên các đối tượng thực tế được định nghĩa không rõ ràng như
các thực thể quan hệ. Trong logic mờ, chỉ có các đối tượng xấp xỉ chứ không có đối
tượng chính xác, do đó lập luận cũng là xấp xỉ. Một chân trị là một điểm trong
khoảng [0, 1] trường hợp giá trị là số hay là cụm từ như đúng, rất đúng, sai, kém…
trường hợp giá trị chân lý là ngôn ngữ. Ví dụ như thông tin dự báo thời tiết “Có
mưa rải rác vài nơi” không thể biểu diễn bằng một trị chân lý 0 hay 1, nhưng nó vẫn
có giá trị đúng theo số phần trăm nào đó theo công tác nghiên cứu thống kê. Trong
trường hợp này, một khẳng định A kèm theo giá trị độ thuộc 0 ≤ μ(A) ≤ 1 đo sự
chính xác của A, ký hiệu là (A, μ(A)).
Để hiểu được giải thuật lôgic mờ trong bài toán nhận dạng ký tự quang học,
ta minh họa quá trình nhận dạng 10 ký tự số lưu trữ dưới dạng ảnh:


×