Tải bản đầy đủ (.pdf) (11 trang)

report Restaurant Menu Expert Quá Trình Xử lí Pipeline Ảnh Kĩ Thuật Số Để Làm Tăng Độ Chính Xác Của Tăng Độ Chính Xác Của Thuật Toán OCR

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (766.59 KB, 11 trang )

Restaurant Menu Expert
Q Trình Xử lí Pipeline Ảnh Kĩ Thuật Số Để Làm Tăng Độ Chính
Xác Của Thuật Tốn OCR
GVHD: TS. CHẾ VIẾT NHẬT ANH.
SVTH: 1. Nguyễn Văn Đông – 41200800.

2. Nguyễn Viết Sĩ -41203133.
3. Lầu Lƣu Đƣờng – 41200814.
4. Nguyễn Phúc Nhật Huy – 41201373.
5. Nguyễn Hữu Đông – 41200797.
I. GIỚI THIỆU:
Một trong những thách thức lớn nhất khi đi du lịch là
rào cản ngơn ngữ. Nó là một vấn đề lớn khi ta đặt món ăn
tại nhà hàng. Bởi vì sự độc đáo về tên các món ăn, họ
thƣờng có ý nghĩ riêng biệt về tên của từng món ăn. Nó
thƣờng khó tƣởng tƣợng. Bởi nếu chỉ đọc bằng văn bản
trên thực đơn. Mặc dù nhiều ngƣời có thể hiểu một cách
cơ bản về tên của món ăn. Nhƣng những món ăn có thể
khác so với những gì họ nghĩ do sự khác biệt về văn hóa.
Trong trƣờng hợp đó trình bày tên món ăn bằng hình ảnh

thay vì tên của món ăn có thể giúp ích cho mọi ngƣời để
đƣa ra những quyết định hợp lí cho những gì họ mong
muốn đặt món ăn ở nhà hàng.
Lấy cảm hứng về ý tƣởng có thể giúp mọi ngƣời vƣợt
qua rào cản này. Trong dự án này chúng tôi sẽ giải quyết
vấn đề này bằng việc cung cấp một hệ thống tự động hiển
thị hình ảnh của các món khi nó đƣợc truy vấn tên. Với
ứng dụng này ngƣời ta đơn giản là đặt một thực đơn trƣớc
camera để máy ảnh chụp hình ảnh của thực đơn chƣơng
trình xử lí nhận dạng kí tự trong thực đơn và xuất trình




hình ảnh của các món ăn trên mặt bên của tên món ăn để
giúp ngƣời sử dụng có thể hiểu hơn về món ăn mà họ
quan tâm.

II.

CƠNG VIỆC LIÊN QUAN:

Có rất nhiều vấn đề liên quan đến chủ đề này, điều đã
cho chúng ta một cái nhìn sâu sắc tuyệt vời và cảm hứng
khi định hình ý tƣởng của chúng tôi. A. Heng mô tả một
ứng dụng iPhone mà đƣợc thiết kế để nhanh chóng và dễ
dàng tách ra một hóa đơn nhà hàng giữa một nhóm ngƣời
trong tạp chí của ông. ứng dụng sử dụng các thiết bị
Tesseract OCR để đọc ký tự từ hóa đơn, sau đó thực hiện
xử lý văn bản để xác định các mục trên biên lai. Ứng dụng
này hiệu quả trong việc giảm thời gian tính ra một ngƣời
phải trả bao nhiêu trong một nhóm. Dựa vào việc quan sát
thì có thể nhận thấy rằng hóa đơn giấy là khơng thể thay
thế và khơng dễ dàng để biến đổi nó thành định dạng điện
tử mặc dù tồn tại nhiều hệ thơng thánh tốn điện tử tiên
tiến. C. N. Nshuti đã thảo luận trong tờ tạp chí của ơng ấy
cách để nhận ra cách số hóa tờ hóa đơn và phát triển một
đƣờng ống để biểu diễn OCR từ ảnh của một tập tài liệu
đƣợc chụp từ điện thoại. Vì vậy, có rất nhiều ứng dụng
hƣớng đến việc nhận diện ký tự nƣớc ngoài. Dựa trên
những vấn đề này mà tồn tại nhiều OCR gần nhƣ không
làm việc tốt trên một số ngôn ngữ nhƣ Trung Quốc và

Nhật Bản. Zhang đã nghiên cứu các thuật toán để nhận ra
rằng chức năng SIFT và phƣơng pháp RSNSSAC rất
mạnh và hiệu quả để nhận diện chứ Trung Quốc, và sau

đó ứng dụng nó vào thực đon của nhà hàng Trung Quốc
và sáng tạo ra một ứng dụng di động mới dịch hình ảnh
của các mục trong thực đơn nhà hàng ngƣời Trung Quốc
trở thành những hình ảnh món ăn trong thực tế. Kết quả
là thí nghiệm của họ rất đƣợc hƣởng ứng: phƣơng pháp
này có thể thực thi nhanh chóng những kí tự Trung Quốc
và tìm đƣợc món ăn khớp với hình ảnh trong vịng 5 đến 6
giây với độ tin cậy lên tới 91% với hình ảnh rõ và nét.
Nghiên cứu của chúng tôi tập trung vào việc phát triển
các phƣơng pháp khác nhau đẻ tăng độ tin cậy cho thuật
tốn OCR, và sau đó xây dựng một hệ thống dịch thực
đơn tiếng anh tốt và tức thời cho ngƣời khơng nói tiếng
Anh. Chúng tơi xây dựng một cở sở dữ liệu cho một hệ
thống định sẵn những món ăn thƣờng đƣợc thấy trên thế
giới. Hệ thống thì chống nhiễu tốt, kể cả xoay và có nhiều
phông chữ khác nhau. Chúng tôi thực hiện một vài công
nghệ đƣợc học trong lớp, bao gồm ngƣỡng giãn nở, ăn
mòn, phân khúc và kết hợp,… Tiếp cận kỹ thuật đƣờng
ống (pipeline) đƣợc mô tả trong phần 3. Chúng tôi quan
tâm đến hiệu ứng của những công nghệ xử lý khác nhau.
Nhƣ là, chúng tôi thực hiện việc so sánh những kết quả
đƣợc mô tả trong phần 4. Trong phần 5, chúng ta thảo
luận một phân khúc và toàn bộ việc thực hiện hệ thống
nhận dạng thực đơn của chúng tôi nằm trong khả năng cho
kết quả khả quan với những thông số hệ thông, Trong
chƣơng 6, chúng tô so sánh hệ thống của chúng tôi với

nhũng phần khác trong những phần liên quan và thảo luận
về ƣu và nhƣợc điểm của hệ thống. Trong chƣơng 7 chúng


tơi đúc kết đƣợc những kinh nghiệm có giá trị với dự án
này và nhận thấy một viễn cảnh đến công việc trong tƣơng
lại.

III.

PHƢƠNG PHÁP TIẾP CẬN VỀ MẶT KỸ
THUẬT:

Ứng dụng đƣờng ống có 6 thủ tục chính: nhận vào
hình ảnh của menu, thực hiện tiền xử lý hình ảnh nhận vào
và quá trình này bao gồm hai phần: với xoay và phân khúc
chuỗi, thực hiện nhận dạng ký tự quang học (OCR) trên
nội dung của menu, khớp chuỗi với cơ sở dữ liệu, và cuối
cùng là hiển thị kết quả.
A. Hình ảnh ngõ vào
Giai đoạn nhận dữ liệu vào khá đơn giản: ngƣời dùng
chụp một bức ảnh của menu bằng máy ảnh, sau đó chúng
ta đƣa ra một giao diện để ngƣời dùng có thể tùy chỉnh
vùng hình ảnh mà ngƣời dùng quan tâm (ROI) để tìm ra
hình ảnh của món ăn trên menu.

Những bức ảnh đƣợc chụp tự nhiên có sự đa dạng lớn,
dẫn đến khó khăn trong việc nhận dạng các ký tự. Ví dụ,
các ký tự trong những hình ảnh khác nhau có thể có kích
thƣớc, màu sắc, phơng chữ và góc chụp khác nhau. Có

nhiều hiệu ứng có thể xảy ra nhƣ hiệu ứng mờ hoặc ảnh
đƣợc chụp ngoài khoảng lấy nét của máy ảnh. Đây là một
vấn đề thách thức chúng ta, nhƣng chúng ta sẽ giả sử rằng
ngƣời chụp ảnh có thể kiểm sốt đƣợc chất lƣợng hình ảnh
khi chụp, do đó chúng ta sẽ khơng cần tập trung vào
những nhƣợc điểm nói trên.
B. Khơng có tính năng xoay:
Sau khi ngƣời dùng xác định đƣợc vùng ROI, chúng ta
sẽ tự động tìm góc quay dựa trên cấu trúc vốn có của
menu, hầu hết văn bản đều đƣợc sắp xếp theo chiều
ngang. Để làm đƣợc nhƣ vậy, đầu tiên chúng ta áp dụng
ngƣỡng Otsu tồn bộ và cho giãn nở một hình trịn nhỏ
đƣờng kính 5 pixel. Các chữ sau khi giãn sẽ tạo thành các
thành phần kết nối giữa các đối tƣợng và nhƣ vậy chúng ta
có thể dễ dàng xác định đƣợc các thành phần đƣợc kết nối
và tìm ra khu vực hình chữ nhật nhỏ nhất chứa các thành
phần đƣợc kết nối đó. Với những vùng bao chứa các thành
phần kết nối với nhau này, chúng ta sẽ tính tỷ lệ giữa
chiều rộng và chiều cao của các vùng bao này tại mỗi 100
bắt đầu từ -900 đến 900, với sự tinh chỉnh mỗi 10 để xác
định góc quay. Từ các thiết lập này của phép quay, chúng


ta sẽ tự động tìm ra tỷ lệ lớn nhất, và điều đó cũng chỉ ra
vùng bao lớn nhất tại góc quay đó. Chúng ta sẽ giới hạn
góc quay từ -900 đến 900, theo nhƣ chúng ta đã giả sử rằng
ngƣời dùng sẽ sử dụng đƣờng ống phát hiện menu trong
khoảng này.
C. Phân khúc tên món ăn
Để tạo điều kiện và cải thiện độ chính xác từ thiết bị

trong việc nhận diện từ theo sau, chúng tôi tái tổ chức lại
hình ảnh bởi phạm vi nhận diện cho mỗi tên món ăn trong
ROI và phân khúc ra tên món ăn và thơng qua thiết bị
OCR.
Đáp ứng cho mục đích của chúng tơi, chúng tơi đã giữ
tồn bộ tên món ăn ở trong một phạm vi đƣờng bao, nhƣ
vậy sau đƣờng ống OCP có thể sử dụng thơng tin nhƣ vậy.
Để làm nhƣ vậy, chúng tôi đã tạo thành phần kết nối bởi
những món ăn đƣợc kéo dãn với một cấu trúc đƣờng kẻ
ngang trên ảnh đƣợc mã hóa nhị phân Otsu. Với cấu trúc
nhƣ vậy, tất cả những đoạn chữ trong một đƣờng kẻ sẽ
thành một thành phần kết nối đơn và vì vậy thành một
đƣờng bao.
Để cho phép những biến đổi nhỏ trong đoạn văn và
nhiễu, chúng tôi đã xác nhận ngƣỡng trên đƣờng bao bên
ngoài hệ số tỷ lệ và khu vực và kết hợp gần những đƣờng
bao với nhau để tạo thành một đƣờng bao. Ngƣỡng này và

cơng nghệ hợp nhất thì giống nhƣ là sự bổ sung cơ bản
của việc nhận thấy Canny Edge, nơi không thể nén cực đại
và canh liên kết thì đƣợc ứng dụng để giảm nhiễu.
D. Nhận diện kí tự quang học
Sau khi chúng tôi nhận phân khúc văn bản của tên món
ăn vào một đƣờng bao, chúng tơi chọn việc thực hiện
MATLAB thuật toán Tesseract, một nguồn mở của thiết bị
OCR ban đầu phát triển là phịng thí nghiệm HP và đƣợc
quản lý bởi Google, trong dự án của chúng tôi để thực
hiện nhận diện ký tự. Nguồn gốc cơ bản của Tesseract
OCR là nhƣ sau: Đầu tiên, ký tự bên ngồi thì đƣợc trích
và đƣợc tập hợp lại cùng nhau thơng qua Blobs bởi việc

thực hiện kết nối phân tích thành phần. Sau đƣờng văn
bản, đƣờng đƣợc thực hiện bởi Bobs, là tách ra thành
những từ riêng rẽ phụ thuộc vào khoảng cách giữa mỗi ký
tự. Giai đoạn sau đó là nhận biết thông qua nhận diện ký
tự, việc này đƣợc thực hiện thông qua 2 giai đoạn. Trong
mỗi từ đầu tiên là nhân biết theo hƣớng. Một lần là một từ
đƣợc nhận biết, điều đó có thể đƣợc chứa vào một loại
tƣơng thích và đƣợc sử dụng nhƣ là một dữ liệu đào tạo.
Trong giai đoạn 2 từ không đƣợc nhận diện thành cơng thì
đƣợc nhận diện lại bởi dữ liệu đào tạo đƣợc lấy từ phần
đầu tiên. Cuối cùng, một chuỗi từ sẽ đƣợc xuất ra.
E. Tên món ăn phù hợp với cơ sở dữ liệu


Tên món ăn phù hợp đƣợc trả về sau khi OCR trả về
kết quả dạng chuỗi. ở giai đoạn này, chúng ta có thể mong
đợi một số lỗi chính tả đến từ các kết quả OCR, và chúng
ta phải sửa chữa chúng để tìm đƣợc cái tên phù hợp với cơ
sở dữ liệu hình ảnh của chúng ta. Ở đây, chúng tơi sử
dụng các thuật tốn tìm kiếm chỉnh sữa khoảng cách tối
thiểu. Với số một lƣợng kí tự khơng phù hợp chấp nhận
đƣợc, hệ thống của chúng tơi có thể sữa chữa kết quả từ
máy OCR, thứ mà làm tăng tỉ lệ thành cơng chung của tra
cứu hình ảnh. Nhƣng mức độ phức tạp lại cao đối với việc
tim kiếm chỉnh sữa khoảng cách tối thiểu mới là vấn đề
chính mà chúng ta phải đối phó với nó. Các phân tích liên
quan và sự cải thiện sẽ đƣợc trình bày trong phần IV.
F. Hiển thị kết quả cuối cùng
Sau khi có đƣợc hình ảnh trong cơ sở dữ liệu, chúng
tơi thay đổi kích thƣớc hình ảnh món ăn theo vị trí của

bounding box cùng chiều rộng/chiều cao của nó. Và dán
chúng vào vị trí quan sát trên thực đơn ảnh ROI. Đối với
những chuỗi OCR không phù hợp với bất kì tên món ăn
nào, sẽ khơng có hình ảnh nào đƣợc dán. Điều này có thể
làm giảm cơ hội hiển thị hình ảnh khơng hợp lí do lỗi
OCR khơng thể đoán trƣớc đƣợc dữ liệu đầu vào của thực
đơn.
IV. TỔNG KẾT:

Trong phần này, chúng tơi sẽ trình bày kết quả thực
nghiệm của chúng tôi về hệ thống đƣờng dẫn và thảo luận
về những điểm mạnh và cải tiến có thể để cải thiện hiệu
suất.
A. kết quả của toàn bộ đường dẫn

Ảnh trên cho chúng ta thấy kết quả từng bƣớc trong
đƣờg dẫn của chúng tôi, từng bƣớc điều chỉnh các yếu tố
đầu vào của công nghệ OCR và sửa các lỗi từ kết quả
OCR để hiển thị các hình ảnh cuối cùng bên cạnh tên món
ăn
B. Nếu khơng có xoay điều chỉnh và có xoay điều chỉnh
Chúng tơi so sánh kết quả giữa việc OCR theo phân
đoạn ở trên với góc quay ban đầu mà khơng có sự điều
chỉnh xoay đƣợc đề xuất


Chúng tơi so sánh kết quả giữa đi qua hình ảnh đầy đủ
đến OCR và hình ảnh đƣợc phân tách vào OCR và xem
kết quả chính xác.


Từ hình trên , chúng ta thấy rằng hệ thống sẽ nhanh
hơn khi điều chỉnh góc xoay so với khơng điều chỉnh góc
xoay. Lúc đầu , chúng tơi dự kiến độ chính xác nên góc
xoay nằm trong khoảng +/- 20 độ với một độ giảm ổn định
chính xác và một độ tăng chính xác . Tuy nhiên , đây
không phải là một trƣờng hợp duy nhất mà lý do chính là
do sự sụt giảm độ phân giải của hình ảnh khi chúng tơi
tiến hành chỉnh góc xoay . Ở góc độ nào đó , góc xoay là
một hoạt động ngẫu nhiên nên do đó cơng nghệ OCR tiếp
theo sẽ khơng chính xác nhƣ đã nói .
C. Đi qua hình ảnh đầy đủ và hình ảnh được phân tách
OCR

Từ hình ảnh trên , ta thấy việc đi qua hình ảnh phân
tách tốt hơn so với hình ảnh đầy đủ ngoại trừ với phần cà
phê . Việc giảm độ chính xác đối với thực đơn là cà phê
có thể đƣợc điều chỉnh ở thiết lập OCR trên Matlab , đƣợc
tìm thấy ở đầu trang khi tìm google : “ thuật tốn
Tesseract” . Khi chƣơng trình chạy thuật tốn Tesseract
thì hình ảnh sẽ đƣợc truy vấn 2 lần , lần đầu để chƣơng
trình phân loại và ghi nhớ hình ảnh và lần thứ 2 sẽ truy
vấn hình ảnh đó từ cơ sở dữ liệu ban đầu và thơng tin hình
ảnh từ tất cả các từ đƣợc tìm thấy trong vòng chạy đầu


tiên bằng cách phân chia tên của các món ăn , chúng ta đã
mất lợi ích nhƣ thế khi sử dụng cơ cấu phân loại khác .
Tuy nhiên , chúng tôi đã chỉ ra rằng trong những trƣờng
hợp khác , việc bỏ qua chạy chƣơng trình lần đầu của
phân loại có thể tăng độ chính xác của OCR

D. Thực hiện OCR sử dụng kĩ thuật khoảng cách tối
thiểu
Sau khi sử dụng OCR cho một số hộp hình ảnh , kết
quả ghi nhận chứa một số lỗi do hình ảnh bị mờ , nhiễu ,
ƣớc tính sai … Để tối đa hóa tỉ lệ thành cơng phù hợp với
cơ sở dữ liệu hình ảnh chúng tơi thực hiện OCR sử dụng
kĩ thuật khoảng cách tối thiểu.

Để sửa lỗi , chúng tôi tìm những món ăn phù hợp nhất
để đặt tên và sắp xếp dự trên khoảng cách Levenshtein
cho tên mỗi món ăn xác định bởi OCR . chúng tôi thực
hiện phép tốn với các thơng số chỉnh sửa tối đa khoảng
cách, hay gọi là khoảng cách cắt. Nhƣ thể hiện ở trong
hình trên , tỷ lệ thành cơng của một lần chạy chƣơng trình
chính xác thấp hơn 50% . Nhƣng với việc chỉnh sửa
khoảng cách tỷ lệ thành công tăng lên 80% và cuối cùng
bão hòa là 90% .
E. Thời gian thực hiện
Từ những con số dƣới đây, chúng ta có thể thấy tổng
thời gian thực hiện của hệ thống một cách tổng thể. Phân
đoạn tốn thời gian nhất trong hệ thống là chỉnh OCR.
Phần cịn lại của q trình chỉ chiếm ít hơn 15% tổng thời
gian thực hiện. Để nâng cao hơn nữa hiệu suất thời gian
cho thời gian thực hiện mục đích , chúng tơi đã đƣa ra một
số phƣơng pháp nâng cao để tiết kiệm thời gian thực hiện
của việc chỉnh OCR.
Phƣơng pháp đầu tiên là để sửa đổi các thay đổi
khoảng cách nhỏ chức năng, hơn là tạo ra đệ quy để so
sánh của mỗi nkí tự, chúng ta lặp qua những so sánh kí tự
cho đến khi gặp trƣờng hợp khơng phù hợp, sau đó chia

thành 3 tiến trình đệ quy (xóa,chèn, thay thế). Điều này
làm giảm sự phức tạp đáng kể nhƣ tiết kiệm đƣợc phóng
đại bởi độ dài của danh sách tên món ăn trong cơ sở dữ
liệu, số lƣợng các chuỗi công nhận từ OCR, và thậm chí
độ dài trung bình của các tên món ăn.


Khái niệm cải tiến thứ 2 đến từ hệ thống lƣợt xem .
Một khi chúng ta tìm thấy một tên trên danh sách tên món
ăn là hồn tồn phù hợp với các chuỗi phù hợp từ OCR,
sau đó chúng ta có thể dừng lại đi qua phần cịn lại của
danh sách tên món ăn. Nhìn chung, chiến lƣợc này khơng
thể hƣởng lợi nhiều nhất trong các trƣờng hợp đặc biệt,
nhƣng nó giúp rất nhiều các trƣờng hợp thơng thƣờng và
làm cho tổng thời gian thực hiện ngắn.

V.
ĐÁNH GIÁ THÔNG SỐ CỦA HỆ THỐNG:
Trong phần này, chúng ta sẽ cùng thảo luận về tác
động cục bộ và toàn cục của một số thông số của hệ thống
lên hệ thống nhận dạng menu. Cụ thể, chúng ta sẽ cùng
thảo luận về tác động của việc lựa chọn các kích thƣớc

khác nhau của các cấu trúc thành phần trong quá trình
xoay điều chỉnh và ở phân khúc tên món ăn.
A. Thay đổi kích thước khi xoay điều chỉnh
Đối với việc xoay điều chỉnh, đầu tiên ta thực hiện
giãn nỡ hình ảnh để kết nối các kí tự lại với nhau theo
dạng kí tự trong khi vẫn giữ đƣợc đƣờng viền chung của
các kí tự. Trong q trình xử lí, chúng ta muốn tìm kiếm

góc xoay lớn nhất, có nghĩa là tỉ lệ trênđƣờng bao của hộp
trên mỗi phần tử kết nối. Nhƣ những thành phần kết nối là
văn bản tiếng anh đƣợc liên kết theo chiều ngang. Do đó,
ta sẽ sử dụng một disk có đƣờng kính 5 pixels để thực
hiến nhiệm vụ đó. Để kiểm tra độ nhạy kích thƣớc của các
cấu trúc thành phần, chúng ta cần vƣợt qua đƣợc góc xoay
100 và phân tích những ảnh hƣởng khác nhau của kích
thƣớc các cấu trúc thành phần.


Ở hình phía trên, chúng ta có thêt thấy khơng có bất kì
sự giãn nở nào, góc xoay nhận dạng có lẽ là khơng đáng
kể từ góc xoay thực tế, đó là bởi vì hiện tại có rất nhiều kí
tự đƣợc xem nhƣ một thành phần đƣợc kết nối; do đó, giả
sử rằng đó là tỉ lệ lớn nhất khi xoay hình ảnh quay trở lại
hóc quay thực tế là khơng có nhiều giá trị.
Chúng ta cũng có thể nhìn thấy rằng khi đƣờng kính
của cấu trúc thiệt bị là quá lớn ( trong trƣờng hợp này là
25 pixels) thì góc xoay nhận diện là khơng chính xác. Đó
là bởi vì tất cả các từ trong menu và đƣờng biên của menu
đƣợc nhóm lại thành một thành phần kết nối duy nhất và
do đó tỉ lệ này khơng thêt đại diện cho một bounding box
xung quanh một từ tiếng anh đơn lẻ, và do đó giả sử của
chúng ta cũng không thành công trong trƣờng hợp này.
B. Thay đổi đường kính cấu trúc cho phân khúc tên
Giống nhƣ xoay điều chỉnh, phân khúc tên món ăn
cũng phụ thuốc rất nhiều vào kích thƣớc của cấu trúc các
thành phần. Trong trƣờng hợp này, chúng ta chọn các
thành phần có cấu trúc hàng ngang để nhóm tất cả các từ ở
tên món ăn đến một thành phần kết nối duy nhất. Chungs

tôi đã thử nghiệm trên những dịng có độ rộng khác nhau
và thu đƣợc kết quả nhƣ hình bên dƣới:

Ở hình trên, chúng ta thấy rằng chúng chỉ có thể đạt
đƣợc 100% độ chính xác khi nhận diện chính xác
bounding box xung quanh tên của món ăn cho những
thành phần cấu trúc có độ dài nằm giữa 31 và 51 pixels. Lí
do chính dẫn đến độ chính xác thấp ở những thành phần
có chiều dài thấp hơn là vì vƣợt q phân khúc tƣơng ứng,
những kí tự đặc biệt từ món ăn duy nhất là không giống
nhƣ bounding box. Mặt khác, khi hàng của cấu trúc thành
phần là quá dài, sau đó thì các đối tƣợng sẽ giãn ra làm
che mất đƣờng biên, làm cho đƣờng biên và một văn bản
giản ra đƣợc kết nối với các thành phần khác, kết quả là
bouding box khơng cịn chính xác nữa.
VI.

SO SÁNH VỚI PHƢƠNG PHÁP THAY THẾ:


Nó có thể đƣợc nhìn thấy từ các kết quả của thí
nghiệm mà những project pipelined của chúng tơi có thể là
một lợi thế so với những cách triển khai khác. Quan trọng
nhất là nó cho thấy tính khả thi của mình, với khả năng
chống lại nhiễu, xoay, fonts chữ khác nhau hay nhiều tác
động khác. Bằng cách áp dụng Tesseract OCR và thực
hiện một vài kĩ thuật xử lí trƣớc và sau q trình xử lí, bao
gồm hành động xoay bình thƣờng, các phân khúc văn bản
và chỉnh sửa tối thiểu khoảng cách văn bản một cách
chính xác. OCR là một cách nhận diện một cách chính xác

kí tự nhanh hơn những phƣơng pháp nhƣ SIFT bởi vì kí tự
có rất nhiều đặc tính. Chúng tơi phát triển các đặc tính
xoay thơng thƣờng và các phân khúc văn bản và sử dụng
chúng trƣớc khi nhận dạng kí tự trong project của mình.
Project của chúng tơi đã chứng minh đƣợc rằng có thể cải
thiện tính năng nhận diện tồn cục một cách hiệu quả.
Hơn nữa, cách nhận diện truyền thống thiếu sự linh hoạt
trong việc kết hợp cac kí tự riêng lẻ. Chúng tôi thực hiện
việc này bằng cách sử dụng thuật toán để chỉnh sửa
khoảng cách tối thiểu để thực hiện điều chỉnh. Sauk hi
thiết lập dung sai tối đa các chỉnh sửa với khoảng cách là
9, tỷ lệ có thể đạt đƣợc trên 90%. ROI khơng chỉ cho phép
ngƣời dùng lựa chọn các món ăn mà họ đang quan tâm,
sau đó ngƣời dùng sẽ nhận đƣợc bản dịch tƣơng ứng với
nội dung mà họ mong muốn thay vì bản dịch của tồn bộ
menu, mà theo đó làm tăng trải nghiệm ngƣời dùng,

nhƣng cũng làm giảm khơng gian tìm kiếm và nhiễu, do
đó dẫn đến kết quả tốt hơn.
Tuy nhiên, nó vẫn có một số khía cạnh cần phải
đƣợc cải thiện. Một thách thức lớn nhất là làm thế nào để
giảm bớt thời gian chạy. Chúng ta biết từ kết quả cho thấy
phần lớn thời gian tiêu thụ ở phần OCR là chính xác.
Chúng ta cần phải nhanh hơn trong việc kết hợp tên món
ăn với hình ảnh tƣơng ứng trong cơ sở dữ liệu để đáp ứng
thời gian thực yêu cầu thực hiện. Điều này đặc biệt đúng
khi hệ thống phát triển và có một cơ sở dữ liệu khổng lồ.
Một vấn đề khác là làm thế nào để tăng độ chính xác. Kết
quả của việc xoay điều chỉnh và tên phân đoạn có liên
quan đến yếu tố kích thƣớc của thành phần cấu trúc đƣợc

sử dụng trong q trình giãn nở đến một mức độ nào đó.
Cả hai yếu tố cấu trúc quá nhỏ và quá lớn sẽ dẫn đến việc
nhận dạng nhầm lẫn. Tuy nhiên, chúng tơi khơng có ý
tƣởng một cách rõ ràng để cho kết quả tốt nhất trong
trƣờng hợp liên quan đến kích thƣớc của trƣờng kí tự.
Trong phần tiếp theo, chúng ta sẽ thảo luận về khả năng
cải tiến mà có thể đƣợc thực hiện trong các nghiên cứu để
giảm những yếu kém và nâng cao hiệu suất tổng thể của
hệ thống chúng tơi.

VII.

THẢO LUẬN VÀ CƠNG VIỆC TƢƠNG LAI:


Trong dự án này, chúng tôi đã thành công trong việc
phát triển một hệ thống tự động menu dịch tự động để
giúp đỡ những ngƣời khơng nói tiếng Anh vƣợt qua những
khó khăn của các bữa ăn đặt hàng trong một nhà hàng
nƣớc ngồi. Điều quan trọng là việc tìm hiẻu những
phƣơng pháp khác nhau để làm tăng độ chính xác của
công nghệ OCR và cuối cùng là tăng tỉ lệ nhận dạng đúng.
Hệ thống này thì mạnh mẽ, nhanh chóng, chính xác và
linh hoạt khi cung cấp tốt kinh nghiệm tƣơng tác với
ngƣời dùng. Với khả năng mở rộng, hệ thống có thể đƣợc
tiếp tục mở rộng đêtr tìm ra nhiều ứng dụng trong tình
huống đa ngơn ngữ và cơ sở dữ liệu lớn hơn hoặc thông
tin về các món ăn có thể đƣợc tìm kiếm trực tuyến. Mọi
ngƣời có thể tiếp tục mở rộng ứng dụng để trình chiếu
thông tin trên thiết bị VR.

Hệ thống đƣa ra một vài ý tƣởng bao gồm việc xoay
và chuyển trong phân đoạn ROI cho mỗi tên món ăn cho
động cơ OCR. Nhƣ đã nêu trong phần trƣớc kết quả của
hai kĩ thuật này phụ thuộc nhiều vào yếu tố cấu trúc kích
thƣớc đƣợc sử dụng trong q trình. Do đó chúng tôi nghĩ
rằng nên khắc phục những vấn đề này là tạo ra một tháp
các kết quả dựa trên kích thƣớc khác nhau trong cấu trúc.
Với tháp này chúng ta có thể chọn đƣợc một quy mô sản
lƣợng tối đa với độ chính xác cao nhất cho tên món ăn.
Điều này chắc chăn sẽ làm cho hệ thống của chúng tôi
mạnh mẽ hơn mà còn bổ sung thêm đáng kể chi phí thời
gian chạy.
Một cải tiến khác có thể có là chúng ta có thể nhóm
và phân loại tên món ăn trong cơ sỏ dữ liệu nó có thể kết

hợp kĩ thuật tìm kiếm dữ liệu nhanh nhanh hơn nhƣ bảng
hoặc tìm kiếm nhi phân.
VIII. NHÌN NHẬN:
Chúng tơi xin cảm ơn Giáo sƣ Gordon Wetzstein ,
Jean - Baptiste Boin , Matt Yu , và trợ lý nhiên Kushagr
Gupta cho hƣớng dẫn liên tục và chăm sóc trong suốt quý
và trong suốt dự án cuối cùng
Tài Liệu Tham Khảo:
[1].Y. Amit; D. Geman, and K. Wilder. Joint induct
ion of shape features and tree
classifiers. IEEE Trans. Pattern Analysis and Mach
ine Intelligence , 1997.
[2].S. Belongie and J. Malik. Matching with shape
contexts. In IEEE Workshop on Content-based Ac
cess of Image and Video Libraries , 2000.

[3].S Belongie, J Malik, J Puzicha. Shape context:
A new descriptor for shape matching and object re
cognition. Annual Conference on Neural Informati
on Processing Systems , 2000.
[4].H Fujisawa, C.-L. Liu. Directional Pattern Matc
hing for Character Recognition
Revisited. IEEE conference. Document Analysis a
nd Recognition , 2003.



×