Tải bản đầy đủ (.pdf) (5 trang)

Trích nội dung văn bản từ hình ảnh với dịch vụ miễn phí docx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (403.59 KB, 5 trang )

Trích nội dung văn bản từ hình ảnh với dịch vụ
miễn phí

Đôi khi bạn nhận được một file ảnh có chứa đoạn nội dung văn bản cần sử dụng.
Cách thức thường dùng nhất đó là… gõ lại đoạn nội dung cần trích xuất. Việc này
mất khá nhiều thời gian và công sức. Trong trường hợp này, hãy thử nhờ đến
Free OCR.


Chắc hẳn không ít lần bạn tìm thấy hoặc nhận được những file ảnh chụp lại nội dung
của một trang web hoặc file ảnh scan từ một quyển sách… có chứa những nội dung
quan trọng hoặc cần thiết cần sử dụng.
Có rất nhiều phần mềm khác nhau có chức năng cho phép trích xuất nội dung văn bản
chứa trong hình ảnh. Tuy nhiên, các phần mềm có chức năng trên mà hỗ trợ tiếng Việt
không phải là nhiều, thậm chí có thể nói là rất hiếm.
Free OCR
là dịch vụ trực tuyến hoàn toàn miễn phí, cho phép nhận dạng và trích xuất đoạn văn
bản có chứa trong một hình ảnh bất kỳ, để sau đó bạn có thể dễ dàng sử dụng hoặc
chỉnh sửa nội dung của đoạn văn bản vừa trích xuất được.
Free OCR hỗ trợ các định dạng ảnh thông dụng JPG, GIF, TIFF, BMP. Mỗi file có dung
lượng tối đa 2MB, và hỗ trợ nhiều ngôn ngữ, trong đó có cả tiếng Việt.
Hạn chế duy nhất của dịch vụ này đó là bạn chỉ được phép sử dụng dịch vụ 10 lần
trong 1 tiếng.
Đặc biệt, ngoài định dạng hình ảnh, Free OCR còn hỗ trợ trích xuất nội dung từ file
PDF, điều này đồng nghĩa với với bạn có thể chuyển đổi và trích xuất nội dung từ file
PDF để sử dụng và chỉnh sửa.
Bạn truy cập vào địa chỉ để sử dụng dịch vụ này.
Sau khi truy cập vào trang web, tại mục ‘Upload image for OCR’ nhấn nút Browser, tìm
đến file ảnh (hoặc file PDF) cần trích xuất nội dung. Tại mục Language, bạn chọn ngôn
ngữ của đoạn nội dung cần trích xuất từ hình ảnh (hoặc file PDF).
Trong trường hợp đó là tiếng Việt, bạn chọn Vietnamese.


Điền đoạn mã xác nhận bên dưới, và nhấn nút Send File để bắt đầu upload hình ảnh và
dịch vụ bắt đầu quá trình nhận dạng và trích xuất đoạn văn bản có bên trong.


Sau khi quá trình trích xuất nội dung kết thúc, kết quả sẽ được hiển thị ở phần trên của
Website.
Ví dụ, chúng ta tiến hành trích xuất nội dung từ hình ảnh dưới đây:

Sẽ được kết quả như dưới đây


Mặc dù kết quả không thực sự hoàn hảo, tuy nhiên, với một dịch vụ miễn phí, kèm với
đó là sự phức tạp của các ký tự tiếng Việt, thì việc trích xuất nội dung như Free OCR
làm được có thể xem là chấp nhận được, với số lỗi mắc phải không quá nhiều.
Ngược lại, trong trường hợp trích xuất nội dung từ file PDF, Free OCR làm rất tốt công
việc, với số lỗi gặp phải rất ít, đôi khi là không có.


Kết quả trích xuất nội dung từ file PDF.
Lưu ý: Với file PDF, dịch vụ chỉ cho phép trích xuất nội dung của trang đầu tiên có trong
file. Do vậy, nếu file PDF có nhiều trang, bạn có thể sử dụng PDF Tools để cắt file ra
làm nhiều trang, rồi lần lượt sử dụng Free OCR cho từng trang để trích xuất nội dung.
Trong trường hợp hình ảnh chứa nội dung tiếng Anh, kết quả trích xuất nội dung rất
hoàn hảo và hầu như không có một lỗi nào gặp phải.
Sau khi nội dung đã trích xuất được, bạn có thể copy và dán đoạn nội dung có được
vào một trình soạn thảo văn bản, để lưu chúng thành file văn bản, hoặc chỉnh sửa và
trích xuất nội dung có trong đó theo ý muốn.
Lưu ý: Như trên đã đề cập, Free OCR chỉ cho phép sử dụng 10 lần trong mỗi giờ. Trong
trường hợp đã hết số lần sử dụng, bạn có thể chuyển qua một trình duyệt web khác,
truy cập vào Free OCR để tiếp tục sử dụng như bình thường.


×