Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.35 MB, 27 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
PHÂN TÍCH DỮ LIỆU LỚN VÀ ỨNG DỤNG
<small>Chuyén nganh: Khoa hoc may tinh</small>
HÀ NỘI - 2015
</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2"><small>Luận văn được hoàn thành tại:</small>
Người hướng dẫn khoa học: TS. Hoàng Lê Minh
<small>Phản biện 1: TS. Lê Đức Hậu</small>
<small>Phản biện 2: TS. Đào Đình Khả</small>
<small>Học viện Cơng nghệ Bưu chính Viễn thơng</small>
<small>Vào lúc: 10 giờ 30 phút ngày 20 tháng 9 năm 2015</small>
<small>Có thê tìm hiệu luận văn tại:</small>
- Thư viện của Học viện Cơng nghệ Bưu chính Viễn thông
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">lượng kiến thức của nhân loại hiện nay cứ tăng gấp đôi sau 18 tháng. Đồng
lưu trữ những tài liệu này cũng sẽ gặp khó khăn với lượng tài nguyên đồ sộ và luôn phát triển như vậy.
Ngày nay với sự phát triển mạnh mẽ của cơng nghệ thơng tin, các cơng
nhận dạng mới thơng minh và chính xác hơn.. Tuy nhiên với gia tăng với tốc
thác hiện tại cịn gặp nhiều khó khăn do chưa có một phương pháp lưu trữ, xử
Đề tài “Nghiên cứu trích xuất thơng tin, phân tích dữ liệu lớn và ứng dụng tìm kiếm trong kho dữ liệu ảnh văn bản” nhằm nghiên cứu các cơng
dé tìm kiếm, khai pha thơng tin trong kho dữ liệu anh văn ban được dé dang và
<small>Chương 2: Xử lý dữ liệu ảnh văn bản và áp dụng công nghệ dữ liệu lớn</small>
<small>Chương 3: Ung dụng tìm kiếm thơng tin trong kho đữ liệu ảnh văn bản.</small>
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">1.1.1 Giới thiệu về ảnh văn bản
Hình ảnh của một tài liệu giấy, sách báo có thể do đánh máy, viêt tay
trữ gần như vô hạn không tốn không gian và hư hỏng như trên các vật liệu khác. Việc lấy tài liệu cũng nhanh chóng và dễ dàng, thay vì phải đến phịng
số cũng rat dé dàng qua thư điện tử.
Nếu tài liệu đó cần được phơ biến và cơng khai, thay vì phải in ra nhiều ban dé dán ở nhiều nơi hay gửi tới nhiều cơ quan, cá nhân thì với anh văn bản,
người cần thông tin chỉ cần truy cập đến trang web quản lý của tài liệu đó, việc đưa ảnh lên mang Internet rất phổ biến.
Với nhiều lợi ích so với văn bản trên giấy tờ thông thường như khả năng lây tài liệu nhanh hơn, giảm không gian lưu trữ, cách truy cập, chia sẻ và lưu giữ tốt hơn đã đề cập đến ở trên ảnh văn bản sẽ là lựa chọn để thay thế tài liệu trên giấy tờ. Nhưng với một khối lượng dit liệu ảnh văn bản dé thay thế một
<small>thư viện hay một trung tâm lưu trữ thì việc quản lý và khai thác ảnh văn bản</small>
vẫn còn nhiều hạn chế. Như việc tìm kiếm một tài liệu hay một cuốn sách dạng
chi tiết hơn như một đoạn nội dung hay một hình vẽ có nội dung, chú thích trong một tập ảnh văn bản thì tương đối phức tạp. Với những phương pháp
đọc văn bản hoặc các phần mềm tìm kiếm. Việc này tương đối rườm rà và mat nhiều thời gian do quá trình nhận dạng với một khối lượng lớn dữ liệu ảnh, chưa kể việc thiếu tính trung thực khi chuyên đổi anh văn bản thành dang văn bản có cấu trúc do các phần mềm nhận dạng hiện nay vẫn còn nhiều sai số. Như việc chuyên đổi hình ảnh một biểu đồ hay một chữ ký tay có trên ảnh văn
1.2.1 Big data và nền tảng Hadoop
Big Data là thuật ngữ dùng dé chỉ một tập hợp dữ liệu rat lớn va rất phức tạp đến nỗi những công cu, ứng dụng xử lí dữ liệu truyền thống khơng thé nào đảm đương được. Kích cỡ của Big Data đang từng ngày tăng lên, và tính đến năm 2012 thì nó có thể nằm trong khoảng vài chục terabyte cho đến nhiều
<small>petabyte (1 petabyte = 1024 terabyte) chỉ trong một tập hợp dữ liệu [13].</small>
Hadoop là một nền tảng nguồn mở, được Dough Cutting tạo ra khi ông nghiên cứu về Nutch - một ứng dụng tìm kiếm. Hadoop được viết bằng Java, dùng hỗ trợ xây dựng, thực thi các ứng dụng tính tốn phân tán theo mơ hình MapReduce. Hadoop cluster là hệ thống máy tính đã được triển khai nền tang
Có hai thành phần chính của nền tảng Hadoop. kho lưu trữ tệp gọi là Hadoop Distributed File System (HDES — Hệ thống tệp phân tán Hadoop) và
<small>khung lập trình gọi là MapReduce.a) MapReduce layer</small>
Trong Hadoop, mỗi quá trình xử lý MapReduce được gọi là một job.
bộ hệ thống gồm việc tao và quản ly job, phân bố dữ liệu và phân công công
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">việc cho các TaskTracker, xử lý lỗi, v.v..Tại mỗi máy slave có một TaskTracker hoạt động để tạo các task xử lý theo yêu cầu của JobTracker.
<small>Ngoài ra, định kỳ mỗi khoảng thời gian, TaskTracker phải gửi tín hiệu</small>
HeartBeat về JobTracker để thơng báo răng nó vẫn đang cịn hoạt động. Điều nay đảm bảo JobTracker lập thời biểu cơng việc chính xác và hiệu quả cho cả hệ thống.
<small>b) HDFS layer</small>
khơng địi hỏi cấu hình đắt tiền. Có rất nhiều đặc điểm giống nhau giữa HDFS và những hệ thống tập tin phân tán khác. Tuy nhiên, HDFS có những đặc điểm nổi bật riêng giúp nó có khả năng hỗ trợ tốt cho các ứng dụng xử lý dữ liệu
<small>1.2.2 Khai thác và ứng dụng Big Data</small>
<small>Với khả năng ứng dụng của công nghệ dir liệu lớn, trong khuôn khô luậnvăn đê áp dụng vào bài tốn tìm kiêm ảnh văn bản. Trước hêt luận văn xem</small>
xét các cơng đoạn chính trong một hệ thống tìm kiếm:
trải qua q trình tiền xử lý, tài liệu thơ được xử lý thành các tải liệu được tách từ, phân đoạn và loại bỏ các yếu tô thông tin không quan trọng. Kết thúc quá trình tiền xử lý, các yếu tố thông tin trong tập tài liệu sẽ được tiến hành lập chỉ mục, tạo tiền đề cho việc tính độ tương đồng [5].
đưa ra một biểu thức tìm kiếm phi cấu trúc bằng ngôn ngữ tự nhiên, mô tả nhu cầu thông tin của mình. Hệ thống tìm kiếm sẽ tiếp nhận và xử lý biểu thức tìm kiếm, biến đổi biểu thức tìm kiếm thành một tài liệu chỉ mục, tiếp theo hệ
có liên quan đến biểu thức tìm kiếm, kèm theo chỉ số thể hiện mức độ liên quan, sắp xếp danh sách này theo chiều giảm dần của mức độ liên quan, ta được kết quả tìm kiếm [5].
ảnh khác nhau. Mục tiêu của hệ thống tìm kiếm ảnh là tìm ra ảnh đúng với nhu
<small>câu của người dùng.</small>
sở truy van và phương pháp phân đoạn ảnh được sử dụng trong hệ thống truy
<small>Tập kết quả</small>
<small>Ảnh truy vẫn</small>
<small>&——————] u cau truy van</small>
<small>Hình 1.1: Rút trính, truy vấn hình ảnh thời gian thực</small>
Mơ hình này đơn giản, dễ cài đặt nhưng đưa vào ứng dụng thực tế sẽ
rút trích các đặc trưng của ảnh truy van mà cịn phải rút trích các đặc trưng của ảnh trong tập ảnh của CSDL ảnh, sau đó tính tốn mức độ tương đồng giữa chúng. Để tăng khắc phục các vấn đề nêu trên của khi tìm kiếm với ảnh văn bản, luận văn đề xuất giải pháp rút trích những đặc trưng của ảnh văn bản. Sau
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8"><small>Trong chương này, các khái niệm, ứng dụng cơ bản dữ liệu lớn ở đây là</small>
sử dụng trong luận văn cũng được trình bày cụ thể. Tại chương này, đề xuất sử
<small>dụng, áp dụng Big Data trong việc lưu trữ và xử lý dữ liệu anh văn bản được</small>
và tô chức kho đữ liệu được trình bày ở chương 2.
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">2.1 Tiền xử lý ảnh văn bản
Dữ liệu ảnh văn bản là dữ liệu dạng file ảnh được chụp, scan hoặc viết ta, dé khai thác thông tin từ anh bắt buộc phải sử dung các phương pháp nhận dạng. Nhưng mục tiêu của luận văn là khai thác trực tiếp ảnh văn bản để có thơng tin
chính xác nhất. Để phục vụ cho tìm kiếm việc phần tiền xử lý giới thiệu các phương pháp nhận dạng và tập chung khai thác phương pháp nhận dạng theo mẫu
2.1.1 Nhận dạng văn bản theo mẫu
<small>a) Các phương pháp nhận dạng ảnh</small>
Có nhiều phương pháp nhận dạng mẫu khác nhau được áp dụng rộng rãi trong các hệ thống nhận dạng kí tự. Các phương pháp này có thê được tích hợp trong các hướng tiếp cận sau: Đối sánh mẫu, thống kê, cấu trúc, mạng nơ ron va
<small>SVM .</small>
- May vecto hỗ tro (SVM)
- Phuong pháp tiếp cận cấu trúc
<small>- Phương pháp ngữ pháp (Grammatical Methods</small>
- Phương pháp đồ thị (Graphical Methods
- Mơ hình Markov ân (Hidden Markov Model - Phương pháp đối sánh mẫu
dựng sẵn (tiếng Việt, tiếng Anh, ký tự toán học, ...) có khả năng mở rộng chỉnh
<small>c) Nhận dạng ảnh văn bản theo mẫu</small>
<small>Việc nhận dạng ảnh của một văn bản hiện nay thường được xử lý và nhậndạng với các ky tự quang học độc lập (OCR - Optical Character Recognition), sau</small>
nhận biết các từ bỏ qua giai đoạn nhận dạng ký tự bằng cách sử dụng những bộ từ điển mẫu từ dé so sánh sự tương đồng. Phương pháp nay cũng giảm được độ nhiễu của hình ảnh và tăng tốc độ xử lý so với phương pháp nhận dạng ký tự riêng lẻ do số từ trung bình nhỏ hơn nhiều số ký tự trên một ảnh văn bản. Nhưng về mặt chính xác kém hơn so với phương pháp nhận dạng ký tự quang học độc
Từ việc thống kê ngôn ngữ sự lặp lại của những từ thông dụng trên một trang (báo, tài liệu) xảy ra thường xuyên. Việc sử dụng mẫu của những thừ phổ
Theo thống kê như, trung bình trong một tài liệu tiếng Anh có sự xuất hiện tới 7% từ “THE” , 3% từ “OF”.Và với hai mươi từ thơng dụng ở ví dụ trên chiếm tới 29% của mẫu trong tài liệu tiếng Anh. Điều đó cũng có nghĩa một phần ba số từ trong ảnh văn bản có thê được nhận dạng chỉ với hai mươi từ thông dụng [11].
Đề dễ dàng cho việc đánh chỉ mục và tăng cao hiệu năng của việc tìm kiếm
<small>trong ảnh văn bản, luận văn đề xuât việc sử dụng phương pháp nhận dạng theo từ</small>
<small>cho việc nhận dạng và trích xuât ảnh văn bản.</small>
Đề nhận dạng từ trên ảnh văn bản cần sử dụng kỹ thuật phân đoạn, kỹ thuật này giả định trên ảnh văn bản chỉ có hai màu trăng và đen (ký tự là màu trắng và
nhỏ hơn một một số k (khoảng cách trung bình giữa hai từ) thì tất các các điểm ảnh giữa hai điểm ảnh đó là màu trắng [11]. Bằng phương pháp này khi thực hiện theo phương đọc và phương ngang có thê tạo được một vùng bao ngồi tối thiểu là một hình chữ nhật trắng quanh từ:.
Theo [11] Các cơ sở để nhận dạng mẫu chữ:
- Đầu tiên xác định hình ảnh của từ được đưa vào so sánh bằng cách căn lề theo phương ngang và thang dứng dựa vào đường cơ sở. Đường co sở được tinh
dụ trong Hình 2.5 thé hiện kết quả khi XOR hai ảnh “nationl”. Kết quả của phép
năng nhận dạng càng tối ưu. Khơng chỉ các định dạng là ảnh của các mẫu chữ được đánh máy mà còn các văn bản được viết tay, các ngôn ngữ phức tạp như tiếng Trung Quốc, tiếng A Rap...
2.1.2 Lập chỉ mục từ trong văn ảnh văn bản sử dụng mẫu từ tương dong
Đề áp dụng vào bài tốn tìm kiếm phương pháp nhận dạng theo mẫu, việc
<small>ngày tháng lập,.. mà còn trên những chữ sau quá trình phân đoạn và nhận dạng</small>
theo phương pháp nhận dạng theo mẫu.
- Các văn bản in được quét, chụp thành các file ảnh được lưu trong ơ cứng.
<small>- Sau đó các file này được nhị phân hóa theo ngưỡng của hình ảnh (thành</small>
các hình ảnh tối giản chỉ có trắng và đen).
mẫu phù hợp.
trong tất cả các tài liệu băng cách dựa vào diện tích của vùng xuất hiện và tỉ lệ
XOR hình ảnh có thé dé dàng tinh tan số xuất hiện của một từ và phân lớp nó.
- Phần đánh chỉ mục: Đối với những từ phù hợp với lớp đặc trưng thường
<small>xuât hiện ta có thê bỏ qua, và đánh chỉ mục theo mâu đó.</small>
<small>chữ trong hình anh, vi tri trong ảnh.</small>
Trong khn khổ của luận văn, việc đánh chỉ mục của ảnh văn bản qua
<small>những bước xử lý trên thông tin đi kém với các mẫu từ chỉ giới hạn trong mã của</small>
ảnh văn bản, thông tin metadata ( mô tả như nguồn, tác giả, năm ... ) về ảnh. Việc đánh tạo lập thông tin metadata sẽ giúp truy xuất ảnh nhanh hơn trong kho dữ liệu phan này được mô tả kỹ hơn vào phan tiếp của luận văn.
Hadoop MapReduce là một mơ hình lập trình hỗ trợ đa dạng các loại dữ liệu. Nhưng giải pháp MapReduce khơng phải là mơ hình áp dụng cho mọi vấn đề, trên thực tế giải pháp này áp dụng tốt cho co các trường hợp lớn được xử lý
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">phân tán song song. Trong khuôn khổ luận văn, sau bước tiền xử lý đữ liệu đưa ra được một danh sách các từ phù hợp với mẫu cho trước với SỐ lượng từ được trích xuất của mỗi trang văn bản tương đối nhiều, và có nhiều ảnh tài liệu càng ngày càng được thu thập do nhu cầu của người sử dụng. Dé tìm kiếm và anh văn ban có nhiều phương pháp nhưng với khối lượng lớn đữ liệu và đặc biệt không phải là dạng dữ liệu có cau trúc, nên luận văn dé xuất sử dụng công nghệ dt liệu lớn (
<small>Độ tương đông giữa nội dung được truy vân và ảnh văn bản phụ thuộc vào</small>
<small>tân sô lặp lại của từ khóa trong nội câu truy vân trong dữ liệu mơ tả ảnh văn bản.</small>
Qua q trình xử lý dữ liệu ảnh văn bản thô, mỗi ảnh văn bản được mô tả dưới
Đề hồn thành được u cầu của người tìm kiếm (nhập từ khóa tìm kiếm có