Tải bản đầy đủ (.pdf) (27 trang)

Nghiên cứu trích xuất thông tin, phân tích dữ liệu lớn và ứng dụng tìm kiếm trong kho dữ liệu ảnh văn bản

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.35 MB, 27 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG

PHẠM CƠNG HUY

NGHIÊN CỨU TRÍCH XUẤT THƠNG TIN,

PHÂN TÍCH DỮ LIỆU LỚN VÀ ỨNG DỤNG

TÌM KIEM TRONG KHO DU LIEU ANH VAN BẢN

<small>Chuyén nganh: Khoa hoc may tinh</small>

Mã số: 60.48.01.01

TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2015

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<small>Luận văn được hoàn thành tại:</small>

HỌC VIEN CƠNG NGHỆ BƯU CHÍNH VIÊN THONG

Người hướng dẫn khoa học: TS. Hoàng Lê Minh

<small>Phản biện 1: TS. Lê Đức Hậu</small>

<small>Phản biện 2: TS. Đào Đình Khả</small>

<small>Học viện Cơng nghệ Bưu chính Viễn thơng</small>

<small>Vào lúc: 10 giờ 30 phút ngày 20 tháng 9 năm 2015</small>

<small>Có thê tìm hiệu luận văn tại:</small>

- Thư viện của Học viện Cơng nghệ Bưu chính Viễn thông

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

MO DAU

Theo cách tinh Georges Anderla một nhà kinh tế học người Pháp thi

lượng kiến thức của nhân loại hiện nay cứ tăng gấp đôi sau 18 tháng. Đồng

nghĩa với nó lượng tai liệu, sách vở tạp chí, ..v..v những cách thức lưu trữ kiến thức truyền thống cũng ngày càng tăng lên với số lượng, khối lượng đáng kể. Mỗi ngày có hàng triệu bản in được tạo ra dưới nhiều hình thức, việc quan lý,

lưu trữ những tài liệu này cũng sẽ gặp khó khăn với lượng tài nguyên đồ sộ và luôn phát triển như vậy.

Ngày nay với sự phát triển mạnh mẽ của cơng nghệ thơng tin, các cơng

nghệ số hóa và nhận dạng văn bản, hình ảnh đã tạo điều kiện cho việc trong

việc lưu trữ, chia sẻ, truyền tài liệu. Các dạng văn bản được đánh máy, viết tay

trước đây phải lưu trữ bằng bản cứng đã được số hóa nhờ những cơng nghệ

nhận dạng mới thơng minh và chính xác hơn.. Tuy nhiên với gia tăng với tốc

độ chóng mặt về lượng dt liệu, văn bản được số hóa thì việc quản lý và khai

thác hiện tại cịn gặp nhiều khó khăn do chưa có một phương pháp lưu trữ, xử

lý đồng bộ và khoa học.. Hiện nay với công nghệ đữ liệu lớn (Big Data) đang được chú trọng nghiên cứu và áp dụng với khả năng xử lý với tốc độ cao các

<small>dữ liệu có dung lượng lớn, đa dạng.</small>

Đề tài “Nghiên cứu trích xuất thơng tin, phân tích dữ liệu lớn và ứng dụng tìm kiếm trong kho dữ liệu ảnh văn bản” nhằm nghiên cứu các cơng

nghệ, kỹ thuật lưu trữ và phân tích dit liệu anh văn bản từ đó ứng dụng vào van

dé tìm kiếm, khai pha thơng tin trong kho dữ liệu anh văn ban được dé dang và

thuận tiện hơn.Bồ cục của luận văn được chia làm 3 chương như sau:

<small>Chương 1: Tổng quan về dữ liệu ảnh văn bản và dữ liệu lớn</small>

<small>Chương 2: Xử lý dữ liệu ảnh văn bản và áp dụng công nghệ dữ liệu lớn</small>

<small>Chương 3: Ung dụng tìm kiếm thơng tin trong kho đữ liệu ảnh văn bản.</small>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

CHUONG 1: TONG QUAN VE DU LIEU ANH VAN BẢN VA

DU LIEU LON

1.1 Khái quát về dữ liệu dang ảnh văn bản

1.1.1 Giới thiệu về ảnh văn bản

Hình ảnh của một tài liệu giấy, sách báo có thể do đánh máy, viêt tay

được lưu trữ trên máy tính băng cách nào đó như qua chụp, quét bằng các thiết bị điện tử. Việc sử dụng ảnh văn bản đang ngày một phổ biến do khả năng lưu

trữ gần như vô hạn không tốn không gian và hư hỏng như trên các vật liệu khác. Việc lấy tài liệu cũng nhanh chóng và dễ dàng, thay vì phải đến phịng

lưu trữ hồ sơ, tất cả đã có trên máy tính của người dùng. Dé chia sẻ, gửi tài liệu

số cũng rat dé dàng qua thư điện tử.

Nếu tài liệu đó cần được phơ biến và cơng khai, thay vì phải in ra nhiều ban dé dán ở nhiều nơi hay gửi tới nhiều cơ quan, cá nhân thì với anh văn bản,

người cần thông tin chỉ cần truy cập đến trang web quản lý của tài liệu đó, việc đưa ảnh lên mang Internet rất phổ biến.

1.1.2 Ung dụng của dữ liệu ảnh văn bản

Với nhiều lợi ích so với văn bản trên giấy tờ thông thường như khả năng lây tài liệu nhanh hơn, giảm không gian lưu trữ, cách truy cập, chia sẻ và lưu giữ tốt hơn đã đề cập đến ở trên ảnh văn bản sẽ là lựa chọn để thay thế tài liệu trên giấy tờ. Nhưng với một khối lượng dit liệu ảnh văn bản dé thay thế một

<small>thư viện hay một trung tâm lưu trữ thì việc quản lý và khai thác ảnh văn bản</small>

vẫn còn nhiều hạn chế. Như việc tìm kiếm một tài liệu hay một cuốn sách dạng

ảnh văn bản cần dùng để đọc, nghiên cứu trong hàng trăm nghìn ảnh văn bản khác địi hỏi việc đánh các từ khóa tìm kiếm vào ảnh văn bản cũng như cách đặt tiêu đề vị trí của tài liệu trọng một tủ hồ sơ. Nhưng để tìm kiếm nội dung

chi tiết hơn như một đoạn nội dung hay một hình vẽ có nội dung, chú thích trong một tập ảnh văn bản thì tương đối phức tạp. Với những phương pháp

hiện nay như dùng các phần mềm nhận dạng ảnh trên máy tinh dé chuyên đổi

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

sang dạng văn bản có cấu trúc đã được hỗ trợ rồi tìm kiếm bằng các cơng cụ

đọc văn bản hoặc các phần mềm tìm kiếm. Việc này tương đối rườm rà và mat nhiều thời gian do quá trình nhận dạng với một khối lượng lớn dữ liệu ảnh, chưa kể việc thiếu tính trung thực khi chuyên đổi anh văn bản thành dang văn bản có cấu trúc do các phần mềm nhận dạng hiện nay vẫn còn nhiều sai số. Như việc chuyên đổi hình ảnh một biểu đồ hay một chữ ký tay có trên ảnh văn

1.2 Tổng quan về dữ liệu lớn

1.2.1 Big data và nền tảng Hadoop

Big Data là thuật ngữ dùng dé chỉ một tập hợp dữ liệu rat lớn va rất phức tạp đến nỗi những công cu, ứng dụng xử lí dữ liệu truyền thống khơng thé nào đảm đương được. Kích cỡ của Big Data đang từng ngày tăng lên, và tính đến năm 2012 thì nó có thể nằm trong khoảng vài chục terabyte cho đến nhiều

<small>petabyte (1 petabyte = 1024 terabyte) chỉ trong một tập hợp dữ liệu [13].</small>

Hadoop là một nền tảng nguồn mở, được Dough Cutting tạo ra khi ông nghiên cứu về Nutch - một ứng dụng tìm kiếm. Hadoop được viết bằng Java, dùng hỗ trợ xây dựng, thực thi các ứng dụng tính tốn phân tán theo mơ hình MapReduce. Hadoop cluster là hệ thống máy tính đã được triển khai nền tang

Hadoop, một Hadoop cluster bao gồm hai thành phần cơ bản là kiến trúc MapReduce và hệ thống tập tin phân tán HDFS ..

Có hai thành phần chính của nền tảng Hadoop. kho lưu trữ tệp gọi là Hadoop Distributed File System (HDES — Hệ thống tệp phân tán Hadoop) và

<small>khung lập trình gọi là MapReduce.a) MapReduce layer</small>

Trong Hadoop, mỗi quá trình xử lý MapReduce được gọi là một job.

Việc thực hiện job sẽ được quan lý bởi hai đối tượng là JobTracker và

<small>TaksTracker. JobTracker hoạt động tai may master có nhiệm vụ quản lý toàn</small>

bộ hệ thống gồm việc tao và quản ly job, phân bố dữ liệu và phân công công

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

việc cho các TaskTracker, xử lý lỗi, v.v..Tại mỗi máy slave có một TaskTracker hoạt động để tạo các task xử lý theo yêu cầu của JobTracker.

<small>Ngoài ra, định kỳ mỗi khoảng thời gian, TaskTracker phải gửi tín hiệu</small>

HeartBeat về JobTracker để thơng báo răng nó vẫn đang cịn hoạt động. Điều nay đảm bảo JobTracker lập thời biểu cơng việc chính xác và hiệu quả cho cả hệ thống.

<small>b) HDFS layer</small>

Hadoop Distributed File System (HDFS) là một hệ thống tập tin phân tán, được thiết kế dé chạy trên hệ thống nhiều máy tính được nối mạng với nhau, có khả năng chịu lỗi cao và có thé triển khai trên hệ thống phần cứng

khơng địi hỏi cấu hình đắt tiền. Có rất nhiều đặc điểm giống nhau giữa HDFS và những hệ thống tập tin phân tán khác. Tuy nhiên, HDFS có những đặc điểm nổi bật riêng giúp nó có khả năng hỗ trợ tốt cho các ứng dụng xử lý dữ liệu

<small>1.2.2 Khai thác và ứng dụng Big Data</small>

<small>Với khả năng ứng dụng của công nghệ dir liệu lớn, trong khuôn khô luậnvăn đê áp dụng vào bài tốn tìm kiêm ảnh văn bản. Trước hêt luận văn xem</small>

xét các cơng đoạn chính trong một hệ thống tìm kiếm:

Cơng đoạn lập chỉ mục: Dé có thé đưa vào lập chỉ mục, tập tài liệu phải

trải qua q trình tiền xử lý, tài liệu thơ được xử lý thành các tải liệu được tách từ, phân đoạn và loại bỏ các yếu tô thông tin không quan trọng. Kết thúc quá trình tiền xử lý, các yếu tố thông tin trong tập tài liệu sẽ được tiến hành lập chỉ mục, tạo tiền đề cho việc tính độ tương đồng [5].

Cơng đoạn xử lý u cầu tìm kiếm: Người sử dụng có nhu cầu tìm kiếm

đưa ra một biểu thức tìm kiếm phi cấu trúc bằng ngôn ngữ tự nhiên, mô tả nhu cầu thông tin của mình. Hệ thống tìm kiếm sẽ tiếp nhận và xử lý biểu thức tìm kiếm, biến đổi biểu thức tìm kiếm thành một tài liệu chỉ mục, tiếp theo hệ

thống sẽ làm việc trên tập dữ liệu đã được lập chỉ mục trước đó kết hợp với tài

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

liệu chỉ mục của biểu thức tìm kiếm, tính tốn đưa ra một danh sách các tài liệu

có liên quan đến biểu thức tìm kiếm, kèm theo chỉ số thể hiện mức độ liên quan, sắp xếp danh sách này theo chiều giảm dần của mức độ liên quan, ta được kết quả tìm kiếm [5].

Bài tốn tìm kiếm ảnh đã được đưa ra từ rất lâu và có nhiều cách giải quyết khác nhau. Cho đến ngày nay đã có nhiều hệ thống tìm kiếm truy vấn

ảnh khác nhau. Mục tiêu của hệ thống tìm kiếm ảnh là tìm ra ảnh đúng với nhu

<small>câu của người dùng.</small>

Các hệ thống truy van ảnh hiện nay rất đa dạng nhưng nhìn chung thi chúng được phân biệt bởi: các đặc trưng mà hệ thống rút trích từ ảnh để làm cơ

sở truy van và phương pháp phân đoạn ảnh được sử dụng trong hệ thống truy

vấn, cách thức tô chức chỉ mục cho cơ sở đữ liệu ảnh, độ đo sự tương đồng

<small>giữa hai ảnh. Và thường tuân theo mơ hình:</small>

<small>Tập kết quả</small>

<small>Ảnh truy vẫn</small>

<small>&——————] u cau truy van</small>

<small>Hình 1.1: Rút trính, truy vấn hình ảnh thời gian thực</small>

Mơ hình này đơn giản, dễ cài đặt nhưng đưa vào ứng dụng thực tế sẽ

chậm vì nhược điểm: khi có một u cầu tìm kiếm, hệ thống khơng những phải

rút trích các đặc trưng của ảnh truy van mà cịn phải rút trích các đặc trưng của ảnh trong tập ảnh của CSDL ảnh, sau đó tính tốn mức độ tương đồng giữa chúng. Để tăng khắc phục các vấn đề nêu trên của khi tìm kiếm với ảnh văn bản, luận văn đề xuất giải pháp rút trích những đặc trưng của ảnh văn bản. Sau

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

đó so sánh độ tương đồng giữa lệnh truy vấn và đữ liệu đặc trưng, trả về cho

<small>người sử dụng ảnh văn bản có chứa đặc trưng đó.</small>

1.3 Kết luận

<small>Trong chương này, các khái niệm, ứng dụng cơ bản dữ liệu lớn ở đây là</small>

nền tảng Hadoop đã được trình bày. Đồng thời, các khái niệm, thuật ngữ được

sử dụng trong luận văn cũng được trình bày cụ thể. Tại chương này, đề xuất sử

<small>dụng, áp dụng Big Data trong việc lưu trữ và xử lý dữ liệu anh văn bản được</small>

nêu ra. Nhằm mục đích tổ chức thực hiện tìm kiếm trong kho dữ liệu ảnh văn bản sẽ được nêu ra rõ hơn trong phần còn lại của luận văn và là tiền đề cho việc nghiên cứu, áp dụng khai thác ảnh văn bản trên nền tang Big Data sau này.

<small>Các nghiên cứu chi tiét hơn về việc tiên xử lý anh van bản, lập chỉ mục</small>

và tô chức kho đữ liệu được trình bày ở chương 2.

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

CHƯƠNG 2: XỬ LÝ DỮ LIỆU ẢNH VĂN BẢN VÀ ÁP DỤNG

CÔNG NGHỆ DỮ LIỆU LỚN

2.1 Tiền xử lý ảnh văn bản

Dữ liệu ảnh văn bản là dữ liệu dạng file ảnh được chụp, scan hoặc viết ta, dé khai thác thông tin từ anh bắt buộc phải sử dung các phương pháp nhận dạng. Nhưng mục tiêu của luận văn là khai thác trực tiếp ảnh văn bản để có thơng tin

chính xác nhất. Để phục vụ cho tìm kiếm việc phần tiền xử lý giới thiệu các phương pháp nhận dạng và tập chung khai thác phương pháp nhận dạng theo mẫu

để áp dụng trích xuất mơ tả ảnh văn bản.

2.1.1 Nhận dạng văn bản theo mẫu

<small>a) Các phương pháp nhận dạng ảnh</small>

Có nhiều phương pháp nhận dạng mẫu khác nhau được áp dụng rộng rãi trong các hệ thống nhận dạng kí tự. Các phương pháp này có thê được tích hợp trong các hướng tiếp cận sau: Đối sánh mẫu, thống kê, cấu trúc, mạng nơ ron va

<small>SVM .</small>

- May vecto hỗ tro (SVM)

- Phuong pháp tiếp cận cấu trúc

<small>- Phương pháp ngữ pháp (Grammatical Methods</small>

- Phương pháp đồ thị (Graphical Methods

- Mơ hình Markov ân (Hidden Markov Model - Phương pháp đối sánh mẫu

Với phương pháp đối sánh mẫu qua việc sử dụng một thư viện được xây

dựng sẵn (tiếng Việt, tiếng Anh, ký tự toán học, ...) có khả năng mở rộng chỉnh

sửa cao, tạo được những “key word” (từ khóa) áp dụng cho việc tìm kiếm thơng

<small>tin của anh văn bản. Luận văn sẽ di sâu vào phương pháp nay áp dụng trong việctrích xt thơng tin của ảnh văn bản.</small>

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<small>c) Nhận dạng ảnh văn bản theo mẫu</small>

<small>Việc nhận dạng ảnh của một văn bản hiện nay thường được xử lý và nhậndạng với các ky tự quang học độc lập (OCR - Optical Character Recognition), sau</small>

đó dùng các phương pháp phục hồi để chuyên thành dạng văn bản có thể đọc. Tuy nhiên phương pháp này khơng hoạt động tốt trên chữ viết tay, gặp lỗi khi

<small>thực hiện ghép thành câu từ hồn chỉnh và có nghĩa. Một phương pháp khác là</small>

nhận biết các từ bỏ qua giai đoạn nhận dạng ký tự bằng cách sử dụng những bộ từ điển mẫu từ dé so sánh sự tương đồng. Phương pháp nay cũng giảm được độ nhiễu của hình ảnh và tăng tốc độ xử lý so với phương pháp nhận dạng ký tự riêng lẻ do số từ trung bình nhỏ hơn nhiều số ký tự trên một ảnh văn bản. Nhưng về mặt chính xác kém hơn so với phương pháp nhận dạng ký tự quang học độc

Từ việc thống kê ngôn ngữ sự lặp lại của những từ thông dụng trên một trang (báo, tài liệu) xảy ra thường xuyên. Việc sử dụng mẫu của những thừ phổ

biến này cũng cải thiện đáng kề tốc độ xử lý, dễ dàng trong việc đánh chỉ mục, phân nhóm dé cải thiện hiệu năng tìm kiếm ảnh văn bản.

Theo thống kê như, trung bình trong một tài liệu tiếng Anh có sự xuất hiện tới 7% từ “THE” , 3% từ “OF”.Và với hai mươi từ thơng dụng ở ví dụ trên chiếm tới 29% của mẫu trong tài liệu tiếng Anh. Điều đó cũng có nghĩa một phần ba số từ trong ảnh văn bản có thê được nhận dạng chỉ với hai mươi từ thông dụng [11].

Đề dễ dàng cho việc đánh chỉ mục và tăng cao hiệu năng của việc tìm kiếm

<small>trong ảnh văn bản, luận văn đề xuât việc sử dụng phương pháp nhận dạng theo từ</small>

<small>cho việc nhận dạng và trích xuât ảnh văn bản.</small>

Đề nhận dạng từ trên ảnh văn bản cần sử dụng kỹ thuật phân đoạn, kỹ thuật này giả định trên ảnh văn bản chỉ có hai màu trăng và đen (ký tự là màu trắng và

nên đen), khoảng cách giữa các ký tự liền kề nhỏ hon so với khoảng cách giữacác từ liền kề. Từ đó xây dựng một hình ảnh mới qua các quá trình xử lý độ

<small>nghiêng, làm giảm nhiêu, nêu khoảng cách giữa hai diém anh màu trăng liên kê</small>

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

nhỏ hơn một một số k (khoảng cách trung bình giữa hai từ) thì tất các các điểm ảnh giữa hai điểm ảnh đó là màu trắng [11]. Bằng phương pháp này khi thực hiện theo phương đọc và phương ngang có thê tạo được một vùng bao ngồi tối thiểu là một hình chữ nhật trắng quanh từ:.

Theo [11] Các cơ sở để nhận dạng mẫu chữ:

- Đầu tiên xác định hình ảnh của từ được đưa vào so sánh bằng cách căn lề theo phương ngang và thang dứng dựa vào đường cơ sở. Đường co sở được tinh

băng cách xác định băng phương pháp phân đoạn đã trình bày trên.

- Sau đó hình anh sẽ được chuyền đổi thành một vecto đặc trưng băng cách chia hình ảnh thành một ơ lưới 4 x 8. Sau đó tính gradient, cấu trúc và tính lồi lõm của mỗi 6 của lưới. Kết quả là một vector nhi phân với độ dài là 1024. Ở ví

dụ trong Hình 2.5 thé hiện kết quả khi XOR hai ảnh “nationl”. Kết quả của phép

tính này được so sánh với một ngưỡng trung bình dé xác nhận hình anh. Dé tăng độ chính xác có thể áp dụng các thuật toán xử lý đồ họa, xử lý về mặt ngữ pháp,

<small>kêt câu câu từ trong đoạn van.</small>

Theo phương pháp này, với bộ thư viện càng đầy đủ và đa dạng, thì khả

năng nhận dạng càng tối ưu. Khơng chỉ các định dạng là ảnh của các mẫu chữ được đánh máy mà còn các văn bản được viết tay, các ngôn ngữ phức tạp như tiếng Trung Quốc, tiếng A Rap...

2.1.2 Lập chỉ mục từ trong văn ảnh văn bản sử dụng mẫu từ tương dong

Đề áp dụng vào bài tốn tìm kiếm phương pháp nhận dạng theo mẫu, việc

lập chỉ mục không chỉ trên những thông tin văn bản thuần túy như tiêu đề tác giả,

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

<small>ngày tháng lập,.. mà còn trên những chữ sau quá trình phân đoạn và nhận dạng</small>

theo phương pháp nhận dạng theo mẫu.

Quá trình tiền xử lý hình ảnh áp dụng phương pháp sử dụng mẫu:

- Các văn bản in được quét, chụp thành các file ảnh được lưu trong ơ cứng.

<small>- Sau đó các file này được nhị phân hóa theo ngưỡng của hình ảnh (thành</small>

các hình ảnh tối giản chỉ có trắng và đen).

- Phân đoạn các hình ảnh thành các từ, đối sánh với mẫu trong bộ thư viện

mẫu phù hợp.

- Ghi nhớ những mẫu từ thích hợp (những từ thường được sử dụng nhất) được lưu lại làm mẫu đặc trưng dé gom nhóm tat cả những từ nào phù hợp với nó

trong tất cả các tài liệu băng cách dựa vào diện tích của vùng xuất hiện và tỉ lệ

của các từ. Tiếp theo kết hợp với việc so sánh khoảng cách tối thiểu băng phép

XOR hình ảnh có thé dé dàng tinh tan số xuất hiện của một từ và phân lớp nó.

- Phần đánh chỉ mục: Đối với những từ phù hợp với lớp đặc trưng thường

<small>xuât hiện ta có thê bỏ qua, và đánh chỉ mục theo mâu đó.</small>

Sau bước tiền xử lý các tài liệu ảnh văn bản được mô tả dưới dạng một danh sách theo các mẫu chữ dạng chuan ASCII kèm theo tọa độ, số lần lặp lại các

<small>chữ trong hình anh, vi tri trong ảnh.</small>

Trong khn khổ của luận văn, việc đánh chỉ mục của ảnh văn bản qua

<small>những bước xử lý trên thông tin đi kém với các mẫu từ chỉ giới hạn trong mã của</small>

ảnh văn bản, thông tin metadata ( mô tả như nguồn, tác giả, năm ... ) về ảnh. Việc đánh tạo lập thông tin metadata sẽ giúp truy xuất ảnh nhanh hơn trong kho dữ liệu phan này được mô tả kỹ hơn vào phan tiếp của luận văn.

2.2 Áp dụng công nghệ dữ liệu lớn để lưu trữ thông tin

2.2.1 Tìm kiễm ảnh văn bản áp dụng cơng nghệ dữ liệu lớn

Hadoop MapReduce là một mơ hình lập trình hỗ trợ đa dạng các loại dữ liệu. Nhưng giải pháp MapReduce khơng phải là mơ hình áp dụng cho mọi vấn đề, trên thực tế giải pháp này áp dụng tốt cho co các trường hợp lớn được xử lý

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

phân tán song song. Trong khuôn khổ luận văn, sau bước tiền xử lý đữ liệu đưa ra được một danh sách các từ phù hợp với mẫu cho trước với SỐ lượng từ được trích xuất của mỗi trang văn bản tương đối nhiều, và có nhiều ảnh tài liệu càng ngày càng được thu thập do nhu cầu của người sử dụng. Dé tìm kiếm và anh văn ban có nhiều phương pháp nhưng với khối lượng lớn đữ liệu và đặc biệt không phải là dạng dữ liệu có cau trúc, nên luận văn dé xuất sử dụng công nghệ dt liệu lớn (

Hadoop ) dé tìm kiếm dữ liệu chỉ phụ thuộc vào các tập dit liệu được phân tích

<small>của anh văn bản.</small>

<small>Độ tương đông giữa nội dung được truy vân và ảnh văn bản phụ thuộc vào</small>

<small>tân sô lặp lại của từ khóa trong nội câu truy vân trong dữ liệu mơ tả ảnh văn bản.</small>

Qua q trình xử lý dữ liệu ảnh văn bản thô, mỗi ảnh văn bản được mô tả dưới

dạng một tập các mẫu từ đã được trích xuất.

Đề hồn thành được u cầu của người tìm kiếm (nhập từ khóa tìm kiếm có

liên qua đến ảnh văn bản) và nhận được môt danh sách kết quả (ảnh dữ liệu chứa từ khóa tìm kiếm) được xắp xếp với một tiêu chí nào đó:

- Đánh chỉ mục ngược (INVERTED INDEXING):Các dữ liệu ảnh văn bản

sau khi được trích xuất sẽ được chương trình tự động phân tách và tạo chỉ mục

<small>ngược (reverse index): chỉ mục với khoá là từ khoá va value là danh sách các tài</small>

liệu có mặt từ khố). Kết quả của q trình này là một khối chỉ mục ngược.

</div>

×