Tải bản đầy đủ (.pdf) (18 trang)

NGHIÊN CỨU VỀ CÔNG NGHỆ LƯU TRỮ ĐÁM MÂY (OWNCLOUD) VÀ XÂY DỰNG ỨNG DỤNG TRA CỨU DỮ LIỆU BẰNG NGÔN NGỮ HTNML5

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (919.77 KB, 18 trang )

HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG



NGUYỄN XUÂN ĐOÀN


NGHIÊN CỨU VỀ CÔNG NGHỆ LƢU TRỮ ĐÁM MÂY
(OWNCLOUD) VÀ XÂY DỰNG ỨNG DỤNG TRA CỨU DỮ
LIỆU BẰNG NGÔN NGỮ HTNML5


Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01
TÓM TẮT LUẬN VĂN THẠC SĨ







HÀ NỘI, 2013































Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG




Người hướng dẫn khoa học: TS.HOÀNG LÊ MINH







Phản biện 1: ……………………………………………………………………………

Phản biện 2: …………………………………………………………………………




Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công
nghệ Bưu chính Viễn thông
Vào lúc: giờ ngày tháng năm

Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông




1
MỞ ĐẦU
Những năm gần đây, thuật ngữ “đám mây” (cloud) rất thường được nhắc đến trên các
phương tiện đại chúng như là một cách mạng công nghệ trong thời đại Internet. Lưu trữ đám mây –
là một trong các dịch vụ “đám mây” phổ biến nhất hiện nay.
Lưu trữ đám mây là một dịch vụ lưu trữ dữ liệu ở các thiết bị mà người dùng không biết
được địa chỉ thực. Người dùng có thể truy cập, tải lên, tải về, đồng bộ hoá dữ liệu ở bất kỳ nơi đâu
có Internet.

Với công nghệ “đám mây” người dùng không còn lệ thuộc vào các thiết bị lưu trữ vật lý như
đĩa nhớ, CD… và có thể truy cập ở mọi nơi có Internet.
Với việc nghiên cứu công nghệ lưu trữ đám mây, luận văn này tập trung tìm hiểu những
khái niệm cơ bản về công nghệ lưu trữ của ownCloud và ứng dụng vào phân tích, xây dựng thử
nghiệm một ứng dụng tra cứ dữ liệu trên ownCloud vận hành trên trình duyệt Chorme.
Luận văn bao gồm ba chương chính với nội dung như sau:
+ Chương 1: Giới thiệu tổng quan về công nghệ lưu trữ và giải pháp Owcloud, tìm hiểu về
khái niệm, tính năng, kiến trúc, mô hình quản lý dữ liệu và các công cụ quản lý trên công nghệ lưu
trữ đám mây ứng dụng cho tra cứu dữ liệu.
+ Chương 2: Giới thiệu về công nghệ WebServices và WebSocket, kiến trúc cũng như cách
thức hoạt động của ngôn ngữ HTML5 và giao tiếp giữa các API tìm kiếm trên đám mây hoạt động
như thế nào.
+ Chương 3: Cài đặt, cấu hình ownlcoud và thử nghiệm xây dựng mô hình tra cứu dữ liệu
trên đám mây vận hành trên trình duyệt Chorme.












2
CHƢƠNG 1 – TỔNG QUAN VỀ CÔNG NGHỆ LƢU TRỮ ĐÁM MÂY
VÀ GIẢI PHÁP OWNCLOUD.
1.1. Giới thiệu về công nghệ lƣu trữ đám mây

1) Cơ bản về công nghệ lưu trữ đám mây
Về cơ bản, một hệ thống đám mây lưu trữ cần phải có dạng kết nối mạng theo mô hình kết
nối mạng tới trung tâm dữ liệu (với các tiêu chuẩn, giao thức kết nối và yêu cầu về bảo mật) để
người dùng có thể khai thác được dịch vụ này. Khi sử dụng dịch vụ lưu trữ đám mây từ một máy
trạm, người dùng gửi dữ liệu tới trung tâm dữ liệu thông qua các kết nối mạng. Trung tâm dữ liệu sẽ
lưu dữ liệu và ghi lại những thông tin cần thiết khác.
Khi người dùng muốn lấy thông tin, họ phải truy cập vào trung tâm dữ liệu thông qua các
giao diện người dùng (giao diện phần mềm, giao diện web, giao diện đồ họa cơ bản) bằng các giao
thức khác nhau. Sau khi được chứng thực người dùng, trung tâm dữ liệu sẽ thực hiện xác định
người dùng được phép truy cập vào khu vực đám mây lưu trữ nào với những quyền gì.
Một hệ thống đám mây lưu trữ thông thường được xây dựng từ một vài máy chủ dữ liệu,
nhiều hay ít máy chủ quyết định bởi mô hình đám mây được sử dụng. Một hệ thống máy tính
thường yêu cầu bảo trì và sửa chữa, vì thế phải có cơ chế lưu trữ cùng một dữ liệu trên nhiều máy
tính khác nhau.
2) Cơ sở hạ tầng cho đám mây lưu trữ
Cơ sở hạ tầng cho một đám mây lưu trữ là các thành phần phần cứng, phần mềm đáp ứng
được nhu cầu tính toán của một mô hình đám mây lưu trữ.
3) Các loại hình đám mây lưu trữ
Đám mây lưu trữ đặc thù là loại hình đám mây lưu trữ với mục đích sử dụng đơn nhất. Hiện
nay có một số đám mây lưu trữ đặc thù thông dụng sau:
Đám mây lƣu trữ tài liệu: Là loại lưu trữ tài liệu dùng để đọc và thao tác trên đó, ví dụ như
Google Docs.
Đám mây lƣu trữ hình ảnh: Là loại lưu trữ hình ảnh dùng để xem và thao tác trên đó, ví dụ
như Flickr, Picasa.
Đám mây lƣu trữ e-mail: Là loại lưu trữ dữ liệu thư.
Đám mây lƣu trữ phim ảnh: Là loại cho phép người dùng tải các đoạn phim của mình và
chia sẻ với người khác, ví dụ như Youtube điện tử của người dùng, ví dụ như Gmail, Hotmail,
Yahoo! Mail.
4) Lợi ích của công nghệ lưu trữ đám mây
Phục hồi dữ liệu:

Đa thiết bị truy cập:


3
Làm việc từ xa:
Hiệu quả về mặt môi trƣờng:
Khả năng bảo mật:
1.2. Dịch vụ đám mây lƣu trữ
1) Mô hình dịch vụ đám mây lưu trữ
Một hệ thống lưu trữ đám mây được đánh giá là chuyên nghiệp phải có những phương án
mở rộng hoạt động, có những phương thức giúp người dùng truy cập dữ liệu ở khắp nơi và bộ công
cụ phần mềm linh hoạt trong các môi trường. Thường có 3 loại mô hình đám mây lưu trữ là:
Đám mây lƣu trữ công cộng (public cloud storage): Là môi trường lưu trữ dành cho
nhiều người dùng, ví dụ: Amazon S3.
Đám mây lƣu trữ riêng (private cloud storage): Là môi trường dành riêng được bảo vệ
bên trong hệ thống tường lửa của tổ chức, doanh nghiệp. Mô hình này thích hợp nhất với những
người dùng cần tối ưu lại hệ thống đám mây lưu trữ và áp dụng những quy trình quản lý dữ liệu chi
tiết của tổ chức, doanh nghiệp
Đám mây lƣu trữ lai (hybrid cloud): Là mô hình kết hợp bởi 2 mô hình đám mây lưu trữ
trên với một phần nền tảng như của đám mây riêng và một phần nền tảng như của đám mây công
cộng.
2) Một số dịch vụ đám mây lưu trữ hiện nay
Đám mây lƣu trữ của Amazon S3: Amazon đang phát triển các dịch vụ, cơ sở hạ tầng
dành cho lưu trữ được gọi là dịch vụ lưu trữ đơn giản trên Amazon.
Đám mây lƣu trữ của hang Apple Icloud: Đây là dịch vụ hoạt động trên công nghệ điện
toán đám mây, cung cấp cho người dùng cách thức mới để lưu trữ và truy cập dữ liệu từ mọi thiết bị
của Apple.
Đám mây lƣu trữ của hãng Microsoft Windows Live SkyDrive: Đây là một dịch vụ lưu
trữ đám mây miễn phí do Microsoft phát triển. Dung lượng lưu trữ mà Microsoft cung cấp cho
người dùng tối đa là 25GB nhưng dung lượng tối đa dành cho một tệp dữ liệu là 100MB.

3) Các tiêu chuẩn cho dịch vụ lưu trữ đám mây
Khả năng co giãn:
Tự động:
Khả năng mở rộng:
Bảo mật dữ liệu:
Hiệu suất:
Tin cậy:
Dễ quản trị:
Hiệu quả năng lƣợng:


4
1.3. Tổng quan về OwnCloud
1.3.1. Khái niệm
OwnCloud là một mã nguồn mở và phần mềm miễn phí có thể được sử dụng để tạo ra giải
pháp lưu trữ đám mây, máy chủ ownCloud có thể được tạo ra trên Windows cũng như các nền tảng
Linux hỗ trợ tất cả mọi thứ từ Windows sang Mac OSX, Android và Iphone.
1.3.2. Tính Năng
1) Đồng bộ hóa dữ liệu:
2) Cách thức truy cập:
3) Chia sẻ dữ liệu:
4) Điểm mới trong OwnCloud 4:
Phiên bản:
Mã hóa:
Kéo - Nhả:
Themeing:
Viewer for ODF Files:
Ứng dụng API’s:
Di trú và sao lưu:
5) Tăng cường trong OwnCloud 4

Lịch
Tập tin thông báo:
Phòng trưng bày:
6) Chức năng của Admin:
Lưu trữ gắn ngoài:
Đăng nhập:
LDAP/Active Directory:
1.4. Kiến trúc tổng quan của ownCloud
Với ownCloud bạn có thể kiểm soát dữ liệu nhạy cảm của bạn:
Bảo vệ và quản lý dữ liệu nhạy cảm của bạn bằng cách lưu trữ trên trang web .
Dễ dàng mở rộng thông qua chức năng trên tập hợp các API.
Tích hợp vào các cơ sở hạ tầng hiện có và hệ thống an ninh, quản lý các chính sách công ty.


5

Hình 1.1. Cách hành động trong ownCloud
1) Kiến trúc tổng quan
Mấu chốt của giải pháp ownCloud là các máy chủ ownCloud. Không giống như các dịch vụ
đám mây dựa trên người tiêu dùng và các ứng dựng lưu trữ với lưu trữ của bên thứ ba, máy chủ của
ownCloud cho phép quản lý tất cả các yếu tố liên quan với ownCloud on-site từ tập tin lưu trữ đến
ngưởi sử dụng và xử lý dữ liệu.
Các máy chủ ownCloud lưu trữ tập tin người dùng theo chuẩn của hệ thống định dạng file
và có thể sử dụng gần như tập tin hệ thống này. Với OwnCloud, nếu bạn có thể gắn kết nó trên máy
chủ của bạn, ownCloud có thể được sử dụng. Thực tế, điều này có nghĩa là rất nhiều hệ thống tập
tin tiêu chuẩn và thiết bị lưu trữ có thể được kết hợp sử dụng – OwnCloud là hệ thống tập tin và lưu
trữ theo cách mà bạn không thể biết được
Để tích hợp ownCloud với cơ sở hạ tầng công nghệ thông tin thông tin các ứng dụng plug-
in. Các plug-in có thể được kích hoạt thông qua bảng điều khiển trên máy chủ, cung cấp các chức
năng giống như thư mục hoạt động và giao thức truy nhập thư mục(LDAP) tích hợp cho tài khoản

người dùng và xác thực.


6

Hình 1.2. Kiến trúc của ownCloud.

2) Kiến trúc Server
OwnCloud là một ứng dụng web PHP chạy trên IIS hoặc Apache của hệ điều hành Windows
hay Linux. Ứng dụng PHP này quản lý tất cả các khía cạnh của ownCloud, từ người sử dụng đến
plug-in, chia sẻ tập tin và lưu trữ.
Để truy cập và sử dụng nhiều loại lưu trữ khác nhau, ownCloud có xây dựng lớp lưu trữ trừu
tượng. Kết quả, ownCloud có thể tận dụng một vài giao thức lưu trữ có thể được gắn trên máy chủ
ownCloud – từ CIFS, NFS VÀ GFS2, đến các hệ thống file cluster(cluster file systems) như
Gluster/

Hình 1.3. Kiến trúc của ownCloud Server.



7
3) Kịch bản triển khai.
OwnCloud được triển khai như n-tier sự cân bằng ứng dụng web chạy trong trung tâm dữ
liệu(data center). OwnCloud có thể được triển khai vật lý, điện toán đám mây riêng ảo, hoặc đám
mây riêng, theo yêu cầu. Luôn có một cân bằng tải của toàn bộ quá trình triển khai với ít nhất là hai
kết nối với ứng dụng máy chủ.
Tích hợp cơ sở hạ tầng
OwnCloud tích hợp với AD, LDAP và OAuth2.0. Quản trị viên cho phép ứng dụng plug - in
AD/LDAP, cấu hình địa chỉ máy chủ, giao thức và các bộ lọc, và người dùng có chứng thực.
Ngoài việc tích hợp AD/LDAP, ownCloud cung cấp một loạt tích hợp với các công cụ khác.

Ví dụ, nó có thể tận dụng người dùng API cấp sử dụng tự động hóa để cung cấp một ownCloud mới
cho người sử dụng.
OwnCloud cung cấp các kỹ thuật cho việc tạo ứng dung plug-in để tích hợp với hệ thống
hiện tại. Đó là trường hợp sử dụng kỹ thuật xác thực. Trong khi ownCloud hỗ trợ tích hợp LDAP,
AD và OAuth2.0, một số tùy chỉnh xác thực người dùng và ủy quyền plug-in dã được tạo ra từ mã
thông báo tên người dùng và bổ sung dựa trên mật khẩu.
n-Tier giống như một ứng dụng web, ownCloud tích hợp vào trang web. Phát hiện xâm nhập
hệ thống làm việc, công cụ quản lý mạng công việc và tường lửa hiện tại đơn giản chỉ là tận dụng
cổng và chứng chỉ SSL. Sao lưu một hệ thống máy chủ và cơ sở dữ liệu như bất kỳ ứng dụng web
khác.
1.5. Mô hình quản lý dữ liệu và các công cụ quản lý để tra cứu
1) Mô hình quản lý dữ liệu trên đám mây

Hình 1.4. Hệ thống lƣu trữ kiến trúc đám mây điển hình bao gồm một máy chủ kiểm soát tổng thể và
một số máy chủ lƣu trữ.


8
Có hàng trăm hệ thống lưu trữ đám mây khác nhau. Ví dụ như Web lưu trữ tin nhắn hoặc e-
mail, hình ảnh kỹ thuật số. Các cơ sở hệ thống lưu trữ đám mây được gọi là trung tâm dữ liệu.
Ở cấp độ cơ bản nhất, một hệ thống lưu trữ đám mây là một máy chủ dữ liệu kết nối với
internet. Một khách hàng (ví dụ, một người sử dụng máy tính đăng ký vào một dịch vụ lưu trữ đám
mây) sẽ gửi các bản sao của tập tin qua internet đến máy chủ dữ liệu, sau đó ghi các thông tin. Khi
khách hàng muốn lấy thông tin, người đó truy cập vào máy chủ dữ liệu thông qua một giao diện
web. Máy chủ sau đó sẽ gửi các tập tin lại cho khách hàng hoặc cho phép khách hàng truy cập và
thao tác các tập tin trên máy chủ riêng của mình.
WebDAV:
WebDAV là viết tắt của cụm từ Web-based Distributed Authoring and Versioning (tạm dịch
hệ thống quản lý chứng thực và phiên bản dựa trên môi trường Web) là một trong những sáng chế
của tổ chức IEFT.

Mục đích của giao thức WebDAV là làm cho môi trường World Wide Web trở thành một
phương tiện truyền thông linh hoạt, có khả năng đọc cũng như sửa đổi mọi nội dung một cách dễ
dàng. Nó cung cấp những khả năng như tạo, thay đổi, di chuyển các tài liệu trên một server từ xa
(thường là một web server hay "web share").
2) Các công cụ quản lý dữ liệu: Là Deskop Sync Clients và OwnCloud Mobile Apps.
1.6.Lịch sử phát triển của OwnCloud
Phiên bản 1.0 được phát hành vào ngày 24 tháng 06 năm 2010 được viết bởi Frank
Karlitschek.
Phiên bản 1.1. được phát hành vào ngày 23 tháng 11 năm 2010 của Frank Karlitschek đã bổ
sung thêm một số tinh năng mới.
Phiên bản 1.2 ra đời ngày 15 tháng 04 năm 2011 với sự phát triển của cộng đồng mạng đã có
những thay đổi rõ rệt.
Sau đó 6 tháng phiên bản 2.0 ra đời và các tính năng đã được cải tiến rất nhiều.
Phiên bản 3.0 ra đời vào ngày 31 tháng 01 năm 2012.
Phiên bản 4.0 ra đời 22 tháng 05 năm 2012
Phiên bản 4.5 ra đời ngày 3 tháng 10 năm 2012 và Phiên bản 5.0 ra đời vào tháng 02 năm
2013 nhưng chưa được đưa vào thực tế.
1.7. Kết Chƣơng:
Nội dung trong chương 1 của luận văn chủ yếu giới thiệu tổng quan về công nghệ lưu trữ
đám mây ownCloud. Qua đó cung cấp một cái nhìn tổng quan cho những ai đang phát triển phần
mềm hay ứng dụng bằng PHP và CSDL SQL Server nếu muốn chuyển hệ thống phần mềm hiện tại
thành SaaS hay muốn đưa ứng dụng local lên đám mây.



9
CHƢƠNG 2 – TỔNG QUAN VỀ CÁC CÔNG NGHỆ NỀN TẢNG
TRONG TRA CỨU DỮ LIỆU TRÊN WEB
2.1. Giới thiệu công nghệ web services:
Web Services (dịch vụ web) là tập hợp các phương thức của một đối tượng mà các Client có

thể gọi thực hiện.Web Services được xây dựng dựa trên SOAP (Simple Object Access Protocol).
2.1.1 Đặc điểm web services
Dịch vụ Web cho phép client và server tương tác được với nhau ngay cả trong những môi
trường khác nhau.
2.1.2. Kiến trúc web services
Web services gồm có 3 chuẩn chính: SOAP (Simple Object Access Protocol), WSDL (Web
Service Description Language) và UDDI (Universal Description, Discovery, and Integration).
UDDI được sử dụng để đăng ký và khám phá dịch vụ Web đã được miêu tả cụ thể trong WSDL.
Giao tác UDDI sử dụng SOAP để nói chuyện với UDDI server, sau đó các ứng dụng SOAP yêu cầu
một dịch vụ Web. Các thông điệp SOAP được gửi đi bởi HTTP và TCP/IP.
2.1.3. Thành phần web services
Bao gồm Web Service Description Language, Universal Description Discovery Integration
và Simple Object Access Protocol.
2.2. Giới thiệu tổng quan về websocket
WebSoket là công nghệ hỗ trợ giao tiếp hai chiều giữa client và server bằng cách sử dụng
một TCP socket để tạo một kết nối hiệu quả và ít tốn kém.

Hình 2.1. Kiến trúc của WebSocket Server.


10
Trình duyệt sẽ gửi yêu cầu HTTP đều đặn và ngay lập tức nhận được một phản ứng. Kỹ
thuật này là nỗ lực đầu tiên cho trình duyệt để cung cấp thông tin thời gian thực. Rõ ràng, đây là
một giải pháp tốt nếu khoảng thời gian chính xác cung cấp tin nhắn được biết đến, bởi vì bạn có thể
đồng bộ hóa các yêu cầu của khách hàng chỉ xảy ra khi thông tin có sẵn trên máy chủ.
2.2.1. Giao thức Bắt tay trong websocket
Để thực hiện kết nối, client phải gửi một WebSocket handshake request đến server.
Để thiết lập kết nối websocket, cần nâng cấp máy khách mà máy chủ từ giao thức HTTP để
giao thức Websocket có thể bắt tay được thể hiện như hình dưới đây.


Hình 2.2 . Bắt tay trong websocket
2.2.2. Giao diện WebSocket
2.2.3. Sử dụng API WebSocket
2.2.3.1. Hỗ trợ kiểm tra trình duyệt

Hình 2.3. Kiểm tra hỗ trợ trình duyệt trong Google Chrome.
2.2.3.2. Các API cơ bản
Tạo một đối tƣợng WebSocket và kết nối đến một máy chủ Websocket
Thêm một sự kiện ngƣời nghe
Gửi các thông điệp


11
2.3. HTML 5
2.3.1. Giới thiệu
HTML5 là một ngôn ngữ được thiết kế để thiết lập nội dung web. Nó nhằm làm cho việc
thiết kế và phát triển web dễ dàng hơn bằng cách tạo một giao diện ngôn ngữ đánh dấu chuẩn hóa
và trực quan.
HTML5 cung cấp các công cụ quản lý dữ liệu, vẽ, video, và âm thanh có hiệu quả. Nó tạo
điều kiện cho sự phát triển của các ứng dụng giữa các trình duyệt với nhau cho trang web cũng như
cho các thiết bị di động.
Các thẻ mới trong HTML5 có tính hấp dẫn cao, bao trọn cả vai trò và cách sử dụng của
chúng. Các phiên bản trước của HTML thường dùng các thẻ không có gì nổi bật cả. Tuy nhiên,
HTML5 có các nhãn trực quan, có khả năng mô tả cao. Nó cung cấp các nhãn nội dung phong phú
ngay lập tức xác định nội dung.
2.3.2. Kiến trúc của HTML5

Hình 2.4. Kiến trúc của HTML5.
Hệ thống được phân chia rõ ràng thành hai phần riêng biệt, back-end và front-end. Các hành
vi của back-end giống như một API cho front-end lấy dữ liệu và thực hiện các giao dịch. Front-end

là một ứng dụng độc lập tương tác với người dùng mà không cần kiểm tra back-end.Để quản lý các
cấu trúc ứng dụng trang đơn front-end phải sử dụng kiến trúc MVC.
2.4. Kỹ thuật tìm kiếm Search engine
Search Engine, tạm dịch là công cụ tìm kiếm. Trong thời đại công nghệ thông tin phát triển
như hiện nay, mỗi ngày có hàng tỉ thông tin được đưa lên Internet, mà người dùng thì chỉ cần tìm


12
kiếm một vài thông tin mà mình mong muốn, như vậy nếu không có một sự trợ giúp tìm kiếm thông
tin nào thì rất khó có thể tìm được thông tin mình cần và SE ra đời cũng vì mục đích đó, với SE
người dùng sẽ dễ dàng hơn rất nhiều trong việc tìm kiếm và thu thập thông tin.
2.4.1. Cách hoạt động thông thường của một SE:
SE hoạt động theo quy trình sau: Crawl>>Index>>Analyzer>>Result
2.4.2. Mô hình không gian Véc tơ
2.4.2.1 Truy xuất thông tin (IR – Information Retrieval)
Tìm kiếm tài nguyên trên tập các dữ liệu được lưu trữ trên máy tính nhằm giải quyết nhu cầu
tìm kiếm thông tin của người dùng. Chúng ta coi rằng khi người dùng gõ thông tin tìm kiếm tữ là và
gọi câu truy vấn và thông tin đáp ứng là các tài liệu. Mỗi cách tiếp cận IR gồm 2 thành phần chính:
một là kỹ thuật biểu diễn thông tin và hai là phương pháp so sánh các cách biểu diễn này.
2.4.2.2 Trọng số mục từ
Mỗi tài liệu được biểu diễn bằng một véc tơ d, trong không gian véc tơ, d = {tf
1
,tf
2
,…,tf
n
}
trong đó tf
i
(i=1,…,n) là tần suất xuất hiện của từ ti trong tài liệu. Để biểu diễn tất cả các tài liệu và

sử dụng chúng như véc tơ đặc trưng của chúng ta. Thỉnh thoảng, một vài phương pháp được sử
dụng đã gộp tần suất xuất hiện từ và tần suất nghịch đảo tài liệu. Tần suất xuất hiện tài liệu df
i
là số
lượng tài liệu trong tập N tài liệu mà từ t
i
xuất hiện. Một thành phần tần suất nghịch đảo tài liệu
(idf) được định nghĩa là log(N/df
i
). Trọng số của từ ti trong tài liệu được định nghĩa theo công thức
dưới đây:
w
i
= tf
i
× log(N/df
i
)

2.4.2.3. Mô hình không gian vector(The vector space model)
Mô hình này sẽ biểu diễn tài liệu d như một véc tơ tần suất các mục từ. Với hai tài liệu trên
thì tuy có các mục từ giống nhau, nhưng biểu diễn véc tơ của chúng thì lại khác nhau, khi đó chúng
ta có thể tính toán mức tương quan giữa hai tài liệu: Đối với truy vấn q chúng ta xũng xem đây là
một véc tơ biểu diễn tần suất các mục từ truy vấn. Mức độ tương quan giữa hai véc tơ được tính
theo hàm cosin của góc giữa chúng.
2.5. Kết chƣơng:
Chương 2 trình bày chi tiết về WebSocket và các API. Các API này sẽ được sử dụng để thực
hiện tìm kiếm dữ liệu trên đám mây.Giới thiệu về kỹ thuật tìm kiếm search engine để có thể hiểu
được quy trình tìm kiếm. Việc tìm kiếm truy vấn dữ liệu như thế nào sẽ được trình bày chi tiết hơn
ở chương kế tiếp bằng cách sử dụng công nghệ tìm kiếm lucene.



13
CHƢƠNG 3 - THỬ NGHIỆM MÔ HÌNH TRA CỨU DỮ LIỆU TRÊN
OWNCLOUD
3.1.Cài đặt và cấu hình OwnCloud
Tải ownCloud client từ địa chỉ Sau đó tiến hành cài đặt
thông thường.
Kết nối ownCloud client đến ownCloud server bằng cách kết nối client đến ownCloud in a
box 4.5.15 chạy trên vmwareplayer. Các thao tác cấu hình được thực hiện tuần tự như sau:
Tải Vmplayer về máy.
Tải ảnh VMware của ownCloud in a box
Giải nén hình ảnh vào một thư mục bất kỳ trên máy tính.
Khởi động hình ảnh vừa tải về bằng chương trình Vmplayer.
Đăng nhập với user là root và mật khẩu là linux.
Sau khi đăng nhập thành công gõ ifconfig để có được địa chỉ ip của máy ảo.
Đăng nhập qua trình duyệt bất kỳ có kết nối đến internet tại địa chỉ local_ip/ownCloud với
username là admin và mật khẩu là ownCloud42.
Tải các tập tin lên thông qua trình duyệt.
Truy cập các tập tin từ các thiết bị/máy tính khác qua một trình duyệt.
3.2. Xây dựng Framework tra cứu dữ liệu trên đám mây
Sử dụng framework lucene để xây dựng ứng dụng tìm kiếm theo file system. Lucene là phần
mềm mã nguồn mở, dùng để phân tích, đánh chỉ mục và tìm kiếm thông tin với hiệu suất cao
bằng Java.
3.2.1. Các thành phần và chức năng
Trong thư viện Lucene gồm 4 gói thư viện chính:
org.apache.lucene.document.
org.apache.lucene.analysis.
org.apache.lucene.index.
org.apache.lucene.search.

Chia ra 2 thành phần: thành phần tạo chỉ mục và thành phần tìm kiếm.


14

Hình 3.1. Các thành phần Lucene hỗ trợ cho hệ thống tìm kiếm.
Thành phần tạo chỉ mục: bao gồm các chức năng xử lý tạo chỉ mục, từ văn bản đầu vào để
cho ra kết quả là một tập chỉ mục. Lucene chỉ hỗ trợ trên văn bản sau khi được tách nội dung ở dạng
ký tự thuần, nó cho phép lập chỉ mục trên từng trường thông tin của văn bản và cho phép thiết lập
hệ số cho từng trường thông tin để nâng cao vai trò tìm kiếm.
3.2.2. Cách đánh chỉ mục của Lucene
Lucene coi mỗi đối tượng cần đánh chỉ mục là một Document. Mỗi Document có thể có
nhiều Field, mỗi Field tương ứng một thuộc tính của đối tượng cần đánh chỉ mục.

Hình 3.2. Mô tả cách đánh chỉ mục của Lucene.
3.3. Thử nghiệm mô hình tra cứu dữ liệu trên trình duyệt Chorme
Mô hình tra cứu dữ liệu dưới đây là mô hình tra cứu dữ liệu trên đám mây của viện công
nghiệp phần mềm và nội dung số có tên là iDragon Cloud.
Trước khi thực hiện tra cứu trên đám mây người dùng phải đăng nhập vào hệ thống, nếu
chưa có tài khoản người dùng có thể đăng ký. (quản lý và xác thực người dùng dịch vụ đám mây,


15
phân quyền người dùng dựa trên nhóm đám mây, kiểm toán thời gian và tài nguyên sử dụng dịch vụ
đám mây).
Sau khi đăng nhập thành công, sẽ xuất hiện giao diện kho lưu trữ dữ liệu đám mây. Tại đây,
người dùng có thể tìm kiếm dữ liệu theo tên file, hoặc theo ngày tháng. Dữ liệu trên đám mây có thể
được xem qua nền web mà không cần tải về. Mọi tài liệu đều được lưu trữ tập trung và kiểm soát.
Mọi hoạt động(tạo/ sửa/ xóa/ in…) đều được ghi lại.


Hình 3.3. Mô tả kho lƣu trữ dữ liệu đám mây iDragon Cloud.

Hình 3.4. Mô tả cách thức tìm kiếm trên iDragon Cloud theo tên file

Hình 3.5. Mô tả cách thức tìm kiếm trên iDragon Cloud theo ngày tháng.




16
3.4. Kết Chƣơng:
Chương 3 giới thiệu tổng quan về chương trình tra cứu dữ liệu trên đám mây, chi tiết từ cách
cài đặt và cấu hình ownCloud, kèm theo đó là mô phỏng về quá trình tìm kiếm bằng công nghệ
lucene. Thử nghiệm mô hình tra cứu dữ liệu trên trình duyệt Chorme với phần mềm nguồn mở
iDragon Cloud của viện công nghiệp phần mềm và nội dung số. Qua đó có một cái nhìn chi tiết hơn
về mối liên quan giữa đám mây(ownCloud) và các API của ngôn ngữ HTML5.
KẾT LUẬN
Một số kết quả đạt được của luận văn:
Hiểu được kiến trúc cũng như cách thức hoạt động và mô hình lưu trữ của đám
mây(ownCloud).
Nghiên cứu công nghệ tìm kiếm search engine lucene giúp hiểu được cách thức tìm kiếm
trên đám mây (ownCloud) thông qua các API của HTML5 trêm nền tảng WebSocket.
Thông qua việc tìm hiểu ứng dụng nguồn mở giúp hiểu rõ hơn về ứng dụng của đám mây
trong cuộc sống hiện tại đặc biệt với các doanh nghiệp và các tổ chức.
Một số hướng nghiên cứu phát triển luận văn trong tương lai:
Nghiên cứu về công nghệ lưu trữ song song(Parallels Cloud Storage).
Tìm hiểu về các công nghệ machine to machine, webkit trên HTML5.
Phát triển ứng dụng tìm kiếm có thể tìm kiếm theo ảnh giống như Google.


×