Tải bản đầy đủ (.pdf) (3 trang)

Nghiên cứu ảnh hưởng của storage engine đến hiệu năng các ứng dụng kho dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (227.78 KB, 3 trang )

Nghiên cứu ảnh hưởng của storage engine đến
hiệu năng các ứng dụng kho dữ liệu

Nguyễn Đức Hải

Trường Đại học Công nghệ
Luận văn Thạc sĩ ngành: Hệ Thống Thông Tin; Mã số: 60 48 05
Người hướng dẫn: TS. Nguyễn Hải Châu
Năm bảo vệ: 2011

Abstract: Tổng quan kiến trúc hệ quản trị cơ sở dữ liệu MySQL; Các kỹ thuật lưu trữ:
trình bày một cách khái quát và chi tiết nhất về lịch sử hình thành và kiến trúc của
MySQL; Các kỹ thuật lưu trữ hàng và lưu trữ theo cột; MySQL hỗ trợ rất nhiều loại
kiểu lưu trữ khác nhau như InnoDB, MyISAM, còn kỹ thuật lưu trữ theo cột thì có
InforBright; Trong lưu trữ theo hàng thì chúng ta sẽ đi tìm hiểu về đặc điểm, tính năng
của mỗi loại kỹ thuật, từ đó rút ra các mặt hạn chế cũng như mặt tích cực của mỗi loại,
đồng thời có đưa ra những kinh nghiệm cho việc sử dụng ứng dụng tương ứng với kỹ
thuật lưu trữ nào; Còn về kỹ thuật lưu trữ theo cột, chúng ta sẽ tìm hiểu chi tiết về kiến
trúc lưu trữ, các tính năng cũng như miền ứng dụng của kỹ thuật này. Giải pháp kho
dữ liệu Pentaho; Tổng quan kiến trúc, cài đặt vận hành: trình bày về giải pháp kho dữ
liệu, các ứng dụng trong bộ Pentaho; Tổng quan kiến trúc trong Pentaho và tìm hiểu
cách cài đặt vận hành Pentaho BI server, đồng thời cũng chạy các ví dụ có sẵn của
Pentaho. So sánh hiệu năng kho ứng dụng Pentaho với hai kỹ thuật lưu trữ hàng và
cột: trình bày về hiệu năng của kho ứng dụng trên MySQL và so sánh với các hàm
trong SQL mà các kho dữ liệu hay dùng như hàm MAX, MIN, AVG …

Keywords: Công nghệ thông tin; Kho dữ liệu; Quản trị dữ liệu; Máy tính

Content
Trong quá trình phát triển của doanh nghiệp, các nhà quản lý doanh nghiệp thường có
các chiến lực kinh doanh và đưa ra các sản phẩm mới. Trong bối cảnh thị trường phải cạnh


tranh quyết liệt để dành thị phần thì mỗi một chiến lược kinh doanh tối ưu sẽ mang lại lợi thế
rất lớn cho doanh nghiệp.
Mặt khác, luôn đồng hành với sự phát triển của doanh nghiệp là các hệ thống thông tin
lưu trữ của các doanh nghiệp, chẳng hạn như các hệ thống thanh toán ngân hàng, bưu chính,
hay các công ty kinh doanh khác về tài chính, bảo hiểm, dịch vụ, du lịch …, một ngày có tới
hàng triệu bản ghi được lưu trữ mới trong hệ thống. Câu hỏi đặt ra là làm gì với những dữ liệu
ngày càng lớn kia. Kho dữ liệu khổng lồ đó có ích gì với doanh nghiệp, có ích gì với những
chiến lược kinh doanh. Câu trả lời là kho dữ liệu ngày càng lớn đó là “nguồn tài nguyên vô
cùng quý giá” bởi vì kho dữ liệu khổng lồ này rất hữu ích cho việc phân tích kinh doanh, giúp
cho người quản lý doanh nghiệp có những định hướng kinh doanh trong tương lai. Mặt khác
kho dữ liệu này cũng là tiền đề của hệ thống hỗ trợ ra quyết định.
Hiện nay, khái niệm về Business Intelligence (BI, tạm dịch là Kinh doanh thông minh
hay trí tuệ doanh nghiệp) ở Việt Nam còn khá mới mẻ và các doanh nghiệp lớn ở Việt Nam

2
Vẫn chưa triển khai BI vì rất nhiều lý do. BI có thể giúp gì cho việc trợ giúp ra quyết định
hiệu quả trong kinh doanh của doanh nghiệp.
Đặc điểm của một hệ thống kinh doanh thông minh là dữ liệu phục vụ cho các hoạt
động kinh doanh rất lớn, nên yêu cầu về hiệu năng là vấn đề phải quan tâm. Mặt khác để xây
dựng hệ thống đó phải cần đến những nhà thiết kế có kinh nghiệm và làm sao giảm thiểu tối
đa chi phí cho doanh nghiệp nhưng vẫn đáp ứng được những yêu cầu mà người quản lý đề ra.
Từ những yêu cầu thức tế trên, đề tài luận văn “Nghiên cứu ảnh hưởng của storage
engine đến hiệu năng các ứng dụng kho dữ liệu” phần nào có một câu trả lời cho vấn đề đang
gặp phải của các nhà thiết kế ứng dụng kho dữ liệu. Việc lưu trữ dữ liệu hiện tại trên các hệ
quản trị CSDL như thế nào và kỹ thuật lưu trữ đó sẽ ảnh hưởng đến hiệu năng của các ứng
dụng trên kho dữ liệu ra sao. Đây cũng là mục tiêu nghiên cứu của đề tài luận văn.
Với sự kết hợp của các phần mềm mã nguồn mở là MySQL và Pentaho, các kỹ thuật
lưu trữ hàng và cột trong MySQL là một giải pháp tốt nhất về mặt chi phí cũng như hiệu quả
mang lại để xây dựng các ứng dụng kho dữ liệu phục vụ cho việc kinh doanh và ra quyết định
trong doanh nghiệp.

Mục tiêu và phạm vi của luận văn: Mục tiêu của đề tài luận văn hướng đến là
- Tìm hiểu kiến trúc tổng quan của hệ quản trị cơ sở dữ liệu MySQL
- Tìm hiểu các kỹ thuật lưu trữ khác nhau trong MySQL
- So sánh các kỹ thuật lưu trữ trên MySQL
- Tìm hiểu về kiến trúc tổng quan của hệ Pentaho BI
- Cài đặt vận hành hệ Pentaho server
- So sánh hiệu năng của các kỹ thuật lưu trữ trên Pentaho
Đưa ra giải pháp kho dữ liệu tối ưu nhất sử dụng các ứng dụng mã nguồn mở, giúp
cho doanh nghiệp có một lựa chọn tốt nhất cho việc xây dựng kho dữ liệu phục vụ cho quá
trình kinh doanh và hỗ trợ ra quyết định cho người quản lý.
Trong phạm vi nghiên cứu cửa mình, luận văn sẽ tìm hiểu các kỹ thuật lưu trữ và đánh
giá hiệu năng của các kỹ thuật này lên kho dữ liệu. Tìm hiểu kiến trúc tổng quan của bộ mã
nguồn mở Pentaho đồng thời hướng dẫn cài đặt bộ Pentaho BI server. Ngoài những kết quả
đó luận văn còn đem lại một lựa chọn tốt nhất cho các doanh nghiệp muốn xây dựng kho dữ
liệu với.
Cấu trúc của luận văn: Luận văn được chia thành ba chương như sau.
Chương 1: Tổng quan kiến trúc hệ quản trị cơ sở dữ liệu MySQL. Các kỹ thuật lưu trữ
Trong chương này sẽ trình bày một cách khái quát và chi tiết nhất về lịch sử hình
thành và kiến trúc của MySQL. Các kỹ thuật lưu trữ hàng và lưu trữ theo cột. MySQL hỗ trợ
rất nhiều loại kiểu lưu trữ khác nhau như InnoDB, MyISAM, còn kỹ thuật lưu trữ theo cột thì
có InforBright. Trong lưu trữ theo hàng thì chúng ta sẽ đi tìm hiểu về đặc điểm, tính năng của
mỗi loại kỹ thuật, từ đó rút ra các mặt hạn chế cũng như mặt tích cực của mỗi loại, đồng thời
có đưa ra những kinh nghiệm cho việc sử dụng ứng dụng tương ứng với kỹ thuật lưu trữ nào.
Còn về kỹ thuật lưu trữ theo cột, chúng ta sẽ tìm hiểu chi tiết về kiến trúc lưu trữ, các tính
năng cũng như miền ứng dụng của kỹ thuật này.
Chương 2: Giải pháp kho dữ liệu Pentaho. Tổng quan kiến trúc, cài đặt vận hành
Trong chương này sẽ trình bày về giải pháp kho dữ liệu, các ứng dụng trong bộ
Pentaho. Tổng quan kiến trúc trong Pentaho và tìm hiểu cách cài đặt vận hành Pentaho BI
server, đông thời cũng chạy các ví dụ có sẵn của Pentaho.
Chương 3: So sánh hiệu năng kho ứng dụng Pentaho với hai kỹ thuật lưu trữ hàng và

cột

3
Trong chương này sẽ trình bày về hiệu năng của kho ứng dụng trên MySQL và so
sánh với các hàm trong SQL mà các kho dữ liệu hay dùng như hàm MAX, MIN, AVG…

References
TÀI LIỆU THAM KHẢO
Tiếng Việt
1.
Tiếng Anh
2. Baron Schwartz, Peter Zaitsev, Vadim Tkachenko, Jeremy D. Zawodny,
Arjen Lentz, and Derek J. Balling (2008), “High Performance MySQL, Giayond
Edition”, tr.1-14
3. Jeremy D. Zawodny and Derek J. Balling. O'Reilly & Associates (2004)
, “High Performance MySQL: Optimization, Backups, Replication, Load-balancing,
and More”,tr.22-35
4. Vikram Vaswani. McGraw-Hill, December (2003). “MySQL (TM): The Complete
Reference”, tr.10-35
5. Arie Jones, Ryan K. Stephens, Ronald R. Plew,Robert F. Garrett, Alex Kriegel
(2005), SQL Functions, tr 59-87
6. Roland Bouman and Jos van Dongen (10/2009), “Pentaho Solutions Business
Intelligence and Data Warehousing with Pentaho and MySQL”, tr.1-90
7. María Carina Roldán(10/2010), “Pentaho 3.2 Data Integration”, tr.7-60
8. Roland Bouman and Jos van Dongen(2009). “Pentaho Solutions: Business
Intelligence and Data Warehousing with Pentaho and MySQL”, tr1-55
9. Pulvirenti Adrián Sergio and Roldán María Carina (Jun 23, 2011), “Pentaho Data
Integration 4 Cookbook”, tr 1-35
10.
11.

12.
13.
14. infobright.org –A Guide To Infobright For Microsoft Windows® Developers
15. infobright.org –Data transfer MySQL to Infobright

×