Tải bản đầy đủ (.doc) (50 trang)

Công cụ tạo dữ liệu mẫu cho Kho Dữ Liệu + Code minh họa

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (533.89 KB, 50 trang )

CÔNG CỤ TẠO DỮ LIỆU MẪU…

HỒ XUÂN KIÊN

MỤC LỤC
MỤC LỤC..............................................................................................................................1
A. PHẦN MỞ ĐẦU...............................................................................................................3
I. Lý do chọn đề tài............................................................................................................3
II. Mục đích nghiên cứu....................................................................................................4
III. Đối tượng nghiên cứu..................................................................................................4
IV. Phạm vi nghiên cứu.....................................................................................................4
V. Phương pháp nghiên cứu..............................................................................................5
CHƯƠNG I: TỔNG QUAN VỀ HỆ THỐNG TƯ VẤN CHỌN NGÀNH THI VÀ
TRƯỜNG THI...................................................................................................................6
I.1. TẦM QUAN TRỌNG CỦA HỆ THỐNG...............................................................6
I.2. MÔ TẢ HỆ THỐNG TƯ VẤN...............................................................................7
CHƯƠNG II: LÝ THUYẾT VỀ TẠO DỮ LIỆU MẪU.................................................10
II.1. Một số khái niệm cơ bản về xác suất có liên quan đến tạo dữ liệu mẫu..............10
II.1.1. Định nghĩa xác suất.......................................................................................10
II.1.2. Biến ngẫu nhiên và quy luật phân phối đều của xác suất..............................10
II.2. Số ngẫu nhiên, giả ngẫu nhiên và phương pháp sinh số ngẫu nhiên trên máy tính
......................................................................................................................................14
II.2. 1. Số ngẫu nhiên...............................................................................................14
II.2. 2. Sinh số ngẫu nhiên trên máy tính - số giả ngẫu nhiên..................................14
II.3. Mô hình cho sự trình bày mô phỏng các thành phần............................................16
II.3.1. Động cơ thúc đẩy...........................................................................................16
II.3.2. Mô hình..........................................................................................................16
II.4. Những yêu cầu của quy trình tạo dữ liệu mẫu......................................................18
II.4.1. Sự chia cắt của việc thiết kế và sản xuất dữ liệu mẫu...................................18
II.4.2. Đầy đủ tính linh động trong việc thiết kế dữ liệu mẫu..................................18
II.4.3. Những sự đúng đắn được trình bày bằng thống kê........................................19


II.4.4. Tạo dữ liệu mẫu của thế gới thực..................................................................19
II.4.5. Tính nhất quán...............................................................................................19
II.4.6. Tính biến đổi được.........................................................................................19
II.4.7. Hỗ trợ tạo dữ liệu theo yêu cầu......................................................................19
II.4.8. Hỗ trợ của bất kỳ định dạng dữ liệu..............................................................20
II.4.9. Điều khiển của việc sản xuất dữ liệu mẫu.....................................................20
II.4.10. Sự an toàn/Quyền hạn..................................................................................20
II.4.11. Tính trong suốt cục bộ/Từ xa.......................................................................20
II.4.12. Sự độc lập nền.............................................................................................20
II.5. Quy trình tạo dữ liệu mẫu.....................................................................................21
II.6. Một số khái niệm cơ bản về kho dữ liệu liên quan tới chương trình....................22
II.6.1. Khái niệm và mục đích của kho dữ liệu........................................................22
II.6.2. Một số đặc tính dữ liệu trong kho dữ liệu......................................................23
II.6.3. Mô hình dữ liệu đa chiều...............................................................................24
CHƯƠNG III: XÂY DỰNG CÔNG CỤ DATA GENERATOR TOOL (DGT) CHO HỆ
THỐNG CHỌN NGÀNH THI VÀ TRƯỜNG THI........................................................30
III.1. Tổng quan............................................................................................................30
III.1.1.Mô hình tổng quát của quy trình tạo dữ liệu mẫu cho hệ thống....................30
III.1.2. Chỉ dẫn một số thành phần của mô hình quy trình tạo dữ liệu.....................31
III.2. Xây dựng công cụ DGT cho việc tạo dữ liệu mẫu..............................................32
III.2.1. Mô hình các trường hợp sử dụng của công cụ.............................................32
III.2.2. Biểu đồ hoạt động của công cụ....................................................................33
KHÓA LUẬN TỐT NGHIỆP

Trang 1

KHOÁ 2003-2007


CÔNG CỤ TẠO DỮ LIỆU MẪU…


HỒ XUÂN KIÊN

III.2.3. Định nghĩa nguồn dữ liệu ngoài...................................................................34
III.2.4. Định nghĩa Các chiều (Dimension)..............................................................42
III.2.5. Định nghĩa Các bảng chiều (Dimension Table)...........................................43
III.2.6. Định nghĩa các dữ kiện (Fact)......................................................................44
III.2.7. Định nghĩa bảng dữ kiện (Fact Table)..........................................................45
III.2.8. Tạo dữ liệu mẫu............................................................................................46
C. PHẦN KẾT LUẬN..........................................................................................................48
I. KẾT QUẢ ĐẠT ĐƯỢC..............................................................................................48
II. NHỮNG HẠN CHẾ CỦA ĐỀ TÀI............................................................................49
III. HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI.....................................................................49
TÀI LIỆU THAM KHẢO....................................................................................................50

KHÓA LUẬN TỐT NGHIỆP

Trang 2

KHOÁ 2003-2007


CÔNG CỤ TẠO DỮ LIỆU MẪU…

HỒ XUÂN KIÊN

A. PHẦN MỞ ĐẦU
I. Lý do chọn đề tài
Việc ứng dụng công nghệ thông tin vào các ngành nghề khác nhau trong xã
hội ngày càng được chú trọng.

Hệ thống mạng máy tính phát triển mạnh, đặc biệt là sự xuất hiện của mạng
internet đã làm cho xã hội dần chuyển sang cuộc sống số.
Các hệ thống kinh doanh, bán hàng, dịch vụ thông qua mạng internet đang
được áp dụng trong xa hội ngày nay.
Học bạ điện tử đang là vấn đề được nhà nước ta quan tâm.
Hệ thống thông tin tư vấn học tập được sinh ra cũng không nằm ngoài những
mục đích là tận dụng sự phát triển của mạng internet và đưa các dịch vụ tư vấn để
mọi người có thể được tư vấn một cách trực tuyến.
Hệ thống tư vấn chọn khối thi và ngành thi sẽ góp phần vào việc tư vấn cho
học sinh chọn ngành nghề, chọn trường học dựa vào một kho dữ liệu đã tồn tại khá
lâu (từ kho dữ liệu này người ta đưa ra được các luật sau đó dựa vào các luật này
mà hệ thống sẽ tư vấn lại cho học sinh).
Hệ thống thông tin tư vấn học tập dựa trên các dữ liệu sau :
• Học bạ học sinh
• Hồ sơ đăng ký dự thi của học sinh
• Kết quả tuyển sinh
Hệ thống thông tin tư vấn này do 3 sinh viên làm dưới sự hướng dẫn của
Thầy giáo Nguyễn Thanh Bình. Mỗi sinh viên sẽ đảm nhiệm một nhiệm vụ tương
ứng với một quy trình làm phần mềm, trong đó có một quy trình khá quan trọng đó
là kiểm định chất lượng phần mềm.
Mục đích của kiểm định phần mềm là để kiểm tra xem sản phẩm đó có đạt
chất lượng hay không, có thảo mãn yêu cầu không?

KHÓA LUẬN TỐT NGHIỆP

Trang 3

KHOÁ 2003-2007



CÔNG CỤ TẠO DỮ LIỆU MẪU…

HỒ XUÂN KIÊN

Đối với hệ thống tư vấn chọn khối thi và ngành thi thì việc có được một kho
dữ liệu này rất khó, có thể lên tới 10 năm, 20 năm hay hơn nữa mới có thể có được
và mới đưa ra đựợc các thông tin tư vấn chính xác.
Việc có được dữ liệu mô phỏng là một vấn đề hết sức quan trọng khi mà các
dữ liệu thật là rất khó khăn mới tập hợp được (ví dụ như ta rất khó có thể xin được
cơ sở dữ liệu tuyển sinh của các trường …). Dữ liệu mô phỏng này sẽ hỗ trợ cho
việc test các hệ thống, và mô phỏng các hệ thống thử nghiệm trước khi chuyển sang
hệ thống thật.
Việc tạo ra công cụ này sẽ giúp cho ta giảm bớt công sức và thời gian để đi
thu nhập dữ liệu…
Từ những lý do đó mà tôi đã chọn đề tài “XÂY DỰNG CÔNG CỤ TẠO DỮ
LIỆU DÙNG ĐỂ MÔ PHỎNG HỆ THỐNG TƯ VẤN CHỌN KHỐI THI VÀ
NGÀNH THI” làm đề tài khóa luận của mình.

II. Mục đích nghiên cứu
1. Xây dựng cơ sở dữ liệu của hệ thống tư vấn.
2. Xây dựng công cụ tạo ra dữ liệu dùng để mô phỏng hệ thống tư vấn chọn
khối thi và ngành thi gần giống dữ liệu thực, phản ánh được cấu trúc thật của dữ liệu.

III. Đối tượng nghiên cứu
1. Dữ liệu tuyển sinh (học bạ, hồ sơ tuyển sinh, kết quả tuyển sinh).
2. Kho dữ liệu (cấu trúc đa chiều trong kho dữ liệu, bảng dự kiến cơ số).
3. Khai phá dữ liệu.
4. Các phương pháp hỗ trợ cho việc tạo dữ liệu mẫu.
5. Công cụ lập trình DOTNET, XML, SQL…


IV. Phạm vi nghiên cứu
1. Tìm hiểu dữ liệu liên quan đến tuyển sinh.
2. Xây dựng công cụ sinh dữ liệu cho hệ thống tư vấn chọn khối thi và ngành thi.

KHÓA LUẬN TỐT NGHIỆP

Trang 4

KHOÁ 2003-2007


CÔNG CỤ TẠO DỮ LIỆU MẪU…

HỒ XUÂN KIÊN

V. Phương pháp nghiên cứu
1. Nghiên cứu lý thuyết
Tham khảo sách, báo, tạp chí, các website và các tài liệu liên quan đến
vấn đề tư vấn học tập.
2. Nghiên cứu thực tiễn
Tìm hiểu cách lưu trữ các loại hồ sơ liên quan đến tuyển sinh ở một số
trường đại học.
Tham khảo ý kiến của thầy giáo hướng dẫn để có sự định hướng tốt
hơn về đề tài.
3. Nghiên cứu kỹ thuật lập trình
Nghiên cứu các công cụ hỗ trợ cho việc lập trình như C#, các hệ quản
trị cơ sở dữ liệu như SQL 2000, SQL 2005 ACCESS, ngôn ngữ đánh dấu mở rộng
XML và các công nghệ liên quan tới.

KHÓA LUẬN TỐT NGHIỆP


Trang 5

KHOÁ 2003-2007


CÔNG CỤ TẠO DỮ LIỆU MẪU…

HỒ XUÂN KIÊN

B. NỘI DUNG
CHƯƠNG I: TỔNG QUAN VỀ HỆ THỐNG TƯ VẤN CHỌN NGÀNH
THI VÀ TRƯỜNG THI
I.1. TẦM QUAN TRỌNG CỦA HỆ THỐNG
Việc định hướng chọn ngành thi và trường thi là một vấn đề quan trọng từ
trước đến nay. Hiện nay khi nền giáo dục được đặt thành nhiệm vụ “quốc sách hàng
đầu” thì vấn đề này lại trở nên rất nóng bỏng. Làm thế nào để biết sắp tới đây mình
nên thi khối gì?, ngành gì?, trường gì?, đối với học sinh 12 là một vấn đề rất khó.
Thực tế cho thấy rằng, học sinh chưa được hướng nghiệp một cách rõ ràng
và đầy đủ khi chuẩn bị rời ghế phổ thông. Học sinh gặp rất nhiều ngỡ ngàng và lúng
túng khi đặt bút vào hồ sơ tuyển sinh. Hầu hết các em đều nhắm vào những ngành
nghề đầy hấp dẫn như lập trình viên, tiếp viên hàng không, phóng viên, kỹ thuật
viên, kĩ sư,...mà không biết liệu mình có đủ khả năng để thi không và không lường
trước được sự mạo hiểm đó. Hoặc là do sự áp đặt của bố mẹ trong khi các bậc phụ
huynh lại chưa nhận được sự tư vấn nào. Hơn nữa, các thông tin về vấn đề tuyển
sinh như sách, báo thì giới thiệu còn mang tính chất chung chung, sơ sài, thông tin
trên mạng nhiều nhưng cũng không kém phần sơ sài và học sinh sắp tốt nghiệp và
thi đại học thì cũng có rất ít thời gian để tìm hiểu. Hằng năm, tại mỗi trường, mỗi
tỉnh đều có tổ chức tư vấn hướng nghiệp cho học sinh. Nhưng liệu với thời gian ít ỏi
đó, với số lượng giảng viên có hạn như vậy thì có cung cấp những thông tin một

cách đầy đủ, chi tiết về các ngành các trường và giải đáp cho hàng ngàn học sinh,
thí sinh không?. Thực tế thì những buổi như vậy chỉ cung cấp các thông tin mang
tính chất chung chung.
Thực trạng đó đã làm cho kết quả tuyển sinh quá thấp, số lượng học sinh bị
điểm 0 (tổng kết quả 3 môn) còn nhiều, hơn 80% thí sinh dự thi có tổng điểm thi
ĐH dưới 15. Thậm chí nhiều học sinh khi đã là sinh viên năm 1, năm 2 mới nhận ra
rằng quyết định ban đầu của mình về nghề nghiệp là không phù hợp và đã đăng kí
dự thi tuyển sinh. Nếu học sinh được tư vấn hướng nghiệp một cách đầy đủ, phù
hợp thì sẽ làm hạn chế rất nhiều tình trạng đó. Do vậy tư vấn hướng nghiệp là một
nhu cầu cần thiết và không thể thiếu đối với học sinh và các bậc phụ huynh. Từ nhu
KHÓA LUẬN TỐT NGHIỆP

Trang 6

KHOÁ 2003-2007


CÔNG CỤ TẠO DỮ LIỆU MẪU…

HỒ XUÂN KIÊN

cầu đó, nhóm nghiên cứu chúng tôi đã chọn làm đề tài khoá luận về hệ thống tư vấn
chọn ngành thi và trường thi với mong muốn giúp cho các học sinh và bậc phụ
huynh có được những thông tin cần thiết, đầy đủ và giúp họ trả lời cho câu hỏi “với
khả năng của tôi như vậy, tôi thi vào trường A, ngành B thì có được không? Và liệu
quyết định đó có mạo hiểm không?” và giúp nâng cao chất lượng thi tuyển sinh của
đất nước.
Hệ thống tư vấn chọn ngành thi và trường thi được xây dựng nhằm tin học
hoá việc tư vấn hướng nghiệp cho học sinh. Hệ thống giúp cho học sinh và bậc phụ
huynh có được những thông tin tư vấn mà họ cần trước khi bước vào ngưỡng cửa

đại học.
* Hệ thống hoạt động như sau:
Hệ thống cho phép học sinh hoặc các bậc phụ huynh nhập những thông tin cá
nhân cần thiết mà hệ thống cần để tư vấn như học lực, ngành thi , trường thi, địa chỉ
nơi học, địa chỉ thường trú (hoặc là đối tượng ưu tiên) vào. Từ những thông tin như
vậy thì hệ thống sẽ trả về cho học sinh những tư vấn cần thiết, các thông tin đó là
những thông tin có tính chính xác cao và phù hợp.
I.2. MÔ TẢ HỆ THỐNG TƯ VẤN
* Hệ thống được mô hình trong hình 1.1:

Hình 1.1- Mô hình hệ thống tư vấn chọn ngành thi và trường thi
* Mô tả hệ thống:

KHÓA LUẬN TỐT NGHIỆP

Trang 7

KHOÁ 2003-2007


CÔNG CỤ TẠO DỮ LIỆU MẪU…

HỒ XUÂN KIÊN

Giả sử từ những cơ sở dữ liệu khác nhau tồn tại trong một khoảng thời gian
dài, tức là dữ liệu của các cơ sở dữ liệu này là rất lớn nó được thu nhập từ các hoạt
động hàng ngày cụ thể ở đây là học bạ học sinh, hồ sơ đăng ký tuyển sinh, kết quả
tuyển sinh. Các cơ sở dữ liệu này đều liên quan đến những thông tin về học sinh
như tên, tuổi, nơi ở, quá trình học tập ở trường phổ thông, các thông tin liên quan
đến chính sách như con thương binh liệt sĩ, người dân tộc hẻo lánh, điểm học tập

của học sinh trong 3 năm học phổ thông, các nguyện vọng của học sinh khi đăng ký
vào các trường đại học, cao đẳng, kết quả tuyển sinh của các môn thi vào các trường
đại học …Vậy làm sao mà ta có thể đưa ra được kết quả tư vấn dựa vào các thông
tin trên?
Đầu tiên hệ thống sẽ dựa vào các cơ sở dữ liệu nguồn ngoài để tích hợp
lên thành một kho dữ liệu gồm có các chiều là 1) chiều thời gian cụ thể ở đây là
năm tuyển sinh, 2) chiều địa lý ở đây là nơi mà thí sinh ở, 3) chiều ngành, trường
mà thí sinh đăng ký dự thi vào và có các dữ kiện như học lực của 3 môn thi, điểm
cộng của từng đối tượng thí sinh, số lượng thí sinh thi vào, số lượng thí sinh đậu
trong số lượng thí sinh thi vào. Dữ liệu được tính hợp lên kho dữ liệu này là những
dữ liệu tồn tại trong thời gian dài đã được tinh lọc, mang tính tổng hợp, nhất
quán…
Nhưng từ kho dữ liệu cũng chưa đưa ra được kết quả tư vấn, để có được các
kết quả cho công việc thì cần phải có một công cụ khai phá trên dữ liệu đó. Khai
phá dữ liệu là nhằm trích rút từ kho dữ liệu ra những thông tin tiềm ẩn cần thiết có
ích, có giá trị, hợp thức và có thể hiểu được bị che dấu trong kho dữ liệu của hệ
thống tư vấn chọn ngành thi và trường thi. Kết quả của quá trình khai phá này thể
hiện dưới dạng các luật liên kết, từ đó xây dựng nên các mẫu thử khai phá dữ liệu
bằng các phương pháp, các thuật toán thích hợp (như phương pháp cây quyết định,
phương pháp luật kết hợp, phương pháp phân cụm,..) để tìm ra các tương tác, các
quan hệ có tầm quan trọng, hữu ích trong kho dữ liệu.Và các tương tác tìm ra được
dưới dạng luật đó sẽ là các căn cứ để tư vấn trong hệ thống này. Khi một học sinh
nhập thông tin cá nhân của mình vào hệ thống, các mẫu thử này sẽ giúp cho học
sinh dể dàng đối chiếu với khả năng, sở thích và nguyện vọng của mình và sẽ trả lời
được những điều mà học sinh cần hỏi hay nói cách khác là sẽ đưa ra thông tin tư
KHÓA LUẬN TỐT NGHIỆP

Trang 8

KHOÁ 2003-2007



CÔNG CỤ TẠO DỮ LIỆU MẪU…

HỒ XUÂN KIÊN

vấn cho học sinh dựa trên việc đối chiếu các thông tin học sinh đưa vào với các mẫu
dự đoán được bằng phương pháp khai phá dữ liệu. Từ những thông tin tư vấn như
vậy thì học sinh sẽ có được quyết định phù hợp nhất cho hướng đi nghề nghiệp của
bản thân.
Nhưng làm sao để cho hệ thống chạy được theo mô hình trên khi mà dữ liệu
mang tính chất lịch sử là chưa có?
Ở hệ thống này chúng tôi hoàn toàn mô phỏng cả việc tạo ra các cơ sở dữ
liệu nguồn ngoài là học bạ học sinh, hồ sơ đăng ký tuyển sinh, kết quả tuyển sinh và
mô phỏng cả kho dữ liệu tức là dữ liệu đã được tích hợp từ các cở sở dữ liệu nguồn
ngoài trên để có thể kiểm nghiệm tính đúng đắn của việc tư vấn và đảm bảo rằng
khi có một cơ sở dữ liệu thật như thế thì ta có thể xây dựng nên một hệ thống tư vấn
hoàn toàn đúng đắn như chúng tôi đã nghiên cứu trên các cơ sở dữ liệu mà chúng
tôi mô phỏng.
Để có được những cơ sở dữ liệu mà dữ liệu của nó là mang tính lịch sử là
một điều rất khó và nếu đã có những cơ sở dữ liệu như thế thì cũng chẳng có tổ
chức, cơ quan nào cho cả vì nó liên quan đến quyền lợi của họ và nhiều đối tượng
khác nhau trừ khi có một tổ chức nào đó xây dựng nên hệ thống thực sự nhưng
trước khi đưa sang sử dụng nguồn cơ sở dữ liệu thật thì cũng cần phải có một cơ sở
dữ liệu mô phỏng tương tự cơ sở dữ liệu thật để thử nghiệm tính đúng đắn của nó.
Chính từ những yêu cầu trên mà chúng tôi cần phải xây dựng nên một công
cụ mà có thể sinh ra dữ liệu để mô phỏng. Công cụ của chúng tôi sẽ sinh dữ liệu mô
phỏng cho học bạ học sinh, hồ sơ đăng ký tuyển sinh, kết quả tuyển sinh, đó là
những cơ sở dữ liệu nguồn ngoài của hệ thống và sinh luôn dữ liệu cho kho dữ liệu
tức là dữ liệu đã được tính hợp từ các cơ sở dữ liệu trên dựa trên các luật mà chúng

tôi đã tính toán trước.
Với hệ thống này chúng tôi mong muốn là khi đã có những cơ sở dữ liệu như
trên liên quan đến từng nghành nghề khác nhau thì chúng ta cũng có thể áp dụng
theo khung hệ thống này để có thể tìm ra được những thông tin có giá trị cao liên
quan đến ngành nghề của mình…

KHÓA LUẬN TỐT NGHIỆP

Trang 9

KHOÁ 2003-2007


CÔNG CỤ TẠO DỮ LIỆU MẪU…

HỒ XUÂN KIÊN

CHƯƠNG II: LÝ THUYẾT VỀ TẠO DỮ LIỆU MẪU
II.1. Một số khái niệm cơ bản về xác suất có liên quan đến tạo dữ liệu mẫu.
II.1.1. Định nghĩa xác suất
Định nghĩa: Xác suất xuất hiện biến cố A trong một phép thử là tỷ số giữa số
kết cục thuận lợi cho A và tổng số các kết cục duy nhất đồng khả năng có thể xảy ra
khi thực hiện phép thử đó.
Nếu ký hiệu P(A) là xác suất của biến cố A, m là số kết cục thuận lợi cho biến
cố A, n là số kết cục duy nhất đồng khả năng của phép thử. Khi đó xác suất của biến
cố A được xác định bằng:
P( A ) =

m
n


Xác suất của một biến cố bất kỳ luôn thoả mãn điều kiện: 0 ≤ P(A)≤ 1.
II.1.2. Biến ngẫu nhiên và quy luật phân phối đều của xác suất
II.1.2.1. Định nghĩa và phân loại biến ngẫu nhiên
II.1.2.1.1. Định nghĩa
Hàm X xác định trên không gian biến cố sơ cấp Ω và lấy giá trị trong không
gian R (R là tập số thực) được gọi là biến ngẫu nhiên nếu với bất kỳ x ∈ R tập {ω:
X(ω) < x} là biến cố ngẫu nhiên.
Ta thường ký hiệu biến ngẫu nhiên bằng chữ hoa X, Y, ... Giá trị của nó
thường ký hiệu bằng chữ thường x, y, ...
Các ví dụ về biến ngẫu nhiên:
- X là số con trai trong một lần sinh. X là biến ngẫu nhiên. Giá trị mà nó có thể
nhận là 0 và 1.
- X là số viên đạn trúng đích khi bắn n viên đạn độc lập vào một mục tiêu. Giá
trị mà nó có thể nhận là 0, 1, ..., n.
- X chỉ số sản phẩm tốt trong 10 sản phẩm chọn ra một cách ngẫu nhiên từ một
lô sản phẩm có 100 sản phẩm tốt và 50 sản phẩm xấu. X cũng là biến ngẫu nhiên.
Giá trị mà nó có thể nhận là 0, 1, ..., 10.

KHÓA LUẬN TỐT NGHIỆP

Trang 10

KHOÁ 2003-2007


CÔNG CỤ TẠO DỮ LIỆU MẪU…

HỒ XUÂN KIÊN


- X chỉ số chấm ở mặt trên của con xúc xắc khi gieo một lần một con xúc xắc
cần đối và đồng chất. X là biến ngẫu nhiên. Giá trị mà nó có thể nhận là 1, 2, ..., 6.
- X chỉ độ cao của một cây tại một thời điểm t nào đó cũng là biến ngẫu nhiên.
II.1.2.1.2. Phân loại biến ngẫu nhiên
Ta quan tâm đến hai loại biến ngẫu nhiên: biến ngẫu nhiên rời rạc và biến
ngẫu nhiên liên tục.
Biến ngẫu nhiên rời rạc là biến ngẫu nhiên mà giá trị có thể nhận của nó là
một tập hữu hạn hay đếm được
Biến ngẫu nhiên liên tục là biến ngẫu nhiên mà giá trị có thể nhận của nó là tất
cả các điểm trong khoảng (a, b) nào đó; a có thể là âm vô cùng và b có thể là dương
vô cùng.
II.1.2.2. Quy luật phân phối xác suất của biến ngẫu nhiên
II.1.2.2.1. Định nghĩa
Quy luật phân phối xác suất của biến ngẫu nhiên là sự tương ứng giữa các giá
trị có thể có của nó và các xác suất tương ứng với các giá trị đó.
Người ta thường sử dụng ba phương pháp để mô tả quy luật phân phối xác
suất của biến ngẫu nhiên là: Bảng phân phối xác suất, hàm phân phối xác suất và
hàm mật độ xác suất.
II.1.2.2.2. Bảng phân phối xác suất
Bảng phân phối xác suất chỉ dùng để mô tả quy luật phân phối xác suất của
các biến ngẫu nhiên rời rạc.
Giả sử biến ngẫu nhiên rời rạc X có thể nhận một trong các giá trị có thể có là
x1, x2, ..., xn với các xác suất tương ứng là p 1, p2, ..., pn. Bảng phân phối xác suất của
biến ngẫu nhiên rời rạc X được trình bày trong bảng 2.1.
X

x1

x2


...

xi

...

xn

P

p1

p2

...

pi

...

pn

Bảng 2.1- Bảng phân phối xác suất
Để tạo nên một quy luật phân phối xác suất thì các xác suất p i phải thoả mãn
KHÓA LUẬN TỐT NGHIỆP

Trang 11

KHOÁ 2003-2007



CÔNG CỤ TẠO DỮ LIỆU MẪU…

điều kiện:

0 ≤ p i ≤ 1
n

∑ p i = 1
 i =1

HỒ XUÂN KIÊN

∀i

II.1.2.2.3. Hàm phân phối xác suất
Bảng phân phối xác suất có một hạn chế là chưa đủ tổng quát để đặc trưng cho
một biến ngẫu nhiên tuỳ ý, nhất là trường hợp biến liên tục. Vì vậy ta có khái niệm
về hàm phân phối xác suất.
II.1.2.2.3.1. Định nghĩa
Hàm phân bối xác suất của biến ngẫu nhiên X, ký hiệu F(x), là xác suất để
biến ngẫu nhiên X nhận giá trị nhỏ hơn x, với x là một số thực bất kỳ.
F(x) = P(X < x)
Đây là công thức tổng quát của hàm phân bố xác suất.
Nếu X là biến ngẫu nhiên rời rạc thì hàm phân bố xác suất được xác định như
sau:

F( x ) =

∑P


xi < x

i

II.1.2.2.3.2. Tính chất
Hàm phân bố xác suất luôn nhận giá trị trong đoạn [0; 1]
0 ≤ F( x ) ≤ 1

Hàm phân bố xác suất là hàm không giảm, tức là với x2 > x1 thì:
F( x 2 ) ≥ F( x 1 )

Ta có biểu thức giới hạn sau:
F(-∞) = 0;

F(+∞) = 1

Từ các tính chất ta có hệ quả: Xác suất để biến ngẫu nhiên X nhận giá trị trong
khoảng [a, b) bằng hiệu số của hàm phân bố xác suất tại hai đầu khoảng đó
P(a ≤ X < b) = F(b) - F(a)
II.1.2.2.4. Hàm mật độ xác suất
II.1.2.2.4.1. Định nghĩa
KHÓA LUẬN TỐT NGHIỆP

Trang 12

KHOÁ 2003-2007


CÔNG CỤ TẠO DỮ LIỆU MẪU…


HỒ XUÂN KIÊN

Hàm mật độ xác suất của biến ngẫu nhiên liên tục X (ký hiệu là f(x)) là đạo
hàm bậc nhất của hàm phân bố xác suất của biến ngẫu nhiên đó
f ( x ) = F′( x )

Chú ý: Khái niệm hàm mật độ xác suất chỉ áp dụng được đối với các biến
ngẫu nhiên liên tục mà không áp dụng được đối với biến ngẫu nhiên rời rạc vì muốn
F'(x) tồn tại thì tối thiểu F(x) phải liên tục.
II.1.2.2.4.2. Các tính chất của hàm mật độ xác suất
Hàm mật độ xác suất luôn không âm
f(x) ≥ 0 ∀x
Xác suất để biến ngẫu nhiên liên tục X nhận giá trị trong khoảng (a; b) bằng
tích phân xác định của hàm mật độ xác suất trong khoảng đó
b

P( a < X < b ) = ∫ f ( x ) dx
a

Hàm phân bố xác suất F(x) của biến ngẫu nhiên liên tục X bằng tích phân suy
rộng của hàm mật độ xác suất trong khoảng (-∞; x)
F( x ) =

x

∫ f ( t ) dt

−∞


Tích phân suy rộng trong khoảng (-∞; +∞) của hàm mật độ xác suất bằng 1
+∞

∫ f ( x ) dx = 1

−∞

II.1.2.2.5. Quy luật phân phối đều
Phân phối đều là quy luật xác suất đơn giản nhất trong các quy luật phân phối
xác suất của biến ngẫu nhiên liên tục.
II.1.2.2.5.1. Phân phối đều rời rạc
Biến ngẫu nhiên X được gọi là tuân theo quy luật phân phối đều rời rạc với
tham số n, nếu X có bảng phân phối xác suất được trình bày trong bảng 2.2.
X

1

KHÓA LUẬN TỐT NGHIỆP

2

...

Trang 13

i

...

n


KHOÁ 2003-2007


CÔNG CỤ TẠO DỮ LIỆU MẪU…

P

1
n

HỒ XUÂN KIÊN

1
n

...

1
n

...

1
n

Bảng 2.2- Bảng phân phối xác suất theo quy luật phân phối đều rời rạc
Phân phối xác suất của biến ngẫu nhiên rời rạc được gọi là phân phối rời
rạc.
II.1.2.2.5.2. Phân phối đều liên tục

Biến ngẫu nhiên liên tục X được gọi là phân phối theo quy luật đều trong
khoảng (a; b) nếu hàm mật độ xác suất của nó có dạng:
 1

f ( x) = b − a
0

∀x ∈ ( a; b )
∀x ∉ ( a; b )

II.2. Số ngẫu nhiên, giả ngẫu nhiên và phương pháp sinh số ngẫu nhiên trên
máy tính
II.2. 1. Số ngẫu nhiên
Khi ta nói về một số ngẫu nhiên, nghĩa là ta không chú ý số đó là số mấy, số
nào cũng được. Tuy nhiên, các số ngẫu nhiên luôn được lấy trên một phạm vi nào
đó. Chẳng hạn số thực ngẫu nhiên trong nửa khoảng [0;1) hoặc số tự nhiên ngẫu
nhiên nhỏ hơn 1000. Trong ngôn ngữ thường ngày, ta thường hiểu số ngẫu nhiên
với ý nghĩa khả năng xuất hiện như nhau của mỗi số trong phạm vi nào đó khi đưa
ra số ngẫu nhiên.
II.2. 2. Sinh số ngẫu nhiên trên máy tính - số giả ngẫu nhiên
Thực ra, không có cách nào để tạo ra các số ngẫu nhiên thực sự từ một máy vi
tính. Khi viết một chương trình tạo số ngẫu nhiên trên máy tính, chắc chắn các số
đó tạo ra theo một quy tắc nào đó. Tuy nhiên, vấn đề không phải là chúng được tạo
ra theo quy tắc nào, mà là chúng có tuân theo một phân bố ngẫu nhiên nào đó
không. Nếu giả thiết một dãy số tuân theo một phân phối ngẫu nhiên nào đó được
chấp nhận chúng ta sẽ xem chúng là các số giả ngẫu nhiên. Mặc dù vậy, để ngắn
gọn chúng ta vẫn gọi những số giả ngẫu nhiên sinh ra trên máy tính là các số ngẫu
nhiên.
Trong mỗi ngôn ngữ lập trình quen thuộc như Pascal, C, Visual Basic, C#…


KHÓA LUẬN TỐT NGHIỆP

Trang 14

KHOÁ 2003-2007


CÔNG CỤ TẠO DỮ LIỆU MẪU…

HỒ XUÂN KIÊN

đều có một hàm sinh các số ngẫu nhiên có phân phối đều. Ví dụ như trong Pascal,
hàm Random sinh ra một biến ngẫu nhiên liên tục có khoảng phân phối đều trên
khoảng [0; 1), hàm Random(n) sinh ra một biến ngẫu nhiên rời rạc nhận các giá từ
1 đến n. Hay như trong C, hàm random(n) cũng sinh ra một biến ngẫu nhiên rời rạc
nhận các giá từ 1 đến n. Vậy các số ngẫu nhiên tuân theo phân phối đều được sinh
ra như thế nào? Trong luận văn này, em giới thiệu ở đây 1 trong số các phương
pháp sinh số ngẫu nhiên trong máy tính. Đó là phương pháp đồng dư tuyến tính.
Phương pháp đồng dư tuyến tính
Là phương pháp nổi tiếng nhất để tạo số ngẫu nhiên, được sử dụng gần như
độc chiếm kể từ khi D.Lehner đưa ra vào năm 1951. Phương pháp này tạo ra dãy
các số tự nhiên ngẫu nhiên từ 0 đến (m-1) cho vào mảng a. Thuật toán đơn giản như
sau:
a[0] = seed;
For i:=1 to N Do
a[i]:= (a[i-1]*b) mod m ;
Trong đó seed, b và m là các hằng số
Để các số được tạo ra phải qua được kiểm định khi bình phương ( χ 2 ) , việc
chọn các hằng số seed, b và m là quan trọng. Đã có nhiều khảo sát về vấn đề này,
chúng ta đưa ra ở đây lời khuyên của D.E.Knuth. Ông đã cho các lời khuyên như

sau: Nên chọn giá trị m đủ lớn, nó có thể là giá trị tối đa của một word, nhưng
không cần phải hoàn toàn lớn như vậy nếu không tiện. Thông thường, chọn m là
một luỹ thừa của 10 hay 2 là thuận lợi. Tiếp theo nên chọn b có ít hơn m một chữ
số, b là một hằng số tuỳ ý nên kết thúc bởi x21, với x là chữ số chẵn. Nếu lựa chọn
không đúng thì khả năng nghiêm trọng nhất là tạo ra một chu kỳ nhỏ so với miền
xác định của nó. Ví dụ như với b = 19, m = 381, seed = 0 sẽ tạo ra chuỗi 0, 1, 20, 0,
1, 20, … một chuỗi không ngẫu nhiên trong khoảng từ 0 đến 380.

KHÓA LUẬN TỐT NGHIỆP

Trang 15

KHOÁ 2003-2007


CÔNG CỤ TẠO DỮ LIỆU MẪU…

HỒ XUÂN KIÊN

II.3. Mô hình cho sự trình bày mô phỏng các thành phần
II.3.1. Động cơ thúc đẩy
Sự tăng độ phức tạp của hệ thống đã làm tăng giá trị của những mô phỏng.
Thông thường, mô phỏng là phương pháp luận khoa học duy nhất cho những người
đang thực hiện kỹ năng phân tích những hệ thống phức tạp. Tuy nhiên, chỉ một
phần nhỏ lợi nhuận thực tế của những mẫu mô phỏng đạt đến cộng đồng người sử
dụng bởi vì những sự đòi hỏi khá cao về thời gian, sự nỗ lực, chi phí để xây dựng và
sử dụng thành công các mẫu mô phỏng.
Thực tiễn sự mô phỏng hiện thời (1) là được cung cấp cho sự hỗ trợ ít tự
động cho mẫu phân tích ban đầu, giải quyết vấn đề và những thao tác thiết kế cái
mà có chất lượng lớn trong tự nhiên. (2) liên quan đến sự sử dụng không hữu ích

của thời gian từ cả phía chuyên gia trong lĩnh vực và cả các nhà phân tích mô phỏng
trong những nhiệm vụ thông thường và (3) trải qua thiếu hụt sự chấp nhận phổ biến
bởi người đưa ra quyết định vì một số các nhân tố bao gồm a) Sự sai khác ngữ
nghĩa giữa mô tả hệ thống mang tính bản chất của người quyết định và các mẫu trừu
tượng được tạo ra bởi người làm mẫu mô phỏng, b) khoảng thời gian ban đầu khá
dài và sự nỗ lực truyền thông đã đòi hỏi phải tạo ra các mẫu mô phỏng và c) sự đào
tạo và kỹ năng mở rộng đòi hỏi sự thiết kế và sử dụng hiệu quả của kỹ thuật tạo
hình mẫu mô phỏng.
Những tiến bộ gần đây trong lĩnh vực tạo mẫu mô phỏng đã tập trung cải
thiện ngôn ngữ mô phỏng. Những tiến bộ này đã chấm dứt sự sai khác nghĩa giữa
thiết kế mẫu mô phỏng và những chương trình mô phỏng thực thi tương ứng. Chúng
miêu tả những tiến bộ quan trọng trong việc cải thiện hiệu quả của các vật mô
phỏng, nhưng giúp rất ít cho những ai không được đào tạo về mô phỏng.
II.3.2. Mô hình
Một tư tưởng giải quyết chính là sự chỉ rõ 3 mức độ của sự trừu tượng để làm
thuận tiện cho mẫu mô phỏng và bản phân tích. Ba mức độ đó là (i) Mức vùng
(Domain Level), (ii) Mức thiết kế (Design Level), (iii) Mức thực thi và phân tích
(Execution and Analysis Level) , ba mức đó được thể hiện trong hình 2.1.
Mức vùng chỉ dẫn tới một tập hợp của sự am hiểu cấu trúc mà tóm lược
thông tin về lĩnh vực vấn đề rắc rối mà được nhắm tới bởi những mẫu mô phỏng và
KHÓA LUẬN TỐT NGHIỆP

Trang 16

KHOÁ 2003-2007


CÔNG CỤ TẠO DỮ LIỆU MẪU…

HỒ XUÂN KIÊN


kết quả phân tích. Chúng ta thừa nhận rằng những thông tin này có sẵn trong những
dạng có cấu trúc và có thể sử dụng lại được.
Mức thiết kế chỉ dẫn cho chúng ta những mẫu mà chỉ rõ sự hoạt động của các
giai đoạn khác nhau của mẫu mô phỏng và kết quả phân tích. Đặc biệt, những mẫu
này cung cấp những đặc tả cho những bản phân tích mô phỏng đưa vào, việc thực
thi những mẫu mô phỏng, những chi tiết của những thí nghiệm mô phỏng, sự tiến
hành nghiên cứu mô phỏng, và cả chi tiết tối ưu.
Mức thực thi và thiết kế cung cấp khối dữ liệu và thông tin cái mà được sinh
ra bởi sự thực thi của sự mô phỏng, phân tích, sự tối ưu. Những thông tin này được
tạo ra bởi các máy mô phỏng, các công cụ phân tích thí nghiệm, những công cụ đưa
ra kết quả phân tích và những công cụ tìm kiếm tối ưu.
Sự chia ra các mức cho phép nhiều dạng khác nhau của việc sử dụng lại và
cung cấp những sườn dựa trên khái niệm cho những mô phỏng thành phần cơ sở.
Duy trì những mẫu mô phỏng trong một lĩnh vực để dùng lại trong nhiều lĩnh vực
khác (như sản xuất, logic học, thương mại, quân sự...). Duy trì những đặc điểm của
mẫu mô phỏng cho phép sử dụng lại nhiều thể hiện mô phỏng, và các công cụ phân
tích (ví dụ như: những công cụ và những thành phần bán hàng tự động khác nhau
và những thành tố khác nhau có thể được sử dụng cho những chức năng mô phỏng
khác nhau (phân tích dữ liệu đưa vào, thể hiện mô phỏng, phân tích thí nghiệm...).
Dạng thứ hai của việc sử dụng lại cho phép kết thúc những người sử dụng để
chuyển sang công cụ mô phỏng nhiều thành tố cho những chức năng khác nhau
trong chu kì mô phỏng (đó là sử dụng những công cụ và những tiện ích đa mô
phỏng).

KHÓA LUẬN TỐT NGHIỆP

Trang 17

KHOÁ 2003-2007



CÔNG CỤ TẠO DỮ LIỆU MẪU…

HỒ XUÂN KIÊN

Hình 2.1: Mô hình cho sự trình bày mô phỏng các thành phần
II.4. Những yêu cầu của quy trình tạo dữ liệu mẫu
Phụ thuộc vào mục đích hay ý định, những người tiêu dùng dữ liệu mẫu có
thể chỉ rõ dữ liệu mẫu riêng lẻ cho những ứng dụng của họ. Hơn nữa họ có thể có
một giao diện mở với một công cụ sinh để điều khiển dễ dàng quy trình sinh Cho
việc sinh của dữ liệu mẫu cho kho dữ liệu và hệ thống OLAP, nó có một số yêu cầu
như sau:
II.4.1. Sự chia cắt của việc thiết kế và sản xuất dữ liệu mẫu
Tạo dữ liệu mẫu là một quy trình lặp lại mà bắt đầu với mô hình của dữ liệu
mẫu được yêu cầu và kết thúc với việc sản xuất tự động của dữ liệu này. Một sự
phục vụ tạo dữ liệu mẫu có thể thiết kế và sản xuất riêng lẻ của dữ liệu, cho phép
một sự khác biệt sáng sủa ở giữa mô hình Build- time và Run- time.
II.4.2. Đầy đủ tính linh động trong việc thiết kế dữ liệu mẫu
Dữ liệu mẫu là được mô tả bằng những cấu trúc dữ liệu của nó và những giá
trị dữ liệu. Việc thiết kế mẫu dữ liệu có thể linh động trong việc hạn chế nội dung
và thay đổi cấu trúc của dữ liệu mẫu. Cấu trúc dữ liệu của dữ liệu mẫu cho kho dữ
liệu hoặc những hệ thống OLAP khác nhau có thể là rất khác nhau. Để tạo mẫu dữ
liệu mà có thể dùng được trong những hệ thống khác nhau, quy trình tạo cho phép
hạn chế nội dung và thay đổi cấu trúc của dữ liệu mẫu đã mong muốn.

KHÓA LUẬN TỐT NGHIỆP

Trang 18


KHOÁ 2003-2007


CÔNG CỤ TẠO DỮ LIỆU MẪU…

HỒ XUÂN KIÊN

II.4.3. Những sự đúng đắn được trình bày bằng thống kê
Thông tin thống kê về dữ liệu thế gới thực có thể được áp dụng để tạo những
số lượng lớn hơn, mà có thể được sử dụng cho sự phân tích những ứng dụng.
Những sự đúng đắn được trình bày bằng thống kê cho phép chúng ta không chỉ áp
dụng để tạo dữ liệu nhất quán rất lớn những cũng để tạo một khả năng xẩy ra của dữ
liệu thế gới thực từ điểm thống kê của bên ngoài.
II.4.4. Tạo dữ liệu mẫu của thế gới thực
Dữ liệu mẫu thế gới thực có thể được được định nghĩa khác nhau, trước tiên
phụ thuộc vào ngữ cảnh ứng dụng. Diện mạo sau có thể được xem:


Cho xem và duyệt qua dữ liệu, mẫu dữ liệu có thể dễ dàng để đọc và xem
quen thuộc với người xem.

• Cho những liên kết và những cấu trúc dữ liệu, sự phân phối của những giá trị
dữ liệu mẫu được tạo ra có thể làm hài lòng sự mong muốn của những người
thiết dữ liệu mẫu.
II.4.5. Tính nhất quán
Đối với việc tạo dữ liệu mẫu, trong một vài trường hợp, dữ liệu không nhất
quán có thể được dùng để kiểm tra tác động thứ yếu (side-effect) những hoạt động
của một hệ thống. Tuy nhiên, trong một vài trường hợp khác, dữ liệu nhất quán là
được yêu cầu cho việc kiểm tra, chứng minh và đo lường một hệ thống. Về việc đó,
chúng tôi có ý định tạo một dữ liệu mẫu mà là nhất quán.

II.4.6. Tính biến đổi được
Sự phục vụ sản sinh có thể có khả năng tạo dữ liệu trên một tỉ lệ lớn. (Đặc
biệt là cho dữ liệu mẫu của những môi trường kho dữ liệu. Nó là cần cho số lượng
lớn khổng lồ của dữ liệu (Gigabytes và Terabytes). Về việc đó, một sự phục vụ tạo
dữ liệu mẫu có thể có khả năng điều khiển bằng tay giống như những số lượng của
dữ liệu và đánh giá một cách lạc quan sự thực thi cho việc sản xuất dữ liệu mẫu.
II.4.7. Hỗ trợ tạo dữ liệu theo yêu cầu
Người tiêu dùng dữ liệu mẫu thường xem dữ liệu từ nhiều khung nhìn khác
nhau. Nó thường cần thiết để tuỳ biến dữ liệu mẫu theo những khung nhìn này bằng

KHÓA LUẬN TỐT NGHIỆP

Trang 19

KHOÁ 2003-2007


CÔNG CỤ TẠO DỮ LIỆU MẪU…

HỒ XUÂN KIÊN

những sự biến đổi dữ liệu biểu diễn trên dữ liệu mẫu được tạo ra một cách sáng tạo.
Dữ liệu mẫu trong định dạng XML là đặc biệt thích hợp cho dữ liệu biến đổi được.
II.4.8. Hỗ trợ của bất kỳ định dạng dữ liệu
Nó có thể được thực hiện để tạo ra dữ liệu mẫu chung và chuyển nó vào
trong bất kỳ định dạng đích nào. Những định dạng chuẩn, như XML, DDL, hoặc
CSV có thể được hỗ trợ ngay lập tức. Nhưng những người tiêu dùng dữ liệu mẫu có
thể cũng có khả năng để tạo dữ liệu mẫu riêng lẻ với những định dạng đúng đắn.
II.4.9. Điều khiển của việc sản xuất dữ liệu mẫu
Tác nhân có thể điều khiển đầy đủ của quy trình tạo dữ liệu mẫu. Tác nhân

có thể là những người sử dụng khác hay những ứng dụng mà có thể điều khiển tạo
dữ liệu mẫu bằng sự tương tác giống như đang thực thi, đang huy bỏ hoặc điều
chỉnh việc tạo dữ liệu mẫu. Đặc biệt là trong suốt sự sản xuất dữ liệu mẫu, tác nhân
thường cần những máy móc để 1) cho phép những sự tuỳ biến xa hơn nữa để thích
nghi dữ liệu mẫu tới những ứng dụng của họ, và 2) chắc chắn rằng dữ liệu mẫu
được sản xuất là tương ứng với những yêu cầu của họ.
II.4.10. Sự an toàn/Quyền hạn
Việc sản xuất dữ liệu mẫu có thể là một trò tiêu khiển thực sự và sự phục vụ
cần nhiều thời gian. Về việc đó, sự phục vụ có thể cho phép chỉ một cách sử dụng
bởi những người tiêu dùng dữ liệu mẫu để ngăn ngừa lượng quá tái, ngăn chặn sử
dụng của dịch vụ hoặc sự phủ nhận của những sự tấn công dịch.
II.4.11. Tính trong suốt cục bộ/Từ xa
Một sự phục vụ tạo dữ liệu mẫu có thể có khả năng chạy giống như một ứng
dụng độc lập hoặc được phân bổ theo một kiểu nào đó trên một vài máy chủ. Khi số
lượng rất lớn của dữ liệu mẫu có thể đã được tạo, nó là cần thiết để thực thi sản xuất
dữ liệu mẫu trên một hoặc nhiều máy chủ.Với điều kiện là gán lại hợp lý cái mà sẽ
kết nối tới những sự phục vụ được phân bổ theo một kiểu nào đó.
II.4.12. Sự độc lập nền
Một dịch vụ tạo dữ liệu mẫu có thể có khả năng để chạy trên bất kỳ các nền
và bất kỳ các hệ điều hành. Những người tiêu dùng dữ liệu mẫu có thể có khả năng
sử dụng dịch vụ qua những trình duyệt WWW mà không “kiêu ngạo” bất kỳ cấu

KHÓA LUẬN TỐT NGHIỆP

Trang 20

KHOÁ 2003-2007


CÔNG CỤ TẠO DỮ LIỆU MẪU…


HỒ XUÂN KIÊN

hình đặc biệt nào. Bởi vậy, những ngôn ngữ độc lập nền giống như JAVA là có lợi
cho sự thi hành của dịch vụ.
II.5. Quy trình tạo dữ liệu mẫu
Tạo dữ liệu mẫu là một quy trình lặp, mà bắt đầu với mô hình của dữ liệu
mẫu được yêu cầu, và kết thúc với việc tạo tự động của dữ liệu này. Trong suốt quy
trình này có nhiều phép lặp có thể được thực hiện mà được dựa trên những kết quả
của việc tạo dữ liệu mẫu. Nếu dữ liệu được đưa ra là không làm thoả mãn, xẫy ra
những lỗi trong suốt quá trình tạo dữ liệu mẫu, thiết kế của mẫu dữ liệu có thể bị
thay đổi hoặc sửa đổi để đạt được kết quả tốt hơn. Một tác nhân có thể lặp lại việc
tạo của mẫu dữ liệu cho đến khi nhận được kết quả mong chờ. Tiếu biểu, trong suốt
quá trình lặp đầu tiên người sử dụng tạo những lượng nhỏ hơn của dữ liệu mẫu, và
bảo đảm sau tất cả những yêu cầu là được đáp ứng hợp lý. Người sử dụng có thể bắt
đầu với việc sản xuất những số luợng dữ liệu lớn hơn khác. Quy trình trên có thể
được thấy qua hình 2.2. Một quá trình tạo dữ liệu mẫu có thể được mô tả bằng 3
vùng có thể làm việc:


Những chức năng Build- time có liên quan với nội dung của từ hay ngữ, và có
thể làm mô hình của những yêu cầu và những sự xác định của dữ liệu mẫu.



Những chức năng Run- time có liên quan với việc thực hiện sản xuất dữ liệu mẫu.



Những sự tương tác Run- time với những người sử dụng và những ứng dụng

cho việc điều khiển tạo dữ liệu mẫu.

Những chức năng Build- time: Được sử dụng để xây dựng tất cả những định
nghĩa cần dùng cho dữ liệu mẫu mong muốn. Những định nghĩa này bao trùm đầy
đủ những chỉ dẫn của dữ liệu mẫu để xây dựng cho kho dữ liệu.
Những chức năng Run- time: Ở trạng thái Run- time dữ liệu của kho với dữ liệu
được định nghĩa là được sử dụng để tạo dữ liệu mẫu mong muốn. Những chức năng
Run- time cung cấp những chức năng để sản xuất dữ liệu mẫu mà phù hợp với
những sự định nghĩa của họ. Họ kiểm tra tính vững chắc của những định nghĩa mẫu
dữ liệu và đảm bảo rằng tất cả những sự ràng buộc là được toại nguyện.

KHÓA LUẬN TỐT NGHIỆP

Trang 21

KHOÁ 2003-2007


CÔNG CỤ TẠO DỮ LIỆU MẪU…

HỒ XUÂN KIÊN

Những chức năng tương tác Run- time: Hàng động giống như những liên kết ở
giữa những chức năng Run- time và những tác nhân, mà quản lý phục vụ tạo dữ liệu
mẫu từ bên ngoài. Những tác nhân có thể là những người sử dụng khác hoặc những
ứng dụng mà có thể điều khiển việc tạo dữ liệu mẫu bằng những sự ảnh hưởng lẫn
nhau như thực hiện, xoá bỏ hoặc được điều chỉnh tạo dữ liệu mẫu. Tương tác với sự
phục vụ việc tạo dữ liệu mẫu là cần thiết để bắt đầu quy trình tạo, để xem xét những
ngoại lệ trong suốt quá trình sản xuất dữ liệu mẫu hoặc để dùng quy trình tạo.


Hình 2.2: Quy trình tạo dữ liệu mẫu
II.6. Một số khái niệm cơ bản về kho dữ liệu liên quan tới chương trình
II.6.1. Khái niệm và mục đích của kho dữ liệu
Kho dữ liệu (Data Warehous -DW) là tuyển tập các CSDL tích hợp, hướng
chủ đề, được thiết kế để hỗ trợ cho chức năng trợ giúp quyết định, mà mỗi đơn vị
dữ liệu đều liên quan tới một khoảng thời gian cụ thể.
Nói cách khác, kho dữ liệu là một tập hợp các CSDL rất lớn tới hàng trăm
GB hay thậm chí hàng Tera byte dữ liệu từ nhiều phân hệ của hệ thống, lưu trữ và
phân tích phục vụ cho việc cung cấp các dịch vụ thông tin liên quan tới nghiệp vụ
một tổ chức, cơ quan hay xí nghiệp.

KHÓA LUẬN TỐT NGHIỆP

Trang 22

KHOÁ 2003-2007


CÔNG CỤ TẠO DỮ LIỆU MẪU…

HỒ XUÂN KIÊN

Mục đích của kho dữ liệu:
• Đáp ứng mọi yêu cầu về thông tin của người sử dụng.
• Hỗ trợ để các nhân viên của các tổ chức thực hiện tốt công việc của mình,
như có những quyết định hợp lý, nhanh và bán được nhiều hàng hơn, năng
sản cao hơn, thu được lợi nhuận cao hơn, v.v.
• Giúp cho tổ chức, xác định, quản lý và điều hành các dự án, các nghiệp vụ
một cách hiệu quả và chính xác.
• Tích hợp dữ liệu và các siêu dữ liệu từ nhiều nguồn khác nhau.

II.6.2. Một số đặc tính dữ liệu trong kho dữ liệu
II.6.2.1. Tính tích hợp
Dữ liệu trong DW được tổ chức theo nhiều cách khác nhau sao cho phù hợp
với các qui ước đặt tên, thống nhất về số đo, cơ cấu mã hoá và cấu trúc vật lý của
dữ liệu… Một DW là một khung nhìn thông tin mức toàn xí nghiệp, thống nhất các
khung nhìn khác nhau thành một khung nhìn theo một chủ điểm nào đó.
Tính tích hợp thể hiện ở chỗ: Dữ liệu tập hợp trong kho dữ liệu được thu
thập từ nhiều nguồn và trộn ghép với nhau tạo thành một thể thống nhất.
II.6.2.2. Dữ liệu theo thời gian và có tính lịch sử
Một kho chứa dữ liệu bao hàm một khối lượng lớn dữ liệu lịch sử. Dữ liệu
được lưu trữ thành một loạt các ảnh chụp dữ liệu, mỗi bản ghi phản ánh những giá
trị của dữ liệu tại một thời điểm nhất định thể hiện một khung nhìn của một chủ
điểm trong một giai đoạn. Do vậy cho phép khôi phục lại lịch sử và so sánh một
cách chính xác các giai đoạn khác nhau. Yếu tố thời gian đóng vai trò như một
phần của khoá để bảo đảm tính đơn nhất của mỗi hàng và cung cấp đặc trưng về
thời gian cho dữ liệu.
II.6.2.3. Hướng chủ đề
Dữ liệu trong kho dữ liệu được tổ chức theo các chủ đề để phục vụ cho
những tổ chức có thể dễ dàng xác định được những thông tin cần thiết trong từng
hoạt động của mình.

KHÓA LUẬN TỐT NGHIỆP

Trang 23

KHOÁ 2003-2007


CÔNG CỤ TẠO DỮ LIỆU MẪU…


HỒ XUÂN KIÊN

II.6.2.4. Dữ liệu có tính bền vững
Dữ liệu trong kho dữ liệu là dữ liệu chỉ đọc và chỉ có thể được kiểm tra,
không được sửa đổi bởi người sử dụng đầu cuối.
II.6.3. Mô hình dữ liệu đa chiều
Trong suốt thấp kỷ qua, mô hình dữ liệu đa chiều đã nẩy ra cho người sử
dụng khi mục tiêu là phân tích dữ liệu, đúng hơn là để thực hiện những công việc
kinh doang trực tuyến. Khoa học cơ sở dữ liệu đa chiều là một nhân tố chính trong
sự phân tích tương tác của một lượng lớn dữ liệu cho sự quết định những yếu tố
thành công.
Những mô hình dữ liệu đa chiều phân loại dữ liệu giống như những sự kiện
kết hợp với những số đo hoặc những chiều có liên quan mà mô tả những sự kiện. Ví
dụ, trong những trường hợp của việc buôn bán lẻ, bán hàng có thể là một sự kiện,
số và giá lợi nhuận là những số đo, kiểu của sản phẩm được mua và thời gian thu
hoạch hàng năm và vị trí có thể là những chiều. Vậy chiều, sự kiện và số đo là gì?
Ta có thể hiểu nó qua các khái niệm được trình bày sau:
II.6.3.1. Khái niệm về chiều
Chiều là một yếu tố cần thiết và đặc trưng trong những cơ sở dữ liệu đa
chiều. Một mục tiêu quan trọng của mô hình đa chiều là sử dụng những chiều để
cung cấp nhiều ngữ cảnh hợp lý cho những sự kiện (Fact). Trong sự tương phản
hướng tới những cơ sở dữ liệu quan hệ, điều chỉnh tình trạng dư thừa là thông
thường được xem như thích hợp bởi hầu hết mọi người trong những cơ sở dữ liệu
đa chiều nếu nó tăng giá trị thông tin của dữ liệu. Bởi vì khối dữ liệu đa chiều là
thuờng nhận được từ những nguồn khác nhau.
Ta có thể hình dung về chiều qua mô hình được thể hiện trong hình 2.3.

KHÓA LUẬN TỐT NGHIỆP

Trang 24


KHOÁ 2003-2007


CÔNG CỤ TẠO DỮ LIỆU MẪU…

HỒ XUÂN KIÊN

Hình 2.3- Mô hình chiều
Chiều được sử dụng cho việc chọn và tập hợp lại dữ liệu tại mức mong muốn
của chi tiết, giống như sự phân cấp gồm có nhiều mức. Mỗi sự trình bày một mức
của chi tiết được yêu cầu bằng những sự phân tích mong muốn. Mỗi thành phần của
chiều, hoặc giá trị của chiều thuộc về một mức riêng biệt.
Nó thuận lợi cho mô hình đa chiều, để định nghĩa nhiều phân cấp cho một
chiều. Ví dụ, ta có một bảng dữ liệu về lượng hàng bán được (bảng2.3), cho biết số
lợi nhuận hàng năm của những thành phố Aalborg, Copenhagen, Los Angeles, New
York như bảng sau:
Sản phẩm

Aalborg

Copenhagen

Los Angeles

New York

Sữa

123


555

145

5,001

Bánh mì

102

250

54

2,010

Quần Gin

20

89

32

345

Bóng đèn

22


213

32

9,450

Bảng 2.3- Bảng bán hàng
Khi đó ta chiều và lược đồ của một chiều vị trí cho dữ liệu trong bảng 2.3 là:

KHÓA LUẬN TỐT NGHIỆP

Trang 25

KHOÁ 2003-2007


×