Tải bản đầy đủ (.pdf) (75 trang)

Truy vấn thống kê cơ sở dữ liệu một cách mềm dẻo dựa trên logic mờ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.18 MB, 75 trang )

i

ĐẠI HỌC THÁI NGUYÊN
ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

ĐẶNG BÌNH NINH

TRUY VẤN THỐNG KÊ CƠ SỞ DỮ LIỆU MỘT CÁCH MỀM DẺO DỰA
TRÊN LOGIC MỜ

GVHD: PGS.TS HỒ CẨM HÀ

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Ƣ

THÁI NGUYÊN 2015

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

ii

LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này của tự bản thân tôi tìm hiểu, nghiên cứu.
Các tài liệu tham khảo đƣợc trích dẫn và chú thích đầy đủ. Nếu không
đúng tôi xin hoàn toàn chịu trách nhiệm.

Tác giả luận văn


Đặng Bình Ninh

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

iii

LỜI CẢM ƠN
Trong thời gian nghiên cứu và thực hiện luận văn này, tôi đã nhận được sự
giúp đỡ nhiệt tình của cơ quan, gia đình và các cá nhân. Tôi xin bày tỏ lời cảm
ơn sâu sắc nhất tới tất cả các tập thể, cá nhân đã tạo điều kiện giúp đỡ tôi trong
suốt quá trình thực hiện nghiên cứu luận văn này.
Trước hết tôi xin trân trọng cảm ơn Ban Giám Hiệu, các thầy giáo, cô giáo
phòng Sau đại học trường Đại học Công Nghệ Thông Tin & Truyền Thông,
cùng các thầy cô giáo, những người đã trang bị kiến thức cho tôi trong suốt quá
trình học tập.
Đặc biệt, tôi xin bày tỏ sự kính trọng và lòng biết ơn chân thành nhất đến
cô giáo - PGS. TS. Hồ Cẩm Hà, người cô đã tận tình hướng dẫn khoa học và
giúp đỡ tôi trong suốt quá trình học tập, nghiên cứu và hoàn thành luận văn.
Tôi chân thành gửi lời cảm ơn đến các cán bộ, giảng viên khoa Giáo dục
Mầm Non, trường Đại học Hồng Đức, Thanh Hóa, nơi tôi đang công tác đã tạo
mọi điều kiện trong công việc để tôi có thể hoàn thành luận văn này.
Xin chân thành cảm ơn đến gia đình, người thân, bạn bè đã giúp đỡ và
động viên tôi trong suốt thời gian học tập cũng như trong thời gian thực hiện
luận văn.
Do thời gian nghiên cứu có hạn, luận văn của tôi không tránh khỏi thiếu
sót, rất mong nhận được sự đóng góp của các thầy cô giáo cùng toàn thể bạn
đọc.
Xin chân trọng cảm ơn!

Thanh Hóa, ngày 08 tháng 10 năm 2015
TÁC GIẢ LUẬN VĂN

Đặng Bình Ninh
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

iv

MỤC LỤC
LỜI CAM ĐOAN................................................................................................... i
LỜI CẢM ƠN ...................................................................................................... iii
MỤC LỤC ............................................................................................................ iv
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT....................................... vi
DANH MỤC CÁC BẢNG VÀ HÌNH VẼ ......................................................... vii
MỞ ĐẦU ............................................................................................................... 1
CHƢƠNG I: TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ............................................. 4
1.1 Cơ sở dữ liệu và các truy vấn ...................................................................... 4
1.1.1 Khái niệm cơ sở dữ liệu......................................................................... 4
1.1.2 Mô hình CSDL quan hệ ......................................................................... 6
1.1.2.1 Khóa của quan hệ [1]..................................................................... 7
1.1.2.2 Phụ thuộc hàm ................................................................................ 8
1.1.2.3 Đại số quan hệ ................................................................................ 8
1.1.3 Các truy vấn trên mô hình quan hệ ..................................................... 11
1.1.3.1 SQL ............................................................................................... 11
1.1.3.2 MySQL .......................................................................................... 13
1.1.3.3 SQL server. ................................................................................... 14
1.2 Ứng dụng lý thuyết tập mờ trong truy vấn CSDL ..................................... 15
1.2.1 Tập mờ và thông tin không chắc chắn ................................................ 15

1.2.1.1 Tập mờ [5] .................................................................................... 15
1.2.1.2 Các kiểu hàm thuộc....................................................................... 16
1.2.2 Logic mờ .............................................................................................. 18
1.2.3 Lượng từ mờ ........................................................................................ 19
1.2.4 Ứng dụng logic mờ trong truy vấn CSDL ........................................... 21
1.2.4.1 Cơ sở dữ liệu mờ ........................................................................... 21
1.2.4.2 Cơ sở dữ liệu quan hệ ................................................................... 23
CHƢƠNG 2 MỘT PHƢƠNG PHÁP TRUY VẤN THỐNG KÊ MỀM DẺO .. 25
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

v

2.1 Quan niệm truy vấn mềm dẻo trên logic mờ ............................................. 25
2.1.1 Khái niệm truy vấn mềm dẻo ............................................................... 25
2.1.2 Một số ngôn ngữ truy vấn CSDL mềm dẻo [7].................................... 26
2.2 Lƣợng từ hóa với ngôn ngữ tự nhiên ......................................................... 29
2.2.1 Lượng từ ngôn ngữ .............................................................................. 29
2.2.2 Tóm tắt ngôn ngữ sử dụng logic mờ với lượng hóa ngôn ngữ tự nhiên...... 30
2.2.2.1 Giới thiệu mô hình tón tắt SAITETIQ [7] ..................................... 30
2.2.2.2 Tóm tắt ngôn ngữ theo phương pháp tiếp cận của Yager. ........... 33
2.3 Protoforms – Một phƣơng pháp xây dựng thống kê mềm dẻo .................. 38
2.4 Một truy vấn mờ thêm vào nhƣ một phƣơng tiện để thực hiện thống kê
bằng ngôn ngữ tự nhiên ................................................................................... 41
2.5 Mô tả quá trình truy vấn ............................................................................ 43
2.5.1. Biểu thức của truy vấn........................................................................ 43
2.5.2 Đánh giá truy vấn ................................................................................ 45
2.5.3 Thuật toán lựa chọn ............................................................................ 45
2.5.4 Phân loại ............................................................................................. 47

2.5.5 Từ tóm tắt đến các bộ trong một câu trả lời. ...................................... 49
CHƢƠNG 3 CÀI ĐẶT THỬ NGHIỆM ............................................................. 50
3.1 Mô tả mô hình và giải pháp sử dụng trong truy vấn mềm dẻo .................. 50
3.1.1 Mô hình truy vấn mềm dẻo .................................................................. 50
3.1.2 Giải pháp được sử dụng trong truy vấn mềm dẻo .............................. 51
3.2 Nội dung thử nghiệm ................................................................................. 52
3.2.1 Xác định miền tham chiếu và xác định điều kiện mờ .......................... 53
3.2.2 Xử lý truy vấn. ..................................................................................... 54
3.2.3 Lọc dữ liệu ........................................................................................... 54
3.3 Thuật toán .................................................................................................. 54
3.4 Kết quả thực hiện ....................................................................................... 59
KẾT LUẬN ......................................................................................................... 65
TÀI LIỆU THAM KHẢO ................................................................................... 66
Tiếng việt ............................................................................................................. 66
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

vi

Tiếng anh ............................................................................................................. 66

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Từ viết tắt

Nghĩa tiếng anh

Nghĩa tiếng việt

DBMS


Database Managemet System

Hệ quản trị cơ sở dữ liệu

FQUERY

Fuzzy Query

Công cụ truy vấn mờ

LL

Lower Limit

Giới hạn dƣới

UL

Upper Limit

Giới hạn trên

CSDL

Cơ sở dữ liệu

CNTT

Công nghệ thông tin


Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

vii

DANH MỤC CÁC BẢNG VÀ HÌNH VẼ

Bảng 2.1: Năm loại tóm tắt cơ bản. ...................................................... 39
Bảng 2.2 Bảng quan hệ ......................................................................... 48

Hình 1.1. Hàm thuộc hình thang ......................................................................... 17
Hình 1.2 Hàm thuộc hình tam giác ..................................................................... 18
Hình 1.3 Tập mờ Q và Q* ................................................................................... 20
Hình 2.1 Biến ngôn ngữ cho bảng VẬT LIỆU .................................................... 31
Hình 2.2 Một phần của bảng VẬT LIỆU ............................................................ 32
Hình 2.3 Một phần của bản tóm tắt hệ thống phân cấp cho VẬT LIỆU............. 32
Hình 2.4 Ví dụ về hàm thành viên của một giá trị mờ ....... Error! Bookmark not
defined.
Hình 2.5 Thành phần của một truy vấn mờ [8] .................................................. 42
Hình 2.6 đoạn chương trình mô phỏng [7] ......................................................... 47
Hình 3.1 Mô hình truy vấn mềm dẻo ................................................................... 51
Hình 3.2 Hình minh họa việc nhập khái niệm mờ .............................................. 54
Hình 3.3 Sơ đồ khối thuật toán thiết lập thuộc tính mờ ...................................... 56
Hình 3.4 Sơ đồ khối thuật toán cập nhật các giá trị mờ ..................................... 57
Hình 3.5 Sơ đồ khối thuật toán thực hiện câu lệnh truy vấn .............................. 58
Hình 3.6 Màn hình menu chính ........................................................................... 59
Hình 3.7 Xác định miền tham chiếu .................................................................... 60
Hình 3.8 Nhập khái niệm mờ cho thuộc tính trẻ ................................................. 60

Hình 3.9 Nhập khái niệm mờ cho thuộc tính cao................................................ 61
Hình 3.10 Chọn điều kiện để thực hiện thống kê CSDL ..................................... 62
Hình 3.11 Thực hiện truy vấn và hiển thị kết quả ............................................... 63
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

viii

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

1

MỞ ĐẦU
1. Lý do chọn đề tài
Mô hình cơ sở dữ liệu quan hệ do Codd E.F đề xuất từ năm 1970 đã đạt
đƣợc những kết quả hoàn chỉnh về lý thuyết và ứng dụng, cho đến nay các mô
hình cơ sở dữ liệu quan hệ vẫn đƣợc dùng rất phổ biến.
Với lƣợng dữ liệu đƣợc lƣu trữ trong cơ sở dữ liệu, để có thể tìm kiếm đƣợc
những thông tin hữu ích và cần thiết chúng ta cần phải sử dụng đến hệ thống tìm
kiếm tự động dựa trên mô hình cơ sở dữ liệu quan hệ với các câu lệnh truy vấn
cho phép ngƣời dùng truy xuất dữ liệu trong cơ sở dữ liệu. Nếu nhƣ không có
truy vấn thì dữ liệu lƣu trữ đó không thể sử dụng đƣợc, giống nhƣ việc chúng ta
cất giữ một món đồ nhƣng không thể tìm thấy hoặc không dùng đến thì việc lƣu
trữ đó trở nên vô nghĩa.
Tuy nhiên mô hình đó sẽ gặp một số hạn chế trong trƣờng hợp tìm kiếm
những thông tin mơ hồ, không đầy đủ, không chắc chắn (gọi chung là dữ liệu
mờ), loại dữ liệu này đƣợc con ngƣời sử dụng thƣờng xuyên trong thực tế. Ví dụ

nhƣ thay vì muốn có “Danh sách nhân viên có độ tuổi từ 25 đến 30 trong công
ty” thì chúng ta lại cần biết “Danh sách những nhân viên trẻ có công trình khoa
học đƣợc công bố trên tạp chí uy tín thế giới”, hoặc là, thay vì kiểm tra xem “Có
bao nhiêu nhân viên đƣợc khen thƣởng” thì chúng ta cần biết “Có phải hầu hết
những nhân viên có tiềm năng đều đƣợc đào tạo ở nƣớc ngoài hay không”…
Đã có rất nhiều công trình nghiên cứu đƣa ra nhiều cách tiếp cận với các
câu hỏi liên quan đến thông tin không đầy đủ, không chính xác trên các cơ sở dữ
liệu kinh điển (thƣờng đƣợc gọi là hỏi mềm dẻo cơ sở dữ liệu) nhằm giải quyết
nhu cầu truy vấn trong những tình huống nêu trên, đặc biệt là những câu hỏi
mang tính thống kê để nhận định tình hình của ngƣời làm quản lý. Các cách xử
lý loại truy vấn nhƣ vậy đƣợc đề xuất chủ yếu dựa trên cơ sở tiếp cận của lý
thuyết tập mờ, hầu hết cách tác giả đều xây dựng ngôn ngữ truy vấn với mong
muốn thao tác mềm dẻo, chính xác với dữ liệu mờ. Và ngƣời đi tiên phong trong
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

2

lĩnh vực này là Lotfi A.Zadeh, ông đã đề xuất khái niệm mờ từ những khái niệm
mơ hồ, không rõ ràng, không chắc chắn và hình thức toán học nó bằng tập mờ
(Fuzzy set), trên cơ sở đó lý thuyết tập mờ đƣợc hình thành. Dựa trên lý thuyết
tập mờ của Lotfi A.Zadeh các nhà khoa học đã tiếp cận và phát triển theo nhiều
hƣớng khác nhau. Chúng ta có thể tìm thấy các kết quả này qua các công trình
của D. Dubois, H. Prade, C.S. George Lee, H.J. Zimmermann, T.J. Ross, R.
Fuller, J.J. Buckley, R. Kruse, D. Nauck, N.K. Kasabov, W. Pedrycz,... Và rất
nhiều bài báo đã đƣợc đăng trên các tạp chí uy tín quốc tế nhƣ: “Querying a
summary of database” của W. A. Voglozin, G. Raschia, L. Ughetto, N.
Mouaddib, và một bài báo khác là “Linguistic database summaries and their
protoforms: towards natural language based knowledge discovery tools” của

Janusz Kacprzyk, Sławomir Zadrozny.
Trên những cơ sở về lý thuyết và thực tiễn nói trên, với ý nghĩa khoa học và
khả năng ứng dụng của chủ đề đã đề cập trên đây, em chọn đề tài “Truy vấn
thống kê cơ sở dữ liệu một cách mềm dẻo dựa trên logic mờ” làm đề tài cho
luận văn tốt nghiệp của mình.
2. Đối tƣợng, phạm vi nghiên cứu
* Đối tượng nghiên cứu:
- Lý thuyết logic mờ và các mô hình ứng dụng của logic mờ.
- Truy vấn kết tập và CSDL quan hệ.
* Phạm vi nghiên cứu:
- Về mặt lý thuyết: Luận văn tập trung nghiên cứu các kiến thức có liên
quan đến logic mờ đặc biệt là những truy vấn mềm dẻo (mang tính ngôn
ngữ) - truy vấn mờ.
- Về mặt ứng dụng: Cài đặt thử nghiệm một module xử lý truy vấn mềm
dẻo khi khai thác một CSDL đƣợc quản trị bởi MS. Access .
3. Hƣớng nghiên cứu của đề tài.
- Tìm hiểu các cách tiếp cận, các quan điểm về truy vấn mềm dẻo CSDL đã có.
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

3

- Tìm hiểu những kiến thức về logic mờ đã tham gia vào việc biểu diễn và
xử lý truy vấn mềm dẻo CSDL, đặc biệt là những truy vấn kết tập.
4. Nội dung luận văn
Luận văn đƣợc chia làm 3 chƣơng:
Chƣơng 1: Tổng quan về cơ sở dữ liệu và các truy vấn.
Chƣơng 2: Một phƣơng pháp truy vấn thống kê mềm dẻo
Chƣơng 3: Cài đặt thử nghiệm

5. Phƣơng pháp nghiên cứu
- Nghiên cứu tài liệu.
- Thiết kế và cài đặt module phần mềm
- Thử nghiệm.
6. Ý nghĩa khoa học của đề tài
Trong thời đại hiện nay chúng ta thƣờng phải đối mặt với sự phong phú của
dữ liệu và vƣợt ra ngoài nhận thức của con ngƣời, để xử lý sự tăng trƣởng về
kích thƣớc của cơ sở dữ liệu, nhiều cách tiếp cận đã đƣợc phát triển để có thể
trích xuất từ cơ sở dữ liệu với lƣợng kiến thức rất lớn. Thống kê và phân tích dữ
liệu là một trong những khả năng cơ bản mà bây giờ là cần thiết của bất kỳ hệ
thống thông minh nào để đáp ứng đƣợc các hoạt động trong cuộc sống thực.
Kỹ thuật tổng hợp dữ liệu đã đƣợc phát triển để đáp ứng sự phát triển của
cơ sở dữ liệu. Đề tài này trình bày một phƣơng pháp phát triển một công cụ cho
truy vấn kết tập linh hoạt mềm dẻo hơn các công cụ truy vấn đang có của các hệ
quản trị CSDL quan hệ.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

4

CHƢƠNG I: TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU
VÀ CÁC TRUY VẤN
1.1 Cơ sở dữ liệu và các truy vấn
1.1.1 Khái niệm cơ sở dữ liệu
Một cơ sở dữ liệu là một tập hợp các dữ liệu có liên quan với nhau chứa
thông tin về một tổ chức nào đó (nhƣ một trƣờng đại học, một ngân hàng, một
công ty, một nhà máy…), đƣợc lƣu trữ trên các thiết bị nhớ thứ cấp (nhƣ băng
từ, đĩa từ…) để đáp ứng nhu cầu khai thác thông tin của nhiều ngƣời sử dụng

với nhiều mục đích khác nhau [1]
Theo cách hiểu trên, thì cơ sở dữ liệu phản ảnh trung thực một khía cạnh
nào đó của thế giới dữ liệu hiện thực khách quan, những thay đổi của thế giới
thực phải đƣợc phản ánh một cách trung thực vào trong CSDL, vì thế những
thông tin đƣa vào trong CSDL phải đƣợc cập nhập thƣờng xuyên.
Cơ sở dữ liệu (CSDL) là tài nguyên thông tin chung đƣợc chia sẻ cho nhiều
ngƣời cùng sử dụng và cho nhiều ứng dụng khác nhau. Một CSDL đƣợc thiết kế
và đƣợc phổ biến cho mục đích riêng. Nó có một nhóm ngƣời sử dụng có chủ
định và có một số ứng dụng phù hợp với mối quan tâm của ngƣời sử dụng.
Cơ sở dữ liệu đƣợc các hệ ứng dụng khai thác bằng ngôn ngữ con dữ liệu
hoặc bằng các chƣơng trình ứng dụng để xử lý, tìm kiếm, tra cứu, sửa đổi, bổ
sung hay loại bỏ dữ liệu. Tìm kiếm và tra cứu thông tin là một trong những chức
năng qua trọng và phổ biến nhất của các dịch vụ CSDL.
Trƣớc kia để quản lý thông tin ngƣời ta áp dụng phƣơng pháp tệp (file),
mỗi file đƣợc xem là một cặp hồ sơ lƣu trữ thông tin liên quan đến từng công
việc riêng lẻ. Ví dụ: Trong một công ty, mỗi bộ phận sẽ quản lý hồ sơ theo chức
năng của mình, nhƣ phòng tài chính có một cặp hồ sơ liên quan đến quản lý
lƣơng, phòng tổ chức có một cặp hồ sơ liên quan đến quản lý nhân sự… việc
quản lý theo hệ thống tệp này dẫn đến tình trạng dƣ thừa thông tin (cùng một
thông tin nhƣng đƣợc lƣu trữ nhiều lần) tốn kém, lãng phí bộ nhớ và các thiết bị
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

5

lƣu trữ, nhiều chƣơng trình ứng dụng khác nhau cùng xử lý các dữ liệu nhƣ
nhau, gây khó khăn cho việc bảo trì mỗi khi có sự thay đổi dữ liệu trong tệp thì
lại phải thay đổi chƣơng trình ứng dụng cho tệp đó. Giải pháp CSDL ra đời đã
giải quyết đƣợc những nhƣợc điểm trên.

Nếu tổ chức lƣu trữ theo CSDL thì có thể hợp nhất các tệp lƣu trữ, các
chƣơng trình ứng dụng có thể cùng chia sẻ tài nguyên trên cùng một hệ CSDL.
Tổ chức lƣu trữ dữ liệu theo CSDL sẽ tránh đƣợc sự không nhất quán trong lƣu
trữ dữ liệu và bảo đảm đƣợc tính toàn vẹn của dữ liệu
Để có đƣợc CSDL tốt, trên cơ sở đó đƣa ra những ứng dụng tốt thì phải
thiết kế đƣợc các mô hình CSDL tốt, và việc xây dựng CSDL cũng đơn giản hơn
nhiều khi sử dụng mô hình.
Mô hình CSDL là một tập hợp các khái niệm dùng để biểu diễn các cấu
trúc của CSDL, các mối liên kết và các ràng buộc phải tuân theo trên các dữ
liệu. Nhiều mô hình cón có thêm một tập hợp các phép toán cơ bản để đặc tả các
thao tác trên CSDL.
Có rất nhiều mô hình CSDL đã đƣợc nghiên cứu nhƣ:
+ Mô hình CSDL phân cấp.
+ Mô hình CSDL mạng.
+ Mô hình CSDL quan hệ
+ Mô CSDL phân tán.
+ Mô hình CSDL hƣớng đối tƣợng….
Tổ chức lƣu trữ theo mô hình nào là tốt nhất, trên thực tế điều đó rất khó
xác định. Tốt nhất còn phụ thuộc vào nhu cầu truy xuất và khai thác thông tin
của đơn vị quản lý nó, nó đƣợc sử dụng ở đâu và vào lúc nào là tốt nhất. Tuy
nhiên trong các mô hình CSDL trên thì mô hình CSDL quan hệ đƣợc sử dụng
phổ biến hơn. Cấu trúc dữ liệu có tính đơn giản, linh hoạt, dễ sử dụng, ngƣời
dùng có thể quan sát cũng nhƣ thao tác một cách trực quan, hiệu quả. Mặc dù
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

6

mô hình cơ sở dữ liệu phân cấp và mô hình cơ sở dữ liệu mạng không có những

mặt hạn chế nhƣ hệ thống file truyền thống, song lại không dễ dùng nhƣ mô
hình cơ sở dữ liệu quan hệ. Cụ thể, mỗi chƣơng trình sử dụng cơ sở dữ liệu phân
cấp và cơ sở dữ liệu mạng sẽ phải điều hƣớng thông qua cách thức sắp đặt vật lý
của bảng mà chúng sử dụng. Ngƣợc lại, trong cơ sở dữ liệu quan hệ, DBMS
cung cấp việc tự động điều hƣớng. Ngoài ra, chƣơng trình có thể sử dụng các
quan hệ không đƣợc định nghĩa trong DBMS. Đó là điều bất khả thi đối với cơ
sở dữ liệu phân cấp và cơ sở dữ liệu mạng. Do tính ƣu việt của nó mô hình
CSDL quan hệ dần thay thế các mô hình mạng và phân cấp
1.1.2 Mô hình CSDL quan hệ
Mô hình CSDL quan hệ đƣợc xây dựng theo lý thuyết do E.F Codd đề
xuất. Thuật ngữ quan hệ là do bảng dữ liệu hai chiều đƣợc Codd gọi là bảng
quan hệ. Mô hình quan hệ là mô hình khác hẳn với các mô hình trƣớc nó, và từ
năm 1980 đã trở thành mô hình đƣợc dùng rộng rãi để phát triển hệ quản trị
CSDL.
Theo mô hình quan hệ, dữ liệu đƣợc thể hiện trong bảng hai chiều gồm các
dòng và cột. Các bảng gọi là các “quan hệ”, các dòng gọi là “bộ” và các cột là
“thuộc tính”. Theo cách nhìn của các mô hình trƣớc thì mỗi dòng là một bản ghi,
các thuộc tính cho biết ý nghĩa của các giá trị trong bản ghi.
Ví dụ 1.1:
KHÁCH HÀNG

ĐƠN HÀNG

MKH

Tên

Tuổi

Địa chỉ


KH 001



16

Ninh Bình

KH 002

Mận

19

Thanh Hóa

KH 003

Đào

22

Hà Nội

MKH

Đơn hàng

Số hóa bởi Trung tâm Học liệu - ĐHTN


/>

7

KH 001

Đơn hàng 1

KH 002

Đơn hang 2

KH 001

Đơn hang 3

KH 003

Đơn hang 4

1.1.2.1 Khóa của quan hệ [1]
Một quan hệ là một tập hợp các bộ. Các phần tử của một tập hợp là phân
biệt, do vậy trong một qua hệ không thể có hai bộ giống nhau (bằng nhau trên
mọi thuộc tính). Với một lƣợc đồ quan hệ R, tồn tại một tập các thuộc tính có
tính chất: với mỗi thể hiện r(R), không có hai bộ nào trong r giống nhau trên tập
các thuộc tính này, nói một cách khác là không có hai bộ nào trong r có cùng
một tổ hợp các giá trị cho các thuộc tính này. Nếu ta kí hiệu tập thuộc tính có
tính chất nhƣ vậy là SK thì có một ràng buộc trên r(R) là: t 1[SK] ≠ t2[SK], với t1
và t2 là hai bộ khác nhau bất kì trong r.

Siêu khóa của một lược đồ quan hệ R là một tập hợp gồm một hay nhiều
thuộc tính của lược đồ R có tính chất xác định duy nhất một bộ trong mỗi thể
hiện của R.
Cho lƣợc đồ quan hệ R = < , F>, nếu SK là siêu khóa của R thì SK



trong một quan hệ bất kì của lƣợc đồ R không thể có hai bộ khác nhau nhƣng có
cùng một giá trị trên SK.
Khóa của một lược đồ quan hệ là một siêu khóa của lược đồ này sao cho
mọi tập con thực sự của nó không là siêu khóa
Nhƣ vậy một khóa là một siêu khóa tối thiểu, hiểu theo nghĩa đó là một
siêu khóa mà ta không thể bỏ bớt thuộc tính nào ra khỏi nó mà vẫn giữ đƣợc tính
chất xác định duy nhất cho mỗi bộ.
Ví dụ 1.2:
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

8

KHÁCH HÀNG

MKH

Tên

Tuổi

Địa chỉ


KH 001



16

Ninh Bình

KH 002

Mận

19

Thanh Hóa

KH 003

Đào

22

Hà Nội

Trong bảng KHÁCH HÀNG trên thì mã khách hàng (MKH) chính là khóa.
Mỗi MKH chỉ xác định duy nhất một loại khách hàng trong quan hệ KHÁCH
HÀNG.
Khóa ngoài của một lược đồ quan hệ là một tập hợp gồm một hay nhiều
thuộc tính là khóa của một lược đồ quan hệ khác.

1.1.2.2 Phụ thuộc hàm
Cơ sở lý thuyết về chuẩn hóa dữ liệu dựa trên các khái niệm phụ thuộc hàm
và khóa của quan hệ.
Định nghĩa 1.1.2.2:
Cho R là quan hệ trên tập

và cho X và Y là 2 tập con bất kỳ của

rằng X xác định hàm Y hay Y phụ thuộc vào hàm X, ký hiệu f: X

. Nói

Y đúng trên

lược đồ quan hệ R ( ) nếu như với mọi r là một thể hiện của R ( ) (tức giá trị
hiện thời của R), r không thể chứa hai bộ giống nhau trên X nhưng lại khác
nhau trên Y.
Nói cách khác:

t1, t2

Ký hiệu: F: {f: Lj
thuộc tính

r (t1[X] = t2[X]
Rj Lj, Rj

t1[Y] = t2[Y])

} là tập các phụ thuộc hàm trên các


.

1.1.2.3 Đại số quan hệ
Ngôn ngữ đại số quan hệ nhƣ là một ngôn ngữ bậc cao để thao tác trên các
quan hệ. Dƣới đây là trình bày tóm tắt về các phép toán trong đại số quan hệ.
a) Phép chọn:
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

9

Phép chọn là phép tính để xây dựng một tập con của các bộ của quan hệ đã
cho thỏa mãn một biểu thức F xác định.
Cho r là một quan hệ trên lƣợc đồ quan hệ; Một phép chọn trên r thỏa mãn
điều kiện F là một tập hợp đƣợc định nghĩa và ký hiệu:
F

(r) = {t

r F (t) = đúng}

F (t) đƣợc biểu diễn là các giá trị của các thuộc tính xuất hiện trong biểu
thức F tại bộ t thỏa mãn các điều kiện của F.
Biểu thức F đƣợc biểu diễn bằng tổ hợp Boolean của các toán hạng, mỗi
toán hạng là một phép so sánh đơn giản giữa 2 biến là hai thuộc tính hoặc giữa
một biến là một thuộc tính và một hằng, cho giá trị “đúng” hoặc “sai” đối với
mỗi bộ đã kiểm tra. Các phép toán so sánh: <, =, >, , ≤, ≥. Các phép toán logic:
&, , AND (và), , |, OR (hoặc), , !, NOT (phủ định).

b) Phép chiếu:
Phép chiếu trên một quan hệ thực chất là loại bỏ đi một số thuộc tính của
quan hệ đó.
Phép chiếu một quan hệ r trên tập các thuộc tính X của r, kí hiệu

X

(r) là

một tập các bộ, đƣợc xây dựng bằng cách loại bỏ đi từ các bộ t trong quan hệ r
những thuộc tính không thuộc X. Thực chất của phép chiếu là loại bỏ đi một số
thuộc tính và giữ lại những thuộc tính còn lại của quan hệ đó. Ðể thuận tiện cho
việc biểu diễn hình thức phép chiếu, quy ƣớc một số ký hiệu nhƣ sau:
Gọi t là một bộ thuộc r, còn A

U, lúc đó t[A] là giá trị của hai bộ t tại

thuộc tính A.
Giả sử X
Vậy

X

U, với X = {B1, B2, …, Bm} lúc đó t[X] = (t[B1], t[B2],.., t[Bm])

(r) = {t[X] t

r}.

c) Phép hợp:


Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

10

Hợp của hai quan hệ khả hợp r và s, ký hiệu là r

s là tập tất cả các bộ

thuộc r hoặc s hoặc thuộc cả hai quan hệ. Biểu diễn hình thức phép hợp có dạng:
r

r hoặc t

s = {t t

s hoặc (t

r và t

s)}

d) Phép giao:
Giao của hai quan hệ khả hợp r và s, ký hiệu r

s là tập tất cả các bộ

thuộc cả ra và s.

r

s = {t t

r và t

s}

e) Phép trừ:
Hiệu của hai quan hệ khả hợp r và s, ký hiệu là r-s là tập tất cả các bộ
thuộc r nhƣng không thuộc s.
r-s = {t t

r và t

s}.

f) Phép chia:
Gọi r là quan hệ n ngôi, và s là quan hệ m ngôi (n > m, s
cho s, ký hiệu r

). Phép chia r

s là tập tất cả bộ (n-m) ngôi sao cho:
r

s={ t

q


s: (q, t)

r}

(n-m) bộ
g) Phép kết nối tự nhiên:
Cho r1 (U1) và r2 (U2). Cho S = U1

U2 và U = U1

U2. Phép kết nối tự

nhiên trên hai quan hệ r1 và r2 là một quan hệ r trên U đƣợc ký hiệu và định
nghĩa:
r1*r2 = {t (U) t1
Nếu S =

r1 và t2

r2 và t[U1] = t1, t[U2] = t2}.

thì r1*r2 là tích Đề - các thông thƣờng.

h) Phép kết nối :
Cho hai quan hệ r1 (U1), r2 (U2) trên U1 và U2, X
trong các phép so sánh: <, >, ≤, ≥,
Số hóa bởi Trung tâm Học liệu - ĐHTN

U1, Y


U2,

là một

giữa các giá trị của Dom (X) và Dom (Y).
/>

11

Phép kết nối

giữa r1 và r2 là một quan hệ trên R = R1R2 đƣợc ký hiệu và định

nghĩa nhƣ sau:
r = r1 r2 (R) = {t

r (R) t.X

t.Y}

X Y

i) Tích Đề-các:
Gọi r là quan hệ xác định trên tập thuộc tính {A1, A2,.., An} và s là quan hệ
xác định trên tập thuộc tính {B1, B2, …, Bm}. Tích Đề-các của r và s là tập các
(n+m) bộ sao cho n thành phần đầu là một bộ thuộc r và m thành phần sau là
một bộ thuộc s.
r x s = {t t có dạng (a1, a2, …., an, b1, b2, …., bm)
Trong đó: (a1, a2, …., an)


r và (b1, b2, …., bm)

s.

1.1.3 Các truy vấn trên mô hình quan hệ
Trong cơ sở dữ liệu thiết kế chuẩn, dữ liệu bạn muốn trình bày thông qua
biểu mẫu hoặc báo cáo thƣờng đƣợc đặt trong nhiều bảng. Truy
kết nối
. Truy vấn có thể cho bạn câu trả lời c
. Sau khi thực hiện
truy vấn, dữ liệu thỏa yêu cầu sẽ đƣợc rút ra và tập hợp vào một bảng kết quả.
Dƣới đây là một số phƣơng pháp truy vấn CSDL đã có.
1.1.3.1 SQL
SQL là một ngôn ngữ dùng để truy xuất dữ liệu, cập nhật, thay đổi và quản
lý các CSDL quan hệ.
Khi tạo một truy vấn thì ACCESS tự động xây dựng các câu lệnh SQL
tƣơng ứng.
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

12

Một số truy vấn của ngôn ngữ SQL nhƣ sau:
- Truy vấn hội (Union Query).
- Truy vấn chuyển nhƣợng (pass through Query).
- Truy vấn định nghĩa dữ liệu (Data Definition Query).
- Truy vấn con (Sub Query).
* SQL xử lý trên bảng dữ liệu.
- Tạo bảng mới.

- Thay đổi cấu trúc của bảng.
+ Thêm hoặc loại bỏ trƣờng.
+ Loại bỏ chỉ mục.
- Xoá bảng
* SQL xử lý trên truy vấn.
- Truy vấn chọn (Select query).
- Truy vấn tình tổng (Total query).
- Truy vấn tham khảo chéo.
- Truy vấn tạo bảng.
- Truy vấn nối dữ liệu.
- Truy vấn cập nhật dữ liệu.
- Truy vấn xoá.
- Tạo mối quan hệ giữa các bảng.
- Truy vấn con (Sub query).
- Truy vấn hội (Union Query)
Chúng ta có thể đƣa ra ý kiến từ việc xem danh sách các truy vấn này để có
thể sử dụng đƣợc nhiều hơn việc chỉ là những câu hỏi về dữ liệu. Các truy vấn
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

13

có thể làm đƣợc nhiều hơn nữa. Loại truy vấn mà chúng ta sử dụng dựa vào
những gì ta muốn hoàn thành.
1.1.3.2 MySQL
MySQL là hệ quản trị cơ sở dữ liệu tự do nguồn mở phổ biến nhất thế giới
và đƣợc các nhà phát triển rất ƣa chuộng trong quá trình phát triển ứng dụng. Vì
MySQL là cơ sở dữ liệu tốc độ cao, ổn định và dễ sử dụng, có tính khả chuyển,
hoạt động trên nhiều hệ điều hành cung cấp một hệ thống lớn các hàm tiện ích

rất mạnh. Với tốc độ và tính bảo mật cao, MySQL rất thích hợp cho các ứng
dụng có truy cập CSDL trên internet. MySQL miễn phí hoàn toàn cho nên bạn
có thể tải về MySQL từ trang chủ. Nó có nhiều phiên bản cho các hệ điều hành
khác nhau: phiên bản Win32 cho các hệ điều hành dòng Windows, Linux, Mac
OS X, Unix,FreeBSD, NetBSD, Novell NetWare, SGI Irix, Solaris, SunOS,...
MySQL là một trong những ví dụ rất cơ bản về Hệ Quản trị Cơ sở dữ liệu quan
hệ sử dụng Ngôn ngữ truy vấn có cấu trúc (SQL).
Một số đặc điểm của MySQL:
- MySQL là một phần mềm quản trị CSDL dạng server-based (gần tƣơng
đƣơng với SQL Server của Microsoft).
- MySQL quản lý dữ liệu thông qua các CSDL, mỗi CSDL có thể có nhiều
bảng quan hệ chứa dữ liệu.
- MySQL có cơ chế phân quyền ngƣời sử dụng riêng, mỗi ngƣời dùng có
thể đƣợc quản lý một hoặc nhiều CSDL khác nhau, mỗi ngƣời dùng có một tên
truy cập (user name) và mật khẩu tƣơng ứng để truy xuất đến CSDL.
Khi truy vấn tới CSDL MySQL, ngƣời dùng phải cung cấp tên truy cập và mật
khẩu của tài khỏan có quyền sử dụng CSDL đó. Nếu không, ngƣời dùng sẽ
không làm đƣợc gì cả giống nhƣ quyền chứng thực ngƣời dung trong SQL
Server vậy. MySQL không bao quát toàn bộ những câu truy vấn cao cấp nhƣ
SQL Server.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

14

1.1.3.3 SQL server.
SQL server là một hệ quản trị CSDL quan hệ, mạng máy tính hoạt động
theo mô hình khách chủ, cho phép đồng thời cùng một lúc có nhiều ngƣời dùng

truy, xuất dữ liệu, quản lý việc truy nhập hợp lệ và các quyền hạn của từng
ngƣời dùng trên mạng.
Các chƣơng trình ứng dụng và các công cụ quản trị CSDL cho phép ngƣời
sử dụng truy nhập tới CSDL mà không cần sử dụng trực tiếp SQL. Nhƣng
những ứng dụng đó khi chạy phải sử dụng SQL.
- Đặc điểm của SQL server:
SQL là ngôn ngữ tựa tiếng Anh.
SQL là ngôn ngữ phi thủ tục, nó không yêu cầu ta cách thức truy
nhập CSDL nhƣ thế nào. Tất cả các thông báo của SQL đều rất dễ sử
dụng và ít khả năng mắc lỗi.
SQL cung cấp tập lệnh phong phú cho các công việc hỏi đáp DL.
Chèn, cập nhật, xoá các hàng trong một quan hệ. Tạo, sửa đổi, thêm
và xoá các đối tƣợng trong của CSDL. Điều khiển việc truy nhập tới
CSDL và các đối tƣợng của CSDL để đảm bảo tính bảo mật của
CSDL.
Đảm bảo tính nhất quán và sự ràng buộc của CSDL.
Yêu cầu duy nhất để sử dụng cho các hỏi đáp là phải nắm vững đƣợc
các cấu trúc CSDL của mình.
- Đối tƣợng làm việc của SQL Server.
Là các bảng (tổng quát là các quan hệ) dữ liệu hai chiều. Các bảng này bao
gồm một hoặc nhiều cột và hàng. Các cột gọi là các trƣờng, các hàng gọi là các
bản ghi. Cột với tên gọi và kiểu dữ liệu (kiểu dữ liệu của mỗi cột là duy nhất)
xác định tạo nên cấu trúc của bảng (Ta có thể dùng lệnh Desc [ribe] TABLE-

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

15


name để xem cấu trúc của bảng, phần tuỳ chọn có thể đƣợc bỏ trong Oracle).
Khi bảng đã đƣợc tổ chức hệ thống cho một mục đích nào đó có một CSDL.
Những phƣơng pháp truy vấn dữ liệu đƣợc giới thiệu ở trên chỉ có thể giải
quyết những bài toán với loại câu hỏi mang tính rõ ràng, chính xác về mặt dữ
liệu. Càng ngày con ngƣời càng mong muốn có những hệ thống thông minh hơn,
linh hoạt hơn, có thể xử lý đƣợc những truy vấn với ngôn ngữ tự nhiên bằng
những câu hỏi với các thông tin không rõ ràng, không chính xác (gọi chung là
câu hỏi mờ). Ví dụ: “Hãy cho biết những nhân viên nữ còn trẻ và có lƣơng cao”,
vậy hiểu nhƣ thế nào là “trẻ”, bao nhiêu tuổi là trẻ; Lƣơng bao nhiêu mới là
“cao”; Điều đó đã gây khó khăn cho các phƣơng pháp truy vấn truyền thống
trƣớc đây. Để giải quyết vấn đề này đã có rất nhiều phƣơng pháp đƣợc đề xuất,
trong đó có phƣơng pháp tiếp cận dựa trên lý thuyết tập mờ. Phƣơng pháp tiếp
cận này xây dựng một ngôn ngữ truy vấn mờ nhằm giải quyết những câu hỏi mơ
hồ, dữ liệu mập mờ một cách linh hoạt, mềm dẻo, trên cơ sở đó các nhà nghiên
cứu đã có nhiều hƣớng phát triển khác nhau.
1.2 Ứng dụng lý thuyết tập mờ trong truy vấn CSDL
1.2.1 Tập mờ và thông tin không chắc chắn
L.A. Zadeh là ngƣời sáng lập ra lý thuyết tập mờ với hàng loạt bài báo mở
đƣờng cho sự phát triển và ứng dụng của lý thuyết này, khởi đầu là bài báo
“Fuzzy Sets” trên Tạp chí Information and Control, 8, 1965. Ý tƣởng nổi bật của
khái niệm tập mờ của Zadeh là từ những khái niệm trừu tƣợng về ngữ nghĩa của
thông tin mờ, không chắc chắn nhƣ trẻ, nhanh, cao-thấp, xinh đẹp.., ông đã tìm
ra cách biểu diễn nó bằng một khái niệm toán học, đƣợc gọi là tập mờ, nhƣ là
một sự khái quát trực tiếp của khái niệm tập hợp kinh điển.
1.2.1.1 Tập mờ [5]
Khái niệm cơ sở lý của lý thuyết tập mờ là tập con mờ. Cho X là một tập
tham chiếu – tập vũ trụ các đối tƣợng. Một tập con cổ điển A của X đƣợc định
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>


16

nghĩa bởi một hàm đặc trƣng

A

lấy giá trị 0 với những phần tử của X không

thuộc A và lấy giá trị 1 với những phần tử của X thuộc A.
A:

X

{0, 1}

Định nghĩa 1.2.1.1 Một tập con mờ A của X đƣợc định nghĩa bởi một
hàm thuộc, gán cho mỗi phần tử x của X độ thuộc fA(x) nằm giữa 0 và 1, theo đó
x thuộc A.
fA: X

[0, 1]

Trƣờng hợp đặc biệt, trong đó fA chỉ lấy những giá trị bằng 0, hay 1, tập
con mờ A là một tập con cổ điển của X. Vậy một tập con cổ điển là một trƣờng
hợp riêng của tập con mờ.
Ký hiệu F(X) là tập tất cả các tập con mờ của X. Ký pháp sau đây vẫn
đƣợc dùng để biểu diễn các tập con mờ A, mặc dù nó không liên quan gì tới ý
lấy tổng hoặc lấy tích phân. Nó chỉ ra với mọi phần tử x của X, độ thuộc fA(x)
của nó vào A:


Một thí dụ của tập con mờ A, với X=[1, 100] là vũ trụ các tuổi là:
A = {35/1.0, 36/1.0, 37/1.0, 38/0.7, 39/0.5, 40/0.2} có nghĩa là các phần
tử 35, 36, 37 thuộc F với cấp độ thuộc bằng 1.0 và các phần tử 38, 39, 40 có các
độ thuộc tƣơng ứng bằng 0.7, 0.5, 0.2 còn tất cả các phần tử không đƣợc chỉ ra
có độ thuộc bằng 0 [5].
1.2.1.2 Các kiểu hàm thuộc
Một trong những vấn đề quan trọng đối với các tập mờ là làm thế nào để
xác định hàm thuộc mờ. Hàm thuộc định nghĩa đầy đủ các tập mờ. Một hàm
thuộc cung cấp độ thuộc của một phần tử vào tập mờ.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

17

Hàm thuộc (MF: Membership Function) có thể hoặc đƣợc lựa chọn bất kỳ
bởi ngƣời sử dụng, dựa trên kinh nghiệm của ngƣời sử dụng (MF đƣợc lựa chọn
bởi hai ngƣời sử dụng khác nhau tùy thuộc vào kinh nghiệm của họ, quan điểm,
vv); hoặc đƣợc thiết kế sử dụng các phƣơng pháp học máy (ví dụ, cá mạng
nơrron nhân tạo, thuật toán di truyền, vv)
Hàm thuộc có nhiều hình dạng khác nhau: hình tam giác, hình thang, tuyến
tính từng mảnh, vv. Để lƣu trữ các tập con mờ trong máy cần lƣu trữ các hàm
thuộc tƣơng ứng trong hai dạng đƣợc sử dụng rộng rãi.
a) Dạng hàm thuộc hình thang:
Để lƣu trữ hàm thuộc hình thang chỉ cần có bốn tọa độ của bốn đỉnh hình
thang ABCD.
µA(x)


D(d,1)

C(c,1)

1

0

x
A(a,0)

B (b,0)

Hình 1.1. Hàm thuộc hình thang
b) Dạng hàm thuộc hình tam giác:
Ba điểm a, b và c biểu diễn cho các tọa độ của ba đỉnh của µA(x) trong tập
mờ A (a: giới hạn dƣới, và c: giới hạn trên mà mức độ thuộc là (0,b): ứng với
mức độ thuộc là 1).

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

×