Tải bản đầy đủ (.pdf) (79 trang)

Các công cụ và công nghệ của hệ thống cơ sở dữ liệu trong việc tự động thu thập tri thức đối với các hệ chuyên gia dựa trên luật

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.82 MB, 79 trang )

Mục lục

Mục lục .............................................................................................................. 1
Lời mở đầu......................................................................................................... 3
Chương 1: Giới thiệu chung ............................................................................... 4
Chương 2: Cải tiến chất lượng dữ liệu ............................................................... 9
2.1. Các vấn đề về chất lượng dữ liệu.......................................................... 10
2.1.1. Dữ liệu quá lớn .............................................................................11
2.1.2. Dữ liệu quá nhỏ.............................................................................12
2.1.3. Dữ liệu bị đứt đoạn .......................................................................14
2.2. Các kế hoạch cải tiến chất lượng dữ liệu............................................... 14
2.2.1. Kiểm soát chất lượng dữ liệu.........................................................15
2.2.2. Kiểm tra chất lượng dữ liệu...........................................................16
2.2.3.Truyền dữ liệu................................................................................17
2.2.4. Thu thập thông tin.........................................................................18
2.3. Các công cụ cải tiến chất lượng dữ liệu ................................................ 19
2.3.1. Công cụ dò tìm dị thường..............................................................19
2.3.2. Công cụ mô hình hoá dữ liệu.........................................................21
2.3.3. Công cụ ngôn ngữ dữ liệu .............................................................22
2.4. Những mối quan tâm và những vấn đề về chất lượng dữ liệu ............... 23
Chương 3: Ứng dụng của các công nghệ và công cụ khai phá cơ sở dữ liệu trong
phát triển hệ chuyên gia.................................................................................... 30
3.1. Lược đồ khai phá luật........................................................................... 31
3.2. Các công cụ qui nạp ............................................................................. 33
3.3. Các công cụ khai phá tri thức ............................................................... 35
Chương 4: Quá trình xác minh tri thức ............................................................. 41
4.1. Các vấn đề và kết quả phổ biến trong khai phá tri thức......................... 41
4.2. Sự mâu thuẫn trong cơ sở tri thức......................................................... 42
4.2.1. Tri thức dư thừa ............................................................................42

1




4.2.2. Tri thức gộp ..................................................................................42
4.2.3. Tri thức mâu thuẫn........................................................................42
4.3. Các vấn đề với khai phá tri thức từ cơ sở dữ liệu quan hệ..................... 43
4.3.1. Khai phá tri thức sai từ cơ sở dữ liệu quan hệ................................43
4.3.2. Khai phá tri thức không đầy đủ từ những cơ sở dữ liệu quan hệ ....46
4.4. Xác minh tri thức được khai phá........................................................... 47
4.4.1. Cách tiếp cận để xác minh cơ sở tri thức trong các hệ chuyên gia..48
4.4.2. Cách tiếp cận để xác minh khai phá cơ sở tri thức từ cơ sở dữ liệu 50
4.4.3. Xác minh khả năng chấp nhận các luật sai dựa trên dữ liệu tổng hợp
...............................................................................................................52
4.4.4. Xác minh những luật mâu thuẫn có thể dựa trên dữ liệu lịch sử.....55
4.4.5. Xác minh tri thức được khai phá dựa trên tri thức lĩnh vực............58
4.4.6. Cơ chế xác minh ...........................................................................63
Chương 5: Kết hợp các luật được khai phá với các luật đã tồn tại..................... 68
Chương 6: Những mối quan tâm và những vấn đề trong thu thập tri thức tự động
......................................................................................................................... 71
6.1. Kích cỡ của cơ sở dữ liệu ..................................................................... 71
6.2. Cơ sở dữ liệu động ............................................................................... 71
6.3. Siêu dữ liệu - metadata ......................................................................... 72
6.4. Khó khăn giữa cách tiếp cận thương mại với khai phá cơ sở tri thức .... 73
Kết luận............................................................................................................ 76
Tài liệu tham khảo............................................................................................ 79

2


Lời mở đầu
Khai phá tri thức trong cơ sở dữ liệu (Knowledge Discovery in Databases)

đang là một xu hướng quan trọng của nền Công nghệ thông tin thế giới. Nó có
khả năng ứng dụng vào rất nhiều lớp bài toán thực tế khác nhau. Feigenbaum đã
từng nhận xét rằng "Trong tri thức có quyền lực" và ông đã tiến hành xây dựng
các hệ thống công nghệ tri thức. Từ đó khái niệm về hệ thống dựa trên tri thức
hay hệ chuyên gia bắt đầu ra đời. Cho đến nay, đứng trước sự phát triển của công
nghệ thông tin và sự phát triển của các công nghệ tri thức và các hệ chuyên gia,
chúng ta không thể phủ nhận quyền lực của tri thức trong xã hội loài người.
Trong thời đại ngày nay, chúng ta đang sống trong một thế giới ngập tràn
tri thức. Hầu hết trong các tổ chức lớn đều sử dụng đến các ứng dụng cơ sở dữ
liệu để lưu trữ thông tin. Nhiều ngành vần có các máy móc trợ giúp công việc và
càng ngày máy móc càng khẳng định vị trí và vai trò của mình trong việc tăng
năng xuất lao động. Những điều này đã được khẳng định trong lịch sử phát triển
của loài người. Khi con người càng có trí tuệ thì càng đòi hỏi các thiết bị phải tự
động hơn và thông minh hơn. Do đó máy móc phải có khả năng xử lý tình huống
và thu thập tri thức tự động giống như con người. Vì thế các công cụ và công
nghệ thu thập tri thức tự động đang được quan tâm xây dựng và phát triển. Các
công cụ và công nghệ này được xây dựng và phát triển nhằm mục đích hỗ trợ cho
hệ chuyên gia thu thập tri thức để giúp cho quá trình tạo quyết định và tổ chức tri
thức cho hệ chuyên gia.
Tuy rằng có nhiều quan điểm khác nhau về vai trò của con người và máy
móc nhưng chúng ta không thể phủ nhận vai trò của máy móc đối với cuộc sống
của con người hiện đại hôm nay, đặc biệt là các máy thông minh hay các hệ
chuyên gia. Vì vậy theo thời gian nhu cầu của con người về các hệ thống này
càng ngày càng cấp thiết. Do đó, các công cụ và công nghệ thu thập tri thức cho
các hệ chuyên gia hoạt động và tạo quyết định là một vấn đề then chốt để xây
dựng một hệ chuyên gia hoàn chỉnh và có thể hoạt động như một chuyên gia.

3



Chương 1: Giới thiệu chung
Các hệ chuyên gia là một dạng được chấp nhận của trí tuệ nhân tạo. Các
thành phần quyết định của mọi hệ chuyên gia đều là cơ sở tri thức, nó chứa các
sự kiện và cách giải quyết vấn đề bằng kinh nghiệm của người chuyên gia về một
lĩnh vực. Các cấu trúc biểu diễn tri thức của hệ chuyên gia thay đổi rất lớn bao
gồm các khung và các mạng ngữ nghĩa, các hệ thống dựa trên luật chung nhất
trong nhiều hệ chuyên gia. Các hệ thống này bao gồm các luật khá đặc biệt như
"Nếu điểm trung bình lớn hơn 8 thì học sinh đó là giỏi"
Các công nghệ thu thập tri thức bao gồm:
-

Sự theo dõi một phía.

-

Thảo luận và phân tích toàn bộ vấn đề.

-

Miêu tả vấn đề, định rõ các giao thức trong mỗi loại.

-

Phân tích giao thức.

-

Nguyên mẫu và hệ thống lọc.

-


Xem xét bên ngoài

-

Sự phân tích mục đích

-

Câu hỏi mở

-

Câu hỏi đóng

-

Phỏng vấn có cấu trúc

-

Phỏng vấn không có cấu trúc.

-

Phỏng vấn trực tiếp

-

Chuyên gia hướng dẫn đưa ra một bài thuyết trình


-

Bảng báo cáo

-

Nhận dạng và phát sinh ví dụ

-

Thu được tri thức theo chính sách

Đây là các vấn đề quan trọng với mỗi công nghệ. Các kỹ thuật khi được sử
dụng một mình không bảo đảm tính toàn vẹn và tính chắc chắn trong cơ sở tri
thức. Bởi vậy cần sử dụng kết hợp nhiều kỹ thuật và nhiều nhân công. Các vấn
đề khác bao gồm: đưa ra trọng số cho các sự kiện gần đây lớn hơn các sự kiện

4


trong quá khứ, lỗi để nhớ tới các trường hợp và các luật, sự bảo thủ của chuyên
gia, sai số không được bảo đảm, không có khả năng như chuyên gia để giải thích
các luật giúp quyết định, và tổng hợp từ số lượng mẫu quá nhỏ.

Cơ sở dữ liệu
hợp nhất

Công cụ tách dị
thường


Công cụ mô hình
hoá dữ liệu logic

Công cụ truy
vấn ngôn ngữ

Các công cụ cải tiến chất lượng dữ liệu

CSDL đã được làm
sạch

Các công cụ quy nạp

Các công cụ khai phá tri thức

Các luật được phát sinh

Các luật được phát sinh

Quá trình thẩm định tri thức

Tri thức lĩnh
vực

Cơ sở tri thức dựa trên luật
(Tri thức được khai phá)
Hình 1: Một khung làm việc sinh luật tự động

5



Bởi vì các kỹ thuật này và nhiều vấn đề khác có liên quan tới các kỹ thuật
phỏng vấn bằng lời nói, các kỹ sư tri thức tìm kiếm các nghĩa khác để mở rộng
tập hợp luật và kiểm tra lại các luật sẵn có trong cơ sở tri thức. Họ có thể xem lại
các tài liệu chuẩn, xử lý dấu hiệu độc lập, phỏng vấn nhiều người khác, và kiểm
tra các tri thức chung, tất cả các phương pháp này là giai đoạn quan trọng và chi
phí cao. Do đó, mọi sự cố gắng để phát triển công nghệ thu thập tri thức tự động
là đang được chú ý.
Các cơ sở dữ liệu liên kết chứa hàng chục gigabytes dữ liệu cho một vài
hệ chuyên gia, thực hiện bổ xung vào các công nghệ thu thập tri thức truyền
thống. Thông qua sử dụng các công cụ và chiến lược thích hợp, tri thức cung cấp
trong một cơ sở dữ liệu có thể chuyển đổi hiệu quả vào định dạng của một hệ
thống dựa trên luật.
Dù nhiều công cụ khai phá là có sẵn, cơ sở dữ liệu thế giới thực đưa ra
những khó khăn vì tính tự nhiên trong nội dung của chúng là hướng tới động,
không đầy đủ, dư thừa, nhiễu, và rất lớn. Những vấn đề này phải được giải quyết
trước khi bất kỳ công cụ khai phá nào được ứng dụng vào những cơ sở dữ liệu
liên kết này trong việc tìm kiếm các luật có ý nghĩa.
Trong chương này, chúng ta miêu tả khung làm việc có sẵn của các công
nghệ và công cụ cơ sở dữ liệu có thể ứng dụng cho các cơ sở dữ liệu thế giới thực
để tạo ra các cơ sở tri thức dựa trên luật để phát triển hệ chuyên gia. Khung làm
việc minh hoạ trong hình 1 bao gồm các thành phần chính sau:
1. Các công cụ cải tiến chất lượng dữ liệu: Chất lượng dữ liệu phải được cải
tiến trước bất kỳ quá trình thu thập tri thức tự động nào để có kết quả đúng như
dự kiến. Các công cụ phát hiện dị thường, các công cụ thiết kế cơ sở dữ liệu logic
và Ngôn ngữ truy vấn quan hệ SQL có thể được sử dụng để phát hiện các mâu
thuẫn mà có thể tồn tại trong cơ sở dữ liệu.
2. Các công cụ phát hiện luật:
 Các công cụ qui nạp như là LogicGem và First Class có thể được dùng

để biến đổi dữ liệu thành tập hợp các luật.

6


 Các công cụ khai phá tri thức như là IDIS và Knowledge Seeker có thể
thao tác trên dữ liệu để phát hiện các quan hệ ẩn mà tồn tại giữa các
thuộc tính và trình bày các thuộc tính này trong định dạng của các luật.
Mặc dù, các công cụ này có thể phân tích dữ liệu để tách các dữ liệu dị
thường (các thuộc tính mà có giá trị không bình thường).
3. Quá trình thẩm định tri thức: thẩm định tri thức được khai phá cần thống
nhất, chính xác, đầy đủ, và thích hợp. Tri thức được khai phá phải kết hợp một
cách đúng đắn với tri thức đang tồn tại để cơ sở tri thức thống nhất và đáng tin
cậy có thể được thiết lập cho hệ chuyên gia theo lý thuyết.
Đối với những cơ sở dữ liệu rất lớn, sự kết hợp của các công cụ và công
nghệ này có thể cung cấp một môi trường tốt hơn cho thu thập tri thức tự động.
Để phát hiện ra tri thức có ích từ cơ sở dữ liệu, chúng ta cần cung cấp dữ liệu
sạch cho quá trình khai phá. Phần lớn các cơ sở dữ liệu có dữ liệu dư thừa và
mâu thuẫn nhau, và mất các trường hoặc mất các giá trị dữ liệu, cũng như các
trường dữ liệu mà không có quan hệ logic và được chứa trong các quan hệ dữ
liệu giống nhau. Các công cụ và công nghệ cải tiến chất lượng dữ liệu có thể xoá
bỏ phần lớn các vấn đề này, chúng tăng thêm cơ hội của tạo ra các luật phù hợp,
chính xác, và có ý nghĩa bằng các công cụ khai phá và qui nạp.
Các công cụ khai phá và quy nạp có thể sử dụng độc lập để sinh ra các
luật. Các công cụ quy nạp là có hiệu quả với các dữ liệu nhỏ với một vài thuộc
tính, ở đó các thuộc tính độc lập lẫn nhau và tất cả các thuộc tính được đưa ra
trong quá trình tạo quyết định. Mặt khác, các công cụ khai phá tri thức đều rất có
ích với số lượng lớn dữ liệu với nhiều thuộc tính có quan hệ với nhau. Thêm vào
đó, các công cụ khai phá tri thức cho phép những người dùng hướng dẫn quá
trình khai phá bằng cách tập trung vào các thuộc tính được chọn để xác nhận

phần tri thức thu thập được thông qua các công nghệ thu thập tri thức truyền
thống. Nói chung, các công cụ khai phá và quy nạp có thể bổ sung lẫn nhau.
Chúng sử dụng các thuật toán khác nhau để xác định các quan hệ và các thuộc
tính ẩn trong các cơ sở dữ liệu và để sinh ra luật. Sau đó, ứng dụng của cả hai

7


công cụ này, bất cứ khi nào thích hợp và có thể thực hiện được, có thể giảm bớt
lỗi trong bất kỳ các luật tạo quyết định từ cơ sở dữ liệu.
Tập hợp các luật khai phá phải được xác minh độ chính xác (những luật
miêu tả sinh động cơ sở dữ liệu), sự mâu thuẫn (những luật không dư thừa hay
mâu thuẫn), và có ích (những luật đưa ra quá trình tạo quyết định) cho cơ sở tri
thức đang được phát triển. Hiện tại, không có công cụ có sẵn nào để hoàn thành
điều này. Quá trình xác minh tri thức có thể sử dụng sự phản hồi từ một chuyên
gia lĩnh vực cũng như miền tri thức sẵn có đặc biệt với ứng dụng đang được xem
xét cho sự phát triển hệ chuyên gia. Tri thức lĩnh vực được định nghĩa như bất kỳ
thông tin nào mà không trình bày rõ ràng trong cơ sở dữ liệu. Trong một cơ sở dữ
liệu y học, chẳng hạn, tri thức "bệnh nhân nam không thể mang thai" được xem
xét như là tri thức lĩnh vực.
Trong những mục sau đây, chúng ta mô tả những tiện ích, những khả
năng, và những hạn chế của những công cụ, kỹ thuật, và những quá trình xác
định trong khung làm việc để thu thập tri thức tự động. Những công cụ và kỹ
thuật này minh hoạ cách những người quản lý cơ sở dữ liệu có thể cộng tác để
phát triển một vài hệ chuyên gia. Không phải mọi dữ liệu có trong một cơ sở dữ
liệu đều có ích và sự phát triển của tất cả các hệ chuyên gia sẽ không được lợi từ
thông tin được lưu trong những cơ sở dữ liệu. Điều này là đúng với mọi kỹ thuật
thu thập tri thức. Kỹ thuật được mô tả là phần bổ sung tới những công cụ truyền
thống và được dùng để bắt đầu sự tìm kiếm cho các kỹ thuật khác liên quan đến
sử dụng cơ sở dữ liệu.


8


Chương 2: Cải tiến chất lượng dữ liệu
Mỗi cơ sở dữ liệu có các đặc điểm tương ứng với kiểu dữ liệu mà nó lưu
trữ. Bước đầu tiên để hiểu một cơ sở dữ liệu là phải hiểu thế nào là các bảng và
các trường và các kiểu của dữ liệu mà chúng chứa. Trong các cơ sở dữ liệu lớn,
cách biểu thị các trường, và kiểu và phạm vi giá trị của kiểu thường khó hiểu.
Cho một trường hợp, nếu cơ sở dữ liệu có một trường là "tuổi", nó có thể đưa ra
một dự đoán dựa trên miền giá trị mà nó chứa. Tuy nhiên, cho một trường như là
"chứng bệnh", nó không biết số các chứng bệnh, các chứng bệnh hay gặp, ....
Trong khai phá tri thức, có một sự phụ thuộc quan trọng vào cách cơ sở dữ
liệu được đặc trưng hoá và cách tri thức được thu thập và cách tri thức đang tồn
tại được suy ra như thế nào. Cơ sở dữ liệu thế giới thực đưa ra khó khăn vì những
nội dung tự nhiên của chúng có xu hướng động, không đầy đủ, rườm rà, và rất
rộng. Dữ liệu có thể không đầy đủ hoặc thiếu các giá trị trong các trường bản ghi
đặc biệt hoặc hoàn toàn thiếu các trường dữ liệu cần thiết để khai phá chính xác.
Trong những cơ sở dữ liệu quan hệ, vấn đề xuất hiện thường xuyên bởi vì mô
hình quan hệ chỉ ra rằng tất cả bản ghi trong một quan hệ phải có các trường
giống nhau, thậm chí nếu những giá trị của hầu hết các bản ghi không tồn tại. Ví
dụ, một cơ sở dữ liệu bệnh viện với những trường có một phạm vi rộng của
những sự kiểm tra trong phòng thí nghiệm và những thủ tục. Nói chung, chỉ một
vài trường này sẽ được làm đầy trong bất kỳ bệnh nhân đã cho. Các trường
không đầy đủ hoặc mất mát trong các quan hệ có thể dẫn đến khai phá không có
ý nghĩa. Thêm vào đó, dữ liệu thường xuất hiện liên tiếp ở nhiều nơi khác nhau
trong một cơ sở dữ liệu. Một dạng phổ biến của sự dư thừa là một phụ thuộc hàm
trong một trường được định nghĩa như là một hàm của các trường khác. Cho ví
dụ, Lợi_nhuận = Thu_nhập – Chi_phí. Vấn đề này là thông tin dư thừa có thể bị
khai phá một cách sai lầm như tri thức, thậm chí nó thường được sử dụng không

thích hợp bởi kỹ sư tri thức.

9


Chất lượng của khai phá và giải thích thông tin phụ thuộc vào chất lượng
của dữ liệu. Chất lượng và tính chất rộng lớn của dữ liệu trong cơ sở dữ liệu thế
giới thực đưa ra các vấn đề trọng tâm để khai phá tri thức. Để vượt qua vấn đề
chất lượng dữ liệu cần sử dụng các công cụ phân tích sự dị thường, làm sạch hơn,
và lọc các thiết kế cơ sở dữ liệu logic nếu cần thiết.

2.1. Các vấn đề về chất lượng dữ liệu
Dữ liệu trên một phạm vi đặc biệt thu được trong dạng của các thuộc tính
ký hiệu và số. Các nguồn của dữ liệu biến đổi từ người tới bộ cảm biến với các
độ khác biệt về sự phức tạp và sự đáng tin cậy. Phân tích các dữ liệu ở đây cho
chúng ta hiểu rõ hơn về lĩnh vực này. Trong sự phát triển của các hệ thống dựa
trên tri thức, phân tích dữ liệu được thực hiện để phát hiện và sinh ra tri thức mới
để xây dựng một cơ sở tri thức toàn diện và đáng tin cậy. Sự tin cậy của cơ sở tri
thức mà được sinh ra trên các công nghệ phân tích dữ liệu như là phương pháp
quy nạp, nó phụ thuộc vào dữ liệu. Vì vậy, chất lượng của dữ liệu trở thành một
vấn đề quyết định trong sơ đồ thu thập tri thức tự động.
Giới hạn "Chất lượng dữ liệu" được định nghĩa như là "phù hợp để sử
dụng" bao hàm các khái niệm chất lượng dữ liệu tương đối. Tính toán chất lượng
dữ liệu để phù hợp cho một mục đích sử dụng nhưng có thể không đủ chất lượng
cho mục đích khác. Thêm vào đó, sự thích hợp để sử dụng biểu thị rằng chúng ta
cần tìm kiếm ra ngoài giới hạn sự quan tâm thường xuyên của chúng ta với độ
chính xác của dữ liệu. Dữ liệu tìm được dựa trên các hệ thống điều trị bệnh nhân
có thể chính xác nhưng không thích hợp để sử dụng nếu chúng không xảy ra
đúng lúc. Hơn nữa, các cơ sở dữ liệu khác nhau ở trong những hoàn cảnh xác
định trong phần khác nhau của một tổ chức có thể đúng nhưng không thích hợp

để sử dụng nếu chúng ta hợp nhất chúng và chúng có các định dạng không thích
hợp. Một vấn đề liên quan tới dữ liệu là các ngữ nghĩa của dữ liệu có thể hiểu
hoàn toàn bởi những người thu thập chúng, nhưng không phải bởi tất cả những
người dùng khác. Như vậy, mặc dù giá trị có thể đúng, nhưng nó có thể dễ dàng
bị hiểu sai.

10


Vấn đề này luôn luôn tồn tại với dữ liệu thực. Dữ liệu có thể thường sai và
không đầy đủ, được phân loại thành cơ sở dữ liệu con, được tổ chức sử dụng
không phù hợp với các định dạng và các mô hình dữ liệu, và sử dụng thường bao
hàm toàn diện các quy ước tên gọi. Cải tiến chất lượng dữ liệu bao gồm thao tác
cơ bản như là loại bỏ nhiễu nếu thích hợp, thu thập các thông tin cần thiết để làm
mẫu hoặc loại bỏ nhiễu; chúng có tác dụng quyết định chiến lược để trình bày
thông tin mất mát (các trường dữ liệu, các giá trị thuộc tính); tính toán về thông
tin tần suất thời gian; thay đổi và chuẩn hoá thích hợp. Quan tâm tới chất lượng
của dữ liệu là vì các tác dụng của các vấn đề đó trên các kết quả phân tích dữ
liệu, mục đích là để sửa các vấn đề dữ liệu về thời gian hoặc để nhận dạng những
ảnh hưởng của các vấn đề dữ liệu dựa trên các kết quả.
Các vấn đề dữ liệu có thể phân loại thành 3 nhóm: dữ liệu quá nhiều, dữ
liệu quá nhỏ, và dữ liệu đứt đoạn. Trong những thảo luận sau đây, chúng ta xem
xét các vấn đề xuất hiện phổ biến trong các cơ sở dữ liệu hiện nay.
2.1.1. Dữ liệu quá lớn
a. Dữ liệu sai lạc và nhiễu
Dữ liệu sai lạc là vì các nhân tố như là truyền dữ liệu thất bại hoặc tiếp
nhận dữ liệu sai. Nhiễu trong dữ liệu có thể cho là do đo lường dữ liệu hoặc lỗi
truyền dẫn, và do các nhân tố cố hữu như là đặc điểm của các hệ thống và các
quá trình từ đó dữ liệu được thu thập. Nói chung, nhiễu trong dữ liệu ít đi dự báo
khả năng các điểm đặc trưng được tìm ra.

b. Dữ liệu động
Đặc điểm cơ bản của hầu hết các cơ sở dữ liệu là các nội dung đang thay
đổi. Dữ liệu có thể có nhạy cảm với thời gian, phân tích và khai phá bị ảnh
hưởng bởi đường thời gian của quan sát dữ liệu. Một vài giá trị dữ liệu, như là số
hiệu cá nhân, là hằng số theo thời gian; một vài biến đổi hơn hoặc kém tổng quát

11


theo thời gian (cân nặng và chiều cao); và phụ thuộc tình hình mà chỉ quan sát
giá trị gần đây sẽ đủ để đáp ứng ( tốc độ nhịp xung).
c. Dữ liệu không thích hợp
Các ứng dụng phân tích dữ liệu yêu cầu rút trích các dữ liệu có ý nghĩa từ
các tập dữ liệu lớn. Một đặc điểm chính là sự thích hợp của dữ liệu; một mục của
dữ liệu là thích hợp với điểm tập trung của sự phân tích. Ví dụ, khi một cơ sở dữ
liệu bệnh nhân được khảo sát để chú ý tới các triệu chứng và chẩn đoán của các
bệnh nhân, dữ liệu không y học như là tên bệnh nhân hay mã số vùng điện thoại
là không liên quan, và các lỗi này là không quan trọng. Tuy nhiên, tốc độ nhịp
tim của bệnh nhân là có liên quan, và các lỗi có thể ảnh hưởng tới những tri thức
được khai phá. Mặt khác, nếu chúng ta tìm thấy một sự tập trung về địa lý của
một bệnh riêng biệt, khi đó mã vùng điện thoại lại trở thành quyết định.
Các dữ liệu có liên quan được lựa chọn bởi sự tập trung trên các mẫu
chính của thông tin và đôi khi sử dụng những cái khác của dữ liệu để củng cố
hoặc làm sạch những nhập nhằng. Mục đích chính của việc khử những dữ liệu
không thích hợp là để thu hẹp không gian tìm kiếm trong sự phân tích dữ liệu. Sự
phức tạp có thể giảm đáng kể nếu dữ liệu không thích hợp được loại ra và chỉ
phần lớn các đặc điểm có liên quan được sử dụng để phân tích dữ liệu.
d. Dữ liệu kích thước lớn
Trong rất nhiều lĩnh vực, như là không gian (dữ liệu ảnh) và truyền thông
(điều hành các mạng lưới lớn), số lượng dữ liệu và tốc độ tại nơi mà dữ liệu được

sản xuất có thể có một hệ số giới hạn trong thực hiện phân tích trực tuyến. Số
lượng dữ liệu đôi khi vượt ra ngoài giới hạn khả năng của giá trị phần cứng và
phần mềm sử dụng để phân tích dữ liệu.
2.1.2. Dữ liệu quá nhỏ
a. Các thuộc tính bị mất mát

12


Các thuộc tính bị mất mát hoặc thiếu là những ví dụ về các vấn đề dữ liệu
mà có thể làm phức tạp nhiệm vụ phân tích dữ liệu như là trong việc học. Trong
học, các dữ liệu này không đủ giới hạn để thực hiện thuật toán học hoặc các công
cụ thống kê ứng dụng để thu thập dữ liệu, không có vấn đề thuật toán phức tạp
như thế nào hoặc dữ liệu được sử dụng là bao nhiêu. Các thuộc tính sai và mất
mát tạo ra một vài vấn đề khi phương pháp quy nạp được sử dụng như quá trình
phân tích dữ liệu. Đầu tiên, trong quy nạp cây quyết định, các thuộc tính mất mát
vì các vectơ có độ dài không đồng đều. Kết quả của vấn đề này tạo ra độ lệch khi
giá trị thông tin của hai vectơ trình bày hai thuộc tính được so sánh hoặc khi một
phép kiểm tra về hiệu suất của các giá trị của một thuộc tính. Thứ hai, nhiều ứng
dụng phân tích dữ liệu gồm phân chia dữ liệu thành các tập hợp đào tạo và kiểm
tra. Mặc dù quá trình phân chia có thể lặp đi lặp lại một vài lần, các thuộc tính bị
mất vì sự uớc lượng không chính xác của các kết quả.
Một cách nhìn không tương xứng của cơ sở dữ liệu có thể tạo ra tổng số
dữ liệu xuất hiện có lỗi. Quan sát toàn bộ cơ sở dữ liệu của các thuộc tính thích
hợp mà hệ thống khai phá có thể áp dụng cho một vấn đề. Nó thừa nhận tầm
quan trọng của các trường hợp có thuộc tính phức tạp. Cho ví dụ, giả sử một hệ
thống được định nghĩa để học chẩn đoán bệnh sốt rét từ cơ sở dữ liệu bệnh nhân
mà không bao gồm xét nghiệm máu. Bệnh nhân mà có các bản ghi đúng và ai là
khoẻ mạnh với chi tiết cụ thể dựa vào quan sát này có thể có những chẩn đoán
khác nhau, có thể sai sót bị đổ lỗi cho lỗi của dữ liệu.

b. Mất các giá trị thuộc tính
Hầu hết các cơ sở dữ liệu đều có thuộc tính bị mất giá trị. Trong một vài
ứng dụng, dữ liệu mất mát có thể được xem xét bằng phân tích dữ liệu và các hệ
thống khai phá bằng cách đơn giản loại bỏ các giá trị mất mát, bỏ qua các bản ghi
tương ứng, hoặc suy ra các giá trị mất mát từ các giá trị đã biết. Trong một vài
ứng dụng, các bản ghi dữ liệu với các giá trị mất mát không thể bị loại bỏ bởi vì
tổng toàn bộ dữ liệu có thể không đủ và các giá trị còn lại trong các bản ghi dữ
liệu có thể có các thông tin có ích. Trong một vài ứng dụng, sự có mặt của các

13


giá trị thuộc tính có liên quan là rất quan trọng (ví dụ, có thể chẩn đoán được một
bệnh nhân đã hôn mê một thời gian rồi hay không ?) mà việc thay thế một giá trị
mặc định là không được phép.
c. Tổng số dữ liệu nhỏ
Trong một vài cơ sở dữ liệu, mặc dù tất cả các thuộc tính có đủ giá trị, vấn
đề chính là tổng toàn bộ dữ liệu là không đủ cho tất cả các kiểu phân tích dữ liệu.
Cho trường hợp, phần lớn thuật toán phân tích dữ liệu cần đến gần 100 ví dụ của
dữ liệu đào tạo để đào tạo phù hợp dành cho việc phân loại các ví dụ sau này. Độ
tin cậy của các khái niệm học hoặc các mẫu và các luật phổ biến có thể không có
khả năng nếu các ví dụ không đủ giá trị.
2.1.3. Dữ liệu bị đứt đoạn
a. Dữ liệu mâu thuẫn nhau
Dữ liệu tương thích trở thành quan trọng khi một vài nhóm thu thập dữ
liệu. Đặc biệt đúng trong nhiều lĩnh vực mà dữ liệu cảm tính được thu thập và
phân tích. Các vấn đề không thích hợp có thể vì cách con người miêu tả dữ liệu.
b. Nguồn dữ liệu phức tạp
Trong các tổ chức rộng lớn, dữ liệu có thể bị phân tán trong một số các
khu vực trên các chuẩn khác nhau. Trong phần lớn trường hợp, dữ liệu thu được

và duy trì được sử dụng các hệ thống phần mềm khác nhau. Mục đích, trình độ,
và chuẩn của dữ liệu thu thập có thể biến đổi khắp các tổ chức. Như một kết quả,
khi dữ liệu từ nhiều hơn một nhóm thu được cho phân tích dữ liệu, các vấn đề
liên quan tới sử dụng dữ liệu có thể xảy ra.

2.2. Các kế hoạch cải tiến chất lượng dữ liệu
Đầu vào cơ bản cho một hệ thống phân tích và khai phá dữ liệu là dữ liệu
thô được biểu diễn trên cơ sở dữ liệu. Các cơ sở dữ liệu đưa ra những vấn đề duy
nhất để phân tích và khai phá dữ liệu, bởi vì chúng là động, không đầy đủ, nhiễu,

14


và lớn. Các mối quan tâm khác bao gồm cơ sở dữ liệu bao gồm thông tin đầy đủ,
khai phá tập trung và cách xử lý sự dư thừa của thông tin không liên quan. Trong
thảo luận tiếp theo, chúng ta giải thích các công nghệ cải tiến chất lượng dữ liệu
khác nhau mà có thể được dùng để tạo ra dữ liệu chính xác hơn, ổn định hơn, và
đầy đủ hơn. Các công nghệ ở đây cung cấp khả năng để nghiên cứu và giảm
nhiễu dữ liệu cũng như dư thừa dữ liệu không liên quan.
2.2.1. Kiểm soát chất lượng dữ liệu
Các bước sau đây có thể làm để kiểm soát chất lượng dữ liệu trong các cơ
sở dữ liệu:


Duy trì sơ đồ chất lượng



Xác minh dữ liệu ghi vào trong các thuộc tính.




Kiểm tra sự tin cậy dữ liệu



Kiểm soát những ràng buộc



Kiểm tra sơ đồ dữ liệu tương thích trong các bảng trộn



Duy trì sự ổn định

Một vài tiêu chuẩn để đánh giá chất lượng (kiểu và kiểm tra lĩnh vực) có
thể được kiểm soát trong quá trình ghi dữ liệu. Cho ví dụ, tuổi không là số âm.
Chúng có thể là một trạng thái riêng của các ràng buộc liên quan trên dữ liệu, cho
ví dụ, một vị trí trong bảng mã vùng điện thoại cần một sự so sánh mã vùng điện
thoại tương ứng. Một vài ràng buộc khác có thể nhận biết, trong khi những ràng
buộc khác có thể tồn tại như những phụ thuộc trong dữ liệu. Cho ví dụ, mối quan
hệ giữa mã vùng điện thoại và mã khu vực đưa ra như một sự phụ thuộc, chúng
cần được kiểm tra.
Kiểu tốt nhất của kiểm soát chất lượng là ngăn chặn lỗi dữ liệu trước khi
nó xảy ra. Các phép kiểm tra tìm kiếm các lỗi hiển nhiên (ví dụ, đưa vào một giá
trị không đúng cho một thuộc tính). Các phép kiểm tra theo xác suất tìm ra các
giá trị không chắc đúng và sau đó cảnh báo người ghi dữ liệu (ví dụ, giá trị số mà
cách xa lớn hơn bất kỳ giá trị nào trước đó (thống kê kinh phí)).


15


Các ràng buộc dựa trên luật đơn giản có thể dễ dàng được kiểm soát trong
suốt quá trình dữ liệu vào, cho ví dụ, số hiệu cá nhân được ràng buộc có 9 chữ số
hoặc tuổi của tất cả những người lao động phải lớn hơn 18. Các phương thức
khác có thể cải tiến chất lượng dữ liệu bao gồm:


Sử dụng các giá trị đặc biệt "không biết" (thay cho 0) để ngăn ngừa
sự nhầm lẫn.



Nhận dạng của các phụ thuộc hàm để kiểm tra các giá trị duy nhất.



Sử dụng kiểu số để bảo đảm giá trị giữa các hệ thống.

2.2.2. Kiểm tra chất lượng dữ liệu
Sự kiểm tra chất lượng dữ liệu được sử dụng để phát hiện các lỗi dữ liệu.
Một trong những bước đầu tiên trong quá trình phát triển một chương trình chất
lượng dữ liệu là tìm ra cách chất lượng dữ liệu hiện nay tồi theo như thế nào bằng
cách đưa ra một quá trình kiểm tra chất lượng dữ liệu. Cách này có thể được làm
bởi những kiểu liệt kê các lỗi khác nhau mà có thể xuất hiện và định nghĩa các
thủ tục để kiểm tra các lỗi này và xác định tần số của sự kiện trong các cơ sở dữ
liệu liên kết.
Đối với một số lỗi, có thể thực hiện để phát triển một thủ tục kiểm tra
trước mà có thể áp dụng cho tất cả dữ liệu. Đối với các kiểu lỗi khác, có thể thực

hiện áp dụng khả năng kiểm tra lỗi và phát hiện dị thường để định nghĩa các
ngoại lệ bên ngoài và dị thường. Các dị thường này có thể được kiểm tra riêng
biệt và được xác minh.
Đây là các lỗi mà thực sự khó phát hiện hoặc quá tốn chi phí hoặc mất
nhiều thời gian để theo dõi và bắt được vì tập hợp dữ liệu lớn. Trong các trường
hợp tương tự, chúng ta có thể sử dụng một chiến lược lấy mẫu, các ví dụ ngẫu
nhiên được rút ra từ tập hợp dữ liệu và tần số của các lỗi là được tính toán. Toàn
bộ tần số của các lỗi có thể được ước lượng bởi sự tổng quát hoá từ các mẫu.
Một vài công nghệ sử dụng để kiểm tra lỗi trong sự kiểm soát chất lượng
dữ liệu bao gồm:

16




Kiểm tra miền giá trị đối với số thực và số nguyên.



Kiểm tra tập hợp giá trị đối với một số nhỏ của các giá trị xâu, các
số thực đã biết, vân vân…



Kiểm tra mẫu đối với hàm và những sự phụ thuộc khác



Kiểm tra ràng buộc logic (với các bản ghi, các thuộc tính, các bảng)




Kiểm tra các ràng buộc không chính xác.

2.2.3.Truyền dữ liệu
Những giới hạn cơ bản trong tập hợp dữ liệu và phân tích dữ liệu là vì
chất lượng và tính chất đầy đủ của dữ liệu. Những sai sót trong các phép đo của
đầu vào hoặc cung cấp dữ liệu sai cho công cụ phân tích dữ liệu (ví dụ, một phép
phân loại) sẽ gây ra nhiều vấn đề khác nhau. Bởi vậy, nó là cần thiết trong sự
phân tích dữ liệu để nhận dạng sự không đầy đủ và lựa chọn các công nghệ thích
hợp để sửa các vấn đề. Trong mục nhỏ tiếp theo, chúng ta xem xét một vài công
nghệ mà đã được phát triển và ứng dụng để biến đổi dữ liệu từ những lĩnh vực
khác nhau.
a. Bộ lọc dữ liệu
Bộ lọc dữ liệu đã được dùng để giải quyết dữ liệu bẩn như là dữ liệu
nhiễu. Một số các công nghệ dựa trên trên bộ lọc dữ liệu đã được phát triển để
loại bỏ dữ liệu không mong muốn trong phạm vi thời gian, phạm vi tần suất,
hoặc phạm vi thời gian thực hiện. Quan niệm kỹ thuật lọc loại bỏ các đặc trưng
không liên quan và không có sự bóp méo các đặc trưng có liên quan. Cho ví dụ,
trong phạm vi bộ lọc tần suất, dữ liệu được biến đổi qua phân tích Fourier để góp
phần loại trừ các tần số cao. Một giả thuyết cơ bản trong bộ lọc dữ liệu là một số
lượng tri thức lĩnh vực có sẵn để các thông tin có ích không bị mất.
b. Mô hình hoá nhiễu
Nén dữ liệu được sử dụng cho mô hình hoá nhiễu và làm mịn dẫn đến bỏ
sót các thành phần tần số thấp của dữ liệu. Nén dữ liệu có thể nâng cao và cải

17



tiến phép nội suy các kết quả đó trong một sự phân lớp tốt hơn của các tập hợp
dữ liệu kiểm tra. Một trong những cường độ quan trọng nhất của mô hình hoá
nhiễu là nó có thể giúp chọn lựa dữ liệu có liên quan và để thiết lập các ngưỡng
thích hợp trong các phân loại hoá dữ liệu.
2.2.4. Thu thập thông tin
Những kết quả giới hạn hay không đầy đủ vẫn được sử dụng khi những
đặc trưng dữ liệu là không biết, sự phân tích dữ liệu không được hướng dẫn thích
hợp, hoặc những tham số bên trong khác nhau trong một công cụ phân tích dữ
liệu là thiết lập không thích hợp. Sau này chúng ta bàn luận về công nghệ mà
được ứng dụng cho dữ liệu để chúng ta có thể hiểu bản chất của dữ liệu tốt hơn
và sử dụng công cụ phân tích dữ liệu hiệu quả hơn.
a. Loại bỏ dữ liệu
Loại bỏ dữ liệu được dùng để giảm bớt đáng kể khối lượng dữ liệu và để
phân loại từng phần dữ liệu.
b. Lựa chọn dữ liệu
Để nắm bắt vấn đề của những tập dữ liệu lớn, một vài phương pháp được
phát triển để phân tích sự đúng đắn và phân hạng dữ liệu trên nhiều tập hợp dữ
liệu nhỏ hơn. Bởi quá trình xử lý trước những tập dữ liệu lớn sử dụng một kỹ
thuật gọi là lượng tử hóa hay sắp xếp nhóm vectơ, yêu cầu tính toán cần thiết để
phân tích dữ liệu và các thao tác lớn được giảm bớt.
c. Lấy mẫu dữ liệu
Lấy mẫu dữ liệu được sử dụng trong những trường hợp mà thuật toán
được dùng để phân tích dữ liệu yêu cầu một tập con của toàn bộ dữ liệu, hoặc
chia nhỏ dữ liệu thành các tập hợp đào tạo và kiểm tra hoặc để ước lượng hiệu
suất của thuật toán phân tích dữ liệu thông qua một quá trình lặp của sự biến đổi
kích cỡ mẫu. Vấn đề quan trọng ở đây là chọn lựa các mẫu đúng (ví dụ, tập đào

18



tạo và tập kiểm tra) để thu được và đảm bảo hiệu suất tốt nhất có thể cho giải
thuật đang sử dụng.
d. Phân tích các thành phần chính
Mục đích chính của định dạng các thành phần chính là để lựa chọn các
thuộc tính thích hợp để phân tích dữ liệu. Về mặt lý thuyết, lựa chọn thuộc tính X
(từ Y) là tương đương với lựa chọn vectơ cơ sở X, nối qua các khoảng con trên
vectơ X này, và chiếu cơ sở dữ liệu lên trên không gian này. Vì thế, định dạng
các thành phần chính cho phép chúng ra giảm bớt kích cỡ của một cơ sở dữ liệu
trong một số lớn các biến có quan hệ với nhau, trong khi nhiều sự thay đổi trong
cơ sở dữ liệu vẫn được duy trì theo khả năng. Sự giảm bớt này được hoàn thành
bằng cách biến đổi một tập mới các biến, gọi là các thành phần chính, là không
tương quan cao và chúng được sắp xếp để hầu hết các biến giữ lại ban đầu được
biểu diễn trong các biến gốc.

2.3. Các công cụ cải tiến chất lượng dữ liệu
2.3.1. Công cụ dò tìm dị thường
Có nhiều kiểu lỗi dị thường mà có thể xuất hiện trong một cơ sở dữ liệu,
tách ra từ một lỗi ghi vào dữ liệu đơn giản (tuổi của người lao động được vào là
135 thay vì 35) do một thiết kế cơ sở dữ liệu logic tồi (những thuộc tính không
liên quan được nhóm lại trong một quan hệ). Một vài thước đo chất lượng dữ liệu
được kiểm soát bằng cách sử dụng những công cụ dò tìm dị thường. Nói chung,
một công cụ dò tìm dị thường có các nhiệm vụ sau đây :
1. Tìm kiếm những mục dữ liệu dị thường và những mẫu khác thường.
Những kiểm tra trước này tìm thấy những lỗi hiển nhiên (ví dụ, nhập
vào một giá trị sai cho một thuộc tính) và kiểm tra xác suất tìm kiếm
những giá trị không chắc chắn.
2. Giám sát việc thi hành toàn vẹn các ràng buộc mà được duy trì tách
biệt nhau từ các cơ sở dữ liệu và các chương trình ứng dụng bằng cách
sử dụng các luật.


19


Trong một công cụ dò tìm dị thường như Datbase/Supervisor, người dùng
có thể định nghĩa những ràng buộc trong dạng của các luật. Ví dụ, xem xét luật:
IF công việc = "bán hàng" THEN tiền lương > 30000
Nếu luật trong một ràng buộc đã được chỉ rõ đầy đủ, thì mỗi bản ghi mà
thỏa mãn điều kiện IF, sự dò tìm dị thường có thể kiểm tra phần THEN là cũng
được thoả mãn hay không. Phát hiện dị thường báo cáo tất cả các bản ghi mà
thỏa mãn điều kiện IF nhưng THEN không thực hiện được. Kiểu kiểm tra này là
có ích khi chúng ta biết rằng những mối quan hệ giữa những trường cơ sở dữ
liệu, và những mối quan hệ này có thể được đưa ra như những luật.
IDIS là một công cụ dò tìm dị thường khác (ngoài việc là một công cụ
khai phá luật) mà có thể tìm kiếm những dị thường qua những tính chất sau đây:
-

Phân tích vô hướng: tính toán những giá trị trung bình cho những trường
vô hướng và tìm các giá trị mà vượt khỏi giới hạn cho phép.

-

Phân tích không vô hướng: tính toán những tần số biến cố và tìm kiếm
những giá trị mà xuất hiện quá ít hoặc quá thường xuyên.

-

Phân tích tương quan: Tìm kiếm những tương quan khác thường giữa các
giá trị trong các cặp của các trường vô hướng.

-


Kiểm soát những ràng buộc: Cho phép người sử dụng định nghĩa các ràng
buộc trên các bảng của người dùng kết hợp IF – THEN (IDIS có thể tìm
kiếm dữ liệu sai trong bảng đang sử dụng những ràng buộc toàn vẹn này)
Mặc dù các công cụ dò tìm dị thường có thể định nghĩa nhiều nguồn của

các lỗi trong cơ sở dữ liệu, chúng có khả năng định dạng các sai lầm trong thiết
kế logic cơ bản của một cơ sở dữ liệu. Tuy nhiên có những công cụ thiết kế cơ sở
dữ liệu logic nhất định mà có thể sử dụng để phát triển thiết kế cơ sở dữ liệu
logic tốt hơn hoặc cải tiến một thiết kế cơ sở dữ liệu logic đang tồn tại.

20


2.3.2. Công cụ mô hình hoá dữ liệu
Thêm một nhiệm vụ chủ yếu nữa trong chất lượng dữ liệu là cung cấp
thiết kế cơ sở dữ liệu logic tốt, ở đó các thuộc tính, các thực thể, và các mối quan
hệ của chúng đã được định nghĩa chuẩn. Thiết kế logic tốt có thể làm cho cơ sở
dữ liệu thực hiện đầy đủ và duy trì tốt, do đó giảm đến mức tối thiểu các dị
thường (nghĩa là, sự dư thừa, sự mâu thuẫn).
Một mô hình dữ liệu có thể có đủ năng lực để trình bày các thực thể của
lĩnh vực ứng dụng, và các mối quan hệ mà tồn tại giữa các thực thể. Ngoài ra, mô
hình dữ liệu có thể cung cấp các lược đồ để bảo đảm tính toàn vẹn của cơ sở dữ
liệu đang được phát triển và có thể cho phép hệ thống mở rộng dễ dàng. Mô hình
dữ liệu quan hệ là ứng cử viên tốt để hoàn tất các mục đích này. Một lợi thế là lý
thuyết về các hệ thống quan hệ được phát triển tốt và có các luật và các thủ tục
phức tạp để xử lý quan hệ của dữ liệu.
Các mối quan hệ hoặc các bảng cho chúng ta khả năng để lưu trữ và thao
tác dữ liệu theo các cách mà không thể thực hiện được trong các lược đồ trình
bày dữ liệu khác như là các bảng quyết định, các cây quyết định, và ma trận của

các ví dụ. Các mối quan hệ này là các thực thể động mà có thể thao tác với ngôn
ngữ dữ liệu quan hệ SQL. Thêm vào đó, do sự kiểm soát các luật quan hệ như là
thực thể và các luật toàn vẹn có liên quan, trình bày các quan hệ có thể giúp ngăn
chặn và tách các nguồn tri thức mâu thuẫn như là sự trùng lặp, sự trái ngược, và
không đầy đủ.
Khi thiết kế một cơ sở dữ liệu quan hệ, chúng ta thường hướng đến một
lựa chọn giữa các tập hợp khác của sơ đồ quan hệ. Một vài lựa chọn là tốt hơn
các lựa chọn khác bởi vì chúng loại bỏ các vấn đề dư thừa và mâu thuẫn (cập
nhật các dị thường), thêm vào các dị thường, và loại bỏ các dị thường. Một số
"Dạng tiêu chuẩn" khác cho sơ đồ quan hệ với sự phụ thuộc phải được định
nghĩa. Một trong những dạng quan trọng được gọi là chuẩn 3NF (3 normal form),
mà có thể xây dựng bởi phân tích sơ đồ quan hệ trong các mối quan hệ nhỏ hơn

21


nếu nó chưa ở dạng 3NF. Các công cụ thiết kế logic là có sẵn để giúp đỡ người
phát triển định nghĩa các quan hệ đã cho trong dạng chuẩn 3 (3NF). Các công cụ
như thế yêu cầu người thiết kế cung cấp các thuộc tính nằm trong quá trình tạo
quyết định cùng với các mối quan hệ của nó để tạo ra một thiết kế quan hệ logic
tối ưu. Như là một công cụ có thể kiểm tra một tập hợp các sơ đồ quan hệ cho
một dạng chuẩn cụ thể (3NF) và phân tích các quan hệ (nếu muốn) vào trong một
dạng chuẩn đặc biệt. Như vậy một quá trình thiết kế có thể giảm độ dư thừa, loại
bỏ cập nhật các dị thường, và loại bỏ thông tin mất mát.
Trong công cụ thiết kế logic quan hệ khác, THE Analyst, những người
dùng đưa vào những câu tiếng anh đơn giản để diễn tả sự sắp xếp logic của các
đối tượng chứa trong cơ sở dữ liệu này. THE Analyst xem lại các trường hợp cụ
thể này và tìm ra các thực thể, các thuộc tính, các mối quan hệ gắn vào. Căn cứ
trên sự xem xét này, THE Analyst sinh ra một nguyên mẫu cơ sở dữ liệu mà
những người dùng có thể truy vấn để xác định yêu cầu thông tin có quan hệ này

sẽ được thoả mãn hay không. THE Analyst cung cấp thông tin phản hồi cho
những người dùng, sự miêu tả đồ hoạ của các mối quan hệ dữ liệu tương tự với
biểu đồ quan hệ thực thể, một thiết bị đặc quyền gọi là FlowMap điều khiển quan
hệ qua lại giữa các thực thể, và trình bày biểu đồ cơ sở dữ liệu quan hệ chuẩn.
Những người dùng có thể đánh giá nhanh chóng các mô hình khác và lựa chọn
một mô hình tốt nhất cho yêu cầu cơ sở dữ liệu của họ.
2.3.3. Công cụ ngôn ngữ dữ liệu
Ngôn ngữ quan hệ SQL có thể tạo ra các quan hệ trong quá trình phát triển
để phát hiện những mâu thuẫn (ví dụ, dữ liệu mất mát, dữ liệu mâu thuẫn). Người
quản trị cơ sở dữ liệu có thể dùng SQL trên cơ sở dữ liệu (nó đã tồn tại hoặc đang
được thiết kế và phát triển) để tìm ra và ngăn ngừa mọi mâu thuẫn dữ liệu nào.
Để sử dụng kết quả chính xác hơn và có thể duy trì được cơ sở dữ liệu. Thêm vào
đó, nếu một cơ sở dữ liệu được sử dụng để thu được tri thức cho phát triển hệ
chuyên gia hoặc các công cụ quy nạp hoặc các công cụ khai phá tri thức, tập hợp
các luật sinh ra sẽ bền vững hơn và ít mâu thuẫn hơn.

22


2.4. Những mối quan tâm và những vấn đề về chất lượng dữ liệu
Những mối quan tâm và những vấn đề sau đây phải được xem xét khi dữ
liệu đã được xử lý để cải tiến chất lượng của nó.
1.

Để thực hiện một phân tích dữ liệu có ý nghĩa và cải tiến chất

lượng, chuyên gia lĩnh vực hoặc lĩnh vực phải được nghiên cứu tổng quát
trước khi dữ liệu được tiền xử lý.
2.


Trong hầu hết các ứng dụng, cải tiến chất lượng dữ liệu có thể được

lặp đi lặp lại. Điều này có nghĩa là các kỹ thuật tiền xử lý hiện tại, như là sự
khử dữ liệu hoặc lựa chọn dữ liệu, có thể được sử dụng trong một số các lần lặp
đi lặp lại cho đến khi các kết quả phân tích dữ liệu tốt nhất xuất hiện.
3.

Cải tiến chất lượng dữ liệu là một sự mâu thuẫn. Nó hầu như luôn

luôn cần thiết bởi vì chắc chắc chất lượng dữ liệu kém, nhưng đôi khi cái mà
nhìn giống như một sự dị thường được khử, trong thực tế, lại là một chỉ dẫn
quyết định quan trọng của một hiện tượng trong lĩnh vực quan tâm. Nói cách
khác, cái mà trông bên ngoài được giải tán lại có thể là điểm dữ liệu chính có
giá trị cần tập trung vào.
4.

Cải tiến chất lượng dữ liệu cũng giải quyết các triệu chứng sẽ xuất

hiện lại nếu một vài xử lý cơ bản cho thu thập dữ liệu bị hỏng. Nếu dữ liệu là
tĩnh và sẽ không cập nhật, chỉ cần làm sạch dữ liệu một lần. Nếu dữ liệu được
cập nhật theo cùng một cách tương tự mà cơ sở dữ liệu ban đầu đã được tạo, thì
vấn đề chất lượng dữ liệu tiếp theo sẽ xuất hiện. Do đó, quá trình cải tiến chất
lượng dữ liệu sẽ phát triển liên tục.

Tóm tắt chương và ví dụ:
-

Trong các cơ sở dữ liệu lớn, cách biểu thị các trường, kiểu và phạm vi giá
trị kiểu thường hay gặp khó khăn.


Ví dụ:
Có một trường dữ liệu là “Tuổi”, khi đó có thể đưa ra một dự đoán trên
miền giá trị mà nó chứa. Nhưng khi cho một trường dữ liệu là “Chứng

23


bệnh” thì thật khó có thể đưa ra được số lượng các chứng bệnh, hay các
chứng bệnh thường gặp…
-

Cơ sở dữ liệu thế giới thực thường có xu hướng động, không đầy đủ, rườm
rà và rất rộng. Dữ liệu có thể không đầy đủ hoặc thiếu các giá trị trong các
trường bản ghi đặc biệt hoặc có khi thiếu hoàn toàn các trường dữ liệu cần
thiết để khai phá chính xác. Vấn đề này thường xuyên xuất hiện trong các
cơ sở dữ liệu quan hệ vì tất cả các bản ghi trong mô hình quan hệ đều có các
trường giống nhau.

Ví dụ:
Một cơ sở dữ liệu bệnh viện với những trường phạm vi rộng như là những
kiểm tra hay xét nghiệm. Trong đó, sẽ chỉ có một vài trường được làm đầy
với mọi bệnh nhân. Các trường khác không đầy đủ có thể dẫn đến khai phá
tri thức không có ý nghĩa.
-

Khi dữ liệu xuất hiện ở nhiều nơi trong cùng một cơ sở dữ liệu sẽ dẫn đến
dư thừa dữ liệu. Ngoài ra dư thừa dữ liệu cũng xuất hiện khi một phụ thuộc
hàm trong một trường được định nghĩa như là một hàm của trường khác.

Các vấn đề về chất lượng dữ liệu:

Dữ liệu quá nhiều:
 Dữ liệu sai lạc và nhiễu: Tồn tại dữ liệu sai lạc khi truyền dữ liệu thất bại
hoặc tiếp nhận thông tin sai. Nhiễu trong dữ liệu là do đo lường dữ liệu
hay do truyền dẫn.
 Dữ liệu động: đây là một đặc điểm cơ bản của hầu hết các cơ sở dữ liệu.
Ví dụ như dữ liệu về trường cân nặng hay chiều cao của con người theo
thời gian. Hoặc trong thương mại, các dữ liệu về tỷ giá đồng vàng hoặc tỷ
gái ngoại tệ trên thị trường cũng là những dữ liệu động.
 Dữ liệu không thích hợp: Vì tập dữ liệu lớn nên các ứng dụng phân tích dữ
liệu cần phải rút trích ra các dữ liệu có ý nghĩa nhất. Ví dụ với cơ sở dữ
liệu về các bệnh nhân có các trường như là Số_chứng_minh_thư hay
Tên_bệnh_nhân là những dữ liệu không liên quan vì người ta chỉ chú ý
đến các trường như Triệu_chứng hay Chuẩn_đoán. Chúng ta phải khử các

24


dữ liệu không thích hợp để thu hẹp không gian tìm kiếm khi phân tích dữ
liệu và để giảm bớt độ phức tạp.
 Dữ liệu kích thước lớn: trong nhiều lĩnh vực sử dụng đến dữ liệu không
gian như ảnh hay băng quay phim tại các trạm giao thông, số lượng dữ
liệu này có thể vượt qua giới hạn của phần cứng và phần mềm khi sử dụng
phân tích dữ liệu.
Dữ liệu quá nhỏ:
 Các thuộc tính bị mất mát: điều này có thể làm phức tạp nhiệm vụ phân
tích dữ liệu. Ví dụ, phân tích dữ liệu để chuẩn đoán bệnh sốt rét từ cơ sở
dữ liệu mà không bao gồm các xét nghiệm máu.
 Mất các giá trị thuộc tính: Hầu hết các cơ sở dữ liệu đều có các thuộc tính
bị mất mát giá trị. Đôi khi các giá trị bị mất này lại rất quan trọng cho khai
phá tri thức, và không được phép thay thế nó bằng một giá trị mặc định.

 Tổng số dữ liệu nhỏ: Trong một vài cơ sở dữ liệu, tất cả các thuộc tính đều
có đầy đủ các giá trị nhưng tổng toàn bộ dữ liệu lại không đủ cho các kiểu
phân tích dữ liệu.
Dữ liệu bị đứt đoạn:
 Dữ liệu mâu thuẫn nhau: Khi có nhiều nhóm thu thập dữ liệu cho cơ sở dữ
liệu thì sẽ xuất hiện các dữ liệu mâu thuẫn nhau, nguyên nhân có thể vì
cách con người miêu tả dữ liệu.
 Nguồn dữ liệu phức tạp: dữ liệu có thể bị phân tán trên nhiều khu vực và
trên các chuẩn khác nhau trong các tổ chức lớn.
Các kế hoạch cải tiến chất lượng dữ liệu:
Kiểm soát chất lượng dữ liệu: Để kiểm soát chất lượng dữ liệu trong các cơ sở dữ
liệu chúng ta có thể thực hiện một số bước sau:
 Duy trì sơ đồ chất lượng
 Xác minh dữ liệu ghi vào trong các thuộc tính.
 Kiểm tra sự tin cậy dữ liệu
 Kiểm soát những ràng buộc
 Kiểm tra sơ đồ dữ liệu tương thích trong các bảng trộn

25


×