26.2.1 Tổng quan công nghệ khai phá dữ liệu.
Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin trong nhiều lĩnh vực
của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồng nghĩa với lượng dữ liệu đã được các
cơ quan thu thập và lưu trữ ngày một tích luỹ nhiều lên.
Họ lưu trữ các dữ liệu này vì cho rằng trong nó ẩn chứa những giá trị nhất định nào đó. Tuy
nhiên, theo thống kê thì chỉ có một lượng nhỏ của những dữ liệu này (khoảng từ 5% đến 10%) là
luôn được phân tích, số còn lại họ không biết sẽ phải làm gì hoặc có thể làm gì với chúng nhưng
họ vẫn tiếp tục thu thập rất tốn kém với ý nghĩ lo sợ rằng sẽ có cái gì đó quan trọng đã bị bỏ qua
sau này có lúc cần đến nó.
Mặt khác, trong môi trường cạnh tranh, người ta ngày càng cần có nhiều thông tin với tốc độ
nhanh để trợ giúp việc ra quyết định và ngày càng có nhiều câu hỏi mang tính chất định tính cần
phải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có. Với những lý do như vậy, các phương
pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng không đáp ứng được thực tế đã
làm phát triển một khuynh hướng kỹ thuật mới đó là Kỹ thuật phát hiện tri thức và khai phá dữ
liệu (KDD - Knowledge Discovery and Data Mining).
Với những ưu điểm đó, khai phá dữ liệu đang được áp dụng một cách rộng rãi trong nhiều lĩnh
vực kinh doanh và đời sống khác nhau: marketing, tài chính, ngân hàng và bảo hiểm, khoa học, y
tế, an ninh, internet…
Data mining and data warehousing. – khai thác dữ liệu và kho dữ liệu
- Mục đích của data warehouse là hỗ trợ cho việc ra quyết định khi làm việc với data.
- Data mining được sử dụng kết hợp với data warehouse giúp cho việc chắc chắn khi ra quyết
định.
- Data mining cũng có thể được ứng dụng trong tổ chức dữ liệu thành các transaction riêng lẻ.
- Để cho việc khai thác dữ liệu được hiệu quả, kho dữ liệu phải tập hợp được tính toàn thể hay tổng
lược vè dữ liệu.
- Khai thác dữ liệu giúp cho việc rút trích ngữ nghĩa của những mẫu mới, điều đó có thể không cần
thiết mà chỉ truy vấn hoặc xử lí data hoặc metadata( siêu data) trong data warehouse.
- Các ứng dụng của data mining cần được xem xét đến sớm cho quá trình cùng với các thiết kế của
kho dữ liệu. Cũng vì vậy, mà các công cụ của data mining được thiết kế sao cho có thể dễ dàng
kết hợp với data warehouse.
- Thật vậy, mỗi cơ sở dữ liệu lớn thực thi trên terabyte (1024 MB) của dữ liệu, thành công của
những ứng dụng data mining là bước phụ thuộc đầu tiên để xây dựng data warehouse.
Khai Thác Dữ liệu như là một phần trong tiến trình khám phá tri thức.
- Khai phá dữ liệu (Data Mining) được định nghĩa là: quá trình trích xuất các thông tin có giá trị
tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các CSDL, kho dữ liệu…
- Khám phá tri thức trên csdl, được viết tắt là KDD (Knowledge Dicovery in Databasenó mang
nhiều ý nghĩa hơn chỉ là khai phá dữ liệu. Tiến trình khám phá tri thức gồm có 6 pha: chọn dữ
liệu, lọc dữ liệu, làm giàu ý nghĩa, chuyển đổi thông tin hoặc mã hóa chuẩn và báo cáo và phản
ánh những thông tin khám phá được.
- Trong ví dụ, để duy trì giao tác dịch vụ khách hàng củacửa hàng bán lẻ. Tin chắc dữ liệu khách
bao gồm thông tin: tên khách hàng, zip code, số điện thoại, ngày giao dịch, item code, giá, chất
lượng, và tổng số lượng. Sự đa dạng tri thức mới có thể được khai thác bằng tiến trình KDD trên
dữ liệu khách. Trong khi chọn data, dữ liệu là item cụ thể hoặc những item được phân loại hoặc
từ lĩnh vực cụ thể hoặc vùng của quốc gia, sẽ được chọn. Tiến trình lọc dữ liệu khi phải cần hợp
lệ về zip code hoặc loại bỏ các các mẫu tin không chính xác về mã vùng (tiền tố). Làm giàu dữ
liệu tiêu biểu làm tăng thêm một số thông tin vào nguồn. Ví dụ, đưa vào những tên và những số
điện thoại của khách hàng, lưu trữ thu nhập dưới dạng dữ liệu: tuổi, thu nhập, loại thẻ tín dụng và
thêm chúng vào mỗi mẫu tin. Chuyển đỗi dữ liệu(data transformation) và mã hóa sao cho giảm
bớt lượng dữ liệu.
- Ví dụ khác, các mẫu tin là nhóm các loại sản phẩm : audio, video, những ứng dụng, thiết bị cải
tiến, camera, những phụ tùng và nhiều thứ khác. Từ sớm, hình 26.01, chúng ta đã thấy bước gọi
là làm sạch như tiền thân cho việc tạo kho dữ liệu. Nếu việc khai thác dữ liệu là dựa trên sự tồn
tại của kho chứa đó là chuỗi các cửa hàng bán lẻ, chúng ta sẽ làm sạch dữ liệu ứng dụng. Nó chỉ
là sau như tiến trình của kĩ thuật khai thác dữ liệu sử dụng các luật và các mẫu khác nhau. Ví dụ,
kết quả của việc khai thác được khám phá:
• Luật kết hợp- bất cứ khi nào một khách hàng có nhu cầu mua video, anh ấy hoắc cô ấy
cũng sẽ mua thiết bị cải tiến khác.
• Mẫu liên tục- cho rằng một khách hàng mua một camera , và trong thời gian 3 tháng anh
ấy hoặc cô ấy mua số vật dụng và áy chụp hình và 6 tháng sau sẽ mua một số phụ tùng.
Một khách hàng người mua nhiều hơn 2 lần trong kì sẽ mua ít nhất một lần trong mùa
giáng sinh.
• Phân lớp dạng cây- khách hàng được phân thành những lớp thường xuyên ghé thăm, loại
về tài chính, loại về tổng thu nhập, loại về sự ham thích các mẫu, và một số dùng kĩ thuật
phân tích có lẽ phát sinh dạng lớp.
- Chúng ta có thể thấy có nhiều nhiều tồn tại trong việc khám phá kiến thức mới về các mẫu tin
mua bán, mới quan hệ các nhân tố như là tuổi, nhóm thu nhập, nơi ở, như thấ nào và bao nhiêu
thu nhập khách hàng . Thông tin đó có thể ứng dụng trong việc thêm vào nơi lưu trữ dựa trên
nhân khẩu học, lưu trữ về việc thăng tiến, kết hợp mẫu về quảng cáo , đưa ra chiến lược tiếp thị
cho từng mùa. Đó như ví dụ về cửa hàng, việc khai thác dữ liệu phải theo thứ tự về sự chuẩn bị
những dữ liệu có ý nghĩa trước tiên nó có thể là những mẫu thông tin hữu dụng để định hướng
cho việc kinh doanh sau này.
- Kết quả của việc khai thác dữ liệu sẽ được báo cáo lại theo một định dạng, nhu là dạng danh sách,
xuất ra dạng hình ảnh, bảng tóm lược, hoặc những thông tin.
Mục đích khai thác dữ liệu và khám phá tri thức.
- Nói theo diện rộng, mục đích của khai thác dữ liệu phỏng đoán dựa trên các lớp: dự
đoán(prediction), sự nhận dạng (indentification), sự phân loại, và tối ưu hóa.
o Dự đoán – khai thác dữ liệu có thể hiển thị chắc chắn các thuộc tính mà cho rằng dữ liệu
được dùng trong tương lai. Ví dụ, dự đoán khai thác dữ liệu bao gồm phân tích các giao
dịch mua bán sẽ đoán được khách hàng sẽ mua với giá giảm nhiêu.tỉ lệ cần giảm bao
nhiêu cho của hàng sẽ được ohat1 sinh từng giai đoạn, và loại bỏ một số hàng hóa không
lợi nhuận. Trong ứng dụng này, kinh doanh khoa học phải sữ dụng cả hai với khai thác
dữ liệu. Trong ngữ cảnh khoa học , để dự đoán chắc chắn mẫu thông tin sóng địa chấn
của động đất với xác suất cao.
o Sự chứng thực- mẫu dữ liệu có thể sử dụng sự tồn tại của item, một sự kiện, hoặc một
hành động. Ví dụ, người muốn xâm nhập hệ thống phải chứng thực với chương trình
đang thực thi, file xử lí, hay phiên thời gian của CPU. Ứng dụng trong sinh học, kiểm tra
sự tồn tại của một gen nào đó bằng cách xem xét mẫu DNA. Đó như khu vực biết chứng
thực một hình thức của sự chứng nhận. Nó xác nhận một người phải là thực sự là người
dùng chuyên biệt hay từ một lớp chứng thực, nó sẽ ảnh hưởng so sánh tham số hoặc hình
ảnh hoặc chữ kí trên database.
o Sự phân loại – khai thác dữ liệu có thể phân chia dữ liệu thành lớp khác nhau hoặc phân
loại có thể xác định dựa trên kết hợp các thông số. Ví dụ, một khách hàng trong siêu thị
có thể thuộc loại khách hàng theo đuổi hàng giảm, khách hàng mua giá đắt, khách hàng
thường xuyên, khách hàng quen. Đó sẽ là những lớp được dử dụng phân tích sự khác
nhau các giao tác mua hàng như là giao tác chủ yếu khai thác. Đôi khi việc phân lớp dựa
trên các miền tri thức phổ biến như sử dụng đầu vào phân tích ngữ nghĩa vấn đề, và làm
nó đơn giản hơn. Ví dụ, thức ăn tốt sức khỏe, thức ăn dành bữa tiệc, thức ăn trưa trong
siêu thị. Nó cũng làm việc phân tích mối quan hệ và tách loạ theoi các vấn đề riêng biệt.
Sự phân chia phải sử dụng mã hóa dữ liệu theo tì lệ trước khi tiến tới khai thác dữ liệu.
o Tối ưu hóa- một mục tiêu cuối của khai thác dữ liệu là tối ưu nguồn tài nguyên cho phép
như thời gian, không gian, tiền hoặc chi tiết và giá trị kích thước output quá lớn như giá
hoặc lợi nhuận dưới sự ức chế. Như là, mục tiêu của khai thác dữ liệu tương tự chức
năng đối tượng nghiên cứu tổ chức vấn đề sao cho tối ưu hóa cho phép.
- Thuật ngữ khai thác dữ liệu hiện tại được sử dụng ý nghĩa rộng. Trong vài trường hợp bao gồm
phân tích thống kê và tối ưu hóa constrained như thể máy học. Nó không là đường thẳng riêng
biệt rõ ràng theo qui luật. Phạm vi chúng ta nói tới rộng hơn, bởi vậy, chúng ta thảo luận chi tiết
toàn thể lĩnh vực của ứng dụng tổng thể sườn của công việc.
Một số loại tri thức trong quá trình khai thác dữ liệu.
- Từ “knowledge” được hiểu rất rộng tùy theo mức độ hiểu biết. Tri thức là loại qui nạp và suy
diễn. Chúng ta sẽ thảo luận về việc khám phá của tri thức suy diễn trong chương 25. Khai thác
dữ liệu đây noi về tri thức qui nạp. Tri thức có thể trình bày dưới nhiều hình thức: không cấu trúc,
có thể trình bày dạng các luật, hoặc định đề logic. Trong hình thức cấu trúc, nó phải định trình
bày dạng cây quyết định, mạng ngữ nghĩa, mạng neural, hoặc cấp bậc của lớp hoặc hệ thống. Tri
thức trong quá trình khai thác dữ liệu có thể được mô tả theo 5 cách như trình bày dưới đây :
1. Luật kết hợp (association rules) – mối tương quan về sự hiện diện việc thiết lập các bộ
thông qua sắp xếp các giá trị khác nhau cho các biến khác nhau.
Ví dụ: (1) một khách hàng nữ mua túi sách, thì cô ấy cũng thích mua giày. Hình ảnh một
tia X chứa đựng các đặc điểm a và b thì cũng có thể có đặc điểm c.
2. Cấp bậc sự phân loại – Mục tiêu là từ công việc cho đến tất cả các trường họp có thể tồn
tại hay các giao tác sẽ tạo ra hệ thống của các lớp.
Ví dụ: (1) Về con người có thể chia làm 5 nhóm dựa theo lòng tin theo những sự giao
dịch trước đó. (2) Một mô hình được phát triển xác định các nhân tố mong muốn cho vị
trí tỉ lệ 1-10. (3) Kho lưu trữ chung phải được phân loại dựa theo khả năng dữ liệu sử
dụng các đặc điểm như: sự trưởng thành, thu nhập, và tính ổn định.
3. Mẫu liên tiếp- Một loạt các hoạt động liên tiếp hoặc các sự việc là quá trình tìm kiếm.
Ví dụ: Nếu một bệnh nhân chịu đựng ca thay thế tim các khối động mạch và chứng
phình động mạnh và sau đó lại phát triển tình tạng máu tăng cao trong vng2 một năm
phẫu thuật giẫu phẩu (quá trình giải phẩu…) , anh và cô ấy se phải chịu đựng quả cật
hỏng trong vòng 6 tháng.Để tìm ra các mẫu liên tiếp đòi hỏi phải tìm hiểu mối quan hệ
giữa các trường hợp chắc chắn mối về mặt thời gian.
4. Chuỗi mẫu theo thời gian – Sự tương tự có thể phát hiện ra vị trí của chuỗi thời gian. 3
ví dụ trên về lưu trữ dữ liệu giá cả thị trường theo khoảng thời gian: (1)Lưu trữ tính thiết
thực công ty ABC và tính an toàn của công ty tài chính XYZ thể hiện dạng mẫu từ năm
1998 theo giá cả đóng mở.(2) Hai sản phẩm giống việc bán hàng trong mùa hè khác hàng
bán trong mùa đông.(3) Dạng sức gió hệ mặt trời có thể dùng dự đoán sự thay đổi khí hậu
ở trái đất.
5. Sự phân loại và sự phân đoạn- đưa ra trường hợp dân số hoặc những mẫu có thể phân
chia được thiết lập như các nhân tố .
Ví dụ: (1) Toàn bộ dân số có dữ liệu điều trị về căn bệnh sẽ được chia theo ra thành
nhóm dựa trên sự giống nhau của các căn bệnh.(2) Những người lớn ở Hoa Kì sẽ được
phân thành năm nhóm từ “hầu như thích mua” đến”ít thích mua” một sản phẩm mới.(3)
trang web được truy cập phải của bộ sưu tập của người sử dụng dựa vào tài liệu (nói,
trong một thư viện tín hiệu) sẽ được phân tích thành mẫu làm từ khóa thu gom lại cho tài
liệu hoặc loại người sử dụng.
Hầu như mọi ứng dụng, tri thức được đề nghị thì chứa đựng các loại trên. Chúng ta có
thể mở rộng với mỗi chủ đề trên thành loại tri thức chi tiết hơn nữa.
26.2.2 Association rules.
Một trong những kĩ thuật chính trong khai thác dữ liệu điều liên quan các luật khám phá
dựa trên mối kết hợp. Trong cơ sở dữ liệu được chú ý đến như là tập hợp nhiều
transaction mỗi cái lại liên quan việc thiết lập các mẫu tin. Một số ví dụ thông thường đó
là dữ liệu trong siêu thị. Ở đó mỗi dữ liệu tương ứng khách hàng mua trong siêu thị đến
mua sắm.Tương tự cho 4 giao dịch được random làm ví dụ:
Transaction-id Time Items-Brought
101 6:35 milk, bread, juice
792 7:38 milk, juice
1130 8:05 milk, eggs
1735 8:40 bread, cookies, coffee
Theo qui tắc X=>Y. Ở đó X= và Y= được thiết lập thành các mẫu item với x
i
và
y
i
là
những mẫu tin riêng cho tất cả i và j.Đó là việc kết hợp các khách hàng mua X, anh
ta hay cô ta có nhu cầu sẽ mua Y. TRong thường, bất kì luật kết hợp nào cũng có hình
thức dạng LHS (left-hand side ) RHS(right-hand side), trong đó LHS và RHS cài đặt
thành các mẫu tin. Luật kết hợp cả về hỗ trợ và tin tưởng.
Hỗ trợ luật LHS RHS theo % của giao dịch được xét trên tất cả item trong tập hợp, thiết
lập LHS RHS. Nếu mức hỗ trợ thấp, nó cho biết trong đó có ít sự xuất hiện của các item
LHS RHS cùng với nhau, bởi vì trong tập hợp nó chỉ xuất hiện ở phần nhỏ của các giao
dịch. Luật Milk Juice có 50% mức hỗ trợ, trong khi Bread Juice chỉ có 25% mức hỗ
trợ.Còn những cái khác được hỗ trợ tùy theo sự phổ biến của luật.
Ước tính độ tin cậy chúng tôi cho rằng phải gồm tất cả giao dịch bao gồm luôn các mẫu
trong LHS. Độ tin cậy dùng cho các luật tổ hợp LHS RHS là phần trăm (phân số) của
những giao tác cũng bao gồm luôn RHS. Còn những cái khác thì tùy theo độ mạnh của
luật.
Đối với Milk Juice, mức độ tin cậy là 66.7% (nghĩa là, trong 3 giao tác có milk cuất hiện,
2 giao tác có juice) và bread juice có 50% độ tin cậy( nghĩa là một trong 2 giao tác có
chứa bread cũng có chứa juice.)
Chúng ta cũng có thể thấy, mức độ hỗ trợ và độ tin cậy không nhất thiết phải đi cùng với
nhau.Mục tiêu của sự khai thác các luật kết hợp là để có thể phát sinh ra các luật vượt qua
được các ngưỡng thấp nhất của mức hỗ trợ và độ tin cậy. Vấn đề vì thế cũng được chia
làm 2 vấn đề chính:
1. Phát sinh tất cả các mẫu tin sao cho chúng có mức độ hỗ trợ có thể vượt qua
ngưỡng. Đó là việc thiết lập các mậu tin gọi là itemset lớn. Chúng ý chữ lớn
đây có nghĩa được hỗ trợ nhiều.
2. Đối với mỗi itemset lớn, tất cả các luật có độ tin cậy thấp thì sẽ được phát
sinh sau: để có itemset lớn X và Y⊂ X, sao cho Z = X-Y; khi đó nếu độ hỗ
trợ (X)/ độ hỗ trợ(Z) > độ tin cậy nhỏ nhất, luật Z =>Y(i.e X-Y=> Y) vẫn là
luật hợp lệ.[Chú ý: Trong câu phát biểu trước, Y⊂ X đọc là “Y là tập hợp con
của X” ]
Các luật phát sinh bằng cách sử dụng tất cả itemset lớn và chúng có các mức hỗ trợ tương
đối dễ hiểu. Tuy nhiên, để khám phá ra hết tất cả các itemset lớn cùng với các giá trị về mức
độ hỗ trợ của chúng là một vấn đề lớn nếu các thành phần trong tập hợp quá lớn.Trong một
siêu thị thì có những hàng hàng mẫu tin.Số lượng itemset riêng biệt là 2
m
, trong đó m là số
lượng mẫu tin, và ước tính mức độ hỗ trợ có thể có của các itemset trờ thành rất không hạn
định (computation-intensive) .
Để giảm tổ hợp khoảng cách tìm kiếm, các thuật toán tìm kiếm theo luật kết hợp có các đặc
trưng:
• Một tập hợp con cỉa itemset lớn cũng phải lớn (i.e, mỗi tập hợp con của itemset lớn
vượt qua được mức hỗ trợ tối thiếu yêu cầu).
• Ngược lại, phần mở rộng của một itemset nhỏ cũng phải nhỏ (đơn giản đó là nó
không có đủ mức hỗ trợ).
Các đặc tính thứ 2 có thể giúp trong việc loại bỏ những itemset từ phần thêm vào nếu nó
được cho thì cũng nhỏ (không vượt qua mức hỗ trợ tối thiểu).
Các thuật toán tìm kiếm cơ bản được dùng cho các luật kết hợp.