Bài tiểu luận môn Công nghệ tri thức CƠ SỞ KHAI THÁC DỮ LIỆU

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (296.96 KB, 26 trang )

CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
GIỚI THIỆU
Khai khoáng dữ liệu (data mining), hiện nay đang được rất nhiều người chú ý. Nó
thực sự đã đem lại những lợi ích đáng kể trong việc cung cấp những thông tin tiềm ẩn trong
các cơ sở dữ liệu lớn. Ngày nay đang trong tình trạng bùng nổ thông tin, lượng thông tin
càng trở nên phong phú, đa dạng và khổng lồ. Thế nhưng để có được những thông tin quí
giá, đáng quan tâm, chúng ta lại phải tốn rất nhiều công sức để tìm kiếm nó trong một khối
lượng thông tin khổng lồ ấy. Xét về lĩnh vực này thì khối lượng thông tin càng lớn công việc
càng trở nên khó khăn hơn. Những phương pháp thống kê truyền thống, phần lớn đều đã
được định trước mục đích của công việc, và sau đó chỉ việc sử dụng những phương pháp
thích hợp để có được những thông tin mà chúng ta cần. Đối với khai khoáng dữ liệu đúng
nghĩa như tên gọi của nó, chúng ta đi tìm “mỏ”, không biết “có mỏ hay không?”. nếu có thì
“mỏ đó là vàng hay bạc, hay chì ?”. Khai khoáng dữ liệu như là một công cụ, giúp chúng
ta tìm ra “mỏ” trong những “dãy núi khổng lồ”, núi càng lớn, càng dài thì hy vọng tìm ra
mỏ càng cao nhưng cũng hết sức khó khăn phức tạp.
Tất nhiên khi tìm ra được những thông tin cuối cùng thì việc ứng dụng những thông
tin đó vào trong thực tế lại đòi hỏi cả một quá trình vận dụng từ lý thuyết vào thực tiễn.
Những luật kết hợp, những mẫu thông tin chưa từng gặp sẽ là tiền đề cho những dự đoán,
để từ đó có được những hoạch định đúng cho hướng phát triển trong tương lai, đây chính là
những yếu tố mà cơ quan đơn vị nào cũng cần tới nó, dù ở mức qui mô lớn hay nhỏ.
Khai khoáng dữ liệu trong Giáo dục và Đào tạo thật sự là một việc làm có ý nghĩa,
nó sẽ cung cấp những thông tin dựa trên những cơ sở khoa học đáng tin cậy, và đây cũng
chính là những thông tin quí giá hỗ trợ rất nhiều trong công tác quản lý giáo dục.
Hiện nay khai khoáng dữ liệu đã được ứng dụng rất nhiều trong thực tế, nhất là trong
lĩnh vực kinh doanh, công nghệ sinh học Tuy nhiên trong lĩnh vực Giáo dục và Đào tạo,
quả thật còn rất ít.
Dữ liệu trong giáo dục có những đặc điểm riêng của nó, đòi hỏi chúng ta phải có
những phương pháp khám phá phù hợp thì mới phát huy được tốc độ, cũng như không gian
bộ nhớ. Mặt khác để có được những thông tin mang tính xã hội và thực tế cao thì việc đưa
khái niệm tập mờ để đánh giá phân loại học sinh sẽ có tính thuyết phục hơn.

Với phương pháp khai khoáng luật kết hợp mờ trong cơ sở dữ liệu là kết quả thi tốt
nghiệp THPT.
Trang 1 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
PHẦN I: GIỚI THIỆU KHAI THÁC DỮ LIỆU
CHƯƠNG 1: TỔNG QUAN
Khai thác dữ liệu, khai thác thông tin dự báo ẩn từ cơ sở dữ liệu lớn, là một công
nghệ mới mạnh mẽ với tiềm năng tuyệt vời để giúp các đối tượng cần quản lý tập trung vào
các thông tin quan trọng nhất trong kho dữ liệu. Công cụ khai thác dữ liệu dự đoán xu
hướng tương lai và thực hiện, cho phép các đối tượng quản lý để quyết định chủ động, kiến
thức theo định hướng. Tự động phân tích tiềm năng được cung cấp bởi động thái khai thác
dữ liệu vượt ra ngoài phân tích các sự kiện trong quá khứ được cung cấp bởi các công cụ
truy vấn điển hình của hệ thống hỗ trợ quyết định.
Công cụ khai thác dữ liệu có thể trả lời các câu hỏi quản lý truyền thống là quá tốn
thời gian để giải quyết. Cơ sở dữ liệu cho các mô hình ẩn, tìm kiếm thông tin tiên đoán mà
các chuyên gia có thể bỏ lỡ bởi vì nó nằm ngoài mong đợi của họ.
Hầu hết các đối tượng quản lý đã thu thập và sàng lọc số lượng lớn dữ liệu. Kỹ thuật khai
thác dữ liệu có thể được thực hiện nhanh chóng trên phần mềm và phần cứng hiện có nền
tảng để nâng cao giá trị của tài nguyên thông tin hiện có, và có thể được tích hợp với sản
phẩm mới và hệ thống khi chúng được đưa trên mạng.
Khi thực hiện hiệu suất cao, khách hàng / máy chủ hoặc máy tính xử lý song song,
các công cụ khai thác dữ liệu có thể phân tích cơ sở dữ liệu lớn để cung cấp nhu cầu đáp
ứng.
Giới thiệu về các công nghệ cơ bản của khai thác dữ liệu. Ví dụ về các ứng dụng
có lợi nhuận cho thấy sự liên quan của nó đến môi trường kinh doanh ngày nay cũng như
mô tả cơ bản của kiến trúc kho dữ liệu có thể phát triển để cung cấp những giá trị khai
thác dữ liệu cho người dùng cuối.
Trang 2 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG

[GVHD: GS.TSKH HOÀNG KIẾM]
CHƯƠNG 2: CƠ SỞ KHAI THÁC DỮ LIỆU
1. Kỹ thuật khai thác dữ liệu
Kỹ thuật khai thác dữ liệu là kết quả của một quá trình lâu dài nghiên cứu và phát
triển sản phẩm. Sự tiến hóa này bắt đầu khi dữ liệu kinh doanh lần đầu tiên được lưu
trữ trên máy tính, tiếp tục với những cải tiến trong truy cập dữ liệu, và gần đây hơn, tạo
ra công nghệ cho phép người dùng điều hướng thông qua các dữ liệu của họ trong thời
gian thực. Khai thác dữ liệu có quá trình tiến hóa vượt ra ngoài truy cập dữ liệu hồi cứu
và chuyển hướng cung cấp thông tin và chủ động tương lai. Khai thác dữ liệu đã sẵn sàng
cho ứng dụng trong cộng đồng doanh nghiệp bởi vì nó được hỗ trợ bởi ba công nghệ
hiện nay đủ trưởng thành:
• Thu thập dữ liệu
• Máy tính đa xử lý
• Thuật tóan khai thác dữ liệu
2. Khảo sát dữ lịêu
Cơ sở dữ liệu thương mại đang phát triển với tốc độ chưa từng thấy. META
Nhóm khảo sát gần đây của dự án kho dữ liệu cho thấy rằng 19% số người trả lời là
vượt quá mức 50 GB, trong khi 59% mong đợi để có quý thứ hai của 1.996,1 Trong một
số ngành công nghiệp, chẳng hạn như bán lẻ, những con số này có thể lớn hơn nhiều. Sự
cần thiết phải đi kèm cho các công cụ cải thiện tính toán có thể được đáp ứng một cách
hiệu quả với công nghệ máy tính song song. Các thuật toán khai thác dữ liệu thể hiện các
kỹ thuật đã tồn tại ít nhất 10 năm, nhưng chỉ gần đây mới được thực hiện như trưởng
thành, đáng tin cậy, các công cụ dễ hiểu mà luôn tốt hơn phương pháp thống kê cũ.
Trong quá trình tiến hóa từ các dữ liệu kinh doanh thông tin kinh doanh, từng bước tiến
mới đã được xây dựng trên trước đó. Ví dụ, truy cập dữ liệu động là rất quan trọng cho
khoan thông qua ứng dụng điều hướng dữ liệu, và khả năng lưu trữ cơ sở dữ liệu lớn là
rất quan trọng để khai thác dữ liệu. Từ quan điểm của người sử dụng xem, bốn bước
được liệt kê trong Bảng 1 là cách mạng bởi vì họ cho phép các câu hỏi doanh nghiệp mới
được trả lời chính xác và nhanh chóng.
Bước tiến hóa Câu hỏi kinh doanh Kích họat công

nghệ
Sản phẩm
nhà cung cấp
Đặc điểm
Tập hợp dữ liệu
Tổng doanh thu trong
năm năm qua là gì? "
Computers, tapes,
disks
IBM, CDC Hồi cứu,
cung cấp dữ
liệu tĩnh
truy cập dữ liệu
"Đơn vị bán hàng ở
New England cuối
tháng ba?"
Cơ sở dữ liệu quan
hệ (RDBMS),
Structured Query
Oracle,
Sybase,
Informix,
Truy dữ liệu
giao hàng,
năng động ở
Trang 3 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
Language (SQL),
ODBC

IBM,
Microsoft
mức kỷ lục
Kho dữ liệu &
hỗ trợ quyết
định
Bán hàng đơn vị ở
New England tháng Ba
năm ngoái khoan để
Boston.? "
Phân tích xử lý trực
tuyến (OLAP), cơ
sở dữ liệu đa chiều,
kho dữ liệu
Pilot,
Comshare,
Arbor,
Cognos,
Microstrategy
Truy, năng
động, dữ
liệu giao
hàng ở
nhiều cấp độ
Khai thác dữ
liệu
"Có gì có thể xảy ra
với doanh số bán hàng
đơn vị Boston vào
tháng tới?"

Các thuật toán tiên
tiến, máy tính đa
năng, cơ sở dữ liệu
khổng lồ
Pilot,
Lockheed,
IBM, SGI,
numerous
startups
(nascent
industry)
Tiềm năng,
chủ động
thông tin
giao hàng
Bảng 1.Các bước trong tiến trình của Khai thác dữ liệu.
Các thành phần cốt lõi của công nghệ khai thác dữ liệu đã được phát triển trong nhiều thập
kỷ, trong lĩnh vực nghiên cứu như số liệu thống kê, trí thông minh nhân tạo, và học máy.
Ngày nay, sự trưởng thành của các kỹ thuật, cùng với động cơ hiệu suất cao cơ sở dữ liệu
quan hệ và những nỗ lực tích hợp dữ liệu rộng, làm cho các công nghệ thiết thực cho các
môi trường kho dữ liệu hiện tại.
3. Phạm vi khai thác dữ liệu :
Khai thác dữ liệu có nguồn gốc tên của nó từ sự giống nhau giữa tìm kiếm thông tin kinh
doanh có giá trị trong một cơ sở dữ liệu lớn - ví dụ, tìm kiếm sản phẩm liên kết trong
gigabyte lưu trữ dữ liệu máy quét và khai thác một ngọn núi cho một tĩnh mạch quặng có
giá trị. Cả hai quá trình yêu cầu hoặc là chọn lọc thông qua một số tiền khổng lồ của vật
liệu, hoặc thăm dò để tìm giá trị chính xác nơi chứa thông tin dữ liệu.
Trang 4 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]

4. Ứng dụng chức năng:
Với cơ sở dữ liệu kích thước đầy đủ và chất lượng, công nghệ khai thác dữ liệu có thể tạo
ra các cơ hội kinh doanh mới bằng cách cung cấp những khả năng:
a. Tự động dự báo xu hướng và thực hịên . Khai thác dữ liệu tự động hóa quá trình tìm
kiếm thông tin dự đoán trong cơ sở dữ liệu lớn. Câu hỏi truyền thống yêu cầu tay-on
mở rộng phân tích có thể được trả lời trực tiếp từ các dữ liệu một cách nhanh chóng.
Một ví dụ điển hình của một vấn đề tiên đoán được nhắm mục tiêu tiếp thị. Khai thác
dữ liệu sử dụng dữ liệu trên các thư quảng cáo trong quá khứ để xác định các mục tiêu
có thể để tối đa hóa lợi nhuận trên đầu tư vào các thư trong tương lai. Các vấn đề khác
tiên đoán bao gồm phá sản dự báo và các hình thức mặc định, và các phân đoạn xác
định của một dân số có khả năng đáp ứng tương tự như sự kiện được đưa ra.
b. Công cụ khai thác dữ liệu : quét qua cơ sở dữ liệu và xác định các mẫu trước đó ẩn
trong một bước. Một ví dụ về mô hình phát hiện ra là việc phân tích các dữ liệu doanh
số bán lẻ để xác định các sản phẩm dường như không liên quan với nhau. Các mô
hình phát hiện ra vấn đề khác bao gồm phát hiện các giao dịch thẻ tín dụng gian lận
và xác định các dữ liệu bất thường có thể do lỗi nhập từ bàn phím.
c. Kỹ thuật khai thác dữ liệu : mang lại lợi ích của tự động hóa phần mềm và là nền tảng
cho sự phát triển của phần cứng, và có thể được thực hiện trên hệ thống mới hiện tại
được nâng cấp. Khi các công cụ khai thác dữ liệu được thực hiện trên các hệ thống xử
lý song song hiệu năng cao, họ có thể phân tích cơ sở dữ liệu lớn trong vài phút. Xử
lý nhanh hơn có nghĩa rằng người dùng có thể tự động thử nghiệm với các mô hình để
hiểu các dữ liệu phức tạp. Tốc độ cao làm cho nó thực tế cho người sử dụng để phân
tích một lượng lớn dữ liệu. Cơ sở dữ liệu lớn hơn, lần lượt, sản lượng dự đoán được
cải thiện.
5. Các kỹ thuật phổ biến nhất được sử dụng trong khai thác dữ liệu
a. Các thuật toán di truyền : Tối ưu hóa kỹ thuật sử dụng các quá trình như sự kết hợp
di truyền, đột biến và chọn lọc tự nhiên trong một thiết kế dựa trên khái niệm của sự
tiến hóa.
b. Phương pháp hàng xóm gần nhất : Một kỹ thuật phân loại mỗi bản ghi trong một
tập dữ liệu dựa trên sự kết hợp của các lớp học của các kỷ lục k (s) tương tự như

trong một tập dữ liệu lịch sử (mà k ³ 1). Đôi khi được gọi là kỹ thuật hàng xóm k gần
nhất.
c. Quy tắc cảm ứng : Việc khai thác hữu ích nếu sau đó quy định từ dữ liệu dựa trên ý
nghĩa thống kê.
Nhiều người trong số các công nghệ này đã được sử dụng trong hơn một thập kỷ trong
các công cụ phân tích chuyên môn làm việc với khối lượng tương đối nhỏ của dữ liệu.
Những khả năng này được phát triển để tích hợp trực tiếp với tiêu chuẩn công nghiệp
nền tảng kho dữ liệu và OLAP.
6. Sự họat động của khai thác dữ liệu
Trang 5 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
Làm thế nào chính xác là khai thác dữ liệu có thể cho bạn biết những điều quan trọng mà
bạn không biết hay những gì sẽ xảy ra tiếp theo? .
Kỹ thuật được sử dụng để thực hiện những kỳ công trong khai thác dữ liệu được gọi
là mô hình hóa. Mô hình chỉ đơn giản là hành động của việc xây dựng một mô hình trong
một tình huống mà bạn biết câu trả lời và sau đó áp dụng nó vào một tình huống mà bạn
không biết. Ví dụ, nếu bạn đang tìm kiếm một thuyền buồm Tây Ban Nha bị chìm trên vùng
biển cao, điều đầu tiên bạn có thể làm là nghiên cứu lần khi Tây Ban Nha kho báu đã được
tìm thấy bởi những người khác trong quá khứ. Bạn có thể lưu ý rằng các tàu này thường có
xu hướng được tìm thấy ngoài khơi bờ biển của Bermuda và có những đặc điểm nhất định
để các dòng chảy đại dương, và các tuyến đường nhất định đã có thể được thực hiện bởi
thuyền trưởng của con tàu trong thời đại đó. Bạn lưu ý những điểm tương đồng và xây dựng
một mô hình bao gồm các đặc điểm được phổ biến đến các địa điểm của những kho tàng
chìm đắm. Với các mô hình này trong tay bạn đi thuyền tìm kiếm kho báu mà mô hình của
bạn cho thấy nó có khả năng nhất có thể được đưa ra một tình huống tương tự trong quá
khứ. Hy vọng rằng, nếu bạn đã có một mô hình tốt, bạn tìm thấy kho báu của bạn.
Đây là hành vi xây dựng mô hình như vậy, một cái gì đó mà mọi người đã được làm trong
một thời gian dài, chắc chắn trước khi sự ra đời của máy tính hoặc khai thác dữ liệu công
nghệ. Điều gì sẽ xảy ra trên máy tính, tuy nhiên, không phải là nhiều hơn so với cách mọi

người xây dựng mô hình khác nhau. Máy tính được nạp với nhiều thông tin về một loạt các
tình huống mà một câu trả lời được biết đến và sau đó phần mềm khai thác dữ liệu trên máy
tính phải chạy thông qua các dữ liệu đó và chưng cất các đặc tính của dữ liệu có nên đi vào
mô hình. Một khi mô hình được xây dựng sau đó có thể được sử dụng trong các tình huống
tương tự mà bạn không biết câu trả lời. Ví dụ, nói rằng bạn là giám đốc tiếp thị cho một
công ty viễn thông và bạn muốn để có được một số điện thoại đường dài khách hàng mới.
Bạn có thể chỉ là ngẫu nhiên đi ra ngoài và gửi phiếu giảm giá cho dân số nói chung cũng
giống như bạn ngẫu nhiên có thể đi thuyền biển tìm kiếm kho báu. Trong trường hợp không
phải, bạn sẽ đạt được kết quả bạn mong muốn và tất nhiên bạn có cơ hội để làm tốt hơn
nhiều hơn ngẫu nhiên - bạn có thể sử dụng kinh nghiệm kinh doanh của bạn được lưu trữ
trong cơ sở dữ liệu của bạn để xây dựng một mô hình.
Là giám đốc tiếp thị, bạn có thể truy cập đến rất nhiều thông tin về tất cả các khách hàng
của bạn: tuổi tác, giới tính, lịch sử tín dụng và gọi điện thoại đường dài sử dụng. Các tin tốt
là bạn cũng có rất nhiều thông tin về khách hàng tiềm năng của bạn: tuổi, giới tính, họ, lịch
sử tín dụng, vv Vấn đề của bạn là bạn không biết cách sử dụng gọi điện thoại đường dài của
những khách hàng tiềm năng (kể từ khi họ có khả năng nhất hiện nay khách hàng của đối
thủ cạnh tranh của bạn). Bạn muốn tập trung vào những triển vọng những người có số lượng
lớn của việc sử dụng khoảng cách dài. Bạn có thể thực hiện điều này bằng cách xây dựng
một mô hình. Bảng 2 minh họa các dữ liệu được sử dụng để xây dựng một mô hình mới cho
khách hàng khảo sát trong một nhà kho dữ liệu.
Trang 6 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]

Khách hàng Triển vọng
Thông tin chung
Được biết Được biết
Thông tin độc quyền
Được biết Mục tiêu
Bảng 2 - Khai thác dữ liệu cho khảo sát

7. Mục đích của sự khảo sát
Mục đích của việc khảo sát là để làm cho một số dự đoán tính toán về những thông tin ở
góc tọa độ dưới bên phải dựa trên mô hình mà chúng ta xây dựng từ thông tin khách hàng
chung để thông tin khách hàng phần mềm sở hữu. Ví dụ, một mô hình đơn giản cho một
công ty viễn thông có thể là:
98% khách hàng của tôi những người làm nhiều hơn $ 60.000 / năm chi tiêu nhiều hơn $
80/month trên đường dài
Mô hình này sau đó có thể được áp dụng cho các dữ liệu khách hàng tiềm năng để cố gắng
nói điều gì đó về thông tin độc quyền mà công ty viễn thông này hiện tại không có quyền
truy cập. Với mô hình này trong tay khách hàng mới có thể được lựa chọn nhắm mục tiêu.
Kiểm tra tiếp thị là một nguồn tuyệt vời của dữ liệu cho các loại hình của mô hình. Khai
thác các kết quả của một thị trường thử nghiệm đại diện cho một mẫu rộng lớn nhưng tương
đối nhỏ của khách hàng tiềm năng có thể cung cấp một nền tảng để xác định triển vọng tốt
trong thị trường tổng thể. Bảng 3 cho thấy một kịch bản phổ biến khác cho các mô hình xây
dựng: dự đoán những gì sẽ xảy ra trong tương lai.
Hôm qua Hôm nay Ngày mai
Kế họach hiện tại Được biết Được biết Được biết
Kế họach tương lai – thông tin
có thay đổi
Được biết Được biết Mục tiêu
Bảng 3 - Khai thác dữ liệu cho dự báo
Để tốt nhất áp dụng những kỹ thuật tiên tiến, phải được tích hợp đầy đủ với một nhà kho dữ
liệu cũng như các công cụ phân tích kinh doanh tương tác linh hoạt. Nhiều công cụ khai
thác dữ liệu đang hoạt động bên ngoài của kho, yêu cầu các bước bổ sung để chiết xuất,
nhập khẩu, và phân tích dữ liệu. Hơn nữa, khi những hiểu biết mới yêu cầu hoạt động thực
hiện, tích hợp với các kho hàng đơn giản hoá việc áp dụng các kết quả từ khai thác dữ liệu.
Các kết quả phân tích kho dữ liệu có thể được áp dụng để cải thiện quy trình kinh doanh
trong toàn bộ tổ chức, trong các lĩnh vực như quản lý chiến dịch quảng cáo, phát hiện gian
lận, triển khai sản phẩm mới.
Trang 7 | Học viên: Bùi Thị Mai Châu

CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
Điểm khởi đầu lý tưởng là một kho dữ liệu có chứa một sự kết hợp dữ liệu nội bộ theo dõi
tất cả liên lạc của khách hàng cùng với các dữ liệu thị trường bên ngoài về hoạt động của
đối thủ cạnh tranh. Bối cảnh thông tin về khách hàng tiềm năng cũng cung cấp một cơ sở
tuyệt vời cho các khảo sát. Kho này có thể được thực hiện trong một loạt các hệ thống cơ sở
dữ liệu quan hệ: Sybase, Oracle, Redbrick, và như vậy, và cần được tối ưu hóa cho việc truy
cập dữ liệu linh hoạt và nhanh chóng.
Một máy chủ OLAP (On-Line Analytical Processing) cho phép người dùng cuối một mô
hình kinh doanh phức tạp hơn để được áp dụng khi điều hướng các kho dữ liệu. Các cấu
trúc đa chiều cho phép người sử dụng để phân tích các dữ liệu như họ muốn xem kinh
doanh của họ - tóm tắt bởi dòng sản phẩm, khu vực, và quan điểm quan trọng khác của kinh
doanh của họ. Server Khai thác dữ liệu phải được tích hợp với các kho dữ liệu và máy chủ
OLAP để nhúng ROI tập trung vào phân tích kinh doanh trực tiếp vào cơ sở hạ tầng này.
Một tiên tiến, trung tâm siêu dữ liệu mẫu quá trình xác định mục tiêu khai thác dữ liệu cho
các vấn đề kinh doanh cụ thể như quản lý chiến dịch, khảo sát, và tối ưu hóa khuyến mại.
Tích hợp với các kho dữ liệu cho phép quyết định hoạt động được trực tiếp thực hiện và
theo dõi. Khi các kho hàng phát triển với các quyết định và kết quả mới, tổ chức có thể tiếp
tục khai thác tốt nhất và áp dụng chúng để quyết định tương lai.
Thiết kế này đại diện cho một sự thay đổi cơ bản từ các hệ thống hỗ trợ quyết định thông
thường. Thay vì chỉ đơn giản là cung cấp dữ liệu cho người dùng cuối thông qua các truy
vấn và báo cáo phần mềm, Server Phân tích chi tiết áp dụng mô hình kinh doanh của người
sử dụng trực tiếp với nhà kho và trả về một phân tích chủ động của các thông tin có liên
quan nhất. Những kết quả này tăng cường các siêu dữ liệu trong các máy chủ OLAP cung
cấp một lớp siêu dữ liệu năng động đại diện cho một cái nhìn cất dữ liệu. Với các công cụ
phân tích khác sau đó có thể được áp dụng để lập kế hoạch hành động trong tương lai và xác
nhận tác động của những kế hoạch đó.
Trang 8 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]

CHƯƠNG 3: MỘT SỐ ỨNG DỤNG
Các công ty đã triển khai ứng dụng thành công khai thác dữ liệu. Trong khi chấp
nhận đầu tiên của công nghệ này có xu hướng được nhiều thông tin ngành công nghiệp như
dịch vụ tài chính và tiếp thị thư trực tiếp, công nghệ này áp dụng đối với bất kỳ công ty tìm
kiếm để sử dụng một kho dữ liệu lớn để quản lý tốt hơn các mối quan hệ khách hàng của họ.
Hai yếu tố quan trọng cho sự thành công với các dữ liệu khai thác khoáng sản là: lớn, tích
hợp các kho dữ liệu và sự hiểu biết một định nghĩa của quá trình kinh doanh mà trong đó
khai thác dữ liệu được áp dụng (chẳng hạn như khách hàng khảo sát, lưu giữ, quản lý chiến
dịch, và như vậy ).
1. Một số lĩnh vực ứng dụng thành công bao gồm :
a. Một công ty dược phẩm có thể phân tích hoạt động gần đây lực lượng bán hàng và
các kết quả của họ để cải thiện nhắm mục tiêu của các bác sĩ có giá trị cao và xác định
các hoạt động tiếp thị sẽ có ảnh hưởng lớn nhất trong vài tháng tới. Dữ liệu cần phải
bao gồm các hoạt động thị trường đối thủ cạnh tranh cũng như thông tin về hệ thống
chăm sóc y tế địa phương. Các kết quả có thể được phân phối cho các lực lượng bán
hàng thông qua một mạng diện rộng cho phép các đại diện để xem xét các khuyến
nghị từ quan điểm của các thuộc tính quan trọng trong quá trình ra quyết định. , Phân
tích năng động liên tục của các kho dữ liệu cho phép thực hành tốt nhất từ khắp tổ
chức để được áp dụng trong các tình huống bán hàng cụ thể.
b. Một công ty thẻ tín dụng có thể tận dụng kho rộng lớn của dữ liệu giao dịch của
khách hàng để xác định khách hàng có thể là quan tâm đến một sản phẩm tín dụng
mới. Sử dụng gửi thư thử nghiệm nhỏ, các thuộc tính của khách hàng với một sự ham
thích cho sản phẩm có thể được xác định. Dự án gần đây đã chỉ ra nhiều hơn giảm 20
lần chi phí cho các chiến dịch gửi thư có mục tiêu qua các phương pháp thông
thường.
c. Một công ty vận tải đa dạng với một lực lượng lớn bán hàng trực tiếp có thể áp dụng
khai thác dữ liệu để xác định các triển vọng tốt nhất cho các dịch vụ của nó. Sử dụng
khai thác dữ liệu để phân tích kinh nghiệm khách hàng riêng của mình, công ty này có
thể xây dựng một phân khúc duy nhất xác định các thuộc tính của khách hàng tiềm
năng có giá trị cao. Áp dụng phân khúc này với một cơ sở dữ liệu kinh doanh nói

chung như những người được cung cấp bởi Dun & Bradstreet có thể mang lại một
danh sách ưu tiên của triển vọng của khu vực.
d. Một người tiêu dùng lớn công ty gói hàng hóa có thể áp dụng khai thác dữ liệu để cải
thiện quá trình bán hàng của mình cho các nhà bán lẻ. Dữ liệu từ các tấm tiêu dùng,
vận chuyển, và hoạt động của đối thủ cạnh tranh có thể được áp dụng để hiểu lý do
chuyển đổi thương hiệu và cửa hàng. Thông qua phân tích này, các nhà sản xuất có
thể lựa chọn chiến lược quảng cáo tốt nhất đạt được các phân khúc khách hàng mục
tiêu của họ
2. Kết luận :
Trang 9 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
- Kho dữ liệu toàn diện tích hợp dữ liệu hoạt động với khách hàng, nhà cung cấp, và
thông tin thị trường đã dẫn đến một sự bùng nổ thông tin.
- Cạnh tranh đòi hỏi phải phân tích kịp thời và tinh tế trên một cái nhìn tích hợp của dữ
liệu. Tuy nhiên, có một khoảng cách ngày càng tăng giữa lưu trữ và hệ thống thu hồi
và khả năng của người sử dụng có hiệu quả phân tích và hành động trên những thông
tin chúng chứa. Cả hai công nghệ quan hệ và OLAP có khả năng to lớn để điều
hướng các kho dữ liệu khổng lồ.
- Một bước nhảy vọt công nghệ mới là cần thiết để cấu trúc và ưu tiên thông tin cho
các vấn đề cụ thể của người dùng cuối.
3. Thuật ngữ của Điều khoản khai thác dữ liệu :
phân tích mô hình Cấu trúc và quá trình phân tích một tập dữ liệu. Ví dụ, một cây
quyết định là một mô hình để phân loại của một tập dữ liệu.
dữ liệu bất thường Dữ liệu có lỗi (ví dụ, nhập dữ liệu lỗi keying) hoặc đại diện cho các
sự kiện bất thường. Dữ liệu bất thường nên được kiểm tra cẩn thận
vì nó có thể mang thông tin quan trọng.
Hệ thống mạng Mô hình học thông qua đào tạo và tương tự như mạng lưới thần
kinh sinh học trong cơ cấu.
CART Cây phân loại và hồi quy. Kỹ thuật cây quyết định được sử dụng

cho phân loại của một tập dữ liệu. Cung cấp tập hợp các quy tắc mà
có thể áp dụng cho một tập dữ liệu mới (không được phân loại) để
dự đoán các hồ sơ sẽ có một kết quả như thế nào. Phân đoạn một
tập dữ liệu bằng cách tạo ra 2 cách chia tách. Cần chuẩn bị dữ liệu
ít hơn CHAID.
CHAID Tương tác phát hiện tự động.Kỹ thuật cây quyết định được sử dụng
cho phân loại của một tập dữ liệu. Cung cấp một tập hợp các quy
tắc mà bạn có thể áp dụng cho một tập dữ liệu mới (không được
phân loại) để dự đoán các hồ sơ sẽ có một kết quả nào. Phân đoạn
một tập dữ liệu bằng cách sử dụng kiểm tra chia vuông để tạo ra
nhiều cách chia tách. Trước, và đòi hỏi phải chuẩn bị dữ liệu nhiều
hơn, CART.
Phân loại Phân chia theo từng thành phần cấu trúc trong dữ liệu.
Phân nhóm Quá trình phân chia một tập dữ liệu thành các nhóm dữ liệu khác
nhau. Tùy theo từng lọai yêu cầu mà các dữ liệu được phân chia
theo nhóm khác nhau.
Trang 10 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
Làm sạch dữ liệu Quá trình đảm bảo rằng tất cả các giá trị trong một tập dữ liệu phù
hợp và ghi lại một cách chính xác.
Khai thác dữ liệu Khai thác thông tin dự báo ẩn từ cơ sở dữ liệu lớn.
Dữ liệu định vị Quá trình xem kích thước khác nhau, lát, và mức độ chi tiết của
một cơ sở dữ liệu đa chiều.
Dữ liệu trực quan Việc giải thích hình ảnh của mối quan hệ phức tạp trong các dữ liệu
đa chiều
Kho dữ liệu Một hệ thống để lưu trữ và cung cấp số lượng lớn dữ liệu.
Cây quyết định Một cấu trúc hình cây đại diện cho một tập hợp các quyết định.
Những quyết định này tạo ra quy tắc cho việc phân loại của một tập
dữ liệu. Xem CART và CHAID.

Kích thước Trong một cơ sở dữ liệu hoặc quan hệ, mỗi lĩnh vực trong một bản
ghi đại diện cho một kích thước. Trong một cơ sở dữ liệu đa chiều,
kích thước là một tập hợp của các thực thể tương tự.
Thăm dò phân tích
dữ liệu
Việc sử dụng đồ họa và mô tả kỹ thuật thống kê để tìm hiểu về cấu
trúc của một tập dữ liệu.
Thuật toán di
truyền
Kỹ thuật tối ưu hóa sử dụng các quá trình như sự kết hợp di truyền,
đột biến và chọn lọc tự nhiên trong một thiết kế dựa trên khái niệm
của sự tiến hóa tự nhiên.
Mô hình tuyến tính Mô hình phân tích mối quan hệ tuyến tính trong các hệ số của các
biến được nghiên cứu.
Hồi quy tuyến tính Một kỹ thuật thống kê được sử dụng để tìm các mối quan hệ tốt
nhất phù hợp tuyến tính giữa một mục tiêu (phụ thuộc) biến và
những dự báo của nó (các biến độc lập).
Hồi quy Hồi quy tuyến tính dự đoán tỷ lệ của một biến mục tiêu phân loại,
chẳng hạn như loại của khách hàng, trong dân số.
Cơ sở dữ liệu đa
chiều
Một cơ sở dữ liệu được thiết kế để xử lý phân tích trực tuyến. Cấu
trúc như một hypercube đa chiều với một trục trung bình kích
thước.
Máy tính đa xử lý Một máy tính bao gồm nhiều bộ xử lý kết nối mạng. Xem như xử
Trang 11 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
lý song song.
Lân cận gần nhất Kỹ thuật phân loại mỗi bản ghi trong một tập dữ liệu dựa trên sự

kết hợp của các đối tượng tương tự. Đôi khi được gọi là một kỹ
thuật hàng xóm k gần nhất.
Mô hình phi tuyến
tính
Mô hình phân tích mà không thừa nhận mối quan hệ tuyến tính
trong các hệ số của các biến đang được nghiên cứu.
OLAP On-line phân tích chế biến. Đề cập đến các ứng dụng cơ sở dữ liệu
mảng cho phép người dùng xem, điều hướng thông qua, thao tác,
và phân tích cơ sở dữ liệu đa chiều.
outlier Mục dữ liệu có giá trị nằm ngoài giới hạn kèm theo hầu hết các giá
trị tương ứng khác trong mẫu. Có thể chỉ ra dữ liệu bất thường.
Nên được kiểm tra cẩn thận, có thể mang thông tin quan trọng.
xử lý song song Việc sử dụng phối hợp nhiều bộ xử lý để thực hiện các nhiệm vụ
tính toán. Xử lý song song có thể xảy ra trên một máy tính hoặc
trên một mạng lưới các máy trạm hoặc máy tính.
mô hình tiên đoán Cấu trúc và quá trình để dự đoán các giá trị của biến quy định trong
một tập dữ liệu.
Phân tích tiềm
năng dữ liệu
Phân tích dữ liệu có thể dự đoán xu hướng tương lai, hành vi, hoặc
các sự kiện dựa trên dữ liệu lịch sử.
RAID Công nghệ lưu trữ song song hiệu quả của dữ liệu cho hệ thống
máy tính hiệu suất cao.
Phân tích hồi cứu
dữ liệu
Phân tích dữ liệu cung cấp xu hướng, hành vi, hoặc các sự kiện đã
xảy ra.
Quy tắc cảm ứng Việc khai thác hữu ích nếu sau đó quy định từ dữ liệu dựa trên ý
nghĩa thống kê.
SMP Đối xứng đa. Một loại máy tính đa bộ nhớ chia sẻ giữa các bộ vi xử

lý.
Phân tích chuỗi
thời gian
Các phân tích của một chuỗi các phép đo thực hiện tại các khoảng
thời gian quy định. Thời gian thường là kích thước thống trị của dữ
liệu.
Trang 12 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
Trang 13 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
PHẦN II: ỨNG DỤNG KHAI KHOÁNG DỮ LIỆU VÀ TẬP MỜ
TRONG VIỆC PHÂN LOẠI HỌC SINH
CHƯƠNG 1: LUẬT KẾT HỢP MỜ
Khai khoáng những luật kết hợp là một trong những vấn đề nghiên cứu quan trọng trong
khai khoáng dữ liệu. Một ví dụ của một luật kết hợp xét trên các thuộc tính tuyệt đối như
sau:
(1)_Nếu Sử 7 thì Kết_quả Đậu , sup: 1126 (16.9%), conf: 80.8 %
(2)_Nếu Sử 9 thì Kết_quả Đậu , sup: 1240 (18.6%), conf: 94.1 %
(3)_Nếu Sử 8 thì Kết_quả Đậu , sup: 1532 (23.0%), conf: 88.4 %
Với thuộc tính định lượng thông thường giá trị của nó thay đổi một cách liện tục, và
có rất nhiều giá trị khác nhau. Vì vậy chúng ta phải dùng các kỷ thuật để phân chia miền
thuộc tính.
Sử dụng tập mờ để phân chia miền thuộc tính, theo các hàm thành viên sẽ có dạng
như sau:
Vối hàm thành viên có dạng như sau:
Thì luật kết hợp mờ có dạng:
(1)_Nếu Sử Khá thì Kết_quả Đậu , sup: 4632 (69.5%), conf: 85.0 %
vớiự: Sử Khá (0.7) [5451 = 81.8%] trong đó 0.7 là giá trị mờ được xác định bởi hàm

thành viên đã cho.
Như vậy luật kết hợp mờ mang tính tổng quát hơn, theo đó độ hỗ trợ (sup) và độ tin
cậy (conf) cao hơn nhiều so với luật kết hợp chỉ xét trên các thuộc tính tuyệt đối.
Trang 14 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
Với những tập hợp mờ, một học sinh có thể là cả hai, một là thành viên của “sử khá”
với 80% tham gia, và một là thành viên của “sử trung bình” với 20% tham gia. Hàm thành
viên xác định bao nhiêu đối tượng dữ liệu thuộc về mỗi tập mờ xác định đặc điểm cho
những thuộc tính số. Những tập hợp mờ cung cấp một sự chuyển tiếp mịn giữa thành viên
và không thành viên của một tập hợp. Luật kết hợp mờ cũng có thể hiểu được dễ dàng bởi vì
thuật ngữ ngôn ngữ liên quan đến những tập hợp mờ.
Trang 15 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
CHƯƠNG 2: MÃ HÓA DỮ LIỆU
Để nâng cao hiệu suất khai khoáng dữ liệu chúng ta tiến hành mã hoá dữ liệu như
sau:
Sau bước chuẩn bị dữ liệu (đã số hoá các items) là đọc dữ liệu để xử lý. Tuy nhiên, sẽ
có hiện tượng giá trị số trong mỗi cột giống nhau nhưng thực tế nó lại là các items khác
nhau. Ví dụ, cột TOAN có số điểm là 5, cột LY cũng có số điểm là 5, hai số 5 này có ý
nghĩa hoàn toàn khác nhau và chúng là 2 items khác nhau. Như vậy chúng ta phải phân biệt
được chúng.
Dùng số integer 16 bit để lưu giữ, trong đó 8 bit đầu để lưu số cột (tổng số cột không
quá 256), dùng 8 bit sau để lưu giữ giá trị của cột tương ứng (giá trị không quá 255). Ví dụ
TOAN ở cột 3, điểm là 5; LY ở cột 4, điểm là 5, hai items này sẽ được lưu vào hai số tương
ứng là: 0000001100000101, 0000010000000101.
Với cách mã hoá trên thì dữ liệu của chúng ta có tổng số cột không quá 256 cột, giá
trị của các ô sau khi đã số hoá phải nằm trong khoảng từ 0 đến 255. Với yêu cầu này thì dữ
liệu thực tế hiện nay trong các chương trình quản lý thi đều không bị vi phạm.

Cách mã hoá này sẽ giúp chúng ta không cần phải biến đổi hình thức thể hiện của dữ
liệu. Chúng ta vẫn giữ nguyên hình thức thể hiện theo chiều ngang giống như hình thức
chuẩn thường có của nó. Điều này cũng sẽ tiết kiệm được khá nhiều thời gian chuyển đổi và
xử lý.
Ví dụ
TOAN LY
5 5
1 10

Một số chương trình đã thực hiện chuyển sang dạng sau:
T0 T1 T5 T10 L0 L1 L5 L10
No No No Yes No No No No No Yes No No
No Yes No No No No No No No No No Yes
Trang 16 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
Việc chuyển dữ liệu theo cách thức này sẽ tiêu tốn một thời gian đáng kể nhất là đối
với dữ liệu khổng lồ, với cách mã hoá trên chúng ta sẽ tránh được công việc này.
CHƯƠNG 3: TÌM CÁC ITEMSETS THƯỜNG XUYÊN
1. Cấu trúc lưu giữ các items, itemsets
Như trên chúng ta đã trình bày, tuỳ vào điều kiện thực tế của cơ sở dữ liệu mà chúng
ta tìm chọn một phương pháp phù hợp. Cụ thể trong cơ sở dữ liệu thi tốt nghiệp của ngành
Giáo Dục Đào Tạo tại một tỉnh, chúng ta có thể có ước định như sau:
Giới
tính
Mã
trường
Học
lực
Hạnh

kiểm
Điểm các
môn thi
Kết
quả
Tổng
items
Số lượng items 2 50 4 3 132 2 193
Với tổng số items vào khoảng gần 200, chúng ta sẽ thực hiện cấu trúc lưu giữ item
như sau:
Chúng ta xem item là trường hợp đặc biệt của itemset (itemset mà chỉ có duy nhất
một phần tử), do đó cấu trúc của item và itemset là như nhau. Chúng ta sẽ gắn vào mỗi item
một mảng có giá trị BOOLEAN một chiều để lưu giữ vị trí (mảng ghi vị trí) của item trong
cơ sở dữ liệu. Độ dài của mảng này chính bằng tổng các transaction trong cơ sở dữ liệu. Giả
sử cơ sở dữ liệu có max transaction Như vậy số bytes cần để lưu giữ vị trí của một item là
(max DIV 8) + IF(max MOD 8 <> 0, 1, 0) bytes.
Cụ thể như sau:
Giả sử chúng ta có bảng dữ liệu:
TID (Transaction ID) TOAN LY HOA
0 4 5 7
1 5 6 7
2 4 6 7
3 4 6 8
4 4 5 7
Chúng ta có các items:
Trang 17 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
000000
000000

0100
(TOAN – 4)
Chỉ số mảng 0 1 2 3 4
Giá trị 1 0 1 1 1
000000
000000
0101
(TOAN – 5)
Chỉ số mảng 0 1 2 3 4
Giá trị 0 1 0 0 0
0000
0001
0000
0101
(LY – 5)
Chỉ
số
mản
g
0 1 2 3 4
Giá
trị
1 0 0 0 0
0000
0001
0000
0110
(LY – 6)
Chỉ
số

mản
g
0 1 2 3 4
Giá
trị
0 1 1 1 1
Trang 18 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
0000
0010
0000
0111
(HOA – 7)
Chỉ
số
mản
g
0 1 2 3 4
Giá
trị
1 1 1 0 1
0000
0010
0000
1000
(HOA – 8)
Chỉ
số
mản

g
0 1 2 3 4
Giá
trị
0 0 0 1 0
Trang 19 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
Một vài itemsets:
{00000
001000
00110,0
000001
000001
000}
(LY – 6, HOA – 8)
Chỉ số
mảng
0 1 2 3 4
Giá trị 0 0 0 1 0
{00000
000000
00100,
000000
010000
0110}
(TOAN – 4, LY – 6)
Chỉ số
mảng
0 1 2 3 4

Giá trị 0 0 1 1 0
Với cấu trúc này chúng ta chỉ cần duyệt qua cơ sở dữ liệu duy nhất chỉ có một lần,
khi duyệt chúng ta sẽ ghi vị trí của các item vào mảng một chiều bằng cách truy cập trực
tiếp (không dùng vòng lặp), cụ thể số định danh transaction của item là chỉ số mảng mà tại
đó giá trị của mảng sẽ là 1. Còn việc đếm support chính là tổng giá trị của mảng.
2. Cách thức kết hợp các items thành itemset.
Sự kết hợp giữ các items để trở thành itemset cũng như giữa các itemsets với nhau
cũng sẽ được xét trên các mảng ghi vị trí đã có trước đó của chúng. Căn cứ vào đặc điểm dữ
liệu để có thể chúng ta hạn chế những mối kết hợp không thể có. Ví dụ như các items trong
cùng một cột (8 bits đầu bằng nhau) không kết hợp được với nhau, nếu chúng ta xét các
items theo một thứ tự của cột (8 bits đầu) thì chỉ có những item đứng trước mới kết hợp với
item đứng sau (không có trường hợp ngược lại). Có thể hình thức hoá như sau:
Trang 20 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
IF((x
1
>> 8) > (x
2
>> 8), có thể kết hợp, không thể kết hợp).
Trong đó x
1
, x
2
là giá trị các items sau khi đã mã hoá thành số integer 16 bits. Với qui
định này cũng sẽ giảm được thời gian thực hiện trong việc tìm các itemsets thường xuyên.
3. Chọn và đưa các items vào tập mờ
Phương thức đưa các items vào tập mờ, chủ yếu thực hiện trên các thuộc tính điểm số
của học sinh. Cụ thể như sau: Chúng ta sẽ phân điểm số của học sinh vào 3 tập mờ gọi là tập
0 (“YếU”), tập 5 (“TRUNG BìNH”), tập 10 (“KHá”), với hàm thành viên có thể thay đổi

được trong lúc chạy chương trình (trong giới hạn cho phép). Hàm thành viên được sử dụng
có dạng hình thang “Hình 2.1”.
Sau đây là một vài dạng cụ thể cho bởi “Hình vẽ 2.1”
Hình 2.1: Dạng cụ thể của hàm hình thang
Như vậy chúng ta sẽ có ba tập mờ cho một cột điểm. Sau khi một item được đưa vào
tập mờ thì giá trị của tập mờ nó sẽ bị thay đổi, đó là giá trị mờ, và mảng vị trí. Với giá trị
mờ sẽ được tính theo công thức
( )
∑
=
p
1i
i
fuzzy.item
p
1
, (itemi.fuzzy sẽ được xác định bằng hàm
thành viên), còn mảng vị trí của tập mờ sẽ được đánh dấu tại vị trí của chính vị trí của item.
Một item có thể được đưa vào hai tập mờ khác nhau với hai giá trị mờ có thể khác nhau như
“Hình vẽ 2.2” (tuỳ thuộc vào hàm thành viên).
Hình 2.2: Minh hoạ về tập mờ
Đối với mốt kết hợp mờ được hình hoá bằng “Hình vẽ 2.3” như sau:
Giả sử cơ sở dữ liệu là:
TOAN LY
2 4
4 5
Trang 21 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
5 6

6 7
Hình 2.3: Minh hoạ về mối kết hợp mờ
Trang 22 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
Xử lý mảng vị trí của tập mờ, chúng ta thực hiện bằng cách hội các giá trị tương ứng
của hai mảng lại với nhau. Kết quả của mảng ghi vị trí của các tập mờ như sau:
YẾU TOÁN TB TOÁN
Chỉ số mảng 0 1 2 3 Chỉ số mảng 0 1 2 3
Giá trị 1 1 0 0 Giá trị 0 1 1 1
YẾU LÝ TB LÝ KHÁ LÝ
Chỉ số
mảng
0 1 2 3
Chỉ số
mảng
0 1 2 3
Chỉ số
mảng
0 1 2 3
Giá trị 1 0 0 0 Giá trị 0 1 1 1 Giá trị 0 0 0 1
Với cách xử lý này chúng ta thấy rằng, với tập cổ điển ta có bốn mối kết hợp 2 – 4, 4
– 5, 5 – 6, 6 – 7. Với tập mờ ta có tất cả bảy mối kết hợp, đó là YếU – YếU (1), YếU – TB
(2), TB – TB (3), TB – KHá (1).
Qua đây chúng ta nhận xét rằng: Sử dụng tập mờ có thể cho chúng ta những luật tổng
quát hơn và dễ tìm ra luật hơn. Những khái niệm mờ cũng phù hợp với ý nghĩa thực tế hơn
so với khái niệm tập cổ điển. Tập mờ đã làm giảm thiểu đáng kể các ứng viên trong danh
sách các ứng viên thường xuyên và đây là một đặc điểm quan trọng để chúng ta có thể lưu
giữ các ứng viên trên bộ nhớ trong làm cho tốc độ chương trình tăng nhanh một cách đáng
kể. Tuy nhiên chúng ta phải trả giá lại cho việc tính toán các giá trị mờ, thế nhưng những giá

trị mờ này lại cung cấp cho ta thêm những thông tin về chính nó.
Tìm các itemset thường xuyên. Sau lần duyệt duy mhất đầu tiên chúng ta có được
danh sách các items trong cơ sở dữ liệu, đếm support và chỉ giữ lại những items thường
xuyên (support ≥ minsup). Với cách lưu lại các vị trí của item vào mảng ghi vị trí như đã nói
ở trên, chúng ta có thể tìm được tất cả các itemsets thường xuyên trên danh sách này (không
cần duyệt thêm một lần nào nữa trên cơ sở dữ liệu). Chúng ta sẽ thực hiện phép giao (tuyển)
các itemset với những items đã có lúc ban đầu thì chúng ta sẽ có được một itemset mới có
số items tăng lên một, sau đó đếm support nếu itemset mới này là thường xuyên thì lưu lại.
Trang 23 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
CHƯƠNG 4: TÌM LUẬT KẾT HỢP
Công việc đòi hỏi nhiều công sức là tìm ra được các itemsets thường xuyên. Sau đó
từ những itemsets này chúng ta sẽ đưa những luật kết hợp có độ tin cậy cao. Thông thường
giai đoạn này có ít người chú tâm tới, bởi vì nó không phải là một vấn đề khó. Tuy nhiên
như chúng ta đã đề cập ở trên, việc đưa ra quá nhiều luật mà trong đó có nhiều luật không
cần phải quan tâm là một công việc không đưa lại hiệu quả cao. Riêng trong trường hợp dữ
liệu của ngành Giáo Dục, hiện nay còn nhiều điều mới mẻ, các qui luật chưa được thể hiện
rõ do có quá nhiều sự thay đổi về chủ trương chính sách cũng như chương trình, sách giáo
khoa… trong thời gian qua. Vì vậy chúng ta chưa thể đưa ra những bộ luật mà không cần
quan tâm. Với lý do đó, trong báo cáo chưa đề cập đến vấn đề này.
Với đặc tính của cơ sở dữ liệu để có được luật có độ tin cậy 100% là vô cùng ít và
hầu như đa phần là luật có độ tin cậy nhỏ hơn 100%. Với những luật có độ tin cậy nhỏ hơn
100%, vấn đề luật thừa cũng cần phải được xem lại. Lấy ví dụ, chúng ta đã có luật A
→
B
như vậy luật (A,C)
→
B là luật thừa. Nhưng trong thực tế thì (A,C)
→

B phần lớn có độ tin
cậy cao hơn, và chính những luật có độ tin cậy cao là những luật chúng ta cần quan tâm và
tin tưởng hơn. Những luật mà vế trái càng nhiều items thì càng quí, cũng giống như công
việc điều tra mà có càng nhiều chứng cứ càng tốt.
Chúng ta có thể thực hiện tìm luật theo từng bước, ngay tại mỗi k-itemsets chúng ta
có thể xem luật ứng với mức này, hoặc chúng ta có thể thực hiện ngay tại mức cuối cùng
(itemsets có nhiều items nhất). Tại mỗi mức chúng ta có thể thay đổi giá trị minsup và
mincof để số luật ra chúng ta có thể kiểm tra được. Cùng với việc thay đổi hàm thành viên
chúng ta sẽ có thể có được những luật phong phú hơn, còn việc phân tích luật là công việc
của người dùng.
Theo nguyên tắc từ một itemset thường xuyên chúng ta có thể tìm ra được nhiều luật
trên đó. Trong danh sách các itemsets thường xuyên sẽ không có hiện tượng trùng lặp, như
vậy về hình thức của các luật khi được đưa ra cũng sẽ không bị trùng lặp.
Trang 24 | Học viên: Bùi Thị Mai Châu
CƠ SỞ TRI THỨC ỨNG DỤNG
[GVHD: GS.TSKH HOÀNG KIẾM]
KẾT LUẬN
Khai khoáng dữ liệu mở ra một hướng nghiên cứu mới trong công tác giáo dục và
đào tạo. Trước đây những báo cáo mang tính thống kê đơn thuần, chưa có thể nói hết được
những nhận định mang tính tiềm ẩn. Những qui luật rút ra được từ chương trình trong thực
tế chưa thể khẳng định ngay được, bởi vì đây là những vấn đề mang tính nhạy cảm. Tuy
nhiên nó mở cho ta một cách nhìn mới, một phương pháp mới trong việc thống kê báo cáo,
cũng như những tư liệu quí để làm căn cứ cho những quyết định mang tính đột phá sau này.
Mặc dù phương pháp này quá mới mẻ, nhưng những kết luận rút ra từ các luật kết hợp thực
sự là những vấn đề đáng quan tâm như vấn đề chất lượng học tập, đề thi, chấm thi, đạo đức
học sinh
Khái niệm mờ thật sự đã đưa lại nhiều điều thú vị. Nó không chỉ phù hợp với thực tế,
bởi vì trong thực tế hầu như những vấn đề được đưa ra đều có tính chất mờ, mà nó còn
mang tính yển chuyển, linh hoạt từ đó dễ khám phá ra các luật kết hợp, phân loại học sinh
mang tính thuyết phục hơn.

Từ những luật kết hợp có được chúng ta sẽ có thêm một phương pháp phân loại học
sinh mới dựa trên các luật này. Chẳng hạn như có 82% học sinh thi khá môn Sử và học lực
TB thì đậu tốt nghiệp THPT với độ tin cậy 91%.
Trang 25 | Học viên: Bùi Thị Mai Châu

Bài tiểu luận môn Công nghệ tri thức CƠ SỞ KHAI THÁC DỮ LIỆU

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về