Tài liệu Lịch sử khai phá dữ liệu ppt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (143.54 KB, 13 trang )

MỤC LỤC
MỤC LỤC.......................................................................................................................................1
Chương 1: Nền tảng ứng dụng của khai phá dữ liệu.....................................................................2
I. Mở đầu.........................................................................................................................................2
II. Lịch sử của ngành khoa học thống kê và khai phá dữ liệu.......................................................3
III. Khoa học thống kê hiện đại......................................................................................................4
IV. Hai quan điểm thực tế...............................................................................................................7
V. Sự xuất hiện của phân tích thống kê hiện đại: Thế hệ thứ hai..................................................8
VI. Dữ liệu, dữ liệu ở mọi nơi......................................................................................................10
VII. Phương pháp học máy: Thế hệ thứ ba..................................................................................11
VIII. Học thuyết thống kê: Tổng quan thứ 4................................................................................12
PHỤ CHÚ.....................................................................................................................................13

1

Chương 1: Nền tảng ứng dụng của khai phá dữ liệu
I. Mở đầu
Bạn đọc chắc hẳn là một người rất thích thú với lĩnh vực ứng dụng khai phá dữ liệu
vào thực tiễn. Nếu khơng thì bạn đã chẳng đọc cuốn sách này. Chúng ta đều biết hiện
nay có rất nhiều cuốn sách viết về quá trình khai phá dữ liệu. Hầu hết các tài liệu này
đều tập trung trình bày những đặc điểm, chức năng của các công cụ và giải thuật khai
phá dữ liệu khác nhau. Một số tài liệu khác thì lại tập trung vào việc đề cập đến những
thách thức mà chúng ta có thể gặp phải trong quá trình khai phá dữ liệu. Cuốn sách này
được trình bày với một mục đích hồn tồn khác, nhằm cung cấp cho bạn một một cái
nhìn tổng quan về ứng dụng của khai phá dữ liệu trong thực tiễn.
Điều đầu tiên mà chúng ta phải xem xét tới khi muốn thực hiện quá trình khai phá
dữ liệu tác nghiệp của một doanh nghiệp đó là lựa chọn cơng cụ khai phá dữ liệu. Thật
khó để có thể nhìn ra sự thực đằng sau những lời quảng cáo thổi phồng của các công ty
phần mềm về những công cụ khai phá dữ liệu mà họ phát triển. Thực tế cho thấy rằng
chính những cơng cụ khai phá dữ liệu "xồng xĩnh" nhất vẫn có khả năng tạo ra được

những mơ hình đạt chất lượng tốt, chỉ thua kém chút ít (khoảng 10% về chất lượng) so
với những mơ hình được tạo ra bởi các công cụ khai phá được xem là tốt nhất.
Một giải pháp khai phá dữ liệu đạt chất lượng tốt được thực hiện chỉ với những
công cụ chi phí thấp sẽ cho hiệu quả kinh tế cao hơn nhiều so với việc sử dụng những
công cụ đắt tiền mà hiệu quả chỉ cao hơn khoảng 10%. Vậy bạn sẽ lựa chọn công cụ
khai phá dữ liệu cho mình như thế nào?
Một vài tổng kết đã được đưa ra. Danh sách các công cụ tốt nhất và phổ biến nhất
được cập nhật hằng năm trên trang KDNuggets.com. Một số tổng kết có trong tài liệu
khơng chỉ chỉ đơn thuần là thảo luận về các đặc điểm và chức năng của các công cụ.
Việc so sánh các công cụ khai phá dữ liệu một cách chi tiết và chính xác cũng rất thú vị.
"Những tài liệu được download nhiều nhất là những tài liệu liên quan đến lĩnh vực khai
phá dữ liệu" - điều này cũng thật dễ hiểu nhưng lại là về các công cụ ra đời cách đây cả
chục năm được tổng kết bởi Elder và Abbott vào năm 1998.
Những cân nhắc khác cần phải tính tới khi muốn xây dựng ứng dụng khai phá dữ
liệu tác nghiệp của một doanh nghiệp là thành lập nhóm phát triển, thiết lập nền tảng, tổ
chức việc ứng dụng khai phá dữ liệu sao cho hiệu quả. Cuốn sách này không thảo luận
2

về chủ đề xây dựng nền tảng cho khai phá dữ liệu. Chủ đề này đã được đề cập khá
nhiều trong các cuốn sách. Một cuốn sách tốt, cung cấp một cái nhìn tổng quan về việc
xây dựng nền tảng cho khai phá dữ liệu đó là cuốn: "Khai phá dữ liệu: khái niệm và
phương pháp" được biên soạn bởi Han và Kamber, phát hành năm 2006.
Trọng tâm chính của cuốn sách này là trình bày một cách tiếp cận theo hướng thực
hành để xây dựng một mơ hình khai phá dữ liệu hiệu quả, ít tốn kém, hướng tới việc
góp phần tăng lợi nhuận cho doanh nghiệp, trong đó sử dụng các bài học và các phiên
bản demo của các công cụ khai phá dữ liệu thường dùng.
Chúng ta không được cho rằng nền tảng cơ sở của khai phá dữ liệu là khơng quan
trọng. Nó thực sự quan trọng cho dù chúng ta có nhận ra nó từ đầu hay khơng. Lý do là
bởi vì phương pháp luận của khoa học thống kê và khai phá dữ liệu khơng phải tự nhiên

mà có. Phương pháp phân tích dữ liệu được phát triển dựa trên sự kết hợp của lý thuyết
phân tích và thống kê tốn.
Yếu tố thúc đẩy sự phát triển này là do yêu cầu cấp bách cần phải có một phương
pháp phân tích đơn giản, có tính lặp phục vụ cho y học. Bắt đầu từ đây, phương pháp
luận về phân tích số liệu thống kê hiện đại và khai phá dữ liệu được phát triển. Để hiểu
được sức mạnh cũng như giới hạn của phương pháp và sử dụng chúng một cách hiệu
quả, chúng ta phải hiểu được sức mạnh và giới hạn của lý thuyết thống kê toán được sử
dụng làm nền tảng cho phương pháp. Lý thuyết thống kê toán được phát triển một cách
định hướng bởi các nhà toán học và cũng xuất hiện những cách nhìn khác nhau về cách
thức giải quyết những bài tốn phân tích số liệu. Để hiểu được cách tiếp cận giải quyết
bài toán, chúng ta phải hiểu những con đường khác nhau mà con người hướng tới. Sự
phát triển của lĩnh vực toán học thống kê là nền tảng cơ sở cho các kỹ thuật thống kê
khác nhau. Chúng được thúc đẩy do nhu cầu của những tác vụ khai phá dữ liệu phức
tạp

II. Lịch sử của ngành khoa học thống kê và khai phá dữ liệu
Nhu cầu phân tích các mẫu dữ liệu khơng phải là cái gì đó mới mẻ. Những khái
niệm trong thống kê tốn như giá trị trung bình hay sự phân nhóm đã được biết đến từ
thời cổ đại ở Trung Quốc sau khi người ta phát minh ra bàn tính. Ở Trung Quốc và Hy
Lạp cổ đại, sự phát triển của khoa học thống kê giúp cho giai cấp thống trị quản lý một
cách hiệu quả những vấn đề về ngân khố và quân sự. Trong thế kỷ 16 và 17, các trò
3

chơi may rủi rất phổ biến trong giới thượng lưu. Những câu hỏi về xác suất thường
được đặt ra cho các nhà toán học. Điều này đã thúc đẩy những nghiên cứu về xác suất
thống kê trong giai đoạn sau đó.

III. Khoa học thống kê hiện đại
Hai nhánh của khoa học phân tích thống kê được phát triển vào thế kỷ thứ 18:

Thống kê Bayes và thống kê phân lớp. Chúng ta có thể xem đây là giai đoạn phát triển
đầu tiên của ngành khoa học thống kê. Theo quan niệm của lý thuyết thống kê Bayes thì
xác suất của xảy ra của một sự kiện được tính bằng xác suất xảy ra sự kiện đó trong quá
khứ nhân với khả năng xảy ra sự kiện đó trong tương lai.
Quá trình phân tích dựa trên khái niệm về xác suất có điều kiện: xác suất một sự
kiện xảy ra được xác định thông qua một sự kiện khác đã xảy đến. Phân tích Bayes khởi
đầu bằng việc đánh giá trạng thái liên quan đến sự hiểu biết, niềm tin và những giả định
của quan sát viên. Những yếu tố chủ quan này được kết hợp với dữ liệu được xác định
một cách gần đúng bằng xác suất thông qua một hàm mục tiêu.
Phương pháp thống kê phân lớp quan tâm đến xác suất bộ phận hơn là xác suất có
điều kiện, thực sự là nền tảng phù hợp cho việc phân tích. Hàm xác suất bộ phận mơ tả
xuất mà X nhận giá trị cụ thể x và Y nhận giá trị y cùng lúc như là một hàm của 2 biến
x, y.
Sự quan tâm nghiên cứu về lý thuyết xác suất đã lôi cuốn nhiều nhà khoa học trong
lĩnh vực sinh học sau Mendel ở nửa sau thế kỷ XIX. Francis Galton, người sáng lập ra
ngôi trường nghiên cứu về Di truyền học ở Anh và người kế nhiệm của ông là Karl
Pearson đã phát triển những khái niệm toán học về hồi quy và tương quan để phân tích
những dữ liệu liên quan đến q trình tiến hóa của sinh vật. Sau đó Pearson và các đồng
sự của mình đã mở rộng phạm vi nghiên cứu và ứng dụng của họ vào trong các lĩnh vực
của khoa học xã hội. Tiếp sau Pearson, R.A.Fisher đã phát triển hệ thống kiểm tra các
kết luận sử dụng trong các nghiên cứu y học dựa trên khái niệm do ông đưa ra về độ
lệch chuẩn. Sự phát triển của lý thuyết xác suất đã vượt ra ngoài những phát kiến của
Galton và Pearson, những phương pháp dự đoán đã sớm ra đời sau lý thuyết của Bayes.
Những phương pháp cận của Bayes đối với việc kiểm tra các kết luận trong thí nghiệm
y học đã dẫn tới những kết luận khác nhau được đưa ra bởi những y bác sĩ làm nhiệm
vụ theo dõi nghiên cứu bởi vì họ chịu tác động của những yếu tố mang tính chủ quan
4

khác nhau. Mục tiêu của Fisher trong việc phát triển hệ thống phân tích thống kê của

ơng là nhằm cung cấp cho các chuyên gia y học theo dõi thí nghiệm một tập các công
cụ nhằm so sánh các kết quả nghiên cứu về hiệu quả của các phương pháp điều trị khác
nhau, được thực hiện bởi các chuyên gia y tế khác nhau. Tuy nhiên hệ thống của mình
có thể làm việc với các mẫu lớn, Fisher phải đưa ra một số các giả định để định nghĩa ra
"Mô hình tham chiếu".
Các giả định của mơ hình tham chiếu:
1. Dữ liệu là tương thích với phân bố đã biết
Những nghiên cứu đầu tiên của Fisher dựa trên sự tính toán tham số về độ lệch
chuẩn với giả định rằng dữ liệu được phân bố theo một phân bố chuẩn. Phân bố chuẩn ở
đây là phân bố hình "chng" với giá trị trung bình nằm ở "đỉnh chng" và "đi" kết
thúc ở các bên. Độ lệch chuẩn ở dây chỉ đơn giản là giá trị trung bình của trị tuyệt đối
độ lệch giữa các giá trị khác và giá trị trung bình. Trong tính tốn này, khái niệm trung
bình được xác định bằng cách chia tổng giá trị tuyệt đối của các độ lệnh chuẩn cho số
lượng các độ lệch chuẩn - 1. Phép trừ 1 ở đây cho thấy tính khơng chắc chắn của kết
quả tăng lên do việc phân nhóm. Những cải tiến sau này sử dụng các tham số bổ trợ dựa
trên phân bố logistic và phân bổ Poisson. Giả định về một phân bố đã biết là cần thiết
để khắc họa những đặc điểm của hàm phân bố nhằm đưa ra những kết luận. Tất cả
những phương pháp sử dụng tham chiếu đều ẩn chứa rủi ro khi ép dữ liệu thu nhận
được từ thế giới thực phải thỏa mãn một mơ hình tốn học mà về bản chất là khơng phù
hợp.
2. Tính độc lập của các nhân tố
Trong các hệ thống dự đoán, biến được dự đoán (Y) được xem như là một hàm của
các biến quan trắc được (X), các biến này được giả thiết là tác động một cách độc lập
lên Y. Điều này có nghĩa là sự tác động của lên Y của mỗi biến X là không phụ thuộc
vào tác động của các biến X khác. Những tình huống như thế có thể được tạo ra trong
phịng thí nghiệm bằng cách cho phép chỉ một nhân tố thay đổi còn các nhân tố khác
được giữ cố định. Tuy nhiên trong thế giới thực, điều này là không thể. Như là một kết
quả tất yếu, một vài nhân tố (có khả năng tác động đến các nhân tố khác) cũng tham gia
vào quá trình tác động lên Y. Hiện tượng này gọi là collinearity. Khi hiện tượng này
xảy ra giữa một số lượng nhiều hơn hai nhân tố thì nó được gọi là multicollinearity.

5

Do sự tác động lẫn nhau giữa các nhân tố đầu vào nên các nhà thống kê học phải sử
dụng những khái niệm liên quan đến sự tương tác trong mối quan hệ giữa các nhân tố
(được biểu diễn như là sự kết hợp của các tác động).
3. Tích lũy tuyến tính
Khơng chỉ u cầu các biến X là độc lập mà tác động của chúng lên Y phải mang
tính tích lũy và tuyến tính. Có nghĩa là tác động của mỗi nhân tố sẽ được cộng thêm hay
trừ đi trong kết hợp của các tác động từ tập biến X lên Y. Nhưng điều gì sẽ xảy ra trong
trường hợp quan hệ giữa Y và các biến quan trắc X không phải là thông qua phép cộng
mà là phép nhân hay phép chia. Những trường hợp như thế này chỉ có thể mơ tả thơng
qua các phép tốn lũy thừa thường được dùng phổ biến khi muốn biểu diễn những mối
quan hệ khơng tuyến tính. Giả thiết về tính tích lũy tuyến tính cho những mối quan hệ
như thế này có thể gây ra lỗi lớn trong kết quả dự đoán. Điều này thường xảy ra trong
trường hợp chúng được sử dụng để xử lý các dữ liệu kinh doanh của doanh nghiệp.
4. Tính biến đổi đều
Sự thay đổi giá trị trong miền xác định của mỗi biến được giả thiết là hằng số. Điều
này có nghĩa là nếu ta chia miền xác định của mỗi biến thành các vùng thì sự thay đổi
của giá trị trong vùng 1 cũng sẽ giống như trong tất cả các vùng còn lại.
5. Các biến phải mang các giá trị số và liên tục
Giả thiết rằng các biến phải mang giá trị số và liên tục có nghĩa là dữ liệu mà chúng
ta xem xét phải là dữ liệu kiểu số (hoặc chúng phải được số hóa trước khi tiến hành
phân tích) và các con số ở đây được xem là một phần cấu thành của một phân bố liên
tục. Các giá trị nguyên không thể coi là liên tục, chúng là những giá trị rời rạc. Những
phương pháp thống kê phân lớp chuẩn hóa khơng cịn đúng nữa khi sử dụng với những
dữ liệu rời rạc bởi vì các phân bố xác suất áp dụng cho dữ liệu rời rạc và liên tục là
khác nhau. Tuy nhiên các nhà khoa học hay các chuyên gia phân tích kinh tế vẫn sử
dụng chúng tùy đièu kiện.
Trong một bài viết của mình, Fisher (1921) đã bắt đầu bằng việc định nghĩa rộng về

xác suất như là xác suất nội tại để một sự kiện xảy ra chia cho xác suất để tất cả các sự
kiện khác cùng xảy ra đồng thời. Kết thúc bài viết của mình Fisher đã cải biên định
nghĩa xác suất của mình để áp dụng cho việc phân tích các kết quả nghiên cứu y học
như là xác suất nội tại của một quá trình xảy ra sự kiện. Ông đặt tên cho đại lượng này
6

là "khả năng xảy ra sự kiện" (likelihood). Những nhà nghiên cứu sau này xem hai định
nghĩa "khả năng xảy ra" hay "xác suất" là một.

IV. Hai quan điểm thực tế
Bất cứ khi nào chúng ta xem xét giải quyết một vấn đề hoặc trả lời một câu hỏi,
chúng ta bắt đầu bằng khái niệm của nó . Điều đó có nghĩa chúng tơi làm một trong hai
điều: (1) cố gắng làm giảm nó để yếu tố chính hoặc (2) cố gắng để phân tích nó trong
điều kiện chung. Việc kêu gọi những người có mỗi cách tiếp cận cụ thể "và" người dân
bức tranh lớn, "tương ứng. Những gì chúng tơi khơng coi đó là sự phân biệt này có
nguồn gốc sâu xa trong triết học Hy Lạp trong các cơng trình của Aristotle và Plato.
Aristotle : tin rằng là của sự vật có thể được nhận thức đúng thực tế chỉ bởi
những gì mắt có thể nhìn thấy, tay có thể liên lạc, vv Ơng tin rằng mức độ cao nhất của
hoạt động trí tuệ đã được các nghiên cứu chi tiết của thế giới hữu hình xung quanh
chúng ta. Chỉ trong cách chúng ta có thể hiểu thực tế. Dựa trên cách tiếp cận này để
hiểu về thế giới, Aristotle được dẫn dắt để tin rằng chúng ta có thể phá vỡ một hệ thống
phức tạp thành từng miếng, mô tả những mảnh cụ thể, đặt mảnh với nhau và hiểu được
toàn bộ. Đối với Aristotle, các "toàn bộ" được bằng tổng của các bộ phận của nó. Điều
này bản chất của tồn bộ đã được xem bởi Aristotle theo một phương cách rất giống
như máy. Khoa học đến với Aristotle rất sớm. Bản chất của thế giới xung quanh chúng
tơi được nghiên cứu bằng cách nhìn rất kỹ các yếu tố vật lý và các đơn vị sinh học (lồi)
mà bao gồm nó. Theo sự hiểu biết của chúng ta về thế giới tự nhiên trưởng thành vào
các khái niệm về hệ sinh thái, nó đã được phát hiện ra rằng nhiều đặc tính của các hệ
sinh thái khơng thể được giải thích bởi truyền thống (Aristotle) phương pháp tiếp

cận. Ví dụ, trong khoa học lâm nghiệp, chúng tôi phát hiện ra rằng khi một khu rừng
nhiệt đới bị cắt xuống trong phạm vi của nó, có thể mất một thời gian rất dài để tái sinh.
Chúng tôi đã học được rằng lý do cho việc này là ở các khu vực căng thẳng tương đối
(ví dụ, các khu vực ngoại vi), đặc điểm chính cần thiết cho sự sống còn và phát triển
của cây nhiệt đới được duy trì bởi các rừng tự! Lượng mưa cao làm tan các chất dinh
dưỡng xuống vượt quá tầm với của các gốc cây, vì vậy gần như tất cả các chất dinh
dưỡng cho cây tăng trưởng phải đi từ lá gần đây đã giảm. Khi bạn đốn hạ chúng xuống,
bạn loại bỏ rằng nguồn gốc của chất dinh dưỡng. Tán rừng cũng duy trì điều kiện thuận
lợi của ánh sáng, độ ẩm, và nhiệt độ yêu cầu của cây. Loại bỏ các tán rừng loại bỏ
7

những yếu tố rất cần thiết cho nó để tồn tại ở đó. Các yếu tố này xuất hiện chỉ khi hệ
thống được toàn bộ và hoạt động. Nhiều hệ thống phức tạp được như thế, thậm chí cả
hệ thống kinh doanh. Trong thực tế, những tài sản này nổi lên có thể được các trình
điều khiển chính của hệ thống ổn định và tính dự đốn trước. Để hiểu sự thất bại của
triết học Aristotle cho hoàn toàn xác định trên thế giới, chúng ta phải trở về Hy Lạp cổ
đại, xem xét đối thủ của Aristotle,
Plato:Plato và Aristotle đều đồng ý vào bản chất của người. Trong khi Aristotle
tập trung vào miêu tả những thứ hữu hình trên thế giới bởi các nghiên cứu chi tiết, Plato
tập trung vào thế giới của những ý tưởng mà nằm đằng sau các xúc. Đối với Plato, điều
duy nhất mà đã kéo dài được là một ý tưởng. Ông tin rằng những điều quan trọng nhất
trong sự tồn tại của con người đã vượt q những gì mà mắt có thể nhìn thấy và bàn tay
có thể nhận biết. Plato tin rằng ảnh hưởng của các ý tưởng vượt lên trên cả thế giới của
sự vật hữu hình mà định hướng nhiều quan tâm của Aristotle. Đối với Plato, các "toàn
bộ" của thực tế lớn hơn tổng của phần hữu hình của nó. Khái niệm về bản chất của các
bị được phát triển ban đầu trong tư duy phương Tây khi một nền tảng Platon. Platonism
làm chủ các nhận thức triết học trong hơn 2.000 năm, cho đến khi được thay đổi. Sau
đó, làn sóng của tư duy phương Tây chuyển về hướng Aristotle. Sự phân chia của tư
tưởng vào bản chất của thực tế được phản ánh trong nhiều nỗ lực của chúng tôi để xác

định bản chất của thực tế trên thế giới, đôi khi vô thức như vậy. Chúng tơi nói về sự
khác biệt giữa "người dân bức tranh lớn" và những người cụ thể "", chúng ta tương
phản "từ trên xuống" so với phương pháp tiếp cận để tổ chức "từ dưới lên" phương
pháp tiếp cận, và chúng ta so sánh "trái óc" người có "quyền-nao" người dân. Những
dichotomies của nhận thức được ít hơn một rehash của cuộc tranh luận giữa các cổ đại
Plato và Aristotle.

V. Sự xuất hiện của phân tích thống kê hiện đại: Thế hệ thứ hai
Trong những năm 80 của thế kỷ XX, các nhà toán học thống kê đã biết rõ là cách
tiếp cận Aristotle của quá khứ đã quá hạn chế cho việc phân tích các mối quan hệ rất
phi tuyến trong bộ dữ liệu lớn trong các hệ thống phức tạp của thế giới thực. Nghiên
cứu toán học tiếp tục theo đường thống kê Fisherian bằng việc phát triển các phiên bản
phi tuyến của phương pháp tham số. Đa đường cong hồi quy là một trong những
phương pháp tiếp cận đầu tiên cho kế toán cho phi tuyến trong dữ liệu phân tán liên tục.
8

Tuy nhiên, nhiều vấn đề phi tuyến liên quan đến sự rời rạc hơn là sự phân tán liên tục.
Những phương pháp này gồm có:
-

Mơ hình Logit (bao gồm hồi quy logistic): Dữ liệu được giả định theo một sự
phân tán logistic và biến phụ thuộc khơng có điều kiện. Trong phương pháp này
biến phụ thuộc (Y) được định nghĩa như là một hàm lũy thừa của các biến dự
đoán (X). Như vậy mối quan hệ có thể thống kê phi tuyến từ vai trò của các biến

-

X tới biến Y nhưng không phải sự tương tác giữa các biến X.
Mơ hình Probit (bao gồm hồi quy Poisson): Giống như mơ hình Logit ngoại trừ

-

việc giả định dữ liệu theo sự phân tán Poisson.
Mơ hình tuyến tính suy rộng (GLM): Mơ hình GLM mở rộng phương trình dự
đốn sử dụng trong việc dự đoán Y = f {X}, f là một hàm và X là một veto của
các biến dự đốn. Vế trái của phương trình được gọi là thành phần xác định, về
phải gọi là thành phần ngẫu nhiên và dấu bằng là nhiều hàm liên kết có thế.
Phương pháp thống kê nhận ra rằng thành phần xác định có thể được biểu diễn
như một hàm số mũ (giống như hàm logistic), thành phần ngẫu nhiên được tích
lũy các tác động của các biến X và vẫn là tuyến tính. Hàm liên kế có thể là một
tốn tử logic nào đó (bằng, lớn hơn, nhỏ hơn). Dấu bằng được gọi là liên kết
đồng nhất. Hiện tại các nhà toán học đã có cơ sở để định nghĩa một hàm phù hợp
một các tập dữ liệu phi tuyến. Nhưng nó sẽ được để lại cho sự phát triển của

mạng nơron để diễn tả các hàm ở bất cứ độ phi tuyến nào.
Trong khi sự phát triển này đang xảy ra trong thế giới của Fisher, một nhóm kiên
định của Bayes tiếp tục đưa ra phương pháp tiếp cận của họ. Theo họ thì ý nghĩa thực
hành (liên quan tới những gì xảy ra trong quá khứ) thì quan trọng hơn ý nghĩa thống kê
được tính tốn từ các hàm xác xuất. Ví dụ, nhu cầu thực hành để chuẩn đốn khối u ung
thư một cách chính xác (đúng – tích cực) thì quan trọng hơn là lỗi của việc chuẩn đốn
sai khối u ung thư khi nó sai (tiêu cực). Trong lĩnh vực này sự chú ý thuộc về Plato, liên
quan đến sự chuẩn đốn chính xác với mơi trường dữ liệu từ bất kỳ mẫu riêng biệt nào
được lấy ra chứ khơng phải chỉ dự đốn một số mẫu nào đó. Đề phục vụ nhu cầu thực
hành này họ đã bỏ qua một thực tế là bạn chỉ có thể xem như là xác suất của sự kiện
này chỉ xảy ra trong môi trường dữ liệu trong quá khứ, khơng phải là xác xuất của sự
kiện xảy có thể xảy ra nhưng không xảy ra.

9

Trong sự thống kê Fisher quan sát và lỗi alpha tương ứng xác định nó khác với
những gì được mong đợi. Lỗi alpha là xác suất để bạn sai khi bạn nghĩ là bạn đúng.
Trong khi lỗi beta là xác suất bạn đúng khi bạn nghĩ là bạn sai. Những người Fisherian
đặt lỗi alpha ở đầu của sự phân tích và tham chiếu tới các sai khác có ý nghĩa giữa các
mật độ dữ liệu trong các khái niệm của lỗi alpha được xác định. Những người Fisherian
có thể thêm hậu tố vào dự đốn của mình là “...mức độ tin tưởng 95%”. Mức độ tin
tưởng (95% trong trường hợp này) là phần bù của lỗi alpha (0.05%). Nó có nghĩa là nhà
điều tra hài lòng 5% sai số của thời gian. Những người Fisherian sử dụng lỗi beta để
tính toán khả năng hay sự bùng nổ của một thử nghiệm phân tích. Những người
Bayesian cảm thấy tự do xoay vòng giữa lỗi alpha và beta, họ cho rằng bạn khơng thể
đạt tới độ chính xác mà khơng giả định một số lựa chọn thay thế một cách cẩn thận. Họ
xác nhận rằng mức xác suất được tính ở mức 0.23 đối với các sự kiện cho trước ở dữ
liệu mẫu khơng có ý là xác suất của tất cả các sự kiện trên thế giới đều là 0.23.
Phương pháp tiếp cận nào là đúng, Fisherian hay Bayesian. Câu trả lời phụ thuộc
vào bản chất của nghiên cứu, khả năng của việc giả định, chi phí liên quan giữa lỗi saitiêu cực và lỗi đúng-tích cực. Trước khi lựa chọn điều này chúng ta phải nhớ rằng tất cả
các thử nghiệm thống kê đều có những ưu điểm và nhược điểm. Chúng ta phải hiểu rõ
các điểm mạnh và điểm yếu của cả 2 phương pháp và hiểu rõ ý nghĩa của kết quả mà
mỗi phương pháp tạo ra. Mặc dù cịn có những tồn tại trong các phép thống kê của
Fisher và Bayes nhưng đã tìm ra vai trị to lớn của nó trong lĩnh vực phát triển khai phá
dữ liệu trong kinh doanh bằng Mạng tin cậy Bayes và Phân loại Bayes đơn giản. Trong
kinh doanh, thành công trong các ứng dụng thực tế phụ thuộc vào độ hồn hảo khi phân
tích tất cả các thay thế biến. Các sự thay thế khơng khả thi khơng có giá trị giả định.
Một trong những hướng dẫn được đính kèm trên đĩa DVD sử dụng thuật toán phân loại
Bayes đơn giản.

VI. Dữ liệu, dữ liệu ở mọi nơi...
Xem xét kỹ nhu cầu thực hành của việc kinh doanh để rút ra những tri thức từ dữ
liệu có thể được làm đòn bẩy ngay lập tức để tăng doanh thu được yêu cầu các kỹ thuật
phân tích mới cho phép phân tích sâu sắc mối quan hệ phi tuyến trong mọi tập dữ liệu

lớn với sự phân tán không xác định. Sự phát triển của kỹ thuật mới theo 3 đường tốt

10

hơn là theo 2 đường như truyền thống. Đường thứ 3 (học máy) có thể được xem như là
một đường cong Aristote và Plato tới sự thực nhưng không phải là Bayes.

VII. Phương pháp học máy: Thế hệ thứ ba
Dòng suy nghĩ được biết như cách học máy bắt đầu của trao đổi trí thơng minh nhân
tạo trên 1 q trình cho máy thơng minh. Bắt đầu, 1 vài cách đã theo 2 cách phát triển
song song: mạng lưới neuron nhân tạo và cây quyết định.
-

Mạng lưới neuron nhân tạo. Con đường đầu tiên được tìm kiếm để nhấn mạnh
chức năng 1 biến thiên trực tiếp ( gọi tắt là nguyên nhân) bởi các cách phân định
quan trọng tới việc nhập biến thiên, tăng sự ảnh hưởng của nó, và tác động tới
sản xuất giá trị bên ngoài ( gọi tắt là kết quả) theo vài chức năng quyết định. Hệ
thống (mạng lưới neuron nhân tạo) được trình bày đơn giản theo cách mà bộ não
con người hoạt động bằng qua các xung lực neuron từ sự kết nối neuron toi
neuron. Sự “ chống đối” trong quá trình xung lực giữa 2 neuron trong bộ não con
người là rất nhiều. Mối quan hệ phức tạp của các neuron là có thể huấn luyện và
có thể học cách đối phó nhanh hơn yêu cầu từ bộ não. Các nhà khoa học máy
tính bắt đầu phát biểu một cách rất tổng quát nhóm của hệ thống trong phần của
hệ thống neuron nhân tạo mà có thể từng được học như thế nào để nhận thức các
sự việc phức tạp trong việc nhập nhiều việc của 1 dữ liệu.

-

Các cây quyết định : Con đường thứ 2 của sự phát triển được quan tâm với

việc biểu lộ các hiệu quả trực tiếp bằng các cách phát triển tới tìm kiếm các quy
luật mà có thể được đáng giá cho việc phân ra việc nhập những giá trị vào một
của vô số “bins” mà khơng có biểu lộ trực tiếp chức năng của mối quan hệ. Tất
cả các cách tập trung diễn đạt rõ ràng quy luật ( phương pháp quy nạp) hay biểu
lộ mối quan hệ giữa các quy luật ( cây quyết định) mà kết quả được chú trọng.
Tất cả các phương pháp tránh sự phê bình của học thuyết Kim Tự Tháp và rất
thích hợp phân tích các vơ tuyến ( viết tắt là NLEs), sự kết hợp ảnh hưởng cả 2
của X-biến thiên với Y-biến thiên và tác động qua lại giữa các biến thiên độc
lập. Khi các cây quyết định và hệ thống neuron có thể biểu lộ NLEs phức tạp
hơn các phương pháp thống kê Kim Tự Tháp, tất cả thuộc về bản chất tuyến
trong kết hợp các chức năng đấy.

11

VIII. Học thuyết thống kê: Tổng quan thứ 4
Các kỹ thuật hồi quy logistic có thể tính tốn cho sự kết hợp tác động qua lại
giữa các yếu tố dự báo bởi hiệu quả của các chức năng vô tuyến mà xác định các biến
thiên độc lập (Y). Tuy nhiên, vẫn còn nhiều hạn chế đáng kể cho các máy tuyến tính
( xem Minsky và Papert, 1969). Ngay cả hệ thống neuron và các cây quyết định cũng
gặp vấn đề đó. 1 cách để thể hiện hạn chế là nhìn chúng theo “ giả thuyết không gian”.
Giả thuyết không gian là xây dựng trong vịng 1 giải pháp được tìm thấy. Tuy nhiên các
giải pháp có thể được ràng buộc cao hơn bởi các chức năng tuyến tính trong học thuyết
thống kê cổ điển và các kỹ thuật học máy. Sự phức tạp vấn đề trong thế giới thật có thể
u cầu nhiều học thuyến khơng gian mà có thể được cung cấp bởi các chức năng tuyến
tính để diễn đạt rõ hơn ( Cristianini và Shawe-Taylor, 2000). Mạng lưới đa lớp neuron
có thể chiếm nhiều hơn của các hiệu ứng vô tuyến bởi các hiệu quả nhà kỹ thuật mạng
và kỹ nghệ giảm thiểu lỗi, ví dụ là sự lan truyền trở lại. Một cách giải quyết khác là sắp
xếp các điểm dữ liệu vào các vectors ( như các hàng trong 1 mục lưu trữ khách hàng) .
Rất nhiều vectors được tạo ra từ nhiều yếu tố ( một cho mỗi thuộc tính trong lưu trữ

khách hàng). Vector không gian của các hàng dữ liệu khách hàng trong 1 database có
thể được đặc điểm hóa , thuộc về nhận thức và tốn học như là 1 khơng gian với N-thứ
nguyên, mà N là số của thuộc tính khách hàng( các biến có thể dự đóan trước). Khi bạn
xem dữ liệu của 1 lưu trữ khách hàng như 1 vector, bạn có thể tận dung khái niệm đại
số tuyến tính, một trong các cách đó là bạn có thể biểu diễn trên các sự khác nhau giữa
các thuộc tính của 2 lưu trữ khách hàng bằng cách tính dấu chấm sản phẩm ( hoặc sản
phẩm bên trong)
Chúng ta có thể biểu diễn dữ liệu dưới dạng một chuỗi tích vô hướng trong
không gian N chiều. Ngay cả những thuật tốn thống kê cổ điển cũng có thể được biểu
diễn tương tự. Trong Lý thuyết Học qua thống kê (Statistical Learning Theory), người
ta dùng nhiều hàm phức khác nhau gọi là “hàm nhân” thay cho tích vơ hướng. Khi bạn
ánh xạ dữ liệu vào trong không gian nhân phức này, thì khơng gian giải pháp cho bài
tốn của bạn sẽ tăng đáng kể. Dữ liệu trong những không gian này được gọi là “đặc
điểm” hơn là các thuộc tính đặc trưng cho dữ liệu gốc.
Nhiều kỹ thuật học mới cũng đã tận dụng đặc tính của những máy học qua hàm
nhân. Kỹ thuật được áp dụng phổ biến nhất là Máy Vector hỗ trợ (Support Vector
12

Machine). Khi một mạng neuron được “đào tạo,” từng hàng dữ liệu của khách hàng sẽ
được đưa vào mạng này, và ta tính được sai số giữa giá trị đã phỏng đoán trước và giá
trị quan sát được. Hàm tiếp thu của máy và hàm giảm thiểu sai số được lồng ghép chặt
chẽ với nhau trong mạng lưới neuron. Điều này không xảy ra trong trường hợp sử dụng
máy Vector hỗ trợ. Bởi vì quá trình tiếp thu của máy và q trình ước tính là hai q
trình tách biệt nên bạn có thể thí nghiệm bằng cách sử dụng nhiều hàm nhân khác nhau
với nhiều thuyết máy học khác nhau. Do đó, thay vì chọn ra nhiều cấu trúc khác nhau
cho một ứng dụng về mạng neuron, bạn có thể thử nhiều hàm nhân khác nhau trong một
máy vector hỗ trợ.
Nhiều gói phần mềm thương mại kèm theo thuật toán dựa tên Thuyết Học qua
Thống Kê, đáng kể là STATISTICA Data Miner và KXEN (Knowledge Extraction

Engine). Trong tương lai, ta sẽ thấy được nhiều thuật toán mạnh mẽ như thế này nữa
tronrg những gói phần mềm thương mại. Cuối cùng, những cách thức khai thác dữ liệu
có thể sẽ tập trung quanh các bước cho phép những thuật toán này làm việc hiệu quả
nhất. Khi ta tích luỹ ngày càng nhiều dữ liệu, ta sẽ có thể ngày càng khám giá ra những
cách thức thông minh để giả lập giống hơn hoạt động của máy học phức tạp nhất thế
giới — bộ não người.

PHỤ CHÚ
Hiện tại người ta đang khai thác nhiều phương thức mới để phân bổ công việc
tính tốn ra nhiều máy tính nối với nhau như nhiều tế bào thần kinh trong não:
• Điện tốn lưới: Tận dụng một nhóm máy tính có kết nối với nhau để “chia và trị”
những bài tốn.
• Điện tốn mây: Dùng Internet để phân bố dữ liệu và các tác vụ tính tốn tới nhiều
máy tính ở bất kỳ nơi nào trên thế giới, nhưng không cần một kết cấu phần cứng tập
trung như điện toán lưới.

13

Tài liệu Lịch sử khai phá dữ liệu ppt

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về