Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.26 MB, 30 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
1. Lý do lựa chọn đề tài
Sự phát trién mạnh mẽ của công nghệ thông tin và truyền thông đã tác động và ảnh hưởng rất lớn đến các lĩnh vực đời sống kinh tế - xã hội. Chính vì vậy, khối lượng đữ
liệu con người thu thập được thông qua các hoạt động kinh tế - xã hội ngày càng lớn, hình
thành nên những nhà kho đữ liệu có dung lượng hang terabyte, các hệ thống máy tính được kết nối mạng với nhau làm cho các dit liệu ngày càng trở nên phong phú và phức tạp. Một
<small>trong các lĩnh vực đang được nghiên cứu, ứng dụng mạnh mẽ trong khai thác, phân tích dữ</small>
<small>liệu ngày nay là Phát hiện tri thức và khai phá dữ liệu.</small>
Trong thực tế, dé thể hiện thông tin của các đối tượng, các hiện tượng hay
vấn đề nào đó người ta phải sử dụng kết hợp nhiều loại đữ liệu khác nhau cùng lúc như
kiểu dữ liệu số, dữ liệu định danh, dữ liệu định danh có thứ tự. Bài tốn đặt ra là làm thế nào dé kết hợp các thuộc tinh lại với nhau để giải quyết tốt nhất các bài toán cơ bản trong khai phá dữ liệu như Phân lớp, Phân cụm... Trong các bài tốn đó, điểm mau chốt
<small>là phải xác định được một độ đo khoảng cách hoặc độ đo tương tự/không tương tự cho</small>
các đối tượng cần xem xét. Với các dữ liệu thuần nhất hiện đã có nhiều độ đo được dé
xuất, mỗi độ đo này có một ý nghĩa riêng và tuỳ thuộc theo lĩnh vực bài tốn áp dụng
cũng như đặc tính của loại dữ liệu. Việc chuyển đôi các dạng dữ liệu khác nhau về cùng một loại trong khi tính tốn độ tương tự có thé dẫn đến sai khác về ý nghĩa hay mat mát thông tin. Đồng thời, mỗi loại dit liệu khác nhau sẽ có ý nghĩa khác nhau nên khơng thé kết hợp chúng lại trong cùng một độ đo một cách đơn thuần.
Vì những lý do đó, đề tài của luận án này nhằm nghiên cứu độ đo tương tự hỗn
hợp hoặc độ đo khoảng cách hỗn hợp giữa các đối tượng dé có thé xử lý dit liệu dưới dạng hỗn hợp mà không cần thiết phải chuyển đổi các dạng đữ liệu, như vậy sẽ tránh
được mat mát thơng tin.
<small>2. Mục đích nghiên cứu của luận án</small>
Qua quá trình tìm hiểu, nghiên cứu về phát hiện tri thức và khai phá đữ liệu,
đặc điểm của các loại di liệu và đặc biệt là độ đo tương tự hỗn hợp, học viên nhận thấy độ
đo tương tự hỗn hợp hay độ đo khoảng cách hỗn hợp đóng vai trò rất quan trọng trong các
</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2"><small>bài tốn khai phá dữ liệu dựa trên khoảng cách. Vì vậy, mục đích của luận án là nghiên cứu</small>
nhằm tim ra hoặc cải tiến các phương pháp, các kỹ thuật tính tốn độ đo tương tự hỗn hợp
<small>áp dụng trong bài toán phân lớp dữ liệu một cách hiệu quả, thực hiện các thực nghiệm trên</small>
các bộ dữ liệu chuẩn dùng dé nghiên cứu phát hiện tri thức và khai pha dữ liệu, thực nghiệm
<small>trên bộ dữ liệu mẫu trên internet.</small>
3. Đối tượng, phạm vi nghiên cứu
Nghiên cứu các vấn đề cơ bản của phát hiện tri thức và khai phá đữ liệu; độ đo
<small>tương tự và độ đo tương tự hỗn hợp; bài toán phân lớp, phân cụm trong phát hiện tri thức vàkhai phá dữ liệu. Các nội dung nghiên cứu sẽ được thử nghiệm trên một số bộ đữ liệu của</small>
cộng đồng nghiên cứu phát hiện tri thức và khai phá dif liệu trên internet và các dữ liệu kinh
tế - xã hội của Việt Nam.
<small>4. Phương pháp nghiên cứu</small>
Học viên sử dụng phương pháp khảo sát các vẫn đề cần nghiên cứu, so sánh,
phân tích dựa trên những lý thuyết cơ bản của các lĩnh vực như: phát hiện tri thức và khai phá dữ liệu; phân tích và thiết kế thuật tốn... Các đề xuất của học viên sẽ được kiểm nghiệm bằng các dữ liệu chuẩn được công bố cho cộng đồng nghiên cứu sử dụng và các dữ
liệu kinh tế - xã hội thực tế của Việt Nam.
<small>5. Những đóng góp của luận văn</small>
những van dé cơ ban của phan cụm dữ liệu.Trong luận văn nêu ra các điểm khác biệt của độ
<small>đo tương tự hỗn hợp với các độ đo tương tự khác.Học viên nêu ra thực nghiệm với bộ dữ</small>
liệu mẫu trên internet để thực nghiệm độ đo tương tự hỗn hop sử dụng phân cum dir liệu
<small>theo cụm so với thực nghiệm sử dụng độ đo tương tự là độ đo khoảng cách Euclide.</small>
6. Kết cấu của luận văn
<small>Luận án được trình bày trong ba chương:</small>
Chương này trình bày các khái niệm và những vấn đề cơ bản về phát hiện tri thức và khai phá di liệu, tóm lược các nội dung cơ bản của lý thuyết tập thô dé làm nền tảng lý thuyết cho các đề xuất tính tốn trọng số trong độ đo tương tự hỗn hợp của chương 2.
Chương 1 cũng trình bày tổng quan những nghiên cứu về độ đo tương tự, độ đo tương tự
<small>hỗn hợp và bài toán khai phá đữ liệu</small>
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">Chương này trình bày về độ đo tương tự hỗn hợp theo phương pháp truyền thống và
<small>độ đo tương tự hỗn hợp của Goodall. Học viên nghiên cứu theo phương pháp tự động xác</small>
định trọng số cho các thuộc tính trong độ đo tương tự hỗn hợp dựa trên lý thuyết tập thô, thử
nghiệm độ phức tạp tính tốn của thuật tốn xác định trọng số tự động trong độ đo tương tự hỗn hợp, quy trình sử dụng độ đo tương tự hỗn hợp có trọng số này.
<small>Chương 3. Thử nghiệm độ đo MSM-R trong bài toán phan lớp và phâncụm dữ liệu</small>
Học viên trình bày về bài tốn phân lớp dữ liệu với thuật tốn Kmeans gần nhất có sử
<small>dụng độ đo MSM-R, áp dụng thử nghiệm phân lớp cho các bộ dữ liệu mẫu trên Internet.</small>
Trong chương học viên cũng giới thiệu tóm tắt về các đặc trưng của dữ liệu trên Internet , trích lọc dữ liệu . Đối với bai toán phân cụm, học viên cũng đã thử nghiệm và trình bày một
<small>số kết quả bước đầu về phân cụm đữ liệu Mẫu internet.</small>
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">Mục tiêu của chương này là nhăm trình bày về cơ sở lý luận, lý thuyết nền tảng phục
<small>vụ cho những nghiên cứu sâu hơn trong luận án.</small>
<small>1.2 Phát hiện tri thức và khai phá dữ liệu</small>
<small>Phát hiện tri thức và khai phá đữ liệu là một lĩnh vực phát triển rất nhanh chóng, đây</small>
là lĩnh vực giao thoa giữa hệ co sở dit liệu, thống kê, học máy và các lĩnh vực liên quan khác nhằm trích rút ra những tri thức hữu ích từ những tập dữ liệu rất lớn.
Định nghĩa: Khai pha dit liệu là một tập hợp các kỹ thuật được sử dung để tự động
khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp đữ liệu không lơ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó.
<small>Khai phá dữ liệu là một bước trong bảy bước của quá trình KDD (KnowleadgeDiscovery in Database) và KDD được xem như 7 quá trình khác nhau theo thứ tự sau:</small>
<small>1. Làm sạch dữ liệu (data cleaning & preprocessing)s: Loại bỏ nhiễu va các dit liệu</small>
khơng cần thiết.
2. Tích hợp dữ liệu: (data integration): quá trình hợp nhất dữ liệu thành những kho dữ liệu (data warehouses & data marts) sau khi đã làm sạch và tiền xử lý (data cleaning &
<small>3. Trích chon dir liệu (data selection): trích chon dir liệu từ những kho dữ liệu va sau</small>
đó chuyền đổi về dang thích hợp cho q trình khai thác tri thức.
4. Chuyển đổi dữ liệu: Cac dit liệu được chuyển đổi sang các dang phù hợp cho qua
<small>trình xử lý</small>
5. Khai phá dữ liệu(data mining): Là một trong các bước quan trọng nhất, trong đó sử dụng những phương pháp thơng minh dé chat lọc ra những mẫu dữ liệu.
6. Ước lượng mẫu (knowledge evaluation): Quá trình đánh giá các kết quả tìm được
<small>thơng qua các độ đo nào đó.</small>
7. Biéu diễn tri thức (knowledge presentation): Quá trình này sử dụng các kỹ thuật dé
<small>biểu diễn và thể hiện trực quan cho người dùng.</small>
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">Lý thuyết tập thô được nhà khoa học người Balan Zdislaw Pawlak đưa ra lần đầu tiên
vào năm 1982. Tập thơ là một cơng cụ tốn học mới cho suy diễn được phát triển từ tính mập mờ và tính khơng chắc chắn của một khái niệm. Lý thuyết tập thô được phát triển từ giả định là dé định nghĩa một tập hợp ta cần phải biết một số thông tin (hay tri thức) về các
được và chúng có thể được định nghĩa dựa trên các cơ sở của quan hệ này. Qua đó, một loạt
các khái niệm và những vấn đề liên quan được trình bày như xấp xi tập hợp, rút gọn, quan
<small>hệ giữa các thuộc tính...</small>
1.4 Tổng quan các nghiên cứu về đề tài luận án
<small>Năm 1966, Goodall [13] đã đưa ra phương pháp tinh độ tương tự hỗn hợp</small>
cho các đối tượng với cơ sở toán học chặt chẽ nhằm áp dụng cho bài toán phân loại thực vật. Trong phương pháp tính độ tương tự hỗn hợp của Goodall, các đối tượng trong một
tập đối tượng được thể hiện bằng các một tập các thuộc tính có kiểu dữ liệu số, định danh
loại thuộc tính riêng biệt bằng cách tính xác suất xuất hiện các giá tri của từng thuộc tinh của đối tượng trên toàn bộ tập đối tượng với tư tưởng giá tri nao của thuộc tính ít xuất hiện sẽ đóng vai trị quan trọng hơn so với giá trị khác của thuộc tính để tạo ra quan hệ sắp xếp
Based Agglomerative Clustering), trong đó lẫy độ tương tự do Goodall đưa ra làm hàm
<small>tính độ tương tự cho thuật toán này. Trong bài, các học viên đã đánh giá độ tương tự của</small>
Goodall làm việc tốt trên dữ liệu hỗn hợp. Các học viên trong [5], [6] đã nghiên cứu các
đặc điểm của độ tương tự của Goodall trong bài toán khai pha dữ liệu va đề xuất thuật tốn cải thiện tốc độ tính tốn độ tương tự cho một cặp đối tượng với độ phức tạp tính tốn
<small>là O(n) theo thời gian va O(n) theo khơng gian lưu trữ. Năm 2005, học viên trong [28] đã</small>
nghiên cứu va đưa ra độ đo tương tự cho di liệu phân loại, dữ liệu hỗn tap va dữ liệu đồ
thị. Các nghiên cứu trên đây của các học viên phần lớn sử dụng độ tương tự hỗn hợp của
<small>Goodall trong các thuật tốn của mình hoặc dùng Goodall với vai trị là một phương pháp</small>
để so sánh.
Ngồi các bài nghiên cứu về độ đo tương tự hỗn hợp theo hướng nghiên cứu theo cách tính của Goodall, một số học viên khác đã có những nghiên cứu theo các hướng khác
về độ đo tương tự hỗn hợp và độ đo tương tự cho thuộc tính phân loại do tính chất đặc biệt
<small>của loại dữ liệu này. Năm 1997, Zhexue Huang trong [15] trình bày thuật tốn </small>
k-protonhóms dựa trên ý tưởng thuật toán k-mean dé phân cụm cho tập dữ liệu lớn có chứa thuộc tính số và thuộc tính phân loại. Trong bài viết, học viên đã trình bày cách tính hàm giá và độ tương tự cho các đối tượng dựa trên việc kết hợp giữa độ tương tự của thuộc tính số là Square Euclidean và độ tương tự của thuộc tính phân loại là số lượng giá trị khác của giữa các đối tượng và đối với các tâm của cụm. Năm 2007, Amir Ahmad và Lipika Dey
<small>trong [2] đã trình bay một thuật tốn phân cum dựa trên ý tưởng thuật toán k-mean cho dtr</small>
liệu hỗn hợp, các học viên cũng đề xuất một hàm tính khoảng cách và tính hàm giá dựa trên sự đồng xuất hiện của các giá trị đồng thời trình bay sự thay đổi của học viên về mơ tả
<small>tâm của cụm trong thuật toán k-mean.</small>
Xuất phát từ nhu cầu thực tiễn và từ những nghiên cứu liên quan, việc tìm kiếm phương pháp tính tốn độ đo tương tự hỗn hợp cho các bài toán khai phá dữ liệu dựa trên khoảng cách hay dựa trên độ đo tương tự như phân lớp và phân cụm là rất cần thiết.
Chính vi lý do đó, học viên tập trung nghiên cứu về độ đo tương tự trên dữ liệu hỗn hop và
<small>khả năng áp dụng chúng trong các bài toán khai phá dữ liệu dựa trên độ đo khoảng cách</small>
hoặc độ đo tương tự trong dé tài luận án này.
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">Trong chương này, học viên đã trình bày các khái niệm và những vấn đề cơ bản về phát hiện tri thức và khai phá dữ liệu, các chức năng của phát hiện tri thức và khai
<small>phá dữ liệu, mơ hình của hệ thống phát hiện tri thức và khai phá dữ liệu, khái niệm lý thuyết</small>
<small>tập thô.</small>
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">Mục tiêu của chương là nhằm đưa ra phương pháp tự động xác định trọng số trong độ đo tương tự hỗn hợp dựa trên lý thuyết tập thô, độ đo này được tính gián tiếp thơng
qua độ đo khoảng cách hỗn hợp thoả mãn các tiên đề metric.
<small>2.2.1 Độ do tương tự dựa trên khoảng cách</small>
Dựa trên khái niệm về đa chiều mở rộng (Multidimensional scaling -MDR) là kỹ thuật dựa trên độ đo tương tự để tạo ra không gian tọa độ các điểm giống nhau dựa trên tỷ lệ nghịch về khoảng cách(Young & Hamer, 1994 ). Khoảng cách phố biến nhất được sử dung trong MDR là khoảng cách Euclidean với không gian 2 chiêu.
Chúng ta thường sử dụng khoảng cách giữa 2 A,B với không gian hệ tọa độ 2 chiều
<small>2.2.2 Độ do tương tự dựa trên đặc trưng</small>
Một phan dé đáp ứng với bằng chứng thực nghiệm đối với các tiên đề khoảng cách, Tversky (1977) đề xuất rang sự giỗng nhau nhận thức là kết quả của một quá trình tinh năng phù hợp với các kiểu khác mà trọng lượng tính năng kích thích chung và riêng biệt. Hãy g
(A ñB) biểu thi sự nỗi bật trong những tinh năng được phơ biến đến các kích thích A và B
và dé cho g(A-B) biểu thị sự nồi bật của các tính năng độc đáo để kích thích kinh tế A.
Sau đó, mơ hình tương phản (1977) tính năng Tversky của đề xuất rằng sự giống nhau của kích thích kinh tế từ A đến B là kích thích bằng.
s (A, B) = ø g(A đB) - B g(A - B) -yg(B - A),
nơi a, B, y là hằng số và có thé khác nhau giữa các cá nhân, bối cảnh và hướng dan.
<small>Theo mơ hình này, các tính năng chung tăng tương tự, trong khi tính năng độc đáo cho một</small>
gói kích thích giảm tương tự. Một lợi thế của mơ hình tính năng tương phản là nó có thể chiếm vi phạm trong bất kỳ của các tiên đề khoảng cách.
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9"><small>2.2.3. Độ do tương tự dựa trên xác suat</small>
Tất cả các biện pháp tương tự được coi là cho đến nay giả rằng trình bày lặp đi lặp lại
của các gói kích thích cùng ln gợi cùng nhận thức chính xác - đó là, họ giả định rằng nhận thức trước được. Tuy nhiên, nhiều nhà lý luận đã cho rằng thơng tin đó tạo một ngun tắc thay đổi theo thời gian, và vì thé mà nguyên tắc là xác suất. Điều này phù hop với kinh
Trong phần này, học viên trình bày về độ đo tương tự hỗn hợp và tập trung vào trình bày lại phương pháp tính độ đo khoảng cách truyền thống và phương pháp tính độ đo tương tự của Goodall. Qua việc phân tích những điểm tồn tại của độ đo trên, học viên
dẫn dắt đến việc đề xuất phương pháp tính trọng số cho thuộc tính trong độ đo hỗn hợp.
Nhằm xác định khoảng cách hỗn hợp giữa hai đối tượng hay xác định độ
tương tự hỗn hợp giữa hai đối tượng thỏa mãn các tiên dé metric, trong phan này học viên
đưa ra phương pháp tính trọng số cho các thuộc tính một cách tự động trong độ đo tương tự hỗn hợp với tiếp cận lý thuyết tập thô. Đây là một cách tiếp cận mới trong việc sử dụng lý thuyết tập thơ cho các bài tốn phát hiện tri thức và khai phá dữ liệu.
Giả sử các đối tượng trong một hệ quyết định được thé hiện bằng m thuộc tính A=fai, đ›,..., Am}, dụ Edom(a,) là giá trị trên thuộc tính k của đối tượng iva thuộc tính quyết định hay thuộc tinh phân lớp là đ. Xuất phát từ cơng thức tính khoảng cách Euclide, học viên đưa thêm trọng số cho các thuộc tính tương ứng, khi đó khoảng cách giữa hai đối tượng
được định nghĩa một cách tơng qt là:
trong đó w„là trọng SỐ tương ứng với thuộc tính thứ k, thoả mãn các điều kiện sau:
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">thuộc tính thứ & của hệ quyết định. Trong trường hợp áp dụng cơng thức này cho bài tốn phân lớp đữ liệu, ta phải thực hiện bước tiền xử lý để xác định miền giá trị cho thuộc tính
lớn nhất trong miễn giá trị của thuộc tính.
- Với thuộc tính định danh, khoảng cách đã chuẩn hoá là:
Như chúng ta đã biết, một đối tượng được xác định bởi một tập giá trị trên tập
thuộc tính đặc trưng cho đối tượng, nếu nhiều đối tượng có cùng giá tri trên một thuộc tinh điều kiện nào đó mà các đối tượng này lại cũng có giá trị trên thuộc tính quyết định hay
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">phân lớp/phân cụm như nhau thì khi đó ta có thé coi là thuộc tinh điều kiện có sự anh hưởng lớn đến thuộc tính quyết định hay phân lớp/phân cụm.
Với tư tưởng trên và dựa trên lý thuyết tập thô, ta có thé xác định được mức độ anh
hưởng của một thuộc tính a„tới kết quả phân lớp/phân cum theo thuộc tính d:
<small>a,</small>
<small>trong đó POS, (d) là vùng dương dựa trên thuộc tinh a, với các phân hoạch của U</small>
trên thuộc tính quyết định đ.
hệ số này thoả mãn điều kiện:
<small>O<a,<1 (2.47)</small>
Từ đó, dé chuẩn hố các trọng sé trong độ cơng thức tinh độ đo thoả mãn (2.41), chúng tôi đưa ra công thức xác định trọng số cho các thuộc tính:
<small>với điêu kiện c>1. O đây, học viên lựa chọn giá trị c=e dé tính tốn và thực nghiệm</small>
trong các phần sau này. Từ đó, cơng thức (2.48) có thê viết thành:
<small>vw, =————— (2.49)</small>
G,; thoả mãn hoàn toàn các tiên dé metric vì cơng thức (2.45) dé tính khoảng cách giữa hai đối tượng chính là khoảng cach Euclide, trong cơng thức đó có sử dụng các trong
số cho khoảng cách của từng thuộc tính đơn nhưng khơng làm mất tính chất thoả mãn các
tiên đề metric của độ đo này. Dưới đây học viên trình bày cách chứng minh khoảng cách Gi thoa man cac tién dé metric:
Khoảng cách G; hiển nhiên thoả mãn tiên đề Không âm và tiên đề Đối xứng. Ta kiểm tra tiên đề Tam giác:
Giả sử {aj, đ¿,..., ap} là các thuộc tinh SỐ, (dp.i, đpx2,.... Am} là các thuộc tính định
<small>danh.</small>
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12"><small>tương ứng là giá tri của các thuộc tính sơ của hai đơi tượng i, jsau khi đã được tính tốn với</small>
các cách tính trên và kêt hợp với trọng sơ của thuộc tính, như vậy w,¢,, = lu —? i .
Khi đó: Cj, = w,g„, VỚI kK=ptilm, Oi, € [0,1] là khoảng cách giữa hai đối tượng i,j
<small>trên thuộc tính định danhk.</small>
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13"><small>Vi các thuộc tinh [ p+J,..., m] nay là thuộc tinh định danh, khoảng cách giữa chung</small>
được xác định theo (2.43), ta có thé chứng minh:
<small>+ nếu Cin =</small>=0=>hién nhiên đúng
<small>+nếu Cit=w,Â, #0</small>
</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14"><small>Similarity Measure based on Rough set theory - MSM-R)</small>
Từ các dé xuất trên, theo công thức chuyên đổi độ đo tương tự, ta có thé tính độ đo
tương tự hỗn hopMSM-R cho hai đối tượng i và j một cách gián tiếp thông qua khoảng cách giữa hai đối tượng như sau:
<small>Sy =1-G, =1- là tu, (2.53)</small>
Với các cơng thức tính trọng số cho các thuộc tính trong độ đo tương tự hỗn
hợp đã đề xuất ở trên, học viên trình bày hai thuật tốn để tính hệ số œ, và tính w; với thuộc
tính quyết định đ. Thuật tốn dé tính hệ số o, được sử dụng ý tưởng từ thuật tốn tìm các
lớp tương đương được trình bày trong [30]. Kết quả thử nghiệm thể hiện độ phức tạp tính tốn của thuật tốn tính trọng sé phụ thuộc vảo thuật tốn sắp xếp dữ liệu mà ta chọn.
<small>2.4 Các mơ hình phân cụm dữ liệu</small>
<small>Phân cụm dữ liệu nhăm mục đích chính là khai phá câu trúc của mẫu dữ liệu để</small>
<small>thành lập các nhóm dữ liệu từ tập dữ liệu lớn, theo đó.</small>
<small>2.4.2. Giải thuật K-Means</small>
<small>Thuật toán K-means clustering do MacQueen giới thiệu trong tài liệu “J. SomeMethods for Classification and Analysis of Multivariate Observations” năm 1967.</small>
K-means Clustering là một thuật toán dùng trong các bài tốn phân loại/nhóm n đối
tượng thành k nhóm dựa trên đặc tính/thuộc tính của đối tượng (k <n nguyên, đương).
Coi mỗi thuộc tính của đối tượng (đối tượng có m thuộc tính) như một toạ độ của
<small>khơng gian m chiêu và biêu diễn đôi tượng như một diém của không gian m chiêu.</small>
</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">a; (i=1..n) - đối tượng thứ i
xij (i=1..n, j=1..m) - thuộc tinh thứ j của đối tượng i
<small>Phương thức phân loại/nhóm dữ liệu thực hiện dựa trên khoảng cách Euclidean nhỏ</small>
nhất giữa đối tượng đến phan tử trung tâm của các nhóm.
Phần tử trung tâm của nhóm được xác định bằng giá trị trung bình các phần tử trong
Khoảng cách Euclidean từ đối tượng ai đến phan tử trung tâm nhóm j cj được tính
<small>tốn dựa trên cơng thức:</small>
Ø;¡ - khoảng cach Euclidean từ ai đến cj Xi, - thuộc tinh thứ s của đối tượng ai
+;s- thuộc tính thứ s của phan tử trung tâm cj
k phần tử trung tâm (k nhóm) ban đầu được chọn ngẫu nhiên, sau mỗi lần nhóm các
<small>Clusteri = {al, a2 .... at} — Nhóm thứ 1</small>
</div>