Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (93.48 KB, 3 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
<b>a. K-Means: </b>
<b> Khái niệm: Phân cụm K-means một thuật tốn học khơng giám sát, được sử dụng </b>
để phân chia một tập dữ liệu thành (K) cụm riêng biệt. Mục tiêu của thuật toán là phân chia n quan sát vào K cụm sao cho các quan sát trong cùng một cụm có tính chất tương tự nhau càng nhiều càng tốt, và các cụm khác nhau thì có tính chất khác biệt rõ rệt.
Cách hoạt động của thuật tốn K-means có thể được mô tả qua các bước sau:
<b>1. Khởi tạo: Chọn (K) điểm ngẫu nhiên trong dữ liệu làm các tâm cụm(centroids) ban </b>
<b>2. Tính khoảng cách giữa các điểm dữ liệu và tâm cụm.</b>
<b>3. Phân công cụm: Gán mỗi điểm dữ liệu vào cụm có tâm cụm gần nó nhất dựa </b>
trên khoảng cách Euclidean
<b>4. Cập nhật tâm cụm: Sau khi tất cả các điểm dữ liệu đã được gán vào cụm, tính </b>
tốn lại tâm cụm của mỗi cụm bằng cách lấy trung bình cộng của tất cả các điểm trong cụm đó.
<b>5. Lặp lại: Lặp lại bước 2, 3 và 4 cho đến khi việc gán cụm không thay đổi nữa </b>
hoặc đạt được một tiêu chí dừng nhất định.(ví dụ: số lần lặp tối đa hoặc sự thay đổi trong tâm cụm dưới một ngưỡng nhất định)
Khoảng cách Euclidean, được tính bằng cơng thức:
</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">Trong đó p và q là 2 điểm dữ liệu trong không gian n chiều - Để xác định số lượng cụm ( K ) trong phân cụm K-means, có một số phương pháp phổ biến sau đây:
Phương pháp Elbow: Tính tổng bình phương khoảng cách trong cụm (WSS) cho các giá trị khác nhau của K và chọn giá trị K tại điểm “elbow”
Hệ số Silhouette: Tính hệ số Silhouette cho một loạt các giá trị ( K ) và chọn giá trị ( K ) có hệ số Silhouette cao nhất, điều này chỉ ra rằng cụm đó rõ ràng và tách biệt tốt.
<b>d. Hierarchical Clustering:</b>
<b> Khái niệm: Phân cụm phân cấp là một kỹ thuật phân loại không giám sát, </b>
được sử dụng trong máy học và khai thác dữ liệu để nhóm các đối tượng vào các cụm dựa trên độ tương đồng của chúng.
Có hai phương pháp chính: phương pháp tổng hợp(agglomerative) và phương pháp chia tách(divisive).
+ Phương pháp tổng hợp bắt đầu bằng cách xem mỗi điểm dữ liệu là một cụm riêng lẻ và sau đó kết hợp các cụm gần nhau nhất dựa trên một tiêu chí liên kết nhất định, như khoảng cách Euclidean. Quá trình này tiếp tục cho đến khi tất cả dữ liệu được nhóm vào một cụm duy nhất hoặc đạt đến số lượng cụm mong muốn.
+ Trong khi đó, phương pháp chia tách làm ngược lại, bắt đầu với tất cả dữ liệu trong một cụm duy nhất và sau đó chia nhỏ cụm này thành các cụm nhỏ hơn dựa trên một tiêu chí tách biệt.
=> Cả hai phương pháp này đều tạo ra một cấu trúc cây gọi là dendrogram, mô tả mối quan hệ phân cấp giữa các cụm. Dendrogram có thể được cắt ở các mức độ khác nhau để xác định số lượng cụm tối ưu dựa trên khoảng cách giữa các nhánh.
Có một số phương pháp để đo khoảng cách giữa các cụm, bao gồm: + Khoảng cách Euclidean: Đây là khoảng cách “thông thường” giữa hai điểm trong khơng gian Euclidean.
Trong đó x và y là hai điểm trong không gian n chiều
+ Khoảng cách Manhattan: Cịn được gọi là khoảng cách “taxi”, nó tính khoảng cách giữa hai điểm nếu chỉ di chuyển theo các trục tọa độ.
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">+ Khoảng cách Minkowski: Là tổng quát hóa của khoảng cách Euclidean và Manhattan, có thể điều chỉnh để trở thành một trong hai tùy thuộc vào giá trị của tham số ( p ).
Với p là tham số xác định (khi p=2, nó trở thành khoảng cách Euclidean; khi p=1, nó trở thành khoảng cách Manhattan).
Các tiêu chí chọn cụm để kết hợp có thể bao gồm:
+ Centroid-linkage: Kết hợp hai cụm có tâm gần nhau nhất. + Single-linkage: Kết hợp hai cụm có hai điểm gần nhau nhất.
+ Average-linkage: Kết hợp hai cụm có trung bình khoảng cách giữa các cặp điểm thuộc hai cụm là nhỏ nhất.
+ Complete-linkage: Kết hợp hai cụm có hai điểm xa nhau nhất là nhỏ nhất.
</div>