Tải bản đầy đủ (.pptx) (15 trang)

phân tích pca giảm chiều dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.05 MB, 15 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>PHÂN TÍCH PCA GIẢM CHIỀU DỮ LIỆU</b>

<b><small>TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP.HCM</small></b>

<b>NHÓM 04 - L14</b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>Thành viên tham gia </b>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>Tóm tắt nội dung </b>

• Giới thiệu về PCA

• Các bước phân tích PCA • Matlab

• Kết luận

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>I. Giới thiệu về PCA</b>

Principal component analysis (PCA)

<small>• Phép phân tích thành phần chính (Principal component analysis-PCA) là một thuật toán thống kê sử dụng biến đổi trực giao để biến đổi một tập hợp dữ liệu từ một không gian nhiều chiều sang một khơng gian mới ít chiều hơn (2 hoặc 3 chiều) nhằm tối ưu hóa việc thể hiện sự biến thiên của dữ liệu.</small>

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<b>Một số khái niệm tốn học sử dụng trong PCA:</b>

<b><small>01: Kì vọng</small></b>

<b><small> 02: Độ lệch chuẩn03: Phương sai</small></b>

<b><small> 04: Hiệp phương sai</small></b>

<b><small>05: Ma trận hiệp phương sai06: Phương sai lớn nhất</small></b>

<b><small>07: Trị riêng</small></b>

<b><small>08: Vector riêng</small></b>

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<b>II. Các bước phân tích PCA </b>

Cho bảng số liệu có dữ liệu 3 chiều như sau:

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<i><b>Bước 1: Tính giá trị trung bình (tìm kỳ vọng mean) </b></i>

<small> </small>

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<i><b>Bước 3+4: Tìm trị riêng của S và sắp xếp theo giá trị giảm và chọn k trị riêng ban đầu và k vecto riêng đơn vị ứng với các trị riêng này. </b></i>

<small> </small>

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<i><b>Bước 5: Tính ảnh của vecto . Dữ liệu X ban đầu được xấp xỉ bởi .</b></i>

<i><b>Mỗi cột của chứa tọa độ của các hàng của ma trận trong cơ sở từ các cột của ma trận P.</b></i>

E 0.0820 0.0817

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

 <b>Đánh giá sai số:</b>

Tính tổng các trị riêng của S ta được:

Khi ta giảm chiều dữ liệu từ 3 chiều về 2 chiều thì phương sai đã giảm còn và chiếm tỉ lệ: so với phương sai ban đầu.

<small> </small>

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

<small>SUBPLOT(1, 2, 2);</small>

<small>SCATTER(REDUCED_DATA(:, 1), REDUCED_DATA(:, 2), ’R’, ’FILLED’);</small>

<small>TITLE(’MA TRẬN SAU KHI ĐƯỢC GIẢM CHIỀU’);DISP(’MA TRẬN ĐẦU RA SAU KHI GIẢM CHIỀU:’);DISP(REDUCED_DATA);</small>

<small>SELECTED_VECTORS = V(:, END:-1:END-K+1);</small>

<small>REDUCED_DATA = (X - XM) * SELECTED_VECTORS;FIGURE;</small>

<small>SUBPLOT(1, 3, 1);</small>

<small>SCATTER3(X(:, 1), X(:, 2), X(:, 3), ’B’, ’FILLED’);TITLE(’MA TRẬN TRƯỚC KHI GIẢM CHIỀU ’);SUBPLOT(1, 3, 2);</small>

<small>SCATTER(REDUCED_DATA(:, 1), REDUCED_DATA(:, 2), ’R’, ’FILLED’);</small>

<small>TITLE(’MA TRẬN SAU KHI ĐƯỢC GIẢM CHIỀU’);SUBPLOT(1, 3, 3);</small>

<small>DISP(’MA TRẬN ĐẦU RA SAU KHI GIẢM CHIỀU:’);DISP(REDUCED_DATA);</small>

<small>END</small>

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

<b>Sơ đồ khối code</b>

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

• Qua đề tài về ứng dụng phân tích thành phần chính pca để giảm chiều dữ liệu, nhóm chúng em đã có cái nhìn sâu sắc hơn về sự gắn kết giữa lý thuyết và thực tế ở bộ mơn đại số tuyến tính nói riêng.

• PCA trở thành một trong những phương pháp quan trọng nhất trong hành trình khám phá vũ trụ số liệu khơng ngừng mở rộng.

• Nhóm em đã hiểu được cách phân tích thành phần chính PCA giảm số chiều dữ liệu ma trận bất kì và tạo code Matlab có khả năng giảm chiều của 1 file dữ liệu tuỳ ý.

<b>KẾT QUẢ</b>

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

<i><b>Cảm ơn thầy và các bạn đã lắng nghe</b></i>

</div>

×