Tải bản đầy đủ (.doc) (16 trang)

Nghiên cứu thuật toán gom cụm K-means và cài đặt chương trình Demo (C#)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (487.14 KB, 16 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b><small>- Đây là file doc của đề tài, để xem đầy đủ các file:</small></b>

<b><small>thuyết trình.ppt, CVKMeans.sln,CVKMeans.suo, … bạn cần phải tải về, link</small></b>

<b><small>download nằm ở cuối trang .</small></b>

<b><small>- Hình ảnh trong file:</small></b>

<b>-2012</b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b><small>KHOA CƠNG NGHỆ THƠNG TIN</small></b>

<i><b>XỬ LÝ ẢNH SỐ</b></i>

<i>Đề Tài: Tìm hiểu thuật tốn gom cụm </i>

<i>K-means và cài đặt chương trình minh họa.</i>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

BẢNG PHÂN CHIA CÔNG VIỆC

VŨ ĐẠI NGHĨA Tìm hiểu thuật tốn,code & báo cáo

LÊ VIẾT TRƯỜNG Tìm hiểu thuật tốn, code

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>MỤC LỤC</b>

<small>MỤC LỤC...3</small>

<small>Giới Thiệu...4</small>

<small>CHƯƠNG I :PHÂN CỤM DỮ LIỆU...5</small>

<small>I.GIỚI THIỆU VỀ KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU...5</small>

<small>II.ỨNG DỤNG...5</small>

<small>III.CÁC KỸ THUẬT PHÂN CỤM...6</small>

<small>CHƯƠNG II: THUẬT TOÁN K-MEANS...7</small>

<small>I.THUẬT TOÁN...7</small>

<small>II.KHOẢNG CÁCH GIỮA HAI ĐỐI TƯỢNG...9</small>

<small>III.VÍ DỤ MINH HỌA...9</small>

<small>III.ĐÁNH GIÁ THUẬT TOÁN...12</small>

<small>CHƯƠNG IV :DEMO ỨNG DỤNG THUẬT TOÁN K-MEANS...14</small>

<small>TÀI LIỆU THAM KHẢO...15</small>

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<b>Giới Thiệu</b>

Ngày nay,cùng với sự phát triển không ngừng của ngành Công Nghệ Thông Tin là sự bùng nổ số lượng lớn của quản lý thông tin ,công việc của tổ chức ,doanh nghiệp và cá nhân

Một khuynh hướng kỹ thuật mới ra đời đó là kỹ thuật khai phá dữ liệu và kỹ thuật Data mining (Khai phá dữ liệu).Trong đó các phương pháp khai phá dữ liệu có phương pháp gọi là Clustering (Phân cụm) được ứng dụng rất nhiều trong đời sống.Phân cụm dữ liệu là quá trình tìm kiếm phát hiện ra các cụm hoặc các mẫu dữ liệu tự nhiên trong cơ sở dữ liệu lớn.Các kỹ thuật chính được áp dụng trong phân cụm dữ liệu phần lớn được kế thừa từ lĩnh vực thống kê ,học máy, nhân dạng ,lượng hóa.Đến nay đã có nhiều ứng dụng phân cụm dữ liệu cho việc giải quyết các vấn đề trong lĩnh vực như tài chính,thơng tin địa lý ,sinh học ,nhận dạng ảnh.

<i> Nhóm chúng em gồm hai thành viên thứ nhất:Vũ Đại Nghĩa và thànhviên thứ hai : Lê Viết Trường đã đăng ký đề tài “Tìm hiểu thuật tốn</i>

gom cụm K-Means” với mục đích vận dụng kiến thức học được để áp dụng vào thực tế trong việc gom cụm dữ liệu . Chúng em xin chân thành cảm ơn cô giáo Ths.Trần Mai Hương đã tận tình giúp đỡ chúng em hồn thành bài tập lớn môn Xử Lý Ảnh Số.

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<b>CHƯƠNG I :PHÂN CỤM DỮ LIỆU</b>

<i><b><small>I.GI I THI U V KỸ THU T PHÂN C M TRONG KHAI PHÁ D LI UỚI THIỆU VỀ KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆUỆU VỀ KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆUỀ KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆUỤM TRONG KHAI PHÁ DỮ LIỆUỮ LIỆU ỆU VỀ KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU</small></b></i>

Phân cụm là kỹ thuật rất quan trọng trong khai phá dữ liệu ,nó thuộc lớp các phương pháp Unsupervised Learning trong Machine Learning.Có rất nhiều định nghĩa khác nhau về kỹ thuật này ,nhưng về bản chất ta có thể hiểu phân cụm là các quy trình tìm cách nhóm các đối tượng đã cho vào các cụm (cluster) ,sao cho các đối tượng trong cùng 1 cụm tương tự (similar) nhau và các đối tượng khác cụm thì khơng tương tự nhau

Mục đích của phân cụm là tìm ra bản chất bên trong các nhóm dữ liệu .Các thuật toán phân cụm (Clustering Algorithms ) đều sinh ra các cụm (cluster) .Tuy nhiên ,khơng có tiêu chí nào được xem là tốt nhất để đánh giá hiệu qủa của phân cụm ,điều này phụ thuộc vào mục đích của phân cụm như :data reduction ,”natural cluster” ,”useful cluster” ,outlier detection .

<i><b><small>II. NG D NG ỨNG DỤNG ỤM TRONG KHAI PHÁ DỮ LIỆU</small></b></i>

Kỹ thuật phân cụm có thể áp dụng trong rất nhiều lĩnh vực như: Marketing :Xác định các nhóm khách hàng (khách hàng tiềm năng ,khách hàng giá trị ,phân loại và dự đoán hành vi khách hàng,..) sử dụng sản phẩm của cơng ty có chiến lược kinh doanh hiệu quả hơn.

Biology :Phân nhóm động vật và thực vật dựa vào các thuộc tính của chúng

Libraries :Theo dõi độc giả ,sách ,dự đoán nhu cầu của độc giả

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

Insurance,Finance :Phân nhóm các đối tượng sử dụng bảo hiểm và các dịch vụ tài chính ,dự đốn xu hướng của khách hàng ,phát hiện gian lận tài chính

World wide web: Phân loại tài liệu ,phân loại người dùng web

<i><b><small>III.CÁC KỸ THU T PHÂN C M ẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆUỤM TRONG KHAI PHÁ DỮ LIỆU</small></b></i>

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<b>CHƯƠNG II: THUẬT TOÁN K-MEANS</b>

K-Means là thuật toán lặp đơn giản để chia Cơ Sở Dữ Liệu thành k nhóm (k do người dùng chỉ định ).Được phát triển bời nhiều nhà

nghiêm cứu khác nhau ,điển hình là Lloyd (1957,1982),Forgrey (1965) ,Friedman và Rubin (1967) ,McQueen (1967).

<i><b><small>I.THU T TOÁNẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU</small></b></i>

Thuật toán thao tác trên một tập các vecto d-chiều ,D={x<small>i</small>| i=1…N} trong đó x<small>i</small> € R<small>d</small> là điểm dữ liệu thứ I .Thuật toán bắt đầu bằng cách chọn k điểm làm trọng tâm .Kỹ thuật để chọn các điểm hạt giống này là chọn “ngẫu nhiên”.Sau đó thuật tốn gọi hai bước sau cho đến khi hội tụ (khơng cịn thay đổi nữa )

o Bước 1: Gán dữ liệu :Mỗi điểm dữ liệu được gán vào nhóm nào gần nhất .Đây là việc phân chia dữ liệu .

o Bước 2:Tính lại trọng tâm :đại diện của mỗi nhóm được tính lại bằng với trung bình (mean) của các điểm dữ liệu thuộc nhóm .Nếu các điểm dữ liệu được tính bởi xác suất (probability

measure/weights) thì đại diện được tính bằng giá trị kỳ vọng (expectation) của dữ liệu.

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

Ví dụ minh họa

-Vấn đề tối ưu cục bộ

Việc chọn giá trị khởi đầu cho các trọng tâm của K-Means sẽ quyết định đến việc hội tụ “cục bộ” hay “toàn cục” của dữ liệu

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

Trong đó i=(x<small>i1</small>,x<small>i2</small>,……,x<small>ip</small>) và j=( x<small>j1</small>,x<small>j2</small>,……,x<small>jp</small>) là hai đối tượng dữ liệu p-chiều và q là số nguyên dương.

o Nếu q=1 ,d là khoảng cách Manhattan

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

Khơng cịn thay đổi nữa -> dừng thuật tốn tại đây.

<i><b><small>III.ĐÁNH GIÁ THU T TỐNẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU</small></b></i>

o Ưu Điểm

1. Độ phức tạp: O(K,N,1) với l: số lần lặp

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

5. Ln có ít nhất 1 điểm dữ liệu trong 1 cụm dữ liệu.

6. Các cụm không phân cấp và khơng bị chồng chéo dữ liệu lên

5. Ln có ít nhất 1 điểm dữ liệu trong 1 cụm dữ liệu.

6. Các cụm không phân cấp và không bị chồng chéo dữ liệu lên nhau.

7. Mọi thành viên của 1 cụm là gần với chính cụm đó hơn bất cứ 1 cụm nào khác.

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

<b>CHƯƠNG IV :DEMO ỨNG DỤNG THUẬT TỐN K-MEANS</b>

Chạy thuật tốn K-Means với hệ màu RGB

Chạy Thuật toán K-Means với hệ HSV

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

<b>TÀI LIỆU THAM KHẢO</b>

 Giáo trình Xử Lý Ảnh Số của Ths.Trần Mai Hương

 Nhập môn xử lý ảnh số. Lương Mạnh Bá, Nguyễn Thanh Thủy (ĐHBK)

 Giáo trình xử lý ảnh HV Cơng Nghệ Bưu Chính Viễn Thơng Link download file:

<b>

×