đồ án giữa kì môn học máy machine learning introduction to machine learning

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.94 MB, 24 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>ĐỒ ÁN GIỮA KÌ MƠNHỌC MÁY (MACHINE LEARNING)</b>

<b>Introduction to Machine Learning</b>

<i><b>Người hướng dẫn: GV. LÊ ANH CƯỜNGNgười thực hiện: TRẦN QUANG ĐÃNG – 52100174</b></i>

<b>TRƯƠNG ĐÌNH VĂN – 52100369HỒNG ĐẮC BÌNH – 52100163</b>

<b>THÀNH PHỐ HỒ CHÍ MINH, NĂM 2023</b>

TỔNG LIÊN ĐỒN LAO ĐỘNG VIỆT NAM

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>ĐỒ ÁN GIỮA KÌ MƠNHỌC MÁY (MACHINE LEARNING)</b>

<b>Introduction to Machine Learning</b>

<i><b>Người hướng dẫn: GV. LÊ ANH CƯỜNGNgười thực hiện: TRẦN QUANG ĐÃNG – 52100174</b></i>

<b>TRƯƠNG ĐÌNH VĂN – 52100369HỒNG ĐẮC BÌNH – 52100163</b>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>LỜI CẢM ƠN</b>

<i>Để hoàn thành bài báo cáo này, em xin tỏ lòng biết ơn sâu sắc đếnthầy Lê Anh Cường, đã tận tình hướng dẫn trong suốt quá trình viết báo cáo.Em chân thành cảm ơn quý thầy, cô trong khoa Công nghệ thông tin, TrườngĐại học Tơn Đức Thắng đã tận tình truyền đạt kiến thức giúp em trong thờigian học tập. </i>

<i>Với vốn kiến thức được tiếp thu trong q trình học khơng chỉ là nềntảng cho quá trình nghiên cứu bài báo cáo mà cịn là hành trang q báu đểem có thể có thể kinh nghiệm cho việc học sau này. </i>

<i>Cuối cùng em kính chúc q thầy, cơ dồi dào sức khỏe và thành côngtrong sự nghiệp cao quý,.luôn dồi dào sức khỏe, đạt được nhiều thành côngtốt đẹp trong công việc.</i>

<i>Chân thành cảm ơn!</i>

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<b>ĐỒ ÁN ĐƯỢC HOÀN THÀNHTẠI TRƯỜNG ĐẠI HỌC TƠN ĐỨC THẮNG</b>

Tơi xin cam đoan đây là sản phẩm đồ án của riêng tôi / chúng tôi và được sựhướng dẫn của GV. Huỳnh Anh Khiêm. Các nội dung nghiên cứu, kết quả trong đềtài này là trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây. Nhữngsố liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá đượcchính tác giả thu thập từ các nguồn khác nhau có ghi rõ trong phần tài liệu thamkhảo.

Ngồi ra, trong đồ án còn sử dụng một số nhận xét, đánh giá cũng như sốliệu của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồngốc.

<b>Nếu phát hiện có bất kỳ sự gian lận nào tơi xin hồn tồn chịu tráchnhiệm về nội dung đồ án của mình. Trường đại học Tơn Đức Thắng không liên</b>

quan đến những vi phạm tác quyền, bản quyền do tơi gây ra trong q trình thựchiện (nếu có).

<i>TP. Hồ Chí Minh, ngày 02 tháng 02 năm 2023 Tác giả</i>

<i>(ký tên và ghi rõ họ tên)Hồng Đắc BìnhTrần Quang Đãng</i>

<i>Trương Đình Văn</i>

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<b>PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN</b>

<b>Phần xác nhận của GV hướng dẫn</b>

Tp. Hồ Chí Minh, ngày tháng năm (kí và ghi họ tên)

Tp. Hồ Chí Minh, ngày tháng năm (kí và ghi họ tên)

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<b>TÓM TẮT</b>

Machine learning là một lĩnh vực của trí tuệ nhân tạo (AI). Mục tiêu củamachine learning nói chung là hiểu cấu trúc dữ liệu và điều chỉnh dữ liệu đó thànhcác model mà mọi người có thể hiểu và sử dụng.

Mặc dù machine learning là một lĩnh vực trong khoa học máy tính, nó khácvới các phương pháp tính tốn truyền thống. Trong tính toán truyền thống, các thuậttoán là tập hợp các hướng dẫn được lập trình rõ ràng được sử dụng bởi các máy tínhđể tính tốn hoặc giải quyết vấn đề. Thay vào đó, thuật tốn machine learning chophép máy tính đào tạo dữ liệu đầu vào và sử dụng phân tích thống kê để đưa ra cácgiá trị nằm trong một phạm vi cụ thể. Do đó, machine learning tạo điều kiện cho cácmáy tính xây dựng model từ dữ liệu mẫu để tự động hóa các quy trình ra quyết địnhdựa trên dữ liệu đầu vào.

Bất kỳ người dùng công nghệ ngày nay đã được hưởng lợi từ machinelearning. Công nghệ nhận dạng khuôn mặt cho phép các nền tảng truyền thông xãhội giúp người dùng gắn thẻ và chia sẻ ảnh của bạn bè. Công nghệ nhận dạng ký tựquang học (OCR) chuyển đổi hình ảnh của văn bản thành loại có thể di chuyển. Cáccơng cụ đề xuất, được hỗ trợ bởi machine learning, đề xuất những bộ phim hoặcchương trình truyền hình nào để xem tiếp theo dựa trên sở thích của người dùng. Xetự lái dựa vào machine learning để điều hướng có thể sớm có sẵn cho người tiêudùng.

Trong bài báo cáo này, chúng ta sẽ tìm hiểu các phương pháp machinelearning phổ biến về học tập có giám sát và khơng giám sát, và các phương pháp tiếpcận thuật toán phổ biến trong machine learning

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<i>1.1 Trình bày các khía cạnh sau đây của các mơ hình học máy:...1</i>

1.1.1 Mục tiêu của việc tạo ra mơ hình...1

1.1.2 Phương pháp, giải thuật để học mơ hình thế nào, tiêu chí học là gì?...1

1.1.3 Mơ hình phù hợp cho loại bài tốn và dữ liệu nào, ưu nhược điểm. Đối với các mơ hình: kNN, Linear Regression, Naive Bayes classifiers, Decision Tree. Phân tích, so sánh các mơ hình này theo 3 yếu tố trên...4

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<b>DANH MỤC HÌNH VẼ</b>

Hình 1: cách thức hoạt động của SupervisedHình 2: cách thức hoạt động của UnsupervisedHình 3: hình biểu diễn của 1 overfitting

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<b>DANH MỤC BẢNG BIỂU</b>

Bảng 1:So sánh hiệu quả của các phương pháp

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

<b>Câu 1:</b>

<b>1.1 Trình bày các khía cạnh sau đây của các mơ hình học máy:</b>

1.1.1 Mục tiêu của việc tạo ra mơ hình

Mục tiêu của việc tạo ra mơ hình học máy là để giải quyết một bài tốn cụ thể,thơng qua việc học hỏi từ dữ liệu. Mơ hình học máy sẽ tìm ra các mối quan hệ giữacác biến trong dữ liệu, và sử dụng các mối quan hệ này để:

Phân loại dữ liệuDự đoán hoặc dự báoTối ưu hóa và tìm kiếmXử lí ngơn ngữ tự nhiênGợi ý cá nhân hóa

1.1.2 Phương pháp, giải thuật để học mơ hình thế nào, tiêu chí học là gì?

<b>Có hai phương pháp chính để hướng dẫn mơ hình học máy: supervised(có</b>

giám sát) và <b>unsupervised</b>(khơng giám sát)

<b>Supervised: Kỹ thuật học có giám sát được sử dụng phổ biến hơn trong học</b>

máy vì nó xử lý các tác vụ đơn giản và dễ thực hiện. Dữ liệu đầu vào đượcgắn nhãn với câu trả lời mà thuật tốn sẽ tìm ra, giúp máy chọn ra các mẫutrong tương lai, phân biệt dữ liệu tốt hơn hoặc đưa ra dự đốn. Học có giámsát được phân thành hai loại thuật toán và lý tưởng cho các vấn đề có sẵnđiểm tham chiếu.

1. Phân loại Một vấn đề phân loại tồn tại khi biến đầu ra là một danh<b>:</b>

mục cụ thể.

2. Hồi quy Vấn đề hồi quy tồn tại khi biến đầu ra là một giá trị thực<b>:</b>

dao động (ví dụ: đơ la, trọng lượng, số đo).

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

Hình 1: cách thức hoạt động của Supervised

<b>Unsupervised : mơ hình học máy học một cách tự nhiên thay vì nhận tập dữ</b>

liệu có hướng dẫn rõ ràng. Sau đó, nó cố gắng tự động tìm cấu trúc trong dữliệu thơ thơng qua phân tích và diễn giải. Mặc dù học có giám sát là dễ dàngnhất nhưng không phải lúc nào chúng ta cũng có quyền truy cập vào các bộdữ liệu được gắn nhãn hoàn chỉnh, hoàn chỉnh để huấn luyện thuật tốn. Khihọc có giám sát có câu trả lời “đúng”, thì học khơng giám sát sẽ hữu íchtrong trường hợp các nhà phân tích (hoặc thực sự là bất kỳ ai) đặt câu hỏi vàthuật tốn khơng có câu trả lời hoặc có nhiều hơn một câu trả lời. Mơ hìnhhọc tập khơng giám sát được phân thành bốn loại thuật tốn khác nhau,nhóm dữ liệu dựa trên sự tương đồng hoặc mối quan hệ giữa các biến:

1. Phân cụm Mơ hình học sâu tìm kiếm dữ liệu và tính năng tương tự<b>:</b>

nhau rồi nhóm chúng lại với nhau.

2. Liên kết Bằng cách xem xét các thuộc tính chính trong dữ liệu, mơ<b>:</b>

hình học khơng giám sát có thể dự đốn các thuộc tính khác mà chúngthường được liên kết.

3. Phát hiện bất thường Trong trường hợp này, mơ hình được sử dụng<b>:</b>

để thu hút sự chú ý đến các dữ liệu ngoại lệ. Ví dụ: các ngân hàng

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

phát hiện gian lận bằng cách tìm kiếm các hành vi mua hàng bấtthường với khách hàng—chẳng hạn như nếu thẻ được sử dụng ở haiđịa điểm rất khác nhau trong một ngày, ngân hàng sẽ thơng báo vàđiều tra hoạt động đó.

4. Mạng thần kinh nhân tạo (hoặc bộ mã hóa tự động) Bộ mã hóa tự<b>:</b>

động lấy dữ liệu đầu vào, nén thành mã, sau đó cố gắng tạo lại đầuvào từ mã đó đồng thời loại bỏ mọi nhiễu tín hiệu để cải thiện chấtlượng dữ liệu.

Hình 2: cách thức hoạt động của Unsupervised

<b>Vi dụ các phương pháp :</b>

1. kNN: Phương pháp kNN (k-Nearest Neighbors) là một mơ hình họcmáy dựa trên sự gần gũi. Mơ hình này sẽ dự đoán nhãn của một điểmdữ liệu mới dựa trên nhãn của các điểm dữ liệu gần nhất với

<b>nó(Thuộc Supervised)</b>

2. Linear Regression: Phương pháp Linear Regression là một mơ hìnhhọc máy dựa trên tuyến tính. Mơ hình này sẽ xây dựng một hàmtuyến tính để dự đoán giá trị của một biến phụ thuộc dựa trên các giá

<b>trị của các biến độc lập (Thuộc Supervised)</b>

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

3. Naive Bayes classifiers: Phương pháp Naive Bayes classifiers là mộtmơ hình học máy dựa trên xác suất. Mơ hình này sẽ tính xác suất củamột điểm dữ liệu thuộc về mỗi lớp, và sử dụng lớp có xác suất cao

<b>nhất làm dự đốn.(Thuộc Supervised)</b>

4. Decision Tree: Phương pháp Decision Tree là một mơ hình học máydựa trên cây quyết định. Mơ hình này sẽ xây dựng một cây quyết địnhđể phân loại dữ liệu.(Trường hợp đặc biệt Decision Tree có thể thuộccả vào<b> Supervised learning và Unsupervised learning</b>, tùy thuộcvào cách sử dụng)

1.1.3 Mơ hình phù hợp cho loại bài tốn và dữ liệu nào, ưu nhược điểm. Đối với các mô hình: kNN, Linear Regression, Naive Bayes classifiers, Decision Tree. Phân tích, so sánh các mơ hình này theo 3 yếu tố trên.

1.1.3.1 kNN:

<b>Phù hợp cho: Bài toán phân loại và hồi quyDữ liệu: hiệu quả với dữ liệu nhiễuƯu điểm: </b>

1. Dễ thực hiện : Với tính đơn giản và chính xác của thuật tốn, đây làmột trong những phân loại đầu tiên mà một nhà khoa học dữ liệu mớisẽ học.

2. Thích ứng dễ dàng : Khi các mẫu đào tạo mới được thêm vào, thuậttoán sẽ điều chỉnh để tính đến bất kỳ dữ liệu mới nào vì tất cả dữ liệuđào tạo được lưu vào bộ nhớ.

3. Ít siêu tham số : KNN chỉ yêu cầu giá trị ak và thước đo khoảng cách,thấp khi so sánh với các thuật tốn học máy khác.

<b>Nhược điểm: Có thể khơng hiệu quả với dữ liệu lớn, ngồi ra</b>

1. Khơng có khả năng mở rộng tốt : Vì KNN là một thuật tốn “lườibiếng” nên nó chiếm nhiều bộ nhớ và lưu trữ dữ liệu hơn so với cácbộ phân loại khác. Điều này có thể tốn kém từ cả góc độ thời gian và

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

tiền bạc. Nhiều bộ nhớ và dung lượng lưu trữ hơn sẽ làm tăng chi phíkinh doanh và nhiều dữ liệu hơn có thể mất nhiều thời gian hơn đểtính tốn

2. Lời nguyền về chiều : Thuật tốn KNN có xu hướng trở thành nạnnhân của lời nguyền về chiều, nghĩa là nó khơng hoạt động tốt với dữliệu đầu vào có chiều cao. Điều này đơi khi cịn được gọi là peakingphenomenon( hiện tượng đạt đỉnh)

3. Dễ bị overfitting : Do bị “lời nguyền về chiều kích”, KNN cũng dễ bịoverfitting hơn. Mặc dù các kỹ thuật lựa chọn tính năng và giảm kíchthước được tận dụng để ngăn điều này xảy ra, giá trị của k cũng có thểảnh hưởng đến hành vi của mơ hình. Giá trị k thấp hơn có thể khớp dữliệu quá mức, trong khi giá trị k cao hơn có xu hướng “làm mịn” cácgiá trị dự đốn vì nó lấy trung bình các giá trị trên một khu vực hoặcvùng lân cận lớn hơn. Tuy nhiên, nếu giá trị của k quá cao thì dữ liệucó thể khơng phù hợp.

<b>1.1.3.2 Linear Regression:Phù hợp cho: Bài toán hồi quyDữ liệu: hiệu quả với dữ liệu tuyến tínhƯu điểm:</b>

1. Thực hiện đơn giản: Dễ hiểu và triển khai

2. Hiệu suất trên các bộ dữ liệu có thể phân tách tuyến tính: Hồi quytuyến tính phù hợp gần như hoàn hảo với các tập dữ liệu có thể phântách tuyến tính và thường được sử dụng để tìm ra bản chất của mốiquan hệ giữa các biến.

3. Overfitting có thể được giảm bớt bằng cách chính quy hóa: là một kỹthuật có thể được thực hiện dễ dàng và có khả năng làm giảm độ phứctạp của một hàm một cách hiệu quả để giảm nguy cơ Overfitting.

<b>Nhược điểm: </b>

1. Có thể khơng hiệu quả với dữ liệu phi tuyến

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

2. Dễ bị Underfitting: Một tình huống phát sinh khi mơ hình học máykhơng thu thập được dữ liệu đúng cách. Điều này thường xảy ra khihàm giả thuyết không thể khớp tốt với dữ liệu.

3. Nhạy cảm với các ngoại lệ:Các ngoại lệ của một tập dữ liệu là các giátrị bất thường hoặc cực trị lệch khỏi các điểm dữ liệu khác của phânphối. Các ngoại lệ dữ liệu có thể làm hỏng nghiêm trọng hiệu suấtcủa mơ hình học máy và thường có thể dẫn đến các mơ hình cóđộ chính xác thấp.

1.1.3.3 Naive Bayes classifiers:

<b>Phù hợp cho: Bài toán phân loạiDữ liệu: hiệu quả với dữ liệu phân tách tốtƯu điểm: </b>

1. Dễ hiểu và triển khai

2. Thuật tốn này hoạt động nhanh chóng và có thể tiết kiệm rất nhiềuthời gian.

3. Naive Bayes phù hợp để giải các bài toán dự đoán đa lớp.

4. Nếu giả định về tính độc lập của các tính năng là đúng thì nó có thểhoạt động tốt hơn các mơ hình khác và u cầu ít dữ liệu huấn luyệnhơn nhiều.

5. Naive Bayes phù hợp hơn với các biến đầu vào phân loại hơn là cácbiến số.

<b>Nhược điểm: </b>

1. Có thể khơng hiệu quả với dữ liệu phân tách kém

2. Naive Bayes cho rằng tất cả các yếu tố dự đoán (hoặc đặc điểm) đềuđộc lập, hiếm khi xảy ra trong đời thực. Điều này hạn chế khả năngáp dụng thuật toán này trong các trường hợp sử dụng trong thế giớithực.

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

3. Thuật toán này phải đối mặt với 'vấn đề tần số bằng 0' trong đó nógán xác suất bằng 0 cho một biến phân loại có danh mục trong tập dữliệu thử nghiệm khơng có sẵn trong tập dữ liệu huấn luyện. Sẽ tốtnhất nếu bạn sử dụng kỹ thuật làm mịn để khắc phục vấn đề này.4. Ước tính của nó có thể sai trong một số trường hợp, vì vậy bạn khơng

nên q coi trọng kết quả xác suất của nó.

<b>1.1.3.4 Decision Tree:</b>

<b>Phù hợp cho: Bài tốn phân loạiDữ liệu: dữ liệu phân tách tốtƯu điểm: </b>

1. Dễ hiểu và triển khai, hiệu quả với

2. Khả năng giải thích: Một trong những ưu điểm quan trọng nhất củaCây quyết định là nó rất trực quan và dễ hiểu

3. Ít chuẩn bị dữ liệu hơn: Các bước chuẩn bị dữ liệu điển hình nhưchuẩn hóa/tiêu chuẩn hóa dữ liệu, xử lý giá trị còn thiếu, giới hạnngoại lệ, v.v., không bắt buộc đối với cây quyết định, khiến nó trởthành thuật tốn 'bắt buộc' đối với các nhà khoa học dữ liệu.4. Phi tham số: Cây quyết định là một thuật toán phi tham số và do đó

khơng có giả định quan trọng nào cần được thực hiện hoặc phânphối dữ liệu cần được xem xét.

5. Tính linh hoạt: một thuật tốn rất linh hoạt và có thể thực hiện nhiềuvai trị ngồi các dự đốn tiêu chuẩn.

6. Phi tuyến tính: Cây quyết định có thể tạo ra các ranh giới quyết địnhphức tạp, cho phép chúng dễ dàng giải quyết các vấn đề phi tuyếntính. Trong khi các thuật tốn khác có thể giải quyết vấn đề phituyến tính, ưu điểm của Cây quyết định là nó mang lại khả năngdiễn giải được

<b>Nhược điểm: </b>

1. Có thể khơng hiệu quả với dữ liệu nhiễu

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

2. Overfitting: Một trong những nhược điểm phổ biến và nổi bật nhấtcủa cây quyết định là thuật tốn có phương sai cao. Điều này có nghĩalà nó có thể dễ dàng bị Overfitting vì nó khơng có cơ chế cố hữu đểdừng lại, từ đó tạo ra các quy tắc quyết định phức tạp.

3. Giảm tính năng và lấy mẫu lại dữ liệu: Cây quyết định có thể tốnnhiều thời gian trong giai đoạn huấn luyện và vấn đề này có thể bịphóng đại nếu có nhiều biến độc lập liên tục. Ngồi ra, nếu có tập dữliệu lớp khơng cân bằng, mơ hình có thể trở nên thiên về lớp đa số4. Tối ưu hóa: Ở mọi cấp độ, thuật tốn cây quyết định tìm kiếm nút

thuần túy và khơng xem xét quyết định gần đây sẽ ảnh hưởng như thếnào đến một số giai đoạn phân tách tiếp theo. Đây là lý do tại sao nóđược biết đến như một thuật tốn tham lam.Phương pháp làm việc nàylàm cho mơ hình có thể hiểu được nhưng khơng đảm bảo rằng thuậttốn sẽ trả về kết quả tối ưu toàn cục. Ngoài ra, nếu một vài biến có ýnghĩa lớn hoặc gây rị rỉ dữ liệu, chúng sẽ ‘chiếm quyền điều khiển'quy trình

quy <sup>Hồi quy</sup> <sup>Phân loại</sup> <sup>Phân loại</sup>

<b>Phương pháp</b> <sup>Dựa trên sự gần</sup>

Dựa trên tuyến

tính <sup>Dựa trên xác suất</sup>

Dựa trên câyquyết định

<b>Phù hợp vớiloại bài toán</b>

Phân loại và hồiquy

Hồi quy Phân loại Phân loại

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

Dễ hiểu và triểnkhai, hiệu quả với

dữ liệu nhiễu

Dễ hiểu và triểnkhai, hiệu quả vớidữ liệu tuyến tính

Dễ hiểu và triểnkhai, hiệu quả với

dữ liệu phân táchtốt

Dễ hiểu và triểnkhai, hiệu quả vớidữ liệu phân tách

<b>Nhược điểm</b> <sup>Có thể khơng hiệu</sup>

quả với dữ liệu lớn

Có thể khơnghiệu quả với dữ

liệu phi tuyến

Có thể khơng hiệuquả với dữ liệu

phân tách kém

Có thể khơnghiệu quả với dữ

Lọc features giúp giảm thiểu độ phức tạp của mơ hình. Mơ hình có độ phứctạp thấp sẽ ít bị quá khớp (overfitting) hơn. Quá khớp là hiện tượng mơ hình họcq nhiều thơng tin từ dữ liệu huấn luyện, dẫn đến việc mơ hình khơng thể dự đốnchính xác dữ liệu mới.

Lọc features giúp cải thiện tốc độ học tập của mơ hình. Mơ hình với ít thuộctính sẽ học nhanh hơn mơ hình với nhiều thuộc tính. Điều này là do mơ hình với ítthuộc tính cần ít dữ liệu hơn để học.

</div>