Tải bản đầy đủ (.pdf) (10 trang)

bài tập lớn môn khoa học và dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.11 MB, 10 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>TRƯỜNG ĐẠI HỌC VĂN LANGKHOA KỸ THUẬT CƠ - ĐIỆN VÀ MÁY TÍNH </b>

<b>BÀI TẬP LỚN CUỐI KỲ</b>

<b>HỌC PHẦN: NHẬP MÔN KHOA HỌC DỮ LIỆUMÃ HỌC PHẦN: 71DSIN10012</b>

<b>GIẢNG VIÊNTh.S Phạm Toàn ĐịnhTh.S Nguyễn Huỳnh Luận</b>

<b>SVVõ Xuân Phát</b>

<b>Năm 2023</b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>TRƯỜNG ĐẠI HỌC VĂN LANGKHOA KỸ THUẬT CƠ - ĐIỆN VÀ MÁY TÍNH </b>

<b>BÀI TẬP LỚN CUỐI KỲ</b>

<b>HỌC PHẦN: NHẬP MÔN KHOA HỌC DỮ LIỆUMÃ HỌC PHẦN: 71DSIN10012</b>

<b>Năm 2023</b>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

Tên sinh viên: Võ Xuân PhátMSSV: 2274601080022

2. Trong sự phát triển của Khoa học kỹ thuật hiện đại Khoa học dữ liệu có vai trị giúp tạo ra một hệ thống thơng minh hơn có thể đưa ra các quyết định tự trị dựa trên các dữ liệu lịch sử, việc tạo ra và ứng dụng thông tin là một hoạt động kinh tế quan trọng. Khoa học dữ liệu tạo điều kiện cho nó có khả năng trích xuất thơng tin từ khối lượng dữ liệu lớn. Công nghệ thông tin làm cho cuộc sống của chúng ta dễ dàng hơn bằng cách thu thập và xử lý nhiều dữ liệu hơn một cách nhanh chóng và hiệu quả để cung cấp kết quả tính theo giờ thay vì theo ngày và theo tuần. Do đó khoa học dữ liệu có vai trị quan trọng trong thời đại mới.

<b>Câu 2: Trình bày sự hiểu biết của em về hệ thống ChatGPT trong Khoa học dữ liệu. Đặc điểm của ChatGPT:</b>

- ChatGPT là sản phẩm của OpenAI – một tổ chức nghiên cứu về cơng nghệ trí tuệ nhân tạo.

- ChatGPT là một mơ hình ngơn ngữ sử dụng deep learning, có khả năng tự động hóa các tác vụ về ngôn ngữ như viết văn bản, trả lời câu hỏi, v.v. Các tính năng của ChatGPT bao gồm việc hỗ trợ tạo ra câu trả lời tự nhiên và chính xác cho các câu hỏi của người dùng, việc tự động hoá các tác vụ về xử lý ngơn ngữ, v.v.- Ngồi ra, ChatGPT cịn có nhiều ưu điểm nổi trội so với các mơ hình ngơn ngữ

khác. Ví dụ, ChatGPT có thể học từ các nguồn dữ liệu lớn và phổ biến, giúp cho nó có thể trả lời các câu hỏi về nhiều lĩnh vực khác nhau một cách chính xác.

<b> Nguyên lí hoạt động của ChatGPT:</b>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

- ChatGPT được huấn luyện trên tập dữ liệu lớn, bao gồm các văn bản và cuộc trò chuyện của người dùng. Khi ChatGPT nhận được một u cầu, nó sử dụng thuật tốn mạng nơ-ron để dự đốn các kết quả có liên quan nhất với u cầu đó.- Q trình học của ChatGPT được hồn thành bằng cách sử dụng các thuật tốn tự

động huấn luyện, nhằm tối ưu hóa kết quả trả lời của mơ hình. Kết quả cuối cùng là một câu trả lời chính xác và liên quan đến nội dung yêu cầu của người dùng.

<b> Ưu điểm</b>

- Khả năng tự học cao: ChatGPT được xây dựng dựa trên mơ hình Transformer của OpenAI, cho phép nó học từ vựng và ngữ cảnh từ các tài liệu và dữ liệu lớn, giúp nó trả lời các câu hỏi chính xác và đầy đủ hơn so với các ứng dụng khác.- Tốc độ nhanh: ChatGPT có thể trả lời nhanh chóng và tốt hơn so với các ứng dụng

trả lời tự động khác, giúp người dùng tránh đợi lâu để nhận được câu trả lời.- Đa dạng trong việc trả lời: ChatGPT có khả năng trả lời các câu hỏi về nhiều lĩnh

vực khác nhau, từ khoa học đến lịch sử, từ địa lý đến thể thao, giúp người dùng có thể tìm kiếm và nhận được thơng tin một cách đa dạng hơn.

- Dễ dàng sử dụng: ChatGPT có API và các cơng cụ khác dễ sử dụng, cho phép người dùng tương tác với nó một cách dễ dàng và nhanh chóng.

- Hiểu biết chun mơn: ChatGPT được huấn luyện trên rất nhiều dữ liệu, nhưng vẫn có thể khơng hiểu rõ về một số chun mơn cụ thể hoặc từ mới.

- Khả năng xử lý ngôn ngữ: ChatGPT có thể gặp khó khăn trong việc xử lý ngôn ngữ trong một số trường hợp, như sử dụng từ ngữ với ý nghĩa đặc biệt.

<b>Câu 3: Trình bày ưu nhược điểm của một số mơ hình phân loại: hồi quy logistic, Support Vector Machine, Naive Bayes, Random forest.</b>

<b>1. Hồi quy logistic Ưu điểm</b>

- Hồi quy logistic dễ thực hiện, giải thích và đào tạo rất hiệu quả.

- Nó khơng đưa ra giả định nào về sự phân bố của các lớp trong khơng gian đặc trưng.

- Nó có thể dễ dàng mở rộng cho nhiều lớp (hồi quy đa thức) và một cái nhìn xác suất tự nhiên của các dự đốn lớp.

- Nó khơng chỉ cung cấp thước đo mức độ phù hợp của một yếu tố dự đốn (kíchthước hệ số) mà cịn cả hướng liên kết của nó (tích cực hoặc tiêu cực).- Nó rất nhanh trong việc phân loại các bản ghi chưa biết.

- Độ chính xác cao đối với nhiều tập dữ liệu đơn giản và nó hoạt động tốt khi tậpdữ liệu có thể phân tách tuyến tính.

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

- Nó có thể giải thích các hệ số mơ hình như các chỉ số về tầm quan trọng của tính năng.

- Hồi quy logistic ít có xu hướng khớp quá mức nhưng nó có thể khớp quá mức trong các bộ dữ liệu nhiều chiều. Người ta có thể xem xét các kỹ thuật Chính quy hóa (L1 và L2) để tránh khớp quá mức trong các tình huống này.

<b> Nhược điểm</b>

- Nếu số lượng quan sát ít hơn số lượng tính năng, thì khơng nên sử dụng Hồi quy logistic, nếu khơng, nó có thể dẫn đến q khớp.

- Nó xây dựng ranh giới tuyến tính.

- Hạn chế chính của Hồi quy logistic là giả định về tính tuyến tính giữa biến phụthuộc và biến độc lập.

- Nó chỉ có thể được sử dụng để dự đốn các chức năng rời rạc. Do đó, biến phụ thuộc của Hồi quy logistic bị ràng buộc với tập số rời rạc.

- Các vấn đề phi tuyến tính khơng thể được giải quyết bằng hồi quy logistic vì nó có bề mặt quyết định tuyến tính. Dữ liệu có thể phân tách tuyến tính hiếm khi được tìm thấy trong các tình huống trong thế giới thực.

- Hồi quy logistic yêu cầu trung bình hoặc khơng có đa cộng tuyến giữa các biếnđộc lập.

- Thật khó để có được các mối quan hệ phức tạp bằng cách sử dụng hồi quy logistic. Các thuật toán mạnh hơn và nhỏ gọn hơn như Mạng thần kinh có thể dễ dàng vượt trội hơn thuật tốn này.

- Trong Hồi quy tuyến tính, các biến độc lập và phụ thuộc có quan hệ tuyến tính. Nhưng Hồi quy logistic cần các biến độc lập có liên quan tuyến tính với tỷ lệ chênh lệch

<b>2. Support Vector Machine Ưu điểm</b>

- Support Vector Machine rất hiệu quả ngay cả với dữ liệu nhiều chiều.- Khi bạn có một tập dữ liệu trong đó số lượng tính năng nhiều hơn số lượng

hàng dữ liệu, SVM cũng có thể thực hiện trong trường hợp đó.

- Khi các lớp trong dữ liệu là các điểm được phân tách rõ ràng thì SVM hoạt động rất tốt.

- SVM có thể được sử dụng cho cả vấn đề hồi quy và phân loại.

- Và cuối cùng nhưng không kém phần quan trọng, SVM cũng có thể hoạt động tốt với dữ liệu hình ảnh.

khơng thể giải thích việc phân loại theo xác suất.

- Thật khó để hiểu và diễn giải mơ hình SVM so với cây Quyết định vì SVM phức tạp hơn.

<b>3. Naive Bayes</b>

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

- Nếu biến phân loại có một danh mục trong tập dữ liệu thử nghiệm, không đượcquan sát trong tập dữ liệu huấn luyện, thì mơ hình sẽ gán xác suất 0 (khơng) vàsẽ khơng thể đưa ra dự đốn. Điều này thường được gọi là Tần số 0.

<b>4. Random Forest Ưu điểm</b>

- Random Forest dựa trên thuật tốn đóng bao và sử dụng kỹ thuật Ensemble Learning . Nó tạo bao nhiêu cây trên tập hợp con của dữ liệu và kết hợp đầu ra của tất cả các cây. Bằng cách này, nó làm giảm vấn đề khớp quá mức trong câyquyết định và cũng làm giảm phương sai và do đó cải thiện độ chính xác.- Random Forest có thể được sử dụng để giải quyết cả vấn đề phân loại cũng

như hồi quy.

- Random Forest hoạt động tốt với cả biến phân loại và biến liên tục.- Random Forest có thể tự động xử lý các giá trị bị thiếu.

- Khơng u cầu mở rộng tính năng: Khơng u cầu mở rộng tính năng (tiêu chuẩn hóa và chuẩn hóa) trong trường hợp Rừng ngẫu nhiên vì nó sử dụng phương pháp tiếp cận dựa trên quy tắc thay vì tính tốn khoảng cách.- Xử lý các tham số phi tuyến tính một cách hiệu quả: Các tham số phi tuyến

tính khơng ảnh hưởng đến hiệu suất của Random Forest không giống như các thuật tốn dựa trên đường cong. Vì vậy, nếu có sự phi tuyến tính cao giữa các biến độc lập, Random Forest có thể hoạt động tốt hơn so với các thuật tốn dựatrên đường cong khác.

- Random Forest có thể tự động xử lý các giá trị bị thiếu.

- Random Forest thường mạnh mẽ đối với các ngoại lệ và có thể tự động xử lý chúng.

- Thuật tốn Random Forest rất ổn định . Ngay cả khi một điểm dữ liệu mới được đưa vào tập dữ liệu, thuật tốn tổng thể khơng bị ảnh hưởng nhiều vì dữ liệu mới có thể tác động đến một cây, nhưng rất khó để nó tác động đến tất cả các cây.

- Random Forest tương đối ít bị ảnh hưởng bởi tiếng ồn.

<b> Nhược điểm</b>

- Độ phức tạp: Random Forest tạo ra nhiều cây (không giống như chỉ một cây trong trường hợp cây quyết định) và kết hợp đầu ra của chúng. Theo mặc định, nó tạo 100 cây trong thư viện sklearn của Python. Để làm như vậy, thuật tốn

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

này địi hỏi nhiều tài ngun và sức mạnh tính tốn hơn. Mặt khác, cây quyết định rất đơn giản và không yêu cầu quá nhiều tài ngun tính tốn.

- Thời gian đào tạo dài hơn: Random Forest cần nhiều thời gian hơn để đào tạo so với cây quyết định vì nó tạo ra rất nhiều cây (thay vì một cây trong trường hợp cây quyết định) và đưa ra quyết định dựa trên đa số phiếu bầu.

<b>Câu 4: Trình bày ưu và nhược điểm của các thuật toán Clustering trong Khoa học dữ liệu. Cho ví dụ minh hoạ và đánh giá cho một thuật toán tiêu biểu.</b>

<b>1. K-Means Ưu điểm</b>

<b>2. DBSCAN: Ưu điểm:</b>

- Khơng cần xác định trước số lượng các nhóm. Điều này trái ngược với means.

K-- DBSCAN có khái niệm về nút (mẫu) nhiễu.

- DBSCAN cần 2 tham số, và không nhạy cảm với sự thay đổi thứ tự trong- dữ liệu.

<b> Nhược điểm:</b>

- Kết quả phụ thuộc rất lớn vào cách tính khoảng cách giữa các điểm.

- DBSCAN khơng hiệu quả khi phân nhóm 1 tập hợp dữ liệu có mật độ phân tánkhác nhau..

<b>3. Mean-Shift: Ưu điểm:</b>

- Có thể tự động quyết định số lượng phân lớp mà khơng cần dữ liệu cho trước.- Có thể được thực hiện bằng số với một sơ đồ hiệu quả.

- Có thể tự động phân chia dữ liệu theo cụm.- Tương đối đơn giản khi so với K-Means.

<b> Nhược điểm:</b>

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

- Không hoạt động tốt trong trường hợp số lượng kích thước lớn khi kích thước các cụm bị thay đổi đột ngột.

- Thực hiện chậm đối với các bài tốn nhiều điểm.

<b> Ví dụ minh họa: Ước tính mật độ hạt nhân.</b>

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

Bước đầu tiên khi áp dụng các thuật toán phân cụm dịch chuyển trung bình là biểu diễn dữ liệu của bạn theo cách tốn học, điều này có nghĩa là biểu thị dữ liệu của bạn dưới dạng các điểm chẳng hạn như tập hợp bên dưới.

Dịch chuyển trung bình được xây dựng dựa trên khái niệm ước tính mật độ hạt nhân, viết tắt là KDE(Kernel Density Estimation). Hãy tưởng tượng rằng dữ liệu trên được lấy mẫu từ phân phối xác suất. KDE là một phương pháp để ước tính phân phối cơ bản cịn được gọi là hàm mật độ xác suất cho một tập hợp dữ liệu. Nó hoạt động bằng cách đặt một hạt nhân trên mỗi điểm trong tập dữ liệu. Hạt nhân là một từ tốn học ưa thích cho một hàm trọng số thường được sử dụng trong tích chập. Có nhiều loại nhân khác nhau nhưng phổ biến nhất là nhân Gaussian. Việc cộng tất cả các hạt nhân riêng lẻ sẽ tạo ra hàm mật độ ví dụ bề mặt xác suất. Tùy thuộc vào tham số băng thông hạt nhân được sử dụng, hàm mật độ kết quả sẽ khác nhau. Dưới đây là bề mặt KDE cho các điểm của chúng tôi ở trên bằng cách sử dụng nhân Gaussian với băng thông nhân là 2.

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<b>Biểu đồ bề mặt </b>

<b>Biểu đồ đường viền:</b>

</div>

×