Tải bản đầy đủ (.pdf) (35 trang)

Hồi quy logistic

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (815.31 KB, 35 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>TRƯỜNG ĐẠI HỌC SƯ PHẠM </b>

- - -    - - -

<b>ĐỀ TÀI: </b>

<b>HỒI QUY LOGISTIC </b>

<b> Giảng viên hướng dẫn : TS. Tôn Thất Tú Sinh viên thực hiện : Nguyễn Thị Hoa Lớp : 17CTUD </b>

<i><b><small>Đà Nẵng, 12/2020 </small></b></i>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>TRƯỜNG ĐẠI HỌC SƯ PHẠM </b>

- - -    - - -

<b>ĐỀ TÀI: </b>

<b>HỒI QUY LOGISTIC </b>

<b> Giảng viên hướng dẫn : TS. Tôn Thất Tú Sinh viên thực hiện : Nguyễn Thị Hoa Lớp : 17CTUD </b>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>MỞ ĐẦU ... 3 </b>

<b>CHƯƠNG I: CƠ SỞ LÝ THUYẾT... 5 </b>

<b>A. XÁC SUẤT ... 5 </b>

<b>1. Biến ngẫu nhiên ... 5 </b>

<b>2. Phân phối rời rạc ... 5 </b>

<b>3. Ước lượng tham số ... 5 </b>

<b>4. Phương pháp ước lượng hợp lý cực đại ... 6 </b>

<b>B. PHẦN MỀM R VÀ R-STUDIO ... 8 </b>

<b>1. Lịch sử ra đời ... 8 </b>

<b>2. Ứng dụng ... 8 </b>

<b>3. Các thư viện và câu lệnh sẽ dùng ... 9 </b>

<b>CHƯƠNG 2: BÀI TOÁN HỒI QUY LOGISTIC ...11 </b>

<b>1. Lý do dùng bài toán hồi quy Logistic ...11 </b>

<b>2. Xây dựng mơ hình lý thuyết ...11 </b>

<b>3. Sai số dự báo ...13 </b>

<b>4. Khảo sát sự ảnh hưởng của biến độc lập đến biến phụ thuộc ...16 </b>

<b>5. Ứng dụng mơ hình trong bộ dữ liệu Titanic ...16 </b>

<b>PHỤ LỤC ...28 </b>

<b>KẾT LUẬN ...32 </b>

<b>TÀI LIỆU THAM KHẢO ...33 </b>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>LỜI CẢM ƠN </b>

Lời đầu tiên của khóa luận tác giả xin gửi lời cảm ơn sâu sắc đến thầy Tôn Thất Tú đã tận tình hướng dẫn tác giả trong suốt quá trình thực hiện để tác giả có thể hồn thành được khóa luận này.

Tác giả cũng xin gửi lời cảm ơn chân thành nhất đến tất cả các thầy cô đã tận tình dạy bảo tác giả trong suốt thời gian tác giả học tập tại Khoa Toán của trường Đại học Sư phạm – Đại học Đà Nẵng.

Đồng thời tác giả cũng xin gửi lời cảm ơn đến các bạn trong lớp 17CTUD đã nhiệt tình giúp đỡ tác giả trong quá trình học tập tại lớp.

Vì thời gian và kiến thức còn hạn chế nên mặc dù bản thân đã cố gắng hết sức nhưng bài luận văn vẫn không thể tránh khỏi thiếu sót. Tác giả kính mong nhận được những ý kiến đóng góp quý báu từ các thầy cơ và các bạn để khóa luận được hoàn thiện hơn.

Tác giả

Nguyễn Thị Hoa

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<b>MỞ ĐẦU </b>

<b>1. Lý do chọn đề tài </b>

Thống kê là một ngành khoa học nghiên cứu các phương pháp điều tra và thu thập dữ liệu, sắp xếp, trình bày dữ liệu và xử lý dữ liệu nhằm rút ra các thông tin hữu ích về tổng thể nghiên cứu. Ngày nay, với sự phát triển của công nghệ thông tin, việc thu thập dữ liệu và tính tốn của con người đã trở nên dễ dàng hơn. Chính vì vậy, ngành thống kê có điều kiện phát triển mạnh mẽ và có rất nhiều ứng dụng trong hầu hết các lĩnh vực của đời sống xã hội.

Một trong những bài toán điển hình trong thống kê là bài tốn phân lớp. Bài tốn này được mơ tả đơn giản như sau: Giả sử ta có K lớp được đánh số từ 1 đến K và một mẫu gồm n đối tượng với các đặc điểm của chúng đã biết chúng thuộc lớp nào. Bài toán phân lớp đặt ra là khi ta có một đối tượng mới với các đặc điểm của chúng thì ta có thể dự đốn chúng thuộc lớp nào hay khơng? Bài tốn này có ứng dụng rất rộng rãi trong cuộc sống, chẳng hạn như được dùng để phân loại sản phẩm tự động, phân loại email, phân loại video, … Về bản chất, đây là bài toán hồi quy với biến đầu ra nhận K giá trị. Khi K bằng 2 người ta thường gọi là hồi quy nhị phân hoặc hồi quy logistic.

Trong lịch sử hàng hải vụ đắm tàu Titanic được xem là một trong những vụ đắm tàu thương mại thảm khốc nhất. Vào ngày 15 tháng 4 năm 1912, trong chuyến đi đầu tiên của mình, con tàu RMS Titanic được coi là “không thể chìm” đã bị chìm sau khi va chạm với một tảng băng trôi. Thật không may, do khơng có đủ thuyền cứu sinh cho tất cả mọi người trên tàu nên điều này dẫn đến cái chết của 1502 trong số 2224 hành khách và đoàn thủy thủ. Bộ dữ liệu liên quan đến thông tin của các nạn nhân đã qua đời cũng như những người may mắn sống sót đã được công bố trên nhiều trang website, chẳng hạn tại địa chỉ

Sau khi nghiên cứu bộ dữ liệu, tác giả nhận thấy rằng mặc dù có một số yếu tố may mắn liên quan đến việc sống sót, nhưng có vẻ như một số nhóm người có khả năng sống sót cao hơn những nhóm khác. Điều này cho thấy những thơng tin về hành khách có thể giúp ta phán đoán về khả năng sống sót của họ. Hồi quy logistic phù hợp để sử dụng xây dựng một mơ hình tốn học dự đoán khả năng sống sót của các hành khách dựa trên các thơng tin cá nhân được cung cấp.

Với các lý do trên, tác giả chọn đề tài “Hồi quy logistic” để làm đề tài khóa luận của mình. Bên cạnh việc trình bày lý thuyết về mơ hình hồi quy logistic, tác

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

giả đã ứng dụng mơ hình hồi quy này để phân tích bộ dữ liệu về vụ đắm tàu Titanic với sự hỗ trợ của phần mềm thống kê R.

<b>2. Mục đích nghiên cứu </b>

Tìm hiểu về hồi quy logistic và ứng dụng để dự báo khả năng sống sót của hành khách trên tàu Titanic.

<b>3. Đối tượng nghiên cứu </b>

Hồi quy logistic và dữ liệu về vụ đắm tàu Titanic.

<b>4. Phạm vi nghiên cứu </b>

- Hồi quy logistic và ứng dụng để phân tích bộ dữ liệu tài Titanic.

- Sử dụng tỉ lệ dự báo đúng làm chỉ số trong việc xác định ngưỡng xác suất dùng để phân lớp.

<b>5. Phương pháp nghiên cứu </b>

- Nghiên cứu lý thuyết về hồi quy logistic, tìm hiểu về việc sử dụng phần mềm R trong phân tích thống kê.

- Tìm hiểu về bộ dữ liệu nghiên cứu

- Đọc tài liệu, trao đổi với giáo viên hướng dẫn.

<b>6. Ý nghĩa khoa học và thực tiễn </b>

Khóa luận cung cấp một số kết quả phân tích thống kê về bộ dữ liệu vụ đắm tàu Titanic, cho người đọc thấy được các yếu tố ảnh hưởng đến khả năng sống sót của các hành khách trên tàu. Khóa luận là một tài liệu tham khảo tốt cho các bạn sinh viên ngành Toán khi học về Thống kê cũng như mong muốn tìm hiểu ứng dụng của Thống kê trong cuộc sống.

<b>7. Cấu trúc khóa luận </b>

Trong đề tài này, chúng tơi trình bày về cách sử dụng phương pháp hồi quy Logistic để dự báo về sự sống sót của hành khách trên tàu Titanic. Nội dung đề tài được trình bày trong 2 chương. Ngồi ra, luận văn có Lời cảm ơn, Mục lục, Mở đầu, Kết luận, Tài liệu tham khảo.

Chương 1 trình bày về kiến thức cơ sở bao gồm: Xác suất và Phần mềm R và R-Studio.

Chương 2, trình bày về bài toán hồi quy Logistic bao gồm: lý do dùng bài toán hồi quy Logistic, cách xây dựng mơ hình Logistic lý thuyết, sai số dự báo trong mơ hình, khảo sát sự ảnh hưởng của biến độc lập đến biến phụ thuộc và ứng dụng mơ hình Logistic trong phân tích bộ dữ liệu Titanic.

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<b>CHƯƠNG I: CƠ SỞ LÝ THUYẾT </b>

<b>A. XÁC SUẤT </b>

<b>1. Biến ngẫu nhiên </b>

<i>Tập tất cả các kết quả có thể xảy ra của một phép thử được gọi là không gian mẫu, kí hiệu là </i>Ω.

<i>Mỗi tập con của không gian mẫu được gọi là biến cố. Một biến cố xảy ra khi </i>

thực hiện phép thử nếu kết quả của thực hiện phép thử rơi vào biến cố đó.

Hàm X xác định trên khơng gian mẫu Ω và nhận giá trị trong ℝ được gọi là

<i>biến ngẫu nhiên nếu với mọi </i>𝑥 ∈ ℝ, tập hợp các kết quả {𝜔: 𝑋(𝜔) < 𝑥} lập thành một biến cố ngẫu nhiên.

<i>Tập hợp các giá trị của X được gọi là miền giá trị của X, kí hiệu là 𝑋(Ω). </i>

Nói một cách trực quan, biến ngẫu nhiên là một đại lượng có thể nhận giá trị này hày giá trị khác phụ thuộc vào kết quả của phép thử.

Có 2 loại biến ngẫu nhiên:

<i>• Biến ngẫu nhiên rời rạc: biến ngẫu nhiên có tập giá trị có số lượng hữu hạn </i>

hoặc vơ hạn đếm được.

<i>• Biến ngẫu nhiên liên tục: biến ngẫu nhiên thỏa các điều kiện sau: </i>

o Tập giá trị tạo thành 1 đoạn, khoảng hoặc hợp các đoạn, khoảng.

<b>3. Ước lượng tham số </b>

Cho mẫu ngẫu nhiên {𝑋<sub>1</sub>, 𝑋<sub>2</sub>, … , 𝑋<sub>𝑛</sub>} từ tổng thể có phân phối phụ thuộc vào tham số 𝜃. Khi đó, một thống kê 𝜃̂ = 𝜃̂(𝑋<sub>1</sub>, 𝑋<sub>2</sub>, … , 𝑋<sub>𝑛</sub><i>) được gọi là một ước lượng </i>

của tham số 𝜃.

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

Nói chung, ước lượng 𝜃̂ = 𝜃̂(𝑋<sub>1</sub>, 𝑋<sub>2</sub>, … , 𝑋<sub>𝑛</sub>) của tham số 𝜃 là một biến ngẫu nhiên. Với một mẫu giá trị cụ thể {𝑥<sub>1</sub>, 𝑥<sub>2</sub>, … , 𝑥<sub>𝑛</sub>} ta thu được một giá trị cụ thể 𝜃̂. Khi đó, giá trị 𝜃̂ = 𝜃̂(𝑥<sub>1</sub>, 𝑥<sub>2</sub>, … , 𝑥<sub>𝑛</sub><i>) được gọi là ước lượng điểm của tham số 𝜃 dựa </i>

trên mẫu giá trị {𝑥<sub>1</sub>, 𝑥<sub>2</sub>, … , 𝑥<sub>𝑛</sub>}.

<b>4. Phương pháp ước lượng hợp lý cực đại </b>

Cho {𝑘<sub>1</sub>, 𝑘<sub>2</sub>, … , 𝑘<sub>𝑛</sub>} là mẫu ngẫu nhiên kích thước 𝑛 của phân phối rời rạc 𝑋 có hàm xác suất 𝑝(𝑘, 𝜃) với 𝜃 là tham số chưa biết. Hàm hợp lý 𝐿(𝜃) là hàm được định nghĩa như sau:

𝐿(𝜃) = ∏ 𝑝(𝑘<sub>𝑖</sub>, 𝜃)

.

Nếu {𝑥<sub>1</sub>, 𝑥<sub>2</sub>, … , 𝑥<sub>𝑛</sub>} là mẫu ngẫu nhiên kích thước 𝑛 của phân phối liên tục có hàm mật độ xác suất 𝑓(𝑥, 𝜃) với 𝜃 là tham số chưa biết thì hàm hợp lí 𝐿(𝜃) là hàm được định nghĩa như sau:

𝐿(𝜃) = ∏ 𝑓(𝑥<sub>𝑖</sub>, 𝜃)

.

Cho hàm hợp lí 𝐿(𝜃) với tham số 𝜃 chưa biết. Nếu 𝜃<sub>𝑀𝐿</sub> là giá trị tham số thỏa mãn 𝐿(𝜃<sub>𝑀𝐿</sub>) > 𝐿(𝜃) với mọi 𝜃 thì 𝜃<sub>𝑀𝐿</sub><i> được gọi là ước lượng hợp lí cực đại của </i>

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<i>Ví dụ 2: Tìm ước lượng tham số của phân phối chuẩn </i>𝑁(𝜇, 𝜎<sup>2</sup>) bằng phương pháp ước lượng hợp lý cực đại.

<i>Giải: Phân phối chuẩn </i>𝑁(𝜇, 𝜎<sup>2</sup>) có hàm mật độ xác suất:

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

R là một ngơn ngữ lập trình mà nhiều nhà khoa học dữ liệu và nhà thống kê sử dụng cho mục đích trực quan hóa và phân tích dữ liệu. Hiện nay, R đang nổi lên như là một ngôn ngữ mang nhiều tiềm năng và ngày càng mở rộng với hàng ngàn gói lệnh (packages) phục vụ cho nhiều lĩnh vực ứng dụng khác nhau.

R là một ngơn ngữ lập trình và mơi trường phần mềm dành cho tính tốn và đồ họa thống kê. Đây là một bản hiện thực ngơn ngữ lập trình S với ngữ nghĩa khối từ vựng lấy cảm hứng từ Scheme (một ngơn ngữ lập trình hỗ trợ nhiều khn mẫu lập trình, được biết đến với khả năng hỗ trợ lập trình hàm). R do Ross Ihaka và Robert Gentleman tạo ra tại Đại học Auckland, New Zealand, đến nay do R Development Core Team chịu trách nhiệm phát triển. Tên của ngôn ngữ một phần lấy từ chữ cái đầu của hai tác giả (Robert Gentleman và Ross Ihaka), một phần cũng là cách chơi chữ từ tên S.

Ngôn ngữ R đã trở thành một tiêu chuẩn trên thực tế (de facto) giữa các nhà thống kê cho thấy sự phát triển của phần mềm thống kê, và được sử dụng rộng rãi để phát triển phần mềm thống kê và phân tích dữ liệu.

R là một bộ phận của dự án GNU (một hệ điều hành và bộ sưu tập phần mềm máy tính phong phú). Mã nguồn của nó được cơng bố tự do theo Giấy phép Công cộng GNU, và có các phiên bản cho nhiều hệ điều hành khác nhau. R sử dụng giao diện dòng lệnh, tuy cũng có một vài giao diện đồ họa người dùng dành cho nó.

<b>2. Ứng dụng </b>

Chúng ta có thể sử dụng ngơn ngữ lập trình R nhưng một công cụ chuẩn lĩnh vực học máy (Machine Learning), thống kê cũng như phân tích dữ liệu. Các đối tượng, hàm, và packages dễ dàng được tạo bởi R. Thêm vào đó, nó độc lập với nền tảng cũng như là miễn phí. Vì vậy, ai cũng có thể cài đặt mà khơng cần phải trả bất kí loại phí nào. Hơn nữa, nó cũng có thể chạy trên tất cả các hệ điều hành phổ biến như: Windows, Mac, Lunix.

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

Ngơn ngữ lập trình R khơng đơn thuần chỉ là một package thống kê, nó cịn cho phép chúng ta tích hợp với các ngơn ngữ khác (C, C++). Do đó, bạn có thể làm việc mới một số nguồn dữ liệu cũng như các package thống kê của các ngôn ngữ lập trình khác. Và kết quả là nhờ đó mà R có cộng đồng người dùng ngày càng lớn mạnh không ngừng, đặc biệt là khi AI, Machine Learning hay Deep Learning đang là những ngành cực hot.

Các công việc cần sử dụng đến R không chỉ liên quan đến các công ty thiên về công nghệ thơng tin mà có rất nhiều lĩnh vực khác cũng đội ngũ phân tích dữ liệu biết sử dụng ngôn ngữ này, nổi bật trong số đó là:

• Chun viên phân tích dữ liệu • Phân tích kinh doanh

• Tư vấn phân tích

<b>3. Các thư viện và câu lệnh sẽ dùng • Thư viện: VIM </b>

Thư viện này bao gồm các công cụ để hiển thị các giá trị bị thiếu, có thể được sử dụng để khám phá dữ liệu và cấu trúc của các giá trị bị thiếu này. Tùy thuộc vào cấu trúc của chúng, các phương pháp tương ứng có thể giúp xác định cơ chế tạo ra các giá trị thay thế cho dữ liệu bị thiếu.

<b>• Thư viện: pROC </b>

Một gói trong R để hiển thị và phân tích các đường cong ROC, như: tính diện tích dưới đường cong ROC, vẽ đường cong ROC, tính khoảng tin cậy của các ngưỡng phân lớp…

<b>• Thư viện: caret </b>

Gói caret (viết tắt của Classification And REgression Training) là một tập hợp các gói lệnh được tổ chức chặc chẽ để phục vụ cho bài toán phân loại và hồi quy trên R. Thư viện này chứa các công cụ cho:

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

- Phân chia dữ liệu - Tiền xử lý

- Lựa chọn biến

- Điều chỉnh các tham số mơ hình - Ước tính tầm quan trọng biến đổi

- Chạy mơ hình hồi quy và mơ hình phân loại

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

<b>CHƯƠNG 2: BÀI TOÁN HỒI QUY LOGISTIC </b>

<b>1. Lý do dùng bài toán hồi quy Logistic </b>

Hồi quy logistic được phát triển bởi nhà thống kê David Cox (1958). Mục tiêu sử dụng mơ hình này cũng giống như bất kì mơ hình hồi quy nào khác trong thống kê, đó là, tìm ra mơ hình phù hợp nhất và tối ưu nhất trong mô tả mối quan hệ giữa

<i>biến mục tiêu y (đối tượng nghiên cứu) và một tập hợp các biến độc lập (biến dự </i>

đốn hoặc biến giải thích, yếu tố tác động) qua đó đưa các kết quả dự báo trong tương lai.

Mơ hình hồi quy logistic được áp dụng vào quy tình phân tích dữ liệu khi: • Cần phân loại đối tượng nghiên cứu vào các nhóm.

• Số nhóm bằng 2.

<i>Điều này đồng nghĩa là biến mục tiêu y sẽ chỉ có 2 giá trị 0 (khơng) và 1(có) </i>

<b>(dạng binary logistic). Trên thực tế, có rất nhiều hiện tượng tự nhiên, hiện tượng </b>

kinh tế, xã hội,… mà chúng ta cần dự đoán khả năng xảy ra của nó: chiến dịch quảng cáo có được chấp nhận hay không, người vay có trả được nợ hay khơng, cơng ty có phá sản hay khơng, khách hàng có mua hay khơng,…

<b>2. Xây dựng mơ hình lý thuyết </b>

Hàm logistic được cho bởi:

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

Xét mơ hình hồi quy với các biến độc lập 𝑋 = (𝑋<sub>1</sub>, 𝑋<sub>2</sub>, … , 𝑋<sub>𝑘</sub>) và biến phụ thuộc 𝑌, trong đó, 𝑌 nhận 2 giá trị 0 và 1.

Đặt 𝑝(𝑥) = 𝑃(𝑌 = 1|𝑋 = 𝑥). Giá trị

𝑜𝑑𝑑𝑠(𝑥) = <sup>𝑝(𝑥)</sup> 1 − 𝑝(𝑥) được gọi là tỉ số odd (odds ratio).

Mơ hình hồi quy logistic có dạng:

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

Các hệ số 𝛽 = (𝛽<sub>0</sub>, . . . , 𝛽<sub>𝑘</sub>)được tìm khi ta tìm giá trị lớn nhất của hàm 𝐿(𝛽) theo 𝛽.

<b>Trong R, để thực hiện chạy mơ hình hồi quy logistic, ta sử dụng hàm 𝑔𝑙𝑚 với </b>

tham số bổ sung 𝑓𝑎𝑚𝑖𝑙𝑦 = “𝑏𝑖𝑛𝑜𝑚𝑖𝑎𝑙”.

<b>3. Sai số dự báo </b>

Khi xây dựng mơ hình hồi quy logistic, điều mà ta quan tâm dĩ nhiên khơng phải chỉ có mỗi ý nghĩa của các biến độc lập có phù hợp hay có ý nghĩa để đưa vào mơ hình phục vụ dự báo cho biến mục tiêu hay khơng, mà đó chính là khả năng dự báo chính xác kết quả đạt được của biến mục tiêu so với thực tế. Vì mục tiêu sau cùng của hồi quy logistic là khả năng dự báo của mơ hình thu được.

Mơ hình chúng ta xây dựng thực chất mới chỉ khớp hay mang đặc trưng của bộ dữ liệu huấn luyện nên nó sẽ đưa ra kết quả dự báo tương đối chính xác với những đối tượng được nghiên cứu trong tập này, còn các đối tượng trong dữ liệu thực tế thì sao? Mức độ phù hợp của mơ hình dùng để dự báo kết quả trong thực tế là như thế nào chính là điều chúng ta cần đánh giá.

Đánh giá độ hiệu quả của những mơ hình phân, phương pháp Confusion Matrix (ma trận nhầm lẫn) là điển hình nhất, với cấu trúc tổng quát như sau:

Lớp thực tế

Lớp dự đoán <sup>Positive </sup> <sup>True positive (TP) </sup> <sup>False positive (FP) </sup> Negative False negative (FN) True negative (TN) Với:

▪ TP = True positive: dương tính thật ▪ FP = False positive: dương tính giả ▪ TN = True negative: âm tính thật ▪ FN = False negative: âm tính giả

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

o Specificity (độ đặc hiệu): tỉ lệ loại Negative đúng trên tổng số các trường hợp Negative:

𝑆𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦 = 𝑇𝑁𝑅 = <sup>𝑇𝑁</sup> 𝑇𝑁 + 𝐹𝑃

<i>- Tính chính xác: </i>

o Accuracy (ACC = tỉ lệ phân loại chính xác): tỉ lệ của tất cả trường hợp phân loại đúng (không phân biệt Positive hay Negative) trên toàn bộ trường hợp trong mẫu kiểm định:

𝑇𝑃 + 𝐹𝑃 + 𝑇𝑁 + 𝐹𝑁

o Balanced accuracy (BAC): Khi cả hia nhãn Positive/Negative bị mất cân đối, một tiêu chí phù hợp hơn là BAC: độ chính xác sau cân bằng:

𝐵𝐴𝐶 = <sup>𝑇𝑃𝑅 + 𝑇𝑁𝑅</sup> 2

o Precision =Positive predictive value (PPV = độ chính xác): đo lường tính “xác định” hay khả năng phân loại Positive chính xác của mơ hình:

Nếu xem 𝐹<sub>1</sub> và 𝐹<sub>𝛽</sub> là quan trọng như nhau thì 𝐹<sub>1</sub> là tiêu chí thích hợp nhất khi kiểm định mơ hình phân loại vì khi 𝐹<sub>1</sub> đạt tối ưu thì cả Precision và Recall đều phải tối ưu, ngược lại, chỉ cần một trong hai có giá trị thấp thì 𝐹<sub>1</sub> sẽ thấp.

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

<b>b) Đồ thị ROC </b>

Đường cong ROC (Receiver operating characteristic) là đồ thị thể hiện sự dao động của TPR (Sensitivity) tùy theo FPR (1-Specificity) khi dịch chuyển qua các ngưỡng cắt khác của xác suất p.

Ở đây chúng ta chú ý hai điều:

- Trục hoành của đường là (1 – Specificcity) còn trục tung là Sensitivity và chỉ nằm trong khoảng từ 0 đến 1.

- Một mơ hình có khả năng phân loại tốt là mơ hình mà có đường ROC này càng lồi về phía trên. Chú ý rằng phần diện tích của hình nằm phía dưới đường ROC nhận giá trị từ 0 đến 1 và được gọi là AUC – viết tắt của Area Under the Curve.

Theo mặc định, ngưỡng cắt của xác suất phân loại là 0.5 nhưng trong một số trường hợp, ngưỡng này có thể được điều chỉnh. Ví dụ nếu ta muốn tạo ra một quy luật chẩn đốn nhạy hơn so với mặc định, ta có thể giảm ngưỡng cắt còn 0.4 hay 0.3 cho nhãn Positive, như vậy sẽ làm tăng đồng thời FPR và TPR, và giảm đồng thời FNR, TNR theo luật bù trừ, làm giảm tỉ lệ bỏ sót chẩn đoán. Đường cong ROC cho phép khảo sát tất cả khả năng về ngưỡng cắt khác nhau và ảnh hưởng lên TPR và FPR. Đường cong này cho phép đánh giá hiệu năng tổng qt của mơ hình. Mơ hình tối ưu sẽ có TPR cao và FPR thấp (gần góc trên bên trái ROC) và AUC gần 1 nhất có thể.

</div>

Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×