Tải bản đầy đủ (.pdf) (43 trang)

HỒI QUI TUYẾN TÍNH VÀ ỨNG DỤNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.66 MB, 43 trang )

UBND TỈNH QUẢNG NAM
TRƢỜNG ĐẠI HỌC QUẢNG NAM
KHOA CÔNG NGHỆ THÔNG TIN

----------

BOUNMY SEESUOMANG

HỒI QUI TUYẾN TÍNH VÀ ỨNG DỤNG

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC

Quảng Nam, tháng 5 năm 2018

UBND TỈNH QUẢNG NAM
TRƢỜNG ĐẠI HỌC QUẢNG NAM

KHOA CÔNG NGHỆ THÔNG TIN

----------

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC

Tên đề tài: HỒI QUI TUYẾN TÍNH VÀ ỨNG DỤNG

Sinh viên thực hiện:

BOUNMY SEESUOMANG

MSSV: 2114011042


CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN

KHÓA 2014 – 2018
Cán bộ hƣớng dẫn:
ThS. LÊ THỊ NGUYÊN AN

MSCB: ………

Quảng Nam, tháng 5 năm 2018

LỜI CẢM ƠN
Để hoàn thành khóa luận tốt nghiệp này, em xin tỏ lịng biết ơn sâu sắc đến
thầy giáo ThS. Lê Thị Nguyên An đã tận tình hƣớng dẫn trong suốt quá trình
thực hiện đề tài.
Em chân thành cảm ơn quý thầy, cô giáo trong khoa công nghệ thơng tin,
trƣờng Đại học Quảng Nam đã tận tình truyền đạt kiến thức trong những năm em
học tập tại trƣờng. Những kiến thức đƣợc tiếp thu trong quá trình học tập khơng
chỉ là nền tảng cho q trình nghiên cứu đề tài khóa luận tốt nghiệp mà cịn là
hành trang quí báu để em bƣớc vào đời.
Trong q trình làm khóa luận do trình độ lý luận cũng nhƣ kinh nghiệm
thực tiễn cịn hạn chế nên khơng thể tránh khỏi những thiếu sót, em rất mong
nhận đƣợc ý kiến đóng góp của thầy, cô để em học thêm đƣợc nhiều kinh nghiệm
và sẽ hồn thành tốt khóa luận tốt nghiệp này.
Em xin chân thành cảm ơn!

MỤC LỤC
PHẦN 1. MỞ ĐẦU ................................................................................................ 1

1.1. Lý do chọn đề tài .......................................................................................... 1
1.2. Mục tiêu của đề tài ....................................................................................... 1

1.3. Đối tƣợng và phạm vi nghiên cứu ................................................................ 1
1.4. Phƣơng pháp nghiên cứu .............................................................................. 2

1.5. Lịch sử nghiên cứu ...................................................................................... 2
1.6. Đóng góp của đề tài ..................................................................................... 2
1.7. Cấu trúc đề tài .............................................................................................. 2
PHẦN 2. NỘI DUNG NGHIÊN CỨU .................................................................. 3

CHƢƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU....................................... 3
1.1.Tổng quan về khai phá dữ liệu ..................................................................... 3
1.1.1. Khái niệm.............................................................................................. 3
1.1.2. Mục tiêu của khai phá dữ liệu............................................................... 3
1.1.3. Quá trình khai phá dữ liệu .................................................................... 4
1.1.4. Ứng dụng của khai phá dữ liệu ............................................................. 5
1.2. Một số phƣơng pháp khai phá dữ liệu hiện đại ........................................... 6
1.2.1. Phân lớp và dự đoán ............................................................................. 6
1.2.2. Phân lớp dữ liệu và hồi quy .................................................................. 6
1.2.3. Phân cụm dữ liệu .................................................................................. 6
1.2.4. Khai phá dữ liệu sử dụng mạng Neural ................................................ 7
1.2.5. Khai phá dữ liệu sử dụng thuật giải di truyền ...................................... 8
1.3. Một số phƣơng pháp khai phá dữ liệu thông dụng...................................... 9
1.3.1. Khai phá dữ liệu sử dụng cây quyết định ............................................. 9
1.3.2. Luật kết hợp .......................................................................................... 9
1.3.3. Phân tích chuỗi theo thời gian ............................................................ 11
1.4. Ứng dụng khai phá dữ liệu trong lĩnh vực khách hàng ............................. 11

CHƢƠNG 2 HỒI QUI TUYẾN TÍNH ............................................................... 13
2.1. Mơ hình hồi quy ........................................................................................ 13
2.1.2. Khái niệm về hồi quy.......................................................................... 13
2.1.2. Phân tích hồi quy giải quyết vấn đề.................................................... 13

2.1.3. Ví dụ ................................................................................................... 13
2.2. Giới thiệu về hồi qui tuyến tính ................................................................. 14

2.2.1. Khái niệm ............................................................................................ 14
2.1.2. Bài toán Hồi Quy (Regression)........................................................... 14
2.3. Một số phƣơng pháp hồi qui tuyến tính .................................................... 15
2.3.1. Hồi quy tuyến tính với một ẩn ............................................................ 15
2.3.2. Hồi quy tuyến tính với nhiều ẩn ......................................................... 16
2.3.3. Hồi quy tuyến tính đa thức ................................................................. 16
2.4. Áp dụng vào bài toán định giá bất động sản.............................................. 17
CHƢƠNG 3 THỬ NGHIỆM VÀ ĐÁNH GIÁ HỒI QUI TUYẾN TÍNH ......... 20
3.1. Tổng quan về python ................................................................................. 20
3.1.1. Python là gì? ....................................................................................... 20
3.1.2. Cài đặt Python..................................................................................... 21
3.1.3. Viết và thực thi một chƣơng trình viết bằng Python .......................... 24
3.2. Giới thiệu bài toán ..................................................................................... 29
3.2.1. Đặt vấn đề ........................................................................................... 29
3.2.2. Hƣớng dẫn giải quyết vấn đề .............................................................. 29
3.2.3. Cơ sở dữ liệu ....................................................................................... 30
3.3. Cài đặt ứng dụng ....................................................................................... 30
3.3.1. Đọc dữ liệu từ file CSV ...................................................................... 30
3.3.2. Lựa chọn thuộc tính và phân chia tập dữ liệu mẫu ............................. 31
3.3.3. Áp dụng mơ hình hồi quy tuyến tính .................................................. 32
3.3.4. Áp dụng mơ hình hồi quy LASSO dạng chuẩn L1............................. 32
3.3.5. Đánh giá mơ hình hồi quy vừa áp dụng.............................................. 33
PHẦN 3. KẾT LUẬN........................................................................................... 35
PHẦN 4. TÀI LIỆU THAM KHẢO .................................................................... 36

DANH MỤC HÌNH ẢNH
Hình 1: Q trình khai phá dữ liệu......................................................................... 4

Hình 2: Mơ hình hồi quy ...................................................................................... 13
Hình 3: Ví dụ về hồi quy tuyến tính..................................................................... 15
Hình 4: Ví dụ về hồi quy đa thức ......................................................................... 17
Hình 5: Cộng đồng ngƣời sử dụng Python .......................................................... 20
Hình 6: Download python .................................................................................... 21
Hình 7: Install python........................................................................................... 22
Hình 8: Đợi quá trình cài đặt................................................................................ 22
Hình 9: Màn hình báo thành cơng........................................................................ 23
Hình 10: Xuất hiện cửa số thì cài đặt thành cơng ................................................ 23
Hình 11: Các cơng cụ sau khi cài đặt xong Python ............................................. 24
Hình 12: Giao diện của IDLE PYTHON ............................................................. 25
Hình 13: Kết quả mành hình sẽ hiện dịng “ Hello World” ................................. 25
Hình 14: Vào tab File => New Windows ............................................................ 26
Hình 15: Dùng CMD để biên dịch ....................................................................... 29
Hình 16: Cơ sở dữ liệu của bài tốn..................................................................... 30
Hình 17: Đọc dữ liệu từ cơ sở dữ liệu.................................................................. 31
Hình 18: Lựa chọn thuộc tính và phân chia dữ liệu ............................................. 31
Hình 19: Mơ hình hồi quy tuyến tính................................................................... 32
Hình 20: Mơ hình hồi quy LASSO dạng chuẩn L1 ............................................. 33
Hình 21: Đánh giá 3 mơ hình hồi quy.................................................................. 33
Hình 22: Kết quả .................................................................................................. 34

PHẦN 1. MỞ ĐẦU
1.1. Lý do chọn đề tài

Hiện nay cùng với sự phát triển bùng nổ của lĩnh vực Cơng nghệ thơng tin
thì lĩnh vực kinh doanh trên thế giới cũng đã trải qua một sự thay đổi to lớn về
nội dung cũng nhƣ các cách thức kinh doanh đặc biệt từ khi có sự hỗ trợ đắc lực
của cơng nghệ thơng tin thì lĩnh vực kinh doanh đã bắt đầu nhận ra sự cần thiết
của các kỹ thuật trong khai phá dữ liệu bởi các kỹ thuật này có thể giúp họ cạnh

tranh tốt hơn trên thị trƣờng hiện nay. Họ đã và đang sử dụng các công cụ khai
phá dữ liệu cho việc phân khúc khách hàng và lợi nhuận, dự đoán đầu tƣ và
hƣớng phát triển, chấm điểm tín dụng và duyệt quảng bá các bản sản phẩm, hay
phát hiện các giao dịch gian lận.

Có nhiều phƣơng pháp đƣợc đề xuất, tuy nhiên khơng có phƣơng pháp tiếp
cận nào là tối ƣu và chính xác hơn hẳn những phƣơng pháp khác. Dù sao với mỗi
phƣơng pháp có một lợi thế và bất lợi riêng khi sử dụng. Một trong những công
cụ khai phá tri thức hiệu quả hiện nay là sử dụng hồi qui tuyến tính để tìm ra các
quyết định phù hợp. Với mong muốn nghiên cứu về việc ứng dụng hồi qui tuyến
tính trong khai phá dữ liệu tôi đã chọn đề tài “Hồi qui tuyến tính và ứng dụng”
làm khóa luận tốt nghiệp cuối khóa của mình.
1.2. Mục tiêu của đề tài

Đề tài đƣợc thực hiện với mục tiêu cuối cùng là ngƣời làm đề tài nắm bắt
và hiểu đƣợc các vấn đề về:

 Khai phá dữ liệu
 Hồi qui tuyến tính trong khai phá dữ liệu
 Ứng dụng hồi qui tuyến tính trong dự báo kinh doanh
 Cài đặt, đánh giá thuật toán và bƣớc đầu áp dụng vào việc dự báo
1.3. Đối tƣợng và phạm vi nghiên cứu
Đối tượng:

 Các lĩnh vực liên quan có thể dự báo trong kinh doanh
 Các nội dung liên quan học phần khai phá dữ liệu

1

Phạm vi nghiên cứu là các vấn đề cơ bản về:

 Khai phá dữ liệu
 Hồi qui tuyến tính trong khai phá dữ liệu
 Ứng dụng hồi qui tuyến tính trong dự báo kinh doanh
 Cài đặt và đánh giá thuật toán và bƣớc đầu áp dụng vào việc dự báo

1.4. Phƣơng pháp nghiên cứu
 Phƣơng pháp nghiên cứu tài liệu: Phân tích và tổng hợp các tài liệu về

khai phá dữ liệu sử dụng hồi qui tuyến tính cho các mơ hình dự báo.
 Phƣơng pháp thực nghiệm: Ứng dụng kết hợp kỹ thuật hồi qui tuyến tính

để dự báo trong kinh doanh.
1.5. Lịch sử nghiên cứu

 Nội dung đã đƣợc học ở học phần Khai phá dữ liệu.
 Có nhiều ngƣời cũng nhƣ các nhóm nghiên cứu đã chọn kiến thức này
làm nội dung cho đề tài nghiên cứu của họ.
1.6. Đóng góp của đề tài
 Đề tài đƣợc thực hiện với mong muốn ngƣời làm hiểu rõ hơn các vấn đề
trong khai phá dữ liệu đặc biệt là hồi qui tuyến tính và áp dụng trong dự báo.
 Hiểu hơn nữa một số hàm hồi qui mà excel đã xây dựng với mục đích hỗ
trợ cho cơng việc dự báo kinh doanh.
1.7. Cấu trúc đề tài
Chƣơng 1: Tổng quan về khai phá dữ liệu
Chƣơng 2: Hồi qui tuyến tính
Chƣơng 3: Thử nghiệm và đánh giá hồi qui tuyến tính

2

PHẦN 2. NỘI DUNG NGHIÊN CỨU


CHƢƠNG 1
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1.Tổng quan về khai phá dữ liệu
1.1.1. Khái niệm
Khai phá dữ liệu là một giai đoạn quan trọng trong quá trình KPTT. Về bản
chất nó là giai đoạn duy nhất tìm ra đƣợc thơng tin mới. Việc khai phá dữ liệu
cịn đƣợc coi nhƣ là việc khai phá tri thức từ dữ liệu (knowlegde mining from
databases), trích lọc tri thức (knowlegde extraction), phân tích dữ liệu-mẫu (data-
partent analysis), khảo cứu dữ liệu (data archaeology), đào xới, nạo vét dữ liệu
(data dredging).
Khai phá dữ liệu (Data Mining) đƣợc định nghĩa là q trình trích lọc các
thơng tin có giá trị ẩn trong lƣợng lớn dữ liệu đƣợc lƣu trữ trong các CSDL hoặc
các kho dữ liệu,... Khai phá dữ liệu cũng cịn đƣợc coi là một q trình tìm kiếm,
khám phá ở nhiều góc độ để tìm ra các mối tƣơng quan, các mối liên hệ dƣới
nhiều góc độ khác nhau nhằm tìm ra các mẫu hay các mơ hình tồn tại bên trong
cơ sở dữ liệu đang bị che khuất. Để trích rút các mẫu, mơ hình tiềm ẩn có tính
“tri thức” ta phải tìm và áp dụng các phƣơng pháp, kỹ thuật khai phá sao cho các
kỹ thuật và phƣơng pháp này phải phù hợp với tính chất, đặc trƣng của dữ liệu và
mục đích sử dụng. Tuy khai phá dữ liệu chỉ là một bƣớc trong q trình khám
phá tri thức nhƣng nó lại là bƣớc tiên quyết, quan trọng và ảnh hƣởng đến toàn
bộ q trình.
Tóm lại, khai phá dữ liệu là một q trình tìm kiếm thơng tin “tri thức” tiềm
ẩn trong cơ sở dữ liệu lớn, khổng lồ. Vì thế, có thể nói rằng hai thuật ngữ khám
phá tri thức và khai phá dữ liệu là tƣơng đƣơng nếu nói ở khía cạnh tổng quan,
cịn nếu xét ở một góc độ chi tiết thì khai phá dữ liệu là một giai đoạn có vai trị
quan trọng trong quá trình khám phá tri thức.
1.1.2. Mục tiêu của khai phá dữ liệu
Qua những nội dung đã trình bày ở trên, ta có thể hiểu một cách sơ lƣợc
rằng khai phá dữ liệu là q trình tìm kiếm thơng tin hữu ích, tiềm ẩn và


3

mang tính dự báo trong các cơ sở dữ liệu lớn. Việc khai phá dữ liệu nhằm các
mục đích chính nhƣ sau:

- Khai thác những thơng tin tiềm ẩn mang tính dự đốn từ những cơ sở dữ
liệu lớn dựa trên các công cụ khai phá dữ liệu nhằm dự đoán những xu hƣớng
trong tƣơng lai nhằm giúp các đối tƣợng cần tri thức khai phá nhƣ: các tổ chức,
doanh nghiệp, nhà nghiên cứu,.... để hỗ trợ việc đƣa ra những quyết định kịp
thời, đƣợc định hƣớng trên những tri thức đƣợc khám phá mang lại;

- Thực hiện phân tích xử lý, tính tốn dữ liệu một cách tự động cho mỗi quá
trình xử lý dữ liệu để tìm ra tri thức.
1.1.3. Quá trình khai phá dữ liệu

KPDL là một giai đoạn quan trọng trong q trình KPTT. Về bản chất, nó
là giai đoạn duy nhất tìm ra đƣợc thơng tin mới, thơng tin tiềm ẩn có trong CSDL
chủ yếu phục vụ cho mơ tả và dự đốn. Dự đốn là thực hiện việc suy luận trên
dữ liệu để đƣa ra các dự báo nhằm phân tích tập dữ liệu huấn luyện và tạo ra một
mơ hình cho phép dự đốn các mẫu, mơ hình mới chƣa biết. Mơ tả dữ là tổng kết
hoặc diễn tả những đặc điểm chung của những thuộc tính dữ liệu trong kho dữ
liệu mà con ngƣời có thể hiểu đƣợc. Q trình KPDL bao gồm các bƣớc nhƣ
trong hình sau:

Quá trình KPDL bao gồm các bƣớc nhƣ trong hình sau:

Thống kê tóm tắt

Xác định Xác Thu Thuật

nhiệm định thập toán
vụ DL liên và tiền KPDL
quan xử lý

Mẫu

DL trực tiếp

Hình 1: Quá trình khai phá dữ liệu

4

Xác định nhiệm vụ: Xác định chính xác các vấn đề cần giải quyết.
Xác định các dữ liệu liên quan: Dùng để xây dựng giải pháp.
Thu thập và tiền xử lý dữ liệu: Thu thập các dữ liệu liên quan và tiền xử lý
chúng sao cho thuật tốn KPDL có thể hiểu đƣợc. Đây là một q trình rất khó
khăn, có thể gặp phải rất nhiều các vƣớng mắc nhƣ: dữ liệu phải đƣợc sao ra
nhiều bản (nếu đƣợc chiết xuất vào các tệp), quản lý tập các dữ liệu, phải lặp đi
lặp lại nhiều lần tồn bộ q trình (nếu mơ hình dữ liệu thay đổi), v.v…
Thuật toán khai phá dữ liệu: Lựa chọn thuật tốn KPDL và thực hiện việc
KPDL để tìm đƣợc các mẫu có ý nghĩa, các mẫu này đƣợc biểu diễn dƣới dạng
luật kết hợp, cây quyết định... tƣơng ứng với ý nghĩa của nó.
1.1.4. Ứng dụng của khai phá dữ liệu
Các kỹ thuật KDD có thể đƣợc áp dụng vào trong nhiều lĩnh vực, điển hình:
 Thơng tin thƣơng mại:

 Phân tích dữ liệu tiếp thị và bán hàng và thị trƣờng;
 Phân tích vốn đầu tƣ;
 Quyết định cho vay vốn;
 Phát hiện gian lận; v.v..

 Thông tin sản xuất:
 Điều khiển và lập lịch;
 Hệ thống quản lý;
 Quản trị mạng;
 Phân tích kết quả thí nghiệm; v.v..
 Thông tin khoa học:
 Dự báo thời tiết;
 CSDL sinh học;
 Khoa học địa lý: tìm động đất; v.v..
 Thông tin cá nhân, v.v..


5

1.2. Một số phƣơng pháp khai phá dữ liệu hiện đại
1.2.1. Phân lớp và dự đoán

Hƣớng tiếp cận này làm nhiệm vụ đƣa ra các dự đoán dựa vào các suy diễn
trên dữ liệu hiện thời. Kỹ thuật này gồm có: phân lớp (classification), hồi
quy (regression)... Là quá trình xếp một đối tƣợng vào một trong những lớp
đã biết trƣớc (ví dụ: phân lớp các bệnh nhân theo dữ liệu hồ sơ bệnh án, phân
lớp vùng địa lý theo dữ liệu thời tiết...). Đối với hƣớng tiếp cận này thƣờng sử
dụng một số kỹ thuật của học máy nhƣ cây quyết định (decision tree), mạng nơ-
ron nhân tạo (neural network),...
1.2.2. Phân lớp dữ liệu và hồi quy

Mục tiêu của phƣơng pháp phân lớp dữ liệu là dự đoán nhãn lớp cho các
mẫu dữ liệu. Quá trình phân lớp dữ liệu thƣờng gồm 2 bƣớc: xây dựng mơ hình
và sử dụng mơ hình:


- Bƣớc 1: một mơ hình sẽ đƣợc xây dựng dựa trên việc phân tích các mẫu
dữ liệu sẵn có. Mỗi mẫu tƣơng ứng với một lớp, đƣợc quyết định bởi một thuộc
tính gọi là thuộc tính lớp. Các mẫu dữ liệu này còn đƣợc gọi là tập dữ liệu huấn
luyện (training data set). Các nhãn lớp của tập dữ liệu huấn luyện đều phải đƣợc
xác định trƣớc khi xây dựng mơ hình, vì vậy phƣơng pháp này cịn đƣợc gọi là
học có thầy (supervised learning) khác với phân cụm dữ liệu là học khơng có
thầy (unsupervised learning).

- Bƣớc 2: sử dụng mơ hình để phân lớp dữ liệu. Trƣớc hết phải tính độ
chính xác của mơ hình. Nếu độ chính xác là chấp nhận đƣợc, mơ hình sẽ đƣợc sử
dụng để dự đốn nhãn lớp cho các mẫu dữ liệu khác trong tƣơng lai. Phƣơng
pháp hồi qui khác với phân lớp dữ liệu ở chỗ, hồi qui dùng để dự đoán về các giá
trị liên tục cịn phân lớp dữ liệu thì chỉ dùng để dự đoán về các giá trị rời rạc.
1.2.3. Phân cụm dữ liệu

Mục tiêu của phƣơng pháp phân cụm dữ liệu là quá trình nhóm các điểm dữ
liệu trong cơ sở dữ liệu thành các cụm sao cho những điểm dữ liệu trong cùng
một cụm có độ tƣơng đồng lớn và những điểm khơng cùng một cụm có sự tƣơng
đồng là rất nhỏ. Điểm mạnh của phân cụm dữ liệu là đƣa ra đƣợc những cấu trúc

6

có ích hoặc những cụm các đối tƣợng tìm thấy trực tiếp từ dữ liệu mà khơng cần
bất kì một tri thức cơ sở nào. Giống nhƣ cách tiếp cận học máy, phân cụm dữ liệu
đƣợc hiểu nhƣ là phƣơng pháp “học khơng có thầy”(unsupervised learning).
Khơng giống nhƣ phân lớp dữ liệu, phân cụm dữ liệu khơng địi hỏi phải định
nghĩa trƣớc các mẫu dữ liệu huấn luyện. Vì thế, có thể coi phân cụm dữ liệu là
một cách học bằng quan sát (learning by observation), trong khi phân lớp dữ liệu
là học bằng ví dụ (learning by example). Trong phƣơng pháp này sẽ không thể
biết kết quả các cụm thu đƣợc sẽ nhƣ thế nào khi bắt đầu quá trình. Vì vậy, cần

có một chun gia để đánh giá các cụm thu đƣợc. Phân cụm dữ liệu đƣợc sử
dụng nhiều trong các ứng dụng về phân đoạn thị trƣờng, phân đoạn khách hàng,
nhận dạng mẫu, phân loại trang Web... Ngồi ra, phân cụm dữ liệu cịn có thể
đƣợc sử dụng nhƣ một bƣớc tiền xử lí cho các thuật toán khai phá dữ liệu khác.
1.2.4. Khai phá dữ liệu sử dụng mạng Neural

Mạng Neural là một phƣơng pháp khai phá dữ liệu phát triển dựa trên cấu
trúc toán học với khả năng học trên mơ hình hệ thần kinh con ngƣời.

Mạng Neural có thể đƣa ra ý nghĩa các dữ liệu phức tạp hoặc khơng chính
xác và có thể đƣợc sử dụng để chiết xuất các mẫu và phát hiện xu hƣớng quá
phức tạp mà con ngƣời cũng nhƣ các kỹ thuật máy tính khác khơng thể phát hiện
đƣợc.

Một trong những ƣu điểm của mạng Neural là khả năng tạo ra các mơ hình
dự đốn do độ chính xác cao, có thể áp dụng cho nhiều các bài toán khác nhau,
đáp ứng đƣợc các nhiệm vụ đặt ra của khai phá dữ liệu nhƣ: phân lớp, phân
nhóm, mơ hình hóa, dự báo…

Mẫu chiết suất bằng mạng Neural đƣợc thể hiện bằng một trong những nút
đầu của mạng. Mạng Neural sử dụng các hàm số chứ khơng sử dụng các hàm
biểu tƣợng để tính mức tích cực của các nút đầu ra và cập nhật các trọng số của
nó.

Đặc điểm của mạng Neural là không cần gia công dữ liệu nhiều, trƣớc khi
bắt đầu quá trình học nhƣ các kỹ thuật khác. Tuy nhiên, để có thể sử dụng mạng
Neural có hiệu quả cần phải xác định các yếu tố khi thiết kế mạng nhƣ:

7


- Mơ hình mạng là gì?
- Mạng cần bao nhiêu nút?
- Số lớp ẩn sử dụng cho mạng là nhƣ thế nào?
- Khi nào thì việc học dừng?
Ngồi ra cịn có nhiều bƣớc quan trọng cần phải làm để tiền xử lý dữ liệu
trƣớc khi đƣa vào mạng Neural để mạng có thể hiểu đƣợc.
Mạng Neural đƣợc đóng gói với những thơng tin trợ giúp của các chuyên
gia đáng tin cậy và đƣợc họ đảm bảo các mơ hình này làm việt tốt. Sau khi học,
mạng có thể đƣợc coi là một chuyên gia trong lĩnh vực thơng tin mà nó vừa đƣợc
học
1.2.5. Khai phá dữ liệu sử dụng thuật giải di truyền
Đây là phƣơng pháp không chỉ thực hiện phát hiện tri thức mà còn phục vụ
rất nhiều bài toán khác. Tƣ tƣởng của thuật toán là áp dụng quy luật của sự chọn
lọc tự nhiên. Ngƣời ta mô phỏng tập dữ liệu ban đầu bằng ký tự nhị phân và gọi
là những quần thể xuất phát. Bằng các thao tác lai ghép, đột biến nhằm biến đổi
quần thể gene ban đầu và loại đi một số gene, làm cho số lƣợng gene trong quần
thể là không thay đổi. Một hàm thích nghi đƣợc xây dựng để xác định mức độ
thích nghi ngày càng cao. Về mặt lý thuyết giải thuật di truyền cho lời giải tối ƣu
toàn cục (khác với phƣơng pháp mạng Neural). Tuy nhiên, ngƣời ta cũng hạn chế
lời giải với một mức độ thích nghi nào đó để hạn chế số lƣợng các bƣớc xây
dựng quần thể.
Nói theo nghĩa rộng, giải thuật di truyền mô phỏng lại hệ thống tiến hố
trong tự nhiên, chính xác hơn là giải thuật chỉ ra tập các cá thể đƣợc hình thành,
đƣợc ƣớc lƣợng và biến đổi nhƣ thế nào. Ví dụ nhƣ xác định xem làm thế nào để
lựa chọn các cá thể tạo giống và lựa chọn các cá thể nào để loại bỏ.
Giải thuật di truyền là một giải thuật tối ƣu hoá, đƣợc sử dụng rất rộng rãi
trong việc tối ƣu hố các kỹ thuật khai phá dữ liệu trong đó có kỹ thuật mạng
Neural. Sự kết hợp của nó với các giải thuật khai phá dữ liệu ở chỗ tối ƣu hóa là
cần thiết để xác định
các giá trị tham số nào tạo ra các luật tốt nhất.


8

1.3. Một số phƣơng pháp khai phá dữ liệu thông dụng
1.3.1. Khai phá dữ liệu sử dụng cây quyết định

Phân lớp khai phá dữ liệu luật là cách tiếp cận quan trọng trong quá trình
khai phá dữ liệu, với mục tiêu nhằm tạo ra một tập luật tƣơng đối nhỏ có độ đúng
đắn cao từ cơ sở dữ liệu lớn. Cây quyết định đƣợc coi là phƣơng pháp tiếp cận
truyền thống cho phép phân lớp luật. Cây quyết định đƣa ra cách tiếp cận
heuristic nhằm tìm kiếm các thuộc tính tốt nhất và dẫn đến kết quả cao nhất. Tuy
nhiên, cây quyết định có một số hạn chế khi triển khai lựa chọn thuộc tính khi
xây dựng cây.

Hạn chế của cây quyết định là các trƣờng hợp phân rã và tái tạo, vấn đề khi
phân rã là khi cây quyết định cần phân chia dữ liệu nhiều lần để có thể nhận biết
đƣợc tồn bộ dữ liệu mẫu. Vấn đề khi tái tạo là một cây con cần đƣợc xây dựng
lại nhiều lần làm cho cây quyết định có độ sâu quá lớn và khó hiểu.

Cây quyết định là một mô tả tri thức dạng đơn giản nhằm phân các đối
tƣợng dữ liệu thành một số lớp nhất định. Các nút của cây đƣợc gán nhãn là tên
của các thuộc tính, các cạnh đƣợc gán các giá trị có thể của các thuộc tính, các lá
mơ tả các lớp khác nhau. Các đối tƣợng đƣợc phân lớp theo các đƣờng đi trên
cây, qua các cạnh tƣơng ứng với giá trị của thuộc tính của đối tƣợng tới lá.

Quá trình xây dựng cây quyết định là quá trình phát hiện ra các luật phân
chia dữ liệu đã cho thành các lớp đã đƣợc định nghĩa. Trong thực tế, tập các cây
quyết định có thể có đối với bài tốn này rất lớn và rất khó có thể duyệt hết một
cách tƣờng tận.


Có nhiều phƣơng pháp xây dựng cây quyết định khi khai phá dữ liệu, đó là
các phƣơng pháp sử dụng các thuật toán CLS, ID3, C4.5,... và một phƣơng pháp
tƣơng đối tiên tiến hiện nay và đang là tâm điểm đƣợc nghiên cứu là phƣơng
pháp xây dựng cây quyết định dựa trên phụ thuộc hàm.…
1.3.2. Luật kết hợp

Có rất nhiều kiểu luật có thể đƣợc phát hiện từ cơ sở dữ liệu nói chung. Ví
dụ nhƣ luật đặc trƣng, luật biệt số, luật kết hợp, luật về sự lệch hƣớng và sự phát
triển.

9

Phƣơng pháp phát hiện luật kết hợp không gian cũng là một phƣơng pháp
quan trọng trong khám phá tri thức. Phƣơng pháp phát hiện luật kết hợp đƣa ra
những luật về sự kết hợp giữa một hoặc nhiều thuộc tính đối với một hoặc nhiều
thuộc tính khác. Hƣớng tiếp cận này đƣợc ứng dụng nhiều trong lĩnh vực kinh
doanh, y học, tin sinh học, giáo dục, viễn thơng, tài chính và thị trƣờng chứng
khốn,...

Khái niệm về luật kết hợp đƣợc phát biểu diễn nhƣ sau: một luật có dạng X
 Y (c%) với X và Y là tập các thuộc tính với độ tin cậy là c% đƣợc coi là luật
kết hợp nếu có ít nhất c% đối tƣợng trong cơ sở dữ liệu đang xét thoả mãn: nếu
điều kiện X đƣợc thoả mãn thì điều kiện Y cũng thoả mãn.

Ví dụ, luật sau là luật kết hợp: is_a(x, school)  close (x, park) (80%).
Luật trên thể hiện là: 80% trƣờng học gần với công viên.

Nhƣ vậy, có rất nhiều kiểu thuộc tính có thể tạo thành những luật kết hợp.
Điều này khiến cho trong nhiều trƣờng hợp số luật kết hợp tìm đƣợc vƣợt quá
nhu cầu. Để hạn chế số luật kết hợp tìm đƣợc, ngƣời ta sử dụng khái niệm hỗ trợ

tối thiểu α (minimum support) và độ tin cậy tối thiểu δ (minimum confidence).
Hai tham số sẽ giúp loại bớt các luật tìm thấy và chỉ để lại những luật thực sự có
ích cho ngƣời sử dụng:

a. Hỗ trợ tối thiểu
Trong cơ sở dữ liệu lớn, có thể có rất nhiều luật giữa các đối tƣợng nhƣng

phần lớn các luật đó chỉ có thể áp dụng vào một số nhỏ các đối tƣợng hoặc độ tin
cậy của luật là rất thấp. Chính vì thế mà phần lớn các luật khơng có ích với ngƣời
sử dụng. Ví dụ, ngƣời sử dụng có thể khơng quan tâm nhiều tới mối quan hệ giữa
nhà ở và trƣờng học nếu luật đó chỉ áp dụng cho 5% số nhà ở trong khi ngƣời ta
muốn ít nhất luật đó cũng phải đƣợc áp dụng cho trên 50% các ngơi nhà. Do đó
chúng ta có thể lọc bỏ những luật kết hợp mà chỉ có thể áp dụng cho α% đối
tƣợng trong cơ sở dữ liệu.

b. Độ tin cậy tối thiểu
Nếu một luật đƣợc đƣa ra với mức độ tin cậy (độ tin cậy là tỉ lệ số đối

tƣợng dữ liệu thoả mãn X và thoả mãn Y so với tổng số các đối tƣợng thoả mãn

10

X) thấp thì cũng khơng có ý nghĩa ứng dụng. Ví dụ nhƣ luật: số ngƣời bị bệnh
tim do ăn cá biển chỉ đúng 1% thì gần nhƣ khơng có ý nghĩa trong y học khi
chuẩn đoán nguyên nhân bị bệnh tim của một bệnh nhân. Do đó, chúng ta sẽ loại
bỏ những luật có độ tin cậy thấp mà chỉ giữ lại luật có độ tin cậy cao tỷ lệ đúng
tối thiểu δ%.
1.3.3. Phân tích chuỗi theo thời gian

Cũng tƣơng tự nhƣ khai phá dữ liệu bằng luật kết hợp nhƣng có thêm tính

thứ tự và tính thời gian. Một luật mơ tả mẫu tuần tự có dạng tiêu biểu X -> Y,
phản ánh sự xuất hiện của biến cố X sẽ dẫn đến việc xuất hiện biến cố Y. Hƣớng
tiếp cận này đƣợc ứng dụng nhiều trong lĩnh vực tài chính và thị trƣờng chứng
khốn bởi chúng có tính dự báo cao.
1.4. Ứng dụng khai phá dữ liệu trong lĩnh vực khách hàng

Sau đây là một số lĩnh vực mà KPDL đang được ứng dụng rộng rãi:
Y học và chăm sóc sức khỏe: Chuẩn đốn bệnh trong y tế dựa trên kết quả
xét nghiệm...
Tài chính và thị trƣờng chứng khốn: Áp dụng vào phân tích các thẻ tín
dụng tiêu biểu của khách hàng, phân đoạn tài khoản nhận đƣợc, phân tích đầu tƣ
tài chính cũng nhƣ chứng khoản, giấy chứng nhận và các quỹ tình thƣơng, đánh
giá tài chính, phát hiện kẻ gian... Dự báo giá của các loại cổ phiếu trong thị
trƣờng chứng khoán...
Bảo hiểm: Áp dụng vào việc phân tích mức độ rủi ro xảy ra đối với từng
loại hàng hóa, dich vụ hay chiến lƣợc tìm kiếm khách hàng mua bảo hiểm...
Quá trình sản xuất: Các ứng dụng giải quyết sự tối ƣu của các nguồn tài
nguyên nhƣ máy móc, nhân sự và nguyên vật liệu, thiết kế tối ƣu trong q trình
sản xuất, bố trí phân xƣởng và thiết kế sản phẩm, chẳng hạn nhƣ quá trình tự
động dựa vào yêu cầu khách hàng...
Thiên văn học: Quan sát chú trọng tới việc thu thập và phân tích dữ liệu,
sử dụng các nguyên tắc cơ bản của vật lý. Thiên văn học lý thuyết định hƣớng
theo sự phát triển các mơ hình máy tính hay mơ hình phân tích để miêu tả các vật
thể và hiện tƣợng thiên văn. Hai lĩnh vực bổ sung lẫn nhau, thiên văn học lý

11

thuyết tìm cách giải thích các kết quả quan sát, và việc quan sát lại thƣờng đƣợc
dùng đề xác nhận các kết quả lý thuyết.


Viễn thơng
Máy tìm kiếm
Quảng cáo: Phân tích, trích chọn những đặc trƣng

12

CHƢƠNG 2
HỒI QUI TUYẾN TÍNH
2.1. Mơ hình hồi quy
2.1.2. Khái niệm về hồi quy

Hình 2: Mơ hình hồi quy
Phân tích hồi qui là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc)
vào một hay nhiều biến khác (biến độc lập), nhằm mục đích ƣớc lƣợng (hay dự
đốn) giá trị trung bình của biến phụ thuộc trên cơ sở các giá trị biết trƣớc của
các biến độc lập.
2.1.2. Phân tích hồi quy giải quyết vấn đề
 Ƣớc lƣợng giá trị trung bình của biến phụ thuộc với giá trị đã cho của biến

độc lập.
 Kiểm định giả thiết về bản chất của sự phụ thuộc.
 Dự đốn giá trị trung bình của biến phụ thuộc khi biết giá trị của các biến

độc lập.
 Kết hợp các vấn đề trên.
2.1.3. Ví dụ

- Nhà nơng học có thể quan tâm tới việc nghiên cứu sự phụ thuộc của sản
lƣợng lúa vào nhiệt độ, lƣợng mƣa, nắng hay phân bón,…


- Công ty bất động sản rất quan tâm đến việc liên hệ giữa giá bán của một
căn nhà với các đặc trƣng của nó nhƣ kích thƣớc, diện tích sử dụng, số phịng
ngủ và phịng tắm, các loại thiết bị gia dụng,…

13

2.2. Giới thiệu về hồi qui tuyến tính
2.2.1. Khái niệm

Hồi quy tuyến tính là một phƣơng pháp phân tích quan hệ giữa biến phụ
thuộc Y với một hay nhiều biến độc lập X. Mơ hình hóa sử dụng hàm tuyến tính
(bậc 1). Các tham số của mơ hình (hay hàm số) đƣợc ƣớc lƣợng từ dữ liệu.
Hồi quy tuyến tính đƣợc sử dụng rộng rãi trong thực tế do tính chất đơn giản hóa
của hồi quy.

Đối với mơ hình hồi quy tuyến tính, mơ hình hóa sử dụng là dạng bậc nhất.
Có nghĩa là chúng ta cần tính tốn các hệ số Wi trong một biểu thức bậc nhất nhƣ
sau:

Y=W0+W1.X1+W2.W2+…. +Wn.Wn
Tức là trên đồ thị chúng ta đi tìm một đƣờng thẳng (nếu trƣờng hợp có 1 biến
độc lập) hoặc một siêu phẳng (với trƣờng hợp nhiều biến độc lập) đi qua tập hợp
các điểm trong không gian thuộc tính mà thể hiện gần đúng nhất sự phân bố của
tập dữ liệu. Trên phƣơng diện tính tốn, chúng ta đi tìm các hệ số Wi nhƣ trên
sao cho lỗi hồi quy đạt đƣợc là nhỏ nhất.
2.1.2. Bài toán Hồi Quy (Regression)
Hồi Quy (regression) là một phƣơng pháp học có giám sát (supervised
learning) trong máy học. Mục tiêu chính là tìm ra mối quan hệ giữa các đặc trƣng
của một vấn đề nào đó. Cụ thể hơn, từ một tập dữ liệu cho trƣớc, ta xây dựng một
mơ hình (phƣơng trình, đồ thị, …) khớp nhất với tập dữ liệu, thể hiện đƣợc xu

hƣớng biến thiên và mối quan hệ giữa các đặc trƣng. Khi có một mẫu dữ liệu mới
vào, dựa vào mơ hình, chúng ta có thể dự đốn giá trị của mẫu dữ liệu đó. Lấy ví
dụ nhƣ chúng ta cần dự đốn điểm trung bình cuối kỳ dựa vào số ngày đi
học và điểm giữa kỳ của học sinh. Nhƣ vậy chúng ta cần tìm mối quan hệ
giữa điểm cuối kỳ phụ thuộc vào số ngày đi học và điểm giữa kỳ. Dựa vào tập dữ
liệu (giả sử thu thập điểm cuối kỳ, số ngày học và điểm giữa kỳ của 100 học
sinh), ta xây dựng một phƣơng trình y = θ0 + θ1x1 + θ2x2 trong đó y là điểm
cuối kỳ phụ thuộc x1 (số ngày học) và x2 (điểm giữa kỳ).

14


×