Tải bản đầy đủ (.pdf) (97 trang)

Nghiên cứu phương pháp phân tích hồi quy ứng dụng trong phân tích dữ liệu kê khai nộp thuế phục vụ thanh tra

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.67 MB, 97 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
--------------- o0o ---------------

VŨ THỊ LAN ANH

NGHIÊN CỨU PHƯƠNG PHÁP PHÂN TÍCH HỒI QUY
ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU KÊ KHAI NỘP
THUẾ PHỤC VỤ THANH TRA

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN - 2016

Số hóa bởi Trung tâm Học liệu – ĐHTN




ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
--------------- o0o ---------------

VŨ THỊ LAN ANH

NGHIÊN CỨU PHƯƠNG PHÁP PHÂN TÍCH HỒI QUY
ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU KÊ KHAI NỘP
THUẾ PHỤC VỤ THANH TRA

Chuyên ngành: Khoa học máy tính
Mã số: 60480101



LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học
GS.TS.Vũ Đức Thi

Số hóa bởi Trung tâm Học liệu – ĐHTN




THÁI NGUYÊN - 2016

Số hóa bởi Trung tâm Học liệu – ĐHTN




LỜI CẢM ƠN
Trong thời gian hai năm của chương trình đào tạo thạc sỹ, trong đó gần một nửa thời
gian dành cho các môn học, thời gian còn lại dành cho việc lựa chọn đề tài, giáo viên hướng
dẫn, tập trung vào nghiên cứu, viết, chỉnh sửa và hoàn thiện đề tài. Với quỹ thời gian như vậy
và với vị trí công việc đang phải đảm nhận, không riêng bản thân em mà hầu hết các sinh
viên cao học muốn hoàn thành tốt luận văn của mình trước hết đều phải có sự sắp xếp thời
gian hợp lý, có sự tập trung học tập và nghiên cứu với tinh thần nghiêm túc, nỗ lực hết mình;
tiếp đến cần có sự ủng hộ về tinh thần, sự giúp đỡ về chuyên môn một trong những điều kiện
không thể thiếu quyết định đến việc thành công của đề tài.
Để hoàn thành được đề tài này trước tiên em xin gửi lời cảm ơn đến thầy giáo
hướng dẫn GS.TS Vũ Đức Thi, thầy đã có những định hướng cho em về nội dung và
hướng phát triển, đã có những đóng góp quý báu cho em về những vấn đề chuyên môn

của đề tài, giúp em tháo gỡ kịp thời những vướng mắc trong quá trình làm luận văn.
Em xin gửi lời cảm ơn tới Tập thể cán bộ nghiên cứu nhóm thực hiện đề tài do
TS Nguyễn Long Giang Viện Công nghệ Thông tin, Viện Hàn lâm Khoa học và Công
nghệ Việt Nam làm chủ nhiệm đã cung cấp đầy đủ các số liệu thu được từ Chi cục thuế
Hà Nội hỗ trợ và giúp đỡ Em tiến hành các thử nghiệm thành công.
Em cũng xin cám ơn các thầy cô giáo Trường Đại học Công nghệ thông tin và
Truyền thông Thái Nguyên, cũng như bạn bè cùng lớp đã có những ý kiến đóng góp bổ
sung cho đề tài luận văn của em. Xin cảm ơn gia đình, người thân cũng như đồng nghiệp
luôn quan tâm, ủng hộ hỗ trợ về mặt tinh thần trong suốt thời gian từ khi nhận đề tài đến
khi hoàn thiện đề tài này.
Trong nội dung của luận văn chắc chắn còn nhiều thiếu sót. Em rất mong các
Thầy cô cùng bạn bè đó góp để bản luận văn của Em được hoàn thiện hơn.
Em xin trân trọng cảm ơn.
Thái Nguyên, ngày 20 tháng 08 năm 2016
Sinh viên
Vũ Thị Lan Anh

i
Số hóa bởi Trung tâm Học liệu – ĐHTN




LỜI CAM ĐOAN
Em xin cam đoan đây là công trình nghiên cứu của riêng em.
Các số liệu, trong luận văn được sử dụng từ nguồn số liệu được cung cấp bởi
chi cục thuế Hà Nội thực hiện năm 2014. Kết quả nghiên cứu này chưa được sử
dụng trong bất kể nghiên cứu nào khác.
Thái Nguyên, ngày 20 tháng 8 năm 2016
TÁC GIẢ


Vũ Thị Lan Anh

ii
Số hóa bởi Trung tâm Học liệu – ĐHTN




MỤC LỤC
MỞ ĐẦU
..................................................................................................................... 1
Chương 1.
Tổng quan hồi quy, bài toán tính điểm rủi ro thuế ...................................... 3
1.1.
Kiến thức cơ bản về phân tích hồi quy ............................................................. 3
1.1.1 Khái niệm cơ bản về hàm nội suy ................................................................. 3
1.1.2 Bài toán hồi quy ............................................................................................ 8
1.2.
Phát biểu bài toán phân tích điểm rủi ro ......................................................... 13
1.2.1 Mục tiêu của bài toán .................................................................................. 13
1.2.2 Yêu cầu của bài toán phân tích tính điểm rủi ro ......................................... 13
Chương 2.
Mô hình hồi quy tuyến tính........................................................................ 16
2.1.
Mô hình hồi quy tuyến tính đơn ..................................................................... 16
2.1.1 Vấn đề mô hình hồi quy ............................................................................... 16
2.1.2 Ước lượng hệ số hồi quy ............................................................................. 18
2.1.3 Tính chất của ước lượng của các hệ số hồi quy .......................................... 19
2.1.4 Kiểm định giả thuyết ................................................................................... 20

2.1.5 Khoảng tin cậy ............................................................................................ 23
2.1.6 Tính phù hợp của mô hình........................................................................... 27
2.1.7 Tuyến tính hóa một số mô hình ................................................................... 31
2.2.
Mô hình hồi quy tuyến tính bội ...................................................................... 32
2.2.1 Phương trình hồi quy .................................................................................. 32
2.2.2 Ước lượng hệ số hồi quy và tính chất của ước lượng ................................. 34
2.2.3 Kiểm định giả thuyết ................................................................................... 35
2.2.4 Ước lượng và dự đoán ................................................................................ 37
2.2.5 Phân tích phần dư ....................................................................................... 38
2.2.6 Sử dụng phần mềm ...................................................................................... 38
2.2.7 Lựa chọn biến và xây dựng mô hình ........................................................... 41
2.3.
Phân tích hồi quy logistic................................................................................ 49
2.3.1 Mô hình hồi quy logistic ............................................................................. 49
2.3.2 Phân tích hồi quy logistic đa thức ............................................................... 51
Chương 3.
Bài toán tính điểm rủi ro của doanh nghiệp phục vụ thanh tra, kiểm tra thuế
53
3.1.
Tính cấp thiết xây dựng hệ thống tính điểm rủi ro của doanh nghiệp phục vụ
thanh tra, kiểm tra thuế ................................................................................................. 53
3.2.
Bài toán tính điểm rủi ro của doanh nghiệp .................................................... 54
3.3.

Các bước xây dựng mô hình giải quyết bài toán ............................................ 56

iii
Số hóa bởi Trung tâm Học liệu – ĐHTN





3.3.1 Xây dựng mô hình hồi quy tuyến tính bội ................................................... 57
3.3.2 Mô hình tổng thể bài toán tính điểm rủi ro cho doanh nghiệp ................... 59
3.3.3 Thực thi mô hình để tính điểm rủi ro cho doanh nghiệp ............................. 60
3.3.4 Tiền xử lý dữ liệu......................................................................................... 61
3.4.
Thử nghiệm và đánh giá kết quả ..................................................................... 63
3.4.1 Mục tiêu thử nghiệm.................................................................................... 63
3.4.2 Công cụ thử nghiệm và môi trường thử nghiệm ......................................... 63
3.4.3 Quy trình thử nghiệm .................................................................................. 64
DANH MỤC TÀI LIỆU THAM KHẢO .......................................................................... 70
PHỤ LỤC

................................................................................................................... 71

iv
Số hóa bởi Trung tâm Học liệu – ĐHTN




Danh mục hình vẽ
Hình 2.1. Đồ thị rải điểm, đường hồi quy cho số liệu độ sạch của oxy ................17
Hình 2.2. Độ lệch và các đường hồi quy lý thuyết, thực nghiệm .........................18
Hình 2.3. Khoảng tin cậy (2 đường Hyperbol giữa) và khoảng dự đoán (2 đường
hyperbol ngoài) cho mức tiêu thụ nhiên liệu ........................................................26
Hình 2.4. Độ lệch và các đường hồi quy lý thuyết, thực nghiệm .........................27

Hình 2.5. Dáng điệu phần dư ................................................................................28
Hình 2.6. Đồ thị phần dư chuẩn hóa cho số liệu độ kéo .......................................31
Hình 2.7. Miền biến thiên của các biến hồi quy ...................................................38
Hình 2.8. Đồ thị xác suất chuẩn và phần dư chuẩn hóa của số liệu lực kéo .........41
Hình 2.9. Phần dư chuẩn hóa theo quan sát của số liệu độ tan ............................. 48
Hình 2.10. Mối liên hệ giữa logit(p) và p, cho 1
v
Số hóa bởi Trung tâm Học liệu – ĐHTN




Danh mục bảng
Bảng 1.1. Độ sạch của oxy ứng với tỷ lệ phần trăm hydrocarbon ........................... 16
Bảng 2.1. Phân tích phương sai để kiểm định tính hiệu quả của hồi quy ................23
Bảng 2.2. Phân tích hệ số và phân tích phương sai cho Ví dụ 2.2........................... 30
Bảng 2.4. Số liệu cho mô hình hồi quy bội.............................................................. 32
Bảng 2.5. Kết quả xử lý với số liệu lực kéo dây dẫn ..............................................39
Bảng 2.6. Tóm tắt, phân tích phương sai và phân tích hệ số cho Ví dụ 2.3 ............40
Bảng 2.7. Số liệu độ tan ........................................................................................... 45
Bảng 2.8. Tóm tắt, phân tích phương sai và phân tích các hệ số cho mô hình đầy đủ
của số liệu độ tan ......................................................................................................47
Bảng 2.9. Tóm tắt, phân tích phương sai, phân tích hệ số của mô hình cuối cùng
theo phương pháp cân nhắc từng bước của số liệu độ tan .......................................48

vi
Số hóa bởi Trung tâm Học liệu – ĐHTN





MỞ ĐẦU
Dữ liệu thống kê rất đa dạng và phong phú, khai thác được dữ liệu này góp phần
đưa ra được những ý kiến tốt cho kết luận đối với hoạt động của các công ty, doanh
nghiệp. Dựa trên các phương pháp phân tích dữ liệu hồi quy trên cơ sở đề xuất phương
pháp hiệu quả.
Vấn đề gian lận trong thuế có ảnh hưởng lớn trong nguồn thu ngân sách của các
quốc gia. Dựa trên phân tích dữ liệu hồi quy phân tích rủi ro nhằm phát hiện các gian
lận của người nộp thuế và các doanh nghiệp tham gia đóng thuế để đưa ra quyết định
thanh tra trường hợp có biểu hiện gian lận thuế. Kết quả phân tích này nhằm phát hiện
trường hợp gian lận đem lại lợi ích tăng nguồn thu ngân sách, thúc đẩy sự phát triển kinh
tế, xã hội của đất nước. Phân tích rủi ro là một phương pháp quản lý khoa học và hiệu
quả để giải quyết bài toán quản lý thuế trong điều kiện số lượng người nộp thuế ngày
càng tăng lên nhanh chóng, mức độ quản lý ngày càng phức tạp do trình độ của người
nộp thuế ngày càng cao, các hoạt động kinh tế phát sinh ngày càng đa dạng và phong
phú dẫn đến khối lượng công việc của công tác quản lý thuế tăng lên vượt quá khả năng
tăng nguồn lực bị hạn chế nhất định của các cơ quan thuế.
Từ các nội dung được nêu trên tôi lựa chọn đề tài “Nghiên cứu phương pháp
phân tích hồi quy ứng dụng trong phân tích dữ liệu kê khai nộp thuế phục vụ thanh
tra” làm luận văn tốt nghiệp thạc sỹ của mình.
Nội dung chính của luận văn gồm 3 chương bao gồm
Chương 1: Luận văn trình bày cơ sở toán học trong việc xác định công thức hàm
nội suy và hàm hồi quy cùng các thuật toán tương ứng, đây là một lĩnh vực quan trong
của toán học đối với lớp các bài toán thực nghiệm nhằm xây dựng các công thức gần
đúng miêu tả mối ràng buộc giữa các số liệu xuất hiện trong các thí nghiệm tại các phòng
thí nghiệm. các kiến tức này là rất cần thiết làm cơ sở để nghiên cứu các nội dung trong
luận văn.

1

Số hóa bởi Trung tâm Học liệu – ĐHTN




Chương 2: Luận văn trình bày các kiến thức cơ bản về Mô hình hồi quy tuyến
tính, một trong những mô hình đã và đang được phát triển trong công nghệ thông tin
giải quyết các bài toán tối ưu hóa theo tư tưởng quần thể ngẫu nhiên. Mô hình hồi quy
bội chính là cơ sở để xây dựng thuật toán giải bài toán thực tế được đưa ra trong chương
3.
Chương 3: Nội dung chính của chương 3 trình bày mô hình bài toán tính điểm
rủi ro của doanh nghiệp phục vụ thanh tra kiểm tra thuế, một bài toán quan trọng
trong ngành thuế. Trên cơ sở mô hình bài toán, luận văn đã xây dựng phương tình tính
điểm rủi ro giải quyết bài toán, tiến hành thực nghiệm với số liệu được cung cấp của chi
cục thuế Hà Nội. Tiến hành đánh giá và kết luận về mối ràng buộc giữa các số liệu thực
nghiệm.

2
Số hóa bởi Trung tâm Học liệu – ĐHTN




Chương 1.

TỔNG QUAN HỒI QUY, BÀI TOÁN TÍNH ĐIỂM RỦI RO THUẾ

1.1. KIẾN THỨC CƠ BẢN VỀ PHÂN TÍCH HỒI QUY
1.1.1 Khái niệm cơ bản về hàm nội suy
Chúng ta xét một dạng bài toán xuất phát từ các số liệu thực nghiệm sau đây

Cho trước (n+1) cặp các giá trị thực nghiệm (x i , y i ), i = 0,1,..., n

x0

x1

x2

x3

x4

…..

xn

y0

y1

y2

y3

y4

…..

yn


Các giá trị (x i , y i ), i = 0,1,..., n được gọi là các mốc nội suy. Cần xác định một
hàm số 𝑓(𝑥) để sao cho thỏa mãn các điều kiện
𝑓(𝑥𝑖 ) = 𝑦𝑖

𝑖 = 0,1, … , 𝑛

Tức là đồ thị của hàm f (x ) cần đi qua tất cả các mốc nội suy.
Nế u hàm f (x ) tồ n ta ̣i thì hàm số đó đươ ̣c go ̣i là hàm hồi quy và bài toán xác đinh
̣
𝑓(𝑥) đươ ̣c go ̣i là bài toán nô ̣i suy.
Bài toán này rấ t có ý nghiã trong thực tế vì nế u xác định đươ ̣c hàm 𝑓(𝑥) thì ta có
thể xác đinh
̣ đươ ̣c mo ̣i giá tri cu
̣ ̉ a y ứng với mo ̣i 𝑥 = {𝑥0 , 𝑥𝑛 } - các giá tri đo
̣ ́ đươ ̣c go ̣i là
các giá tri ̣nô ̣i suy.
Trong toán ho ̣c, người ta thường xác đinh
̣ da ̣ng hàm 𝑓(𝑥) bởi mô ̣t trong các da ̣ng
công thức hàm số sau đây:
+ Đa thức đa ̣i số
+ Phân thức đa ̣i số
+ Đa thức lươ ̣ng giác
+ Hàm ghép trơn (Spline)
+ Hàm mũ
Sau đây chúng ta sẽ xét cơ sở toán học của các phương pháp xác định hàm hồi
quy trong từng trường hợp cụ thể
1.1.1.1.

Đa thức nội suy


Ta sẽ xác đinh
̣

3
Số hóa bởi Trung tâm Học liệu – ĐHTN




f (x ) = a 0x n + a1x n - 1 + ... + an

(1.1)

Xuất phát từ điều kiện hàm f (x ) cần phải đi qua tất cả các mốc nội suy, dễ thấy
rằng các hệ số ak , k = 0,1,..., n sẽ đươ ̣c xác đinh
̣ thông qua hệ phương trình đa ̣i số
tuyế n tiń h sau đây:
𝑎0 𝑥0𝑛 + 𝑎1 𝑥0𝑛−1 + ⋯ + 𝑎𝑛 = 𝑦0
𝑎0 𝑥1𝑛 + 𝑎1 𝑥1𝑛−1 + ⋯ + 𝑎𝑛 = 𝑦1
………
𝑛
𝑛−1
{𝑎0 𝑥𝑛 + 𝑎1 𝑥𝑛 + ⋯ + 𝑎𝑛 = 𝑦𝑛

(1.2)

Có thể thấy rằ ng định thức của hê ̣ đại số tuyến tính (1.2) thỏa mãn
1
1.
… .1

𝑥0
𝑥1 ..
. . 𝑥𝑛
| 2
2
2 |=0
𝑥
𝑥
..
.
.
𝑥
𝑛
0
1
|
|
…..
𝑥0𝑛
𝑥1𝑛 ..
. . 𝑥𝑛𝑛

(1.3)

Do đó hê ̣ phương triǹ h đa ̣i số trên có nghiê ̣m duy nhấ t, tức là đa thức nội suy
luôn luôn tồ n tại và duy nhấ t.
Nhâ ̣n xét:
Để xác đinh
̣ đa thức nô ̣i suy theo phương pháp đa ̣i số , ta cầ n phải giải hê ̣ phương
trin

̀ h đại số tuyến tiń h với (n+1) ẩ n ak , k = 0,1,..., n . Khi đó về mặt toán học, chúng ta
cần phải sử dụng các phương pháp giải các hệ phương trình đại số tuyến tính như phương
pháp Krame, phương pháp khử Gauss, … với đô ̣ phức ta ̣p tiń h toán rấ t cao. Điều này sẽ
bất lợi trong việc xác định đa thức nội suy với số mốc nôi suy là rất lớn.
Sau đây chúng ta sẽ tìm hiểu các phương pháp xác đinh
̣ đa thức nội suy tránh
đươ ̣c viê ̣c giải hê ̣ đại số tuyế n tính.
1.1.1.2.

Đa thức nội suy Lagrange

Đinh
̣ nghiã 1.1: Đa thức bâ ̣c n thỏa mañ tin
́ h chấ t
1, 𝑥 = 𝑥𝑘
𝐿𝑘 (𝑥) = {
0, 𝑥 ≠ 𝑥𝑘
Đươ ̣c gọi là nhân tử Lagrange
Dễ thấ y rằ ng

4
Số hóa bởi Trung tâm Học liệu – ĐHTN




Lk (n ) =

(x - x 0 )(x - x 1)...(x - x k - 1)(x - x k + 1)....(x - x n )
(x k - x 0 )(x k - x 1 )...(x k - x k - 1)(x k - x k + 1)....(x k - x n )


Hay 𝐿𝑘 (𝑥𝑖 ) = {

0 𝑘ℎ𝑖 𝑘 ≠ 𝑖
1 𝑘ℎ𝑖 𝑘 = 𝑖

, k = 0,1, 2,..., n
(1.4)

Khi đó ta thấy rằng

Pn ( x)  yo Lo ( x)  y1L1 ( x)  ....  yn Ln ( x)   yk Lk ( x)

(1.5)

Như vậy khác với phương pháp đại số, để xác định đa thức nội suy, ta chỉ cần
xác định các giá trị của nhân tử Lk ( x)k  0,1,..., n .
Xuất phát từ khái niệm về nhân tử Lagrange, chúng ta có thể xây dựng thuật toán
xác định đa thức nội suy theo phương pháp nhân tử như sau:
Thuật toán:
Input: (x k , y k ), k = 0,1,..., n ; giá trị mốc cần xác định

x.

Output: Giá trị đa thức Pn (x )
Pn = 0
For k = 0 to n do
Begin
+ Xác định nhân tử Lk (x )
+ Pn = Pn + y k Lk (x )

End;
Trong đó giá trị của nhân tử Lk (x ) được xác định bởi công thức (1.4).
Dễ thấy rằng đối với thuật toán trên thì độ phức tạp của thuật toán là O(n2)
Nếu kí hiệu f (x ) là hàm nghiệm đúng thì bằng cơ sở của toán học giải tích,
chúng ta có thể chứng minh rằng sai số của phép nội suy được đánh giá bằng công thức

f ( x)  Pn ( x) 

M
( x  xo )( x  x1 )....( x  x1 )
(n  1)!

Trong đó

5
Số hóa bởi Trung tâm Học liệu – ĐHTN




M  sup f ( n1) ( x)
xo  x  xn

(1.6)

Như vậy nếu với số mốc nội suy là lớn thì việc xấp xỉ bằng đa thức nội suy sẽ đạt
độ chính xác rất cao.
Ngoài phương pháp nhân tử lagrange, người ta có thể sử dụng các phương pháp
khác như phương pháp Newton để xác định đa thức nội suy trong trường hợp các mốc
nội suy là cách đều. Điều này sẽ giảm đáng kể khối lượng tính toán trong thuật toán

1.1.1.3.

Hàm ghép trơn (Spline)

Khi sử du ̣ng đa thức nô ̣i suy, khi số mới nô ̣i suy là lớn thì dẫn tới bâ ̣c của đa thức
là rấ t lớn, điề u này không thuâ ̣n tiê ̣n cho quá triǹ h tiń h toán và sai số có thể là tăng lên.
Để khắ c phu ̣c nhươ ̣c điể m này, người ta có thể sử du ̣ng phương pháp ghép các đa thức
bâ ̣c thấ p la ̣i với nhau để thu đươ ̣c mô ̣t đường cong trơn. Hàm trơn trên toàn đoa ̣n {𝑥0 , 𝑥𝑛 }
đươ ̣c go ̣i là hàm ghép trơn (Spline).
Sau đây chúng ta sẽ trình bày phương pháp hàm ghép trơn bằng việc sử du ̣ng các
đa thức bâ ̣c ba S3(x) để xây dựng hàm ghép trơn bâ ̣c 3
Xét đoa ̣n 𝐷𝑖 = {𝑥𝑖−1 , 𝑥𝑖 }, chúng ta xét các đa thức bậc 3 được biểu diễn dưới dạng

S i (x ) = ai + bi (x - x i - 1) + ci (x - x i - 1)2 + di (x - x i - 1)3

(1.7)

Trong đó các hệ số ai, bi, ci, di cần phải thỏa mãn các điều kiện sau đây:
+ Điều kiện ghép trơn tại các mốc nội suy

Si ( xi )  Si 1 ( xi )

(i  1,..., n  1)

Si' ( xi )  Si'1 ( xi )

(i  1,..., n  1)

Si'' ( xi )  Si''1 ( xi )


(i  1,..., n  1)

(1.8)

+ Điều kiện nội suy
Si(xi) = fi

(i = 0,…,n)

(1.9)

Xuất phát từ công thức (1.7) ta sẽ thu được

ai = fi - 1,(i = 1, 2,..., n )
6
Số hóa bởi Trung tâm Học liệu – ĐHTN




an  bnhn  cnhn2  dnhn3  f n

(1.10)

Trong đó kí hiệu hi = x i - x i - 1
Từ điều kiện liên tục, ta có
ai  bi hi  ci hi2  di hi3  ai 1

(i  1, 2,.., n  1)


(1.11)

Xuất phát từ điều kiện (1.8), ta thu được các hệ thức sau

bi  2ci hi  3di hi2  bi 1 (i  1,2,.., n  1)
ci hi  3di hi  ci 1 (i  1,2,.., n  1)

(1.12)

Như vậy các hệ thức (1.10) - (1.12) lập thành hệ 4n-2 phương trình với 4n ẩn số.
Để thêm vào 2 phương trình nữa, người ta đặt thêm điều kiện đạo hàm của S (x ) tại 2
mút biên x 0, x n .
Chẳng hạn xét điều kiện S”(x1) = S”(xn) = 0 được gọi là điều kiện biên tự nhiên,
khi đó ta có

c1 = 0, cn + 3dnhn = 0

(1.13)

Như vậy ta có đủ 4n phương trình để xác định 4n ẩn.
Do các hệ số ai đã được xác định bởi phương trình (1.10) nên ta chỉ cần xác định
các ẩn bi, ci, di qua hệ 3n phương trình. Qua các phép biến đổi ta có hệ sau đây:
𝑑𝑖 =
{
𝑏𝑖 =
{

𝑐𝑖+1 −𝑐𝑖
3ℎ𝑖
𝑓𝑖 −𝑓𝑖−1

ℎ𝑖

(𝑖 = 1,2, … , 𝑛)


ℎ𝑖
3

(1.14)

(𝑐𝑖+1 − 2𝑐𝑖 ) (𝑖 = 1,2, … , 𝑛)
𝑐1 = 𝑐𝑛+1 = 0
𝑓𝑖+1 −𝑓𝑖

ℎ𝑖 𝑐𝑖 + 2(ℎ𝑖 + ℎ𝑖+1 )𝑐𝑖+1 + ℎ𝑖+1 𝑐𝑖+2 = 3 [

ℎ𝑖+1



𝑓𝑖 −𝑓𝑖−1
ℎ𝑖

]

(1.15)

Hệ (1.15) là hệ phương trình với ma trận 3 đường chéo trội, do đó dễ dàng giải
được hệ bằng thuật toán truy đuổi với độ phức tạp tính toán là O(n). Sau khi giải được
các ẩn ci, qua (1.14) ta sẽ xác định được bi và di.

Đánh giá sai số: Nếu kí hiện f (x ) là hàm nghiệm đúng S (x ) là hàm ghép trơn
thì có thể chứng minh rằng sai số được đánh giá qua công thức

7
Số hóa bởi Trung tâm Học liệu – ĐHTN




5

|𝑓 (𝑥) − 𝑆(𝑥)| ≤ 𝑀ℎ3 trong đó 𝑀 = max |𝑓𝑥3 |
2

𝑥0 ≤𝑥≤𝑥𝑛

Nhận xét: Việc xác định hàm hồi quy bằng phương pháp hàm ghép trơn có ưu
điểm là việc tính toán được chuyển về việc giải hệ đại số bằng thuật toán truy đuổi 3
3

đường chéo. Tuy nhiên độ chính xác của phương pháp chỉ tương đương với O (h )
1.1.1.4.

Nội suy bằng hàm hữu tỉ
m

Ta xác định hàm  ( x) 

a x
k 0

n

k k

b x
k 0

với bn = 1

(1.16)

k k

Tại các điểm x i ,(i = 1, 2,..., n + m + 1) sao cho thỏa mãn hàm đi qua tất cả các
mốc nội suy, tức là

 ( xi )  f ( xi )i  1,2,..., n  m  1)
n 1

  ak xik  f ( xi ) bk xik  f ( xi ) xin ,(i  1,2,.., n  m  1)
k 0

(1.17)

Hệ phương trình đại số trên là hệ phương trình đối với các ẩn a0,a1, …,
am,b0,b1,…,bn-2. Như vậy, để xác định hàm nội suy hữu tỉ thì ta phải giải hệ phương trình
đại số tuyến tính với (n+m+1) ẩn.
1.1.2 Bài toán hồi quy
Đặt vấn đề:
Khi xét bài toán nội suy, ta đã giả thiết rằng mối quan hệ giữa đại lượng

𝑥 (𝑥0 , 𝑥1 , … , 𝑥𝑛 ) và 𝑦(𝑦0 , 𝑦1 , … , 𝑦𝑛 ) là tồn tại với quan hệ 𝑦 = 𝑓 (𝑥). Việc xác định đa
thức nội suy chẳng hạn Pn (x ) còn thỏa mãn điều kiện Pn ( xk )  f ( xk )k. Tuy nhiên
trong trường hợp khi 𝑥 và 𝑦 là các đại lượng ngẫu nhiên, chẳng hạn là các kết quả của
các phương pháp đo đạc trọng địa chất hay các số liệu quan trắc môi trường hoặc số liệu
của các thí nghiệm hóa sinh, mối quan hệ giữa

x và 𝑦 (Hay còn gọi là mối tương quan)

là chưa đánh giá được thì việc xác định đa thức nội suy là không thực tế và khó thực
hiện. Trong những trường hợp như vậy, người ta thường sử dụng phương pháp dự đoán

8
Số hóa bởi Trung tâm Học liệu – ĐHTN




tức là mong muốn xác định một hàm gần đúng với quy luật của các số liệu thực nghiệm
tức là giá trị của hàm cần đảm bảo lệch ít nhất so với các số liệu thực nghiệm, các hàm
như vậy được gọi là các hàm hồi quy.
Sau đây chúng ta đưa ra một số kết quả về mặt toán học thực nghiệm đối với lớp
các hàm hồi quy.
1.1.2.1.

Phương pháp bình phương cực tiểu

Giả sử chúng ta có
đối tượng ngẫu nhiên

n cặp các giá trị thực nghiệm (x i , y i ), i = 1, 2,..., n đối với các


x và 𝑦

x1

x2

x3

x4

…..

xn

y1

y2

y3

y4

…..

yn

Ta cần xác định mối tương quan giữa 2 đại lượng

x và 𝑦 theo công thức


y =F(x, a0, a1, … , am)
sao cho

F  xk , a 0 , a1, , a m   ykk  1,2,..., n
trong đó a0, a1, …, am là các tham số cần xác định.
Để xác định các tham số a0, a1, …, am, ta đưa ra điều kiện là tổng bình phương
độ lệch giữa giá trị thực nghiệm và giá trị hàm

F  x, a 0 , a1, , a m  tại các điểm

x k , k = 1, 2,..., n là nhỏ nhất, tức là:
n

(a 0 , a1, , a m )   F ( xk , a0 ,..., am )  yk  
 min
k 1

2

(1.18)

Để hàm F đạt cực trị thì theo lý thuyết về hàm số nhiều biến số, điều kiện cần là:

(a0 , a1,..., am )
 0k  0,1,.., m
ak

(1.19)


Hệ thức (1.19) chính là các hệ phương trình để giải ra các ẩn số a0 , a1 ,..., am

9
Số hóa bởi Trung tâm Học liệu – ĐHTN




F  x, a 0 , a1, , a m  , chúng ta sẽ thu được

Tùy thuộc vào công thức của hàm

các dạng hàm hồi quy khác nhau. Sau đây chúng ta sẽ nghiên cứu một số dạng hàm hồi
quy cụ thể.
1.1.2.2.

Hàm hồi quy tuyến tính

Chúng ta tìm hàm hồi quy dưới dạng tuyến tính bậc nhất

F (x ) = ax + b
Khi đó các hệ số a, b cần xác định từ điều kiện cực trị hàm số
2

n

(a, b)  ax k  b  yk  
 min
k 1


Điều kiện cần

 n
  2x k (ax k  b  yk )  0
a k 1
 n
  2(ax k  b  yk )  0
b k 1

Hay

n
n
 n 2
 a  x k  b  x k   x k yk
 k 1
k 1
k 1
 n
n
a x  nb  y

k
k
 
k 1
k 1

(1.20)


Hệ (1.20) là hệ phương trình với a,b. Giải hệ trên ta xác định được a và b
n

a

n

n

k 1
n

k 1

n  x k yk   x k  yk
k 1

n

n x 2k  ( x k ) 2
k 1

n

b

n x
k 1

k 1


n

2
k

n

n

 y  x y x
k 1
n

k

k 1
n

k

k

k 1

k

n x 2k  ( x k ) 2
k 1


k 1

10
Số hóa bởi Trung tâm Học liệu – ĐHTN

(1.21)




1.1.2.3.

Hàm hồi quy bậc 2

Chúng ta tìm hàm hồi quy dưới dạng tuyến tính bậc hai

F (x ) = ax 2 + bx + c
Khi đó các hệ số a, b, c cần xác định từ điều kiện cực trị hàm số
2

n

(a, b, c)   ax  bx k  c  yk  
 min
k 1

2
k

Điều kiện cần


 n
  2x 2k (axk2  bx k  c  yk )  0
a k 1
 n
  2x k (axk2  bx k  c  yk )  0
b k 1
 n
  2(axk2  bx k  c  yk )  0
c k 1
Hay
n
n
n
 n 4
3
2
2
a  xk b xk c  xk   xk yk
k 1
k 1
k 1
 k 1
n
n
n
n

3
2

a  xk b xk c  xk   xk yk
k 1
k 1
k 1
 k 1
n
n
n

2
a  xk   xk  nc   yk
k 1
k 1
 k 1

(1.22)

Hệ (1.22) chính là hệ phương trình đại số cho phép xác định ra các hệ số a, b, c.
Hoàn toàn tương tự, chúng ta có thể xác định được các hàm hồi quy bậc 3, bậc 4, bậc 5

1.1.2.4.

Các phương pháp đưa về dạng tuyến tính

1/ Dạng hàm mũ f  aebx , (c  0)
Lấy logarit 2 vế, ta có: ln F  ln a  bx
khi đó đặt Y  ln F ; A  ln a, B  b ta thu được Y  A  Bx
2/ Dạng hàm lũy thừa F  ax b

11

Số hóa bởi Trung tâm Học liệu – ĐHTN




Lấy logarit hai vế ta có: ln F  ln a  b ln x
Đặt Y  ln F , A  ln A, B  b, X  ln x
Ta thu được Y  A  Bx
Như vậy, bằng phép lấy logarit ta có thể đưa các dạng hàm mũ, hàm lũy thừa về
dạng hàm hồi quy tuyến tính
1.1.2.5.

Hồi quy nhiều chiều (hồi quy bội)

Đặt bài toán
y1 , y2 ,..., ym – biến phụ thuộc

Xét các biến ngẫu nhiên

x1 , x2 ,..., xn – biến độc lập

Giả sử qua thí nghiệm, ta thu được bảng số liệu sau đây:

y\ x

x1

x2

….


xn

y1

x 11

x 21

….

x n1

y2

x 12

x 22

….

x n2



….

….

….


….

ym

x 1m

x 2m

….

x nm

Ta cần xác định hàm hồi quy bội dạng:
Y = a0 + a1x1 + a2x2 + …. + anxn
Trong đó Y = (y1, y2, …, ym)T
Các hệ số a0 , a1 ,..., an cũng được xác định từ điều kiện bình phương cực tiểu
m

  yi  a0  a1x1i  a2 x2i  ...  an xni   min
2

i 1

2/ Một số dạng đưa về tuyến tính
a/ Hàm phi tuyến dạng tích

Y  bo x1b1 x2b2 ...xnbn
Logarit hóa 2 vế ta có


12
Số hóa bởi Trung tâm Học liệu – ĐHTN




ln Y  ln b0  b1 ln x1  b2 ln x2  ....  bn ln xn
 Y  B0  B1 X1  B2 X 2  ...  Bn X n
b/ Hàm dạng mũ

Y  aocb1x1 b2 x2 ...bn xn
Logarit 2 vế ta có

ln Y  ln a0  b1 x1  b2 x2  ....  bn xn
hay Y  A0  B1 X 1  B2 X 2  ...  Bn X n
Như vậy bằng lý thuyết các hàm hồi quy, qua các bộ số liệu thực nghiệm chúng
ta có thể xác định được mối quan hệ giữa các đại lượng ngẫu nhiên một cách gần đúng
thông qua các công thức của các hàm hồi quy khác nhau. Các công thức này sẽ làm công
cụ để đưa ra các quy luật tự nhiên thông qua các thí nghiệm. Việc xác định các công
thức hàm hồi quy có thể thực hiện được bằng phương pháp bình phương cực tiểu việc
tính toán có thể thực hiện được thông qua một số phần mềm.
1.2. PHÁT BIỂU BÀI TOÁN PHÂN TÍCH ĐIỂM RỦI RO
1.2.1 Mục tiêu của bài toán
Xuất phát từ nhu cầu thực tế Tổng cục Thuế để đánh giá xếp loại rủi ro doanh
nghiệp phục vụ công tác quản lý thuế của cơ quan thuế.
Tính điểm rủ ro doanh nghiệp hỗ trợ công tác lập kế hoạch thanh tra, kiểm tra.

-

Lựa chọn trường hợp thanh tra, kiểm tra dựa trên cơ sở điểm rủi ro đã tính.

1.2.2 Yêu cầu của bài toán phân tích tính điểm rủi ro
1.2.2.1.

Yêu cầu chung:

Việc triển khai thực hiện các công việc nhằm đáp ứng các công việc sau đây:
 Xử dụng bộ tiêu chí đánh giá xác định độ mức độ rủi ro đối với NNT do Tổng
cục thuế cung cấp.
 Thử nghiệm bộ tiêu chí với dữ liệu lịch sử 01 Cục Thuế.
 Xây dựng bài toán tính điểm rủi ro dựa trên bộ tiêu chí phân tích đánh giá rủi ro
nhằm hỗ trợ cơ quan thuế lập kế hoạch thanh tra, kiểm tra thuế.

13
Số hóa bởi Trung tâm Học liệu – ĐHTN




1.2.2.2.

Yêu cầu cụ thể

Tính điểm rủi ro của doanh nghiệp được tính với ngưỡng từ 0 đến 100. Điểm 0
là rủi ro thấp nhất và điểm 100 là rủi ro cao nhất.
a). Nguồn thông tin phân tích, đánh giá tính điểm rủi ro được dựa trên cơ sở dữ
liệu thông tin ngành thuế hiện có, cụ thể:
+ Thông tin đăng ký thuế
+ Thông tin từ các tờ khai thuế (GTGT, TNDN, TTĐB...)
+ Thông tin từ Báo cáo tài chính DN
+ Thông tin thu nộp NSNN

+ Thông tin về kết quả thanh tra, kiểm tra
+ Thông tin từ các quyết định của cơ quan thuế
+ Thông tin nợ thuế
+ Thông tin về tình hình thực hiện tuân thủ nghĩa vụ thuế của NNT.
b). Quy trình thực hiện việc phân loại, đánh giá rủi ro NNT:
Đầu ra

Đầu vào
(thuộc tính)
Các quy tắc nghiệp vụ
Lịch sử về tính tuân
thủ của NNT
Lịch sử về tính tuân
thủ của NNT
Các mẫu thử


hình
toán
học

Phương pháp tính toán



14
Số hóa bởi Trung tâm Học liệu – ĐHTN

Tính điểm rủi
ro NNT


Bộ
lọc

Lựa chọn các trường
hợp thanh, kiểm tra




Hình 1: Sơ đồ quy trình phân loại, đánh giá rủi ro NNT
Giải thích sơ đồ:
 Dữ liệu đầu vào bao gồm 16 chỉ tiêu các thông tin về người nộp thuế, lịch sử về
tính tuân thủ của NNT, các quy tắc đánh giá về nghiệp vụ,...
 Sau khi thực hiện qua các hàm tính toán tự động các dữ liệu đầu vào, kết quả đầu
ra là danh sách NNT được đánh trọng số tương ứng với NNT. Từ danh sách này
cơ quan thuế sẽ lựa chọn các trường hợp thanh tra, kiểm tra.
Kết luận
Nội dung chính của chương 1 luận văn trình bày cơ sở lý thuyết về bài toán nội
suy, các phương pháp xây dựng các hàm nội suy cơ bản như hàm nội suy Lagrange, nội
suy bằng hàm ghép trơn cũng như phân tích độ phức tạp tính toán trong việc xây dựng
các hàm nội suy. Luận văn cũng đưa ra khái niệm về hàm hồi quy thực nghiệm cũng
như cơ sở toán học của phương pháp bình phương cực tiểu trong việc xác định hàm hồi
quy. Đây là các kiến thức quan trọng làm cơ sở cho việc nghiên cứu các kết quả trong
chương 2 và chương 3 của luận văn.
Để tìm hiểu được mối liên quan giữa bài toán tính điểm rủi ro của ngành thuế
phục vụ công tác thanh tra, kiểm tra. Với dữ liệu ngành thuế cung cấp bài toán tính điểm
rủi ro của ngành thuế với 16 chỉ tiêu được cung cấp đều có ảnh hưởng trực tiếp đến việc
tính toán điểm rủi ro cho từng doanh nghiệp, vậy mô hình dự báo đối với ngành thuế
phù hợp với mô hình hồi quy tuyến tính bội vì mỗi một chỉ tiêu là một thông số cần quan

tâm.

15
Số hóa bởi Trung tâm Học liệu – ĐHTN




Chương 2.

MÔ HÌNH HỒI QUY TUYẾN TÍNH

2.1. MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN
2.1.1 Vấn đề mô hình hồi quy
Nhiều bài toán trong khoa học kỹ thuật đòi hỏi khảo sát quan hệ giữa hai hoặc
nhiều biến. Lấy làm ví dụ, chúng ta xét số liệu ở Bảng 1.1, ở đó y chỉ thị độ sạch của
oxy sinh ra trong quá trình chưng cất hóa học, còn x là nồng độ phần trăm của
hydrocarbon có mặt ở bình ngưng bộ phận chưng cất.
Bảng 1.1. Độ sạch của oxy ứng với tỷ lệ phần trăm hydrocarbon
TT

x(%)

y(%)

TT

x(%)

y(%)


TT

x(%)

y(%)

1

0.99

90.01

8

1.23

91.77

15

1.11

89.85

2

1.02

89.05


9

1.55

99.42

16

1.2

90.39

3

1.15

91.43

10

1.4

93.65

17

1.26

93.25


4

1.29

93.74

11

1.19

93.54

18

1.32

93.41

5

1.46

96.73

12

1.15

92.52


19

1.43

94.98

6

1.36

94.45

13

0.98

90.56

20

0.95

87.33

7

0.87

87.59


14

1.01

89.54

21

1.32

94.01

Khi thể hiện các điểm (xi, yi) lên đồ thị, ta nhận được đồ thị rải điểm như ở Hình
2.1. Ta nhận thấy, mặc dầu không có đường cong đơn giản nào đi qua các điểm này,
song có thể khẳng định rằng, các điểm ấy dường như nằm phân tán quanh một đường
cong với phương trình y = f(x) nào đó. Vậy có thể giả thiết rằng giá trị trung bình của Y
– biến chỉ thị độ sạch khi nồng độ phần trăm X của hydrocarbon tại mức x thỏa mãn
quan hệ
E(Y|x) = f(x)

(2.1.1)

Để tổng quát hóa, chúng ta nên dùng mô hình xác suất bằng cách coi Y là biến
ngẫu nhiên mà ứng với giá trị x của biến X thì
Y = f(x) + 

(2.1.2)

với  là sai số ngẫu nhiên.

Trước hết chúng ta xét trường hợp đơn giản nhất, cũng rất hay xảy ra trong thực

16
Số hóa bởi Trung tâm Học liệu – ĐHTN




×