Tải bản đầy đủ (.pdf) (22 trang)

Hồi quy dữ liệu và ứng dụng tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (653.98 KB, 22 trang )

1

MỞ ĐẦU

1. Lý do chọn đề tài
Sự phát triển nhanh chóng các ứng dụng công nghệ thông tin
và Internet vào nhiều lĩnh vực khác nhau của đời sống xã hội trong
những năm gần đây đã tạo ra nhiều cơ sở dữ liệu (CSDL) khổng lồ. Để
khai thác hiệu quả nguồn thông tin trên các CSDL khổng lồ đó nhằm
mục đích dự báo, hỗ trợ ra quyết định, bên cạnh các phương pháp khai
thác thông tin truyền thống, các nhà nghiên cứu đã sử dụng công cụ
máy tính điện tử để phát triển các phương pháp, kỹ thuật mới hỗ trợ
tiến trình khám phá, phân tích, tổng hợp thông tin. Lĩnh vực này được
gọi là khai phá dữ liệu và khám phá tri thức (Data Mining and
Knowledge Discovery). Trong khai phá dữ liệu, phân lớp và hồi quy
là phương pháp quan trọng và có ứng dụng rộng rãi, hiệu quả trong các
bài toán phân tích dữ liệu và dự báo trong lĩnh vực kinh tế, tài chính.
Hồi quy dữ liệu là việc xác định một hàm ánh xạ từ một mẫu
dữ liệu vào một biến dự đoán có giá trị thực. Các phương pháp hồi quy
được chia thành các nhóm chính: Hồi quy tương quan để xác định mối
liên hệ giữa nhiều biễn ngẫu nhiên với nhau; hồi quy tuyến tính đơn
biến để xác định mối liên hệ giữa một biến độc lập vào một biến phụ
thuộc; hồi quy tuyến tính đa biến xác định mối liên hệ giữa nhiều biến
độc lập vào một biến phụ thuộc… Hồi qui thường được xếp vào loại
bài toán tối ưu vì chúng ta nỗ lực để tìm kiếm một giải pháp để cho sai
số và phần dư là tốt nhất.
Trong lĩnh vực thuế, vấn đề gian lận và trốn thuế đang diễn
biến ngày càng trầm trọng và phổ biến trên thế giới nói chung và tại
Việt Nam nói riêng. Trên thế giới, phân tích rủi ro của các doanh



2
nghiệp để phát hiện các gian lận trong lĩnh vực thuế là chiến lược cải
thiện nguồn thu ngân sách của hầu hết các chính phủ trên, đặc biệt là
các nước đang phát triển.
Nhận thức được vấn đề nghiêm trọng đó, các quốc gia trên thế
giới đã và đang xây dựng các phần mềm máy tính để phân tích các rủi
ro của các doanh nghiệp nộp thuế dựa trên các kỹ thuật phân tích dữ
liệu nhằm phát hiện các doanh nghiệp gian lận, trốn thuế.
Tại Việt Nam, theo thống kê của Bộ Tài chính cho biết năm
2013 đã thực hiện thanh tra, kiểm tra đối với 64.119 doanh nghiệp
(tăng 8% so với năm 2012) xử lý truy thu, phạt và truy hoàn số tiền là
13.657,08 tỷ đồng. Năm 2014 đã thực hiện thanh tra, kiểm tra đối với
67.053 doanh nghiệp với tổng số thuế tăng thu qua thanh tra, kiểm tra
là 12.224,85 tỷ đồng [24]. Nhiều vụ gian lận thuế được phát hiện trong
thời gian gần đây tại Việt Nam cho thấy vấn đề gian lận thuế đã và
đang xảy ra với một mức độ nghiêm trọng.
Để thực hiện công tác phòng ngừa gian lận thuế, trong công
tác thanh tra, kiểm tra đối với hoạt động này, Tổng cục Thuế đã xây
dựng được kho dữ liệu tập trung về tình hình thu, nộp thuế và thanh
tra thuế của các doanh nghiệp. Bài toán đặt ra là từ số liệu về kết quả
thu nộp thuế, làm sao để dự báo được các doanh nghiệp có khả năng
gian lận thuế để có các biện pháp phòng ngừa, đặc biệt là tổ chức các
biện pháp thanh tra thuế nhằm truy thu thuế, đảm bảo chống thất thu
ngân sách. Do đó, việc xây dựng phần mềm máy tính nhằm tính điểm
rủi ro của doanh nghiệp dựa vào số liệu thu nộp thuế nhằm hỗ trợ công
tác lập kế hoạch thanh tra thuế là yêu cầu cấp thiết. Doanh nghiệp có
điểm rủi ro càng cao thì khả năng gian lận thuế càng cao, cần được đưa
vào diện tiến hành thanh tra.



3
Từ ý nghĩa khoa học và thực tiễn nêu trên, học viên chọn đề
tài: “Hồi quy dữ liệu và ứng dụng tính điểm rủi ro của doanh nghiệp
phục vụ thanh tra thuế”.

2. Tổng quan về vấn đề nghiên cứu
Các nước đã nghiên cứu, xây dựng các ứng dụng để tính điểm
rủi ro nhằm phục vụ hoạt động thanh, kiểm tra các doanh nghiệp đặc
biệt là doanh nghiệp có mức độ rủi ro cao nhằm hạn chế tiến tới ngăn
chặn hành vi chốn thế, gian lận thuế của các cá nhân, doanh nghiệp.
Tại Việt Nam, Tổng cục Thuế đã ban hành bộ tiêu chí phân tích rủi ro
về thuế của doanh nghiệp tuy nhiên việc xây dựng ứng dụng tính điểm
rủi ro còn nhiều tồn tại, tính khách quan và độ chính xác chưa cao.
Trên cơ sở đó, luận văn xác định một số nội dung trọng tâm cần giải
quyết như sau:
- Tìm hiểu bài toán tính điểm rủi ro của doanh nghiệp dựa trên
bộ tiêu chí phân tích rủi ro.
- Tìm hiểu các phương pháp hồi quy dữ liệu, tập trung vào
phương pháp hồi quy tuyến tính đơn biến, đa biến.
- Cài đặt chương trình thử nghiệm tính điểm rủi ro của một số
doanh nghiệp tại Cục thuế Hà Nội.

3. Mục đích nghiên cứu
- Nghiên cứu một số phương pháp hồi quy dữ liệu, tập trung
vào các phương pháp hồi quy tuyến tính.
- Cài đặt chương trình thử nghiệm đánh giá độ chính xác của
mô hình hồi quy tuyến tính đối với bài toán tính điểm rủi ro cho một
số doanh nghiệp tại Cục thuế Hà Nội.

4. Đối tượng và phạm vi nghiên cứu

4.1. Đối tượng nghiên cứu: Các phương pháp hồi quy.
4.2. Phạm vi nghiên cứu:


4
- Phương pháp hồi quy tuyến tính đơn biến, đa biến.
- Thử nghiệm với bài toán tính điểm rủi ro cho các doanh
nghiệp phục vụ thanh tra thuế.

5. Phương pháp nghiên cứu
- Nghiên cứu lý thuyết: Sử dụng các phương pháp phân tích,
tổng hợp thông tin để tổng kết các kiến thức nền tảng, các công bố
khoa học và các ứng dụng của các phương pháp hồi quy dữ liệu.
- Nghiên cứu thực nghiệm: Bao gồm các nội dung:
1) Tìm hiểu bài toán tính điểm rủi ro của doanh nghiệp phục
vụ công tác thanh tra thuế.
2) Cài đặt chương trình tính điểm rủi ro và thử nghiệm chương
trình trên dữ liệu thử nghiệm của một số doanh nghiệp thuộc Cục thuế
Hà Nội.
3) Công cụ thực nghiệm: Sử dụng ngôn ngữ lập trình R và bộ
Visual Studio.

6. Bố cục luận văn
Luận văn có bố cục gồm: Phần mở đầu, 3 chương chính, phần
kết luận, tài liệu tham khảo và phụ lục. Được bố trí theo thứ tự:

- Mở đầu.
- Chương 1: Phát biểu về bài toán tính điểm rủi ro của doanh
nghiệp phục vụ thanh tra thuế.


- Chương 2: Một số phương pháp hồi quy tuyến tính.
- Chương 3: Xây dựng và thử nghiệm chương trình tính điểm
rủi ro của doanh nghiệp phục vụ thanh tra thuế.

- Kết luận.
- Tài liệu tham khảo.
- Phụ lục


5

Chương 1- PHÁT BIỂU VỀ BÀI TOÁN TÍNH
ĐIỂM RỦI RO CỦA DOANH NGHIỆP
PHỤC VỤ THANH TRA THUẾ
1.1. Bài toán tính điểm rủi ro của doanh nghiệp
1.1.1. Tổng quan tình hình nghiên cứu ngoài nước
Gian lận thuế là vấn nạn quốc gia và nó gây ra thất thu ngân
sách vô cùng lớn và ảnh hưởng nghiêm trọng tới sự phát triển kinh tế,
xã hội của quốc gia đó. Xác định tình trạng gian lận thuế thông qua
điều tra một nhóm nhỏ và các yếu tố tuân thủ nộp thuế và dữ liệu lợi
nhuận được xác định qua đơn vị thứ ba. Nhóm tác giả Bruno Chiarini
và các cộng sự đã xây dựng phần mềm phân tích gian lận thuế giá trị
gia tăng (GTGT) và thu nhập doanh nghiệp (TNDN) bằng phương
pháp phân tích chuỗi thời gian (time series analysis) [21]. Nhóm tác
giả Stefano Pisani và các cộng sự [21] đã xây dựng phần mềm phân
tích rủi ro thuế dựa trên dữ liệu thu nhập phát sinh qua thẻ tín dụng sử
dụng phương pháp cây quyết định CART. Nhóm tác giả Shebo
Nalishebo và các cộng sự [23] thực hiện phân tích rủi ro thuế thông
qua khảo sát định lượng phỏng vấn một nhóm người theo từng loại
hình doanh nghiệp và ngành nghề kinh doanh sử dụng phương pháp

phân tích phương sai ANOVA và mô hình hồi quy tuyến tính đa biến.
Nhóm tác giả Francisco Roberto Pinto và các cộng sự [24] xây dựng
công cụ phân tích rủi ro qua khảo sát các doanh nghiệp dựa trên bốn
giả thuyết: sự khác biệt giữa các doanh nghiệp; loại hình doanh nghiệp;
khác biệt quan điểm kinh doanh; dữ liệu kê khai và nộp thuế sử dụng
mô hình hồi quy tuyến tính đa biến.


6

1.1.2. Tổng quan tình hình nghiên cứu trong nước
Tại Việt Nam, các nghiên cứu và ứng dụng của phân tích dữ
liệu hiện còn nhiều hạn chế. Về nghiên cứu khoa học, mặc dù phân
tích dữ liệu đã hình thành một chuyên ngành nghiên cứu nhưng các
nhóm nghiên cứu bài bản về phân tích dữ liệu ở Việt Nam còn chưa
nhiều. Về triển khai ứng dụng, rất nhiều cơ quan, tổ chức tại Việt Nam
cũng đang thể hiện sự quan tâm lớn đến lĩnh vực phân tích dữ liệu. Sau
một thời gian dài xây dựng và vận hành các ứng dụng nghiệp vụ, cho
đến nay nhiều cơ quan, tổ chức ở Việt Nam đã lưu trữ được một khối
lượng dữ liệu khổng lồ và mong muốn thực hiện được các phân tích
trên dữ liệu đó. Ví dụ, ngành thuế có nhu cầu phân tích các hành vi
tuân thủ của người nộp thuế, phân tích phát hiện các gian lận thuế nhằm
khắc phục tình trạng thâm hụt thuế, chống thất thu ngân sách.

1.1.3. Tính cấp thiết của bài toán tính điểm rủi ro của doanh
nghiệp
Với điều kiện về bộ CSDL tập trung về tình hình thu, nộp thuế,
với các tiến bộ của khoa học kỹ thuật, khoa học máy tính và đặc biệt
là sự phát triển của phương pháp phân tích dữ liệu chúng ta hoàn toàn
có thể xây dựng một hệ thống tính điểm rủi ro của các doanh nghiệp

nhằm phục vụ mục đích thanh, kiểm tra thuế, phòng ngừa sai phạm
trong hoạt động thuế của các doanh nghiệp. Xuất phát từ nhu cầu thực
tế trên, bài toán tính điểm rủi ro của doanh nghiệp phục vụ thanh tra
thuế dựa trên các số liệu thống kê về thu nộp thuế của các doanh nghiệp
qua các năm để dự báo khả năng gian lận trong thực hiện nghĩa vụ thuế
với Nhà nước là thực sự cần thiết.


7

1.2. Quy định của pháp luật về áp dụng quản lý rủi ro trong
quản lý thuế
1.2.1. Khái quát về quản lý rủi ro về thuế
Quản lý rủi ro về thuế là việc phân loại, đánh giá NNT dựa
trên hệ thống tiêu thức rủi ro về thuế từ đó xác định NNT có mức độ
tuân thủ thấp và khả năng gian lận về thuế cao để tập trung nguồn lực
xử lý nhằm nâng cao tính tuân thủ tự nguyện của NNT theo nguyên
tắc ưu tiên nguồn lực quản lý gian lận có thể mang lại tổn thất lớn nhất
và những sai phạm có nhiều khả năng xảy ra nhất.

1.2.2. Một số văn bản pháp quy về quản lý rủi ro trong quản lý
thuế
Xuất phát từ yêu cầu thực tế, tại Việt Nam, các cơ quan chức
năng từ Trung ương đến địa phương đã ban hành các văn bản pháp quy
về quản lý lý thuế nói chung và quản lý rủi ro trong quản lý thuế nói
riêng như: Luật Quản lý thuế số 78/2006/QH11; Nghị định
số 83/2013/NĐ-CP; Nghị định số 12/2015/NĐ-CP; Nghị quyết
số 19/NQ-CP.
Trong việc quản lý rủi ro trong quản lý thuế, Bộ Tài chính đã
ban hành Thông tư số 205/2015/TT-BTC ngày 21/12/2015 quy định

về áp dụng quản lý rủi ro trong quản lý thuế; Bên cạnh đó, để tạo điều
kiện thuận lợi và tăng tính khách quan trong quản lý rủi ro trong quản
lý thuế, Tổng Cục thuế cũng đã ban hành Quyết định số 1733/QĐ-TCT
ngày 01/10/2013 ban hành bộ 21 tiêu chí đánh giá rủi ro về thuế đối
với doanh nghiệp và người nộp thuế.

1.2.3. Xu thế áp dụng quản lý rủi ro
Quản lý rủi ro đang là một xu thế, ngày càng được áp dụng
rộng rãi trong công tác quản lý. Đối với cơ quan thuế việc áp dụng mô
hình quản lý thuế theo rủi ro là một yêu cầu khách quan và là giải pháp


8
để giải quyết những vấn đề thực tiễn đặt ra nhằm nâng cao chất lượng,
hiệu quả công tác quản lý thuế. Tính tất yếu của việc áp dụng phương
pháp quản lý rủi ro có thể thấy rõ ở cả hai khía cạnh, từ nội tại cơ quan
thuế và nhu cầu của xã hội.

1.2.4. Nguyên tắc áp dụng quản lý rủi ro trong quản lý thuế
Áp dụng quản lý rủi ro trong quản lý thuế cần phải tuân thủ
nguyên tắc cơ bản sau: Cơ quan thuế áp dụng quản lý rủi ro để khuyến
khích, tạo điều kiện thuận lợi để NNT tuân thủ tốt các quy định của
pháp luật, đồng thời phòng chống, phát hiện, xử lý kịp thời các hành
vi vi phạm pháp luật thuế trong quản lý thuế đối với NNT [26].

1.3. Bộ tiêu chí phân tích rủi ro về thuế của doanh nghiệp
Bộ tiêu chí phân tích rủi ro về thuế của doanh nghiệp được
Tổng cục Thuế ban hành kèm theo Quyết định số 1733/QĐ-TCT ngày
01/10/2013 với 21 tiêu chí được chia thành 6 nhóm tiêu chí đánh giá
mức độ rủi ro về thuế của doanh nghiệp trong thực hiện nghĩa vụ thuế

với Nhà nước. Mỗi nhóm tiêu chí có quy định phương pháp tính điểm
rủi ro cụ thể (kèm theo tại phụ lục luận văn).

1.4. Kết luận chương 1
Trong chương 1, học viên đã trình bày khái quát về tình hình,
thực trạng gian lận thuế, chốn thuế của các nước trên thế giới và tại
Việt Nam. Đồng thời nêu ra các giải pháp mà các nước, trong đó có
Việt Nam đã áp dụng để hạn chế tiến tới ngăn chặn tình trạng gian lận
trong thực hiện nghĩa vụ thuế với Nhà nước.
Việc áp dụng quản lý rủi ro trong quản lý thuế đang được rất
nhiều nước áp dụng, trong đó có Việt Nam. Việc quản lý rủi ro trong
quản lý thuế là xu thế tất yếu để tăng cường năng lực quản lý của cơ
quan thuế với điều kiện đội ngũ cán bộ có hạn, tình trạng gian lận thuế,
trốn thuế ngày một ra tăng. Trong chương 1 của luận văn, học viên đã


9
nêu ra một số căn cứ pháp lý trong quản lý thuế nói chung và quản lý
rủi ro trong quản lý thuế tại Việt Nam nói riêng. Đồng thời nêu khái
quát về bộ tiêu chí phân tích rủi ro làm căn cứ để chấm điểm rủi ro về
thuế đối với NNT. Đây chính là một căn cứ quan trọng được lưu trữ
trong CSDL về thu, nộp thuế do Tổng cục Thuế quản lý nhằm dự báo
và đưa vào kế hoạch thanh, kiểm tra về thuế đối với NNT có điểm rủi
ro cao.


10

Chương 2- MỘT SỐ PHƯƠNG PHÁP
HỒI QUY TUYẾN TÍNH

2.1. Tổng quan về hồi quy tuyến tính
2.1.1. Khái quát về phân tích dữ liệu
Phân tích dữ liệu là kỹ thuật nền tảng trong quá trình khám
phá tri thức từ dữ liệu với hai mục tiêu chính: mô tả dữ liệu (hiểu dữ
liệu) và xây dựng các mô hình phân tích nhằm trích lọc các tri thức có
ích, tiềm ẩn trong dữ liệu phục vụ cho công tác dự báo, ra quyết định.

2.1.2. Phân tích hồi quy tuyến tính
a) Phân tích tương quan
Là một phép phân tích được sử dụng là thước đo độ lớn của
các mối liên hệ giữa các biến định lượng trong nghiên cứu. Thông qua
thước đo này người nghiên cứu có thể xác định mối liên hệ tuyến tính
giữa các biến độc lập, phụ thuộc trong nghiên cứu. Phân tích tương
quan dựa trên một khoảng tin cậy cho trước sẽ có một giá trị tương
quan của mô hình giữa các biến đại diện. Khoảng giá trị của hệ số
tương quan chạy trong đoạn giá trị [-1 đến 1]. Dấu của hệ số tương
quan nói lên tính liên hệ thuận nghịch giữa các biến đồng thời phản
ánh tính chất tuyến tính của mô hình hồi quy.

b) Hồi quy và mô hình hồi quy tuyến tính
Hồi quy là việc xác định một hàm ánh xạ từ một mẫu dữ liệu
vào một biến dự đoán có giá trị thực. Phân tích hồi quy bao gồm: hồi
quy tương quan để xác định mối liên hệ giữa nhiều biến ngẫu nhiên
với nhau; hồi quy tuyến tính đơn biến để xác định mối liên hệ giữa một
biến độc lập vào một biến phụ thuộc; hồi quy tuyến tính đa biến xác
định mối liên hệ giữa nhiều biến độc lập vào một biến phụ thuộc.


11
Hồi quy tuyến tính (linear regression analysis) là một phương

pháp phân tích quan hệ giữa biến phụ thuộc và Y với một hay nhiều
biến độc lập X. Mô hình hóa sử dụng hàm tuyến tính (bậc 1). Các tham
số của mô hình (hay hàm số) được ước lượng từ dữ liệu.

2.2. Hồi quy tuyến tính đơn biến
2.2.1. Vấn đề mô hình hồi quy
Mô hình HQTT đơn biến:
Y = ax + b + ε
(2.2.3)
Mô hình (2.2.3) được gọi là mô hình hồi quy tuyến tính
(HQTT) đơn; x được gọi là biến hồi quy; Y được gọi là biến phản hồi
(hay biến phụ thuộc, biến được giải thích); a, b được gọi là các tham
số hồi quy, a: hệ số chặn, b: hệ số góc; đường thẳng y = ax + b được
gọi là đường hồi quy (lý thuyết).
Mô hình trên được gọi là tuyến tính vì nó tuyến tính với các
tham số a, b (a, b có lũy thừa 1); được gọi là đơn vì có một biến hồi
quy.
Để khảo sát mô hình, ta phải tiến hành các thí nghiệm, các
phép quan sát để có bộ số liệu {(xi, yi)}. Từ đó, đưa ra các ước lượng
tốt cho tham số. Mô hình với các hệ số đã ước lượng được gọi là mô
hình thực nghiệm hay mô hình lọc. Dùng mô hình thực nghiệm chúng
ta có thể tiến hành một số dự đoán, tính các giá trị cực trị cũng như các
khía cạnh của vấn đề điều khiển.

2.2.2. Ước lượng hệ số hồi quy
Phương trình hồi quy thực nghiệm
y = 𝑎̂𝑥 + 𝑏̂

(2.2.10)


Với 𝑎̂, 𝑏̂ là các ước lượng của hệ số bằng phương pháp bình
phương cực tiểu.


12

2.2.3. Tính chất của ước lượng hệ số hồi quy
2.2.4. Kiểm định giả thuyết
a) Sử dụng kiểm định T
b) Phân tích phương sai
2.2.5. Khoảng tin cậy
a) Khoảng tin cậy của các tham số
b) Khoảng tin cậy cho đáp ứng trung bình
c) Dự đoán quan sát tương lai
d) Lưu ý khi sử dụng mô hình hồi quy
- Trường hợp nội suy: Nói chung, sau kiểm định giả thiết,
chúng ta có thể sử dụng mô hình hồi quy thực nghiệm (2.2.10) để làm
một số dự đoán “nội suy”. Cụ thể là, khi X nhận giá trị x0 nằm trong
dải biến thiên [a; b] của số liệu, giá trị dự đoán của trung bình cũng
như giá trị quan sát tương lai của biến đầu sẽ là 𝑎̂ + 𝑏̂x0 … Sự chính
xác của các công thức này đã chỉ ra ở phần b và c mục 2.2.5.
- Trường hợp ngoại suy: Sử dụng phương trình hồi quy để dự
đoán giá trị của biến Y ứng với những trụ của biến đầu vào X nằm
trong dải biến thiên của số liệu gọi là dự đoán ngoại suy. Tuy nhiên, ở
ngoài dải biến thiên của số liệu, các giả thiết về mô hình, thậm chí là
quan hệ E[Y | X = x] = ax + b có thể không còn đúng. Vì thế, dự đoán
với sai lầm đáng kể có thể gây ra từ ngoại suy.
Một cách khắc phục là lấy thêm quan sát (làm thêm thí
nghiệm) để dải biến thiên rộng ra, chứa điểm ta quan tâm. Tuy nhiên
trong kỹ thuật, nhiều khi ngoại suy là cách duy nhất mà ta có thể tiếp

cận vấn đề. Cần lưu ý rằng ta nên áp dụng nó một cách mềm mỏng,
với x0 không xa dải biến thiên [a; b], ta vẫn có thể có kết quả khả dĩ.
Tóm lại, ta chỉ áp dụng ngoại suy một cách hãn hữu khi rất cần thiết,
chưa thể có đủ số liệu và không còn cách nào khác [1].


13

2.2.6. Tính phù hợp của mô hình
a) Phân tích phần dư
b) Hệ số xác định (coefficient of determination)
2.3. Hồi quy tuyến tính đa biến
Mô hình HQTT đa biến (hồi quy tuyến tính bội) là sự mở rộng
tự nhiên của mô hình HQTT đơn.

2.3.1. Phương trình hồi quy
a) Dạng quan sát và dạng ma trận
b) Dạng quan sát và dạng ma trận
Giả sử mối quan hệ giữa biến phụ thuộc Y và k biến độc lập
x1,…, xk cho bởi mô hình:
Y = 𝛽0 + 𝛽1x1 + … + 𝛽kxk + ε

(2.3.1)

trong đó 𝛽0, 𝛽1, …, 𝛽k là các tham số chưa biết, gọi là các hệ số hồi
quy, 𝛽0 gọi là hệ số chặn, 𝛽1, …, 𝛽k là các hệ số góc; ε là sai số ngẫu
nhiên có kỳ vọng 0 và phương sai σ2.
Khi không sợ nhầm lẫn, ta viết ngắn gọn (2.3.1) dưới dạng:
E[Y | x1, …, xk] = 𝛽0 + 𝛽1x1 + … + 𝛽kxk


(2.3.2)

Hay đơn giản hơn nữa: E[Y]= 𝛽0 + 𝛽1x1 + …+ 𝛽kxk (2.3.3)
Để thuận lợi cho ký hiệu và các phân tích tiếp theo, chúng ta
sử dụng các ký hiệu ma trận sau đây:
𝑦1
𝜀1
1 𝑥11 𝑥12 . . . 𝑥1𝑘
𝛽0
.
.
.
.
.
.
.
.
.
.
.
y = [ ];X = [
]; 𝜷 = [ ]; ε = [ . ]
𝑦𝑛
𝜀𝑛
1 𝑥𝑛1 𝑥𝑛2 . . . 𝑥𝑛𝑘
𝛽𝑘
Khi đó (2.3.4) được viết lại dưới dạng ma trận:
y=X𝜷+ε
(2.3.5)
trong đó y là n – véc tơ quan sát, X là ma trận cấp n * p của

các biến độc lập (p = k + 1) – còn gọi là ma trận kế hoạch - 𝜷 là p –
véc tơ các hệ số hồi quy, ε là n – véc tơ sai số ngẫu nhiên.


14

c) Tuyến tính hóa một số mô hình
2.3.2. Ước lượng hệ số hồi quy và tính chất của ước lượng
2.3.3. Kiểm định giả thiết
a) Kiểm định ý nghĩa của hồi quy
b) Hệ số xác định bội R2 và hệ số xác định hiệu chỉnh
2
𝑅𝑎𝑑𝑗

c) Kiểm định một tham số triệt tiêu (Kiểm định T)
2.3.4. Ước lượng và dự đoán
a) Khoảng tin cậy cho tham số đơn lẻ
b) Khoảng tin cậy cho đáp ứng trung bình
c) Dự đoán cho quan sát mới
d) Vấn đề ngoại suy với mô hình hồi quy bội
2.3.5. Phân tích phần dư
2.3.6. Sử dụng phần mềm
2.4. So sánh, đánh giá các phương pháp hồi quy tuyến tính
2.5. Kết luận chương 2
Trong chương 2 của luận văn, học viên đã trình bày một cách
khái quát về phân tích dữ liệu trong khoa học kỹ thuật và đi sâu trình
bày phương pháp hồi quy tuyến tính đơn biến và đa biến. Thông qua
các ví dụ thực tế và lý thuyết về mô hình HQTT đơn biến và đa biến
để hiểu rõ hơn phương pháp xây dựng một mô hình phù hợp đối với
các bài toán thực tế.

Phương pháp HQTT chỉ ra mối quan hệ tuyến tính giữa biến
phụ thuộc và biến tiên lượng thông qua một phương trình hồi quy dựa
vào các giá trị quan sát được do thí nghiệm hoặc trong thực tế. Phương
trình HQTT xây dựng được có giá trị dự báo cao trong thực tế. Đây là


15
phương pháp được sử dụng khá phổ biến trong phân tích và dự báo
nhằm giải quyết các bài toán thực tế.
Trong Chương 2 của luận văn, học viên đã phân tích và đánh
giá về 2 phương pháp HQTT: đơn biến, đa biến. Chỉ ra các khả năng
ưu việt của phương pháp HQTT đa biến do gần với các bài toán thực
tế hơn. Từ đó lựa chọn phương pháp HQTT đa biến là MHHQ để giải
quyết bài toán rủi ro trong vấn đề gian lận thuế, chốn thuế của NNT
được trình bày tại Chương 1. Bên cạnh đó, học viên cũng đã trình bày
một số thủ tục thường sử dụng trong việc lựa chọn biến đưa vào
MHHQ để mô hình có giá trị thực tế cao hơn đồng thời cũng giảm
thiểu thời gian tính toán, chi phí và tính phức tạp khi áp dụng mô hình.


16
Chương 3- XÂY DỰNG VÀ THỬ NGHIỆM CHƯƠNG TRÌNH
TÍNH ĐIỂM RỦI RO CỦA DOANH NGHIỆP PHỤC VỤ
THANH TRA THUẾ.

3.1. Phân tích bài toán tính điểm rủi ro của doanh nghiệp
3.2. Xây dựng mô hình tính điểm rủi ro của doanh nghiệp
3.2.1. Xây dựng mô hình hồi qui tuyến tính đa biến
a) Xây dựng tập dữ liệu mẫu để huấn luyện và kiểm tra
mô hình hồi quy

b) Xây dựng mô hình hồi quy tuyến tính đa biến
Phương trình hồi quy:
Điểm rủi ro = 1 *TC1 + 2 *TC2+...+n *TCn + θ
Ở đây TC1, TC2, ...TCn là các thuộc tính của bộ dữ liệu huấn
luyện, 1, 2, ..., n là các trọng số của các thuộc tính, θ là tham số
ngưỡng do NSD đưa vào để tăng độ chính xác của mô hình hồi quy.
Kết quả thu được của phương pháp hồi quy đa biến là các hệ
số 1, 2, ..., n, giá trị ngưỡng θ do người sử dụng đưa vào.
a) Kiểm tra mô hình hồi quy tuyến tính đa biến từ tập dữ liệu
kiểm tra

b) Thực thi mô hình để tính điểm rủi ro cho doanh
nghiệp
Sau khi kết thúc quá trình huấn luyện và kiểm tra mô hình, ta
thu được mô hình tính điểm rủi ro, chính là hàm hồi quy mô tả mối
quan hệ giữa đầu ra (điểm rủi ro) với các bộ tiêu chí rút gọn đầu vào.
Điểm rủi ro = 1 *TC1 + 2 *TC2+...+n *TCn + θ
Như vậy, bản chất của mô hình tính điểm rủi ro là hàm hồi quy
với:


17
- Các thuộc tính đầu vào tương ứng với các tiêu chí phân tích
rủi ro do Tổng cục thuế quy định. Giá trị của các thuộc tính
đầu vào chính là giá trị điểm rủi ro được tính theo công thức
trong bộ tiêu chí phân tích rủi ro.
Quá trình tính điểm rủi ro của doanh nghiệp phục vụ lập kế hoạch thanh
tra, kiểm tra được thực hiện như sau:
1) Từ tệp dữ liệu đầu vào được trích xuất từ hệ thống CSDL
tập trung tại Tổng cục thuế (TPH), thực hiện tính giá trị

điểm rủi ro cho các thuộc tính đầu vào theo công thức quy
định trong bộ chỉ tiêu phân tích rủi ro do Tổng cục thuế
quy định (Xem phần phụ lục)
2) Sử dụng hàm hồi quy thu được (mô hình tính điểm rủi ro)
để tính điểm rủi ro cho các doanh nghiệp.
3) Các giá trị trọng số 1, 2, ..., n của các thuộc tính đầu
vào (được học từ dữ liệu lịch sử)
4) Giá trị ngưỡng θ do người sử dụng đưa vào.
Kết quả điểm rủi ro của doanh nghiệp được tính bằng mô hình
hồi quy được ghi lại và sử dụng để lập kế hoạch thanh tra, kiểm tra
thuế và in hồ sơ phân tích rủi ro cho doanh nghiệp.
Sau khi có kết quả thanh tra, kiểm tra cho các đối tượng này,
dữ liệu thanh tra, kiểm tra tiếp tục được sử dụng để huấn luyện mô
hình và sử dụng mô hình tính điểm rủi ro cho năm tiếp theo.
Như vậy, quá trình huấn luyện liên tục được thực hiên qua các
năm, do đó độ chính xác của mô hình hồi quy sẽ ngày càng tăng lên và
nó phản ánh quy luật của dữ liệu. Do đó, độ chính xác của mô hình dự
báo điểm rủi ro được đảm bảo về mặt khoa học.


18

3.3. Thử nghiệm và đánh giá kết quả
3.3.1. Mục tiêu thử nghiệm
Mục tiêu của thử nghiệm là thử nghiệm mô hình tính điểm rủi
ro của doanh nghiệp được xây dựng trên bộ số liệu thử nghiệm là số
liệu lịch sử về tình hình nộp thuế và kết quả thanh tra của các doanh
nghiệp thuộc Cục thuế Hà Nội quản lý được kết xuất từ hệ thống tập
trung dữ liệu tại Tổng cục thuế (TPH)


3.3.2. Công cụ và môi trường thử nghiệm
Thực hiện lập trình bằng ngôn ngữ C# trên môi trường Visual
Studio. NET, sử dụng ngôn ngữ phân tích dữ liệu R tích hợp vào bộ
Visual Studio. NET để thực hiện xây dựng mô hình hồi quy tuyến tính
đa biến.
Môi trường tiến hành thử nghiệm là máy tính cá nhân cài đặt
hệ điều hành Windows 10 Pro 64-bit, cấu hình bộ xử lý Intel(R) Core
(TM) i3, CPU @ 1.90 GHz, 4.00GB RAM.

3.3.3. Quy trình thử nghiệm
a) Chuẩn bị dữ liệu huấn luyện và dữ liệu kiểm tra
b) Xây dựng mô hình hồi quy tuyến tính đa biến từ tập dữ
liệu huấn luyện
c) Kiểm tra độ chính xác của mô hình
Nhận xét kết quả thử nghiệm:
- Trên tập dữ liệu kiểm tra, độ chính xác của mô hình hồi quy
đạt được là 90.59%.
- Mô hình được xây dựng có thể sử dụng để tính điểm rủi ro
cho các doanh nghiệp phục vụ lập hồ sơ phân tích rủi ro của doanh
nghiệp phục vụ công tác lập kế hoạch thanh tra, kiểm tra thuế.


19
3.4. Kết luận chương 3
Trong chương 3, luận văn trình bày bài toán tính điểm rủi ro
của doanh nghiệp và mô hình giải quyết bài toán sử dụng phương pháp
HQTT đa biến. Chương 3 đã nêu rõ được việc thực hiện các bước giải
quyết bài toán tính điểm rủi ro bằng phương pháp HQTT đa biến. Trên
cơ sở là bộ dữ liệu lịch sử thu nộp thuế của một số doanh nghiệp thuộc
Cục thuế Hà Nội quản lý, mô hình được xây dựng đã cơ bản giải quyết

được việc tính điểm rủi ro của doanh nghiệp để phục vụ công tác lập
hồ sơ thanh tra, kiểm tra hàng năm. Trên tập dữ liệu kiểm tra, độ chính
xác của mô hình hồi quy đạt được là 90.59%.
Sau khi có kết quả thanh tra, kiểm tra thuế đối với các doanh
nghiệp, dữ liệu thanh tra, kiểm tra tiếp tục được sử dụng để huấn luyện
mô hình và sử dụng mô hình tính điểm rủi ro cho năm tiếp theo. Vì
vậy, quá trình huấn luyện liên tục được thực hiện qua các năm, do đó
độ chính xác của mô hình hồi quy sẽ ngày càng tăng lên và nó phản
ánh quy luật của dữ liệu.
Mô hình HQTT được xây dựng có thể sử dụng tính điểm rủi
ro cho các doanh nghiệp, phục vụ lập hồ sơ phân tích rủi ro của doanh
nghiệp phục vụ công tác lập kế hoạch thanh tra, kiểm tra.


20
KẾT LUẬN
Luận văn đã trình bày thực trạng về gian lận thuế, trốn thuế
của các doanh nghiệp trên thế giới nói chung và tại Việt Nam nói riêng.
Nêu ra các biện pháp mà các nước và tại Việt Nam đã và đang áp dụng
để hạn chế tình trạng gian lận thuế, trốn thuế. Trình bày các cơ sở khoa
học, cơ sở pháp lý để có thể tính điểm rủi ro cho doanh nghiệp phục
vụ công tác thanh tra, kiểm tra nhằm hạn chế các sai phạm về thuế.
Luận văn đã nêu khái quát về phương pháp hồi quy, trình bày
chi tiết phương pháp hồi quy tuyến tính đơn biến và đa biến từ đó nêu
lý lựa chọn sử dụng phương pháp hồi quy tuyến tính đa biến để giải
quyết bài toán tính điểm rủi ro đã nêu.
Luận văn trình bày việc xây dựng mô hình dự báo từ dữ liệu
ngành Thuế bằng việc sử dụng phương pháp phân tích HQTT đa biến,
xây dựng hàm hồi quy để tính điểm rủi ro cho doanh nghiệp dựa vào
số liệu nộp thuế của doanh nghiệp nhằm hỗ trợ cơ quan thuế trong công

tác thanh tra, kiểm tra. Xây dựng ứng dụng tính điểm rủi ro của doanh
nghiệp dựa trên mô hình hồi quy tuyến tính đa biến bằng ngôn ngữ lập
trình C# và ngôn ngữ phân tích dữ liệu R. Mô hình triển khai trong
thực tế sẽ trợ giúp hiệu quả bộ phận thanh tra thuế trong công tác lập
kế hoạch thanh tra, chống thất thu ngân sách và đem lại hiệu quả kinh
tế, xã hội to lớn.
Trong quá trình thực hiện luận văn, học viên đã tìm hiểu và
thu thập nguồn dữ liệu nộp thuế do cục thuế Hà Nội cung cấp, dữ liệu
thống kê để làm cơ sở cho phân tích rủi ro. Trên cơ sở dữ liệu thu thập
được đã tiến hành các bước tiền xử lý dữ liệu, xây dựng bộ dữ liệu


21
huấn luyện để xây dựng mô hình. Sử dụng mô hình và đánh giá tính
chính xác, độ tin cậy của mô hình cũng như ứng dụng đã được xây
dựng.


22



×