Tải bản đầy đủ (.pdf) (82 trang)

Luận văn nghiên cứu một số phương pháp hồi quy dữ liệu và ứng dụng vào bài toán tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.4 MB, 82 trang )

B ộ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC s ư PHẠM HÀ NỘI 2

PHẠM THỊ PHƯƠNG

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP HỒI QUY
DỮ LIỆU VÀ ỨNG DỤNG VÀO BÀI TOÁN TÍNH
ĐIỂM RỦI RO CỦA DOANH NGHIỆP PHỤC v ụ
THANH TRA THUẾ

LUẬN VĂN THẠC s ĩ MÁY TÍNH

HÀ NỘI - 2016


B ộ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC s ư PHẠM HÀ NỘI 2

PHẠM THỊ PHƯƠNG

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP HÒI QUY
DỬ LIỆU VÀ ỨNG DỤNG VÀO BÀI TOÁN TÍNH
ĐIỂM RỦI RO CỦA DOANH NGHIỆP PHỤC v ụ
THANH TRA THUẾ
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01 01

LUẬN VĂN THẠC s ĩ KHOA HỌC MÁY TÍNH

Ngưòi hướng dẫn khoa học: TS. Nguyễn Long Giang


HÀ NỘI - 2016


LỜI CẢM ƠN
Lời đầu tiên em xin gửi lời cảm ơn chân thành đến các thầy cô giáo,
Khoa công nghệ thông tin, Phòng sau đại học Trường Đại học Sư phạm Hà
Nội 2 đã tận tình giảng dạy, truyền đạt những kiến thức, kỉnh nghiệm quý báu
trong suốt thời gian em theo học tại trường. Các kiến thức, kinh nghiệm quý
báu của các thầy cô giáo không chỉ giúp cá nhân em hoàn thiện hệ thống kiến
thức trong học tập mà còn giúp em ứng dụng các kiến thức đó ừong công tác
hiện tại tại đơn vị.
Đặc biệt, em xin chân thành cảm ơn thầy hướng dẫn khoa học TS. Nguyễn
Long Giang, Viện Công nghệ thông tin - Viện Hàn lâm Khoa học và Công
nghệ Việt Nam đã nhiệt tình, tâm huyết trong việc định hướng và giúp đỡ em
hoàn thành luận văn này.
Em cũng xin được bày tỏ tình cảm với gia đình, đồng nghiệp, bạn bè đã
tạo điều kiện để cá nhân em có thể dành thời gian cho khóa học. Xin chân
thành cảm ơn tập thể lớp cao học KI 8- KHMT, trong 2 năm qua đã luôn luôn
động viên, khích lệ và hỗ trợ em trong quá trinh học tập.
Trong quá trình thực hiện Luận văn mặc dù đã cố gắng hết mình, song
chắc chắn luận văn của em vẫn còn thiếu sót. Em rất mong nhận được sự chỉ
bảo vào đóng góp tận tình của các thầy cô để luận văn của em được hoàn
thiện hơn.
Hà Nội, ngày 10 tháng 07 năm 2016
Hoc viên

Phạm Thị Phưomg


LỜI CAM ĐOAN

Tôi xin cam đoan: Đề tài: Nghiên cứu một số phương pháp hồi quy dữ
liệu và ứng dụng vào bài toán tính điểm rủi ro của doanh nghiệp phục vụ
thanh tra thuế” này là công trình nghiên cứu thực sự của cá nhân Học viên,
được thực hiện dưới sự hướng dẫn khoa học của TS. Nguyễn Long Giang.
Các kết quả, phân tích, kết luận ừong Luận văn thạc sĩ này (ngoài các phần
được trích dẫn) đều là kết quả làm việc của cá nhân tác giả và chưa từng được
công bố dưới bất kỳ hình thức nào.
Nếu sai tôi xin chịu hoàn toàn trách nhiệm.

Hà Nội, ngày 10 tháng 07 năm 2016
Hoc viên

Phạm Thị Phương


MỤCLỤC

NÔI DUNG____________________________________________________ 4
CHƯƠNG 1. TỔNG QUAN_______________________________________ 5
1.1 Tổng quan tình hình nghiên cứu trong và ngoài nước...........................5
1.2 Sự cần thiết phải triển khai vấn đề nghiên cứu...................................... 7
1.2.1. Hiện trạng hệ thống phân tích rủi ro ngưòi nộp thuế...................... 7
1.2.2. Phân tích hạn chế của hệ thống TPR ............................................ 10
1.2.3. Sự cần thiết phải xây dựng hệ thống tính điểm rủi ro của doanh
nghiệp........................................................................................................ 10
r

CHƯƠNG 2. MỘT SỐ PHƯƠNG PHÁP HỒI QUY TUYẾN TÍNH________ 12
2.1. Pỉunmg pháp hồi quy đon biến............................................................. 12
2.1.1. Vấn đề mô hình hồi quy.................................................................12

2.1.2. Ước lượng hệ số hồi quy............................................................... 14
2.1.3. Tính chất của ước lượng của hệ số hồi quy.................................. 15
2.1.4. Kiểm định giả thiết..........................................................................16
2.1.5. Khoảng tin cậy................................................................................19
2.1.6. Tính phù họp của mô hình............................................................ 23
22. Phương pháp hồi quỵ đa biến___________________________________28
2.2.1. Phương trình hồi q uy..................................................................... 28
2.2.2. Ước lượng hệ số hồi quy và tính chất của ước lượng................... 30
2.2.3. Kiểm định giả thuyết...................................................................... 31
2.2.4. Ước lượng và dự đoán................................................................... 33
2.2.5. Phân tích phàn dư........................................................................... 34
2.2.6. Sử dụng phần m ềm ........................................................................ 34
Kấluận chương 2 _______________________________________________ 38


CHUÔNG 3. XÂY DỤNG v à t h ử n g h iệ m c h u ô n g t r ìn h t ín h ĐIẺM
7

*?

.

X

3.1. Tữứi cấp thiết của bài toán tính điểm rủi ro của doanh nghiệp__________ 39
32. Bài toán toán tính điểm rủi ro của doanh nghiệp_____________________ 40
33. Các buức xây dựng mô hình giải quyết bài toán_____________________ 43
3.3.1. Xây dựng mô hình hồi quy tuyến tính đa biến............................. 43
3.3.2. Thực thi mô hình để tính điểm rủi ro cho doanh nghiệp.............. 46
3A Thử nghiệm và đánh giá kết quả________________________________ 47

3.4.1. Mục tiêu thử nghiệm......................................................................47
3.4.2. Công cụ thử nghiệm và môi trường thử nghiệm........................... 47
3.4.3. Quy trình thử nghiệm và đánh giá kết quả.................................... 47
Kấluận chương 3 _______________________________________________53
X



DANH MỤC CÁC TÀI LIỆU THAM KHẢO________________________ 55


DANH MỤC CÁC THUẬT NGỮ, TỪ VIẾT TẮT

Từ viết tắt

Mô tả

NNT

Người nộp thuế

GTGT

Giá trị gia tăng

TNDN

Thu nhập doanh nghiệp

BCTC


Báo cáo tài chính

TPR

Hệ thống phần mềm phân tích thông tin phục vụ
công tác thanh ứa thuế các cấp

QLT

Quản lý thuế

TPH

Hệ thống tập trung dữ liệu và khai thác thông tin
người nộp thuế

ƯL

Ước lượng

BNN

Biến ngẫu nhiên


DANH MỤC CÁC HÌNH
Hình 2. 1. Đồ thị rải điểm, đường hồi quy cho số liệu độ sạch của oxy......... 13
Hình 2. 2. Độ lệch và các đường hồi quy lý thuyết, thực nghiệm.................. 14
Hình 2. 3. Khoảng tin cậy (2 đường Hyperbol giữa) và khoảng dự đoán (2

đường hyperbol ngoài) cho mức tiêu thụ nhiên liệu............................... 21
Hình 2. 4. Dáng điệu phàn d ư ......................................................................... 24
Hình 2. 5. Đồ thị phàn dư chuẩn hóa cho số liệu độ kéo................................ 27
Hình 2. 6. Miền biến thiên của các biến hồi quy............................................ 34
Hình 2. 7. Đồ thị xác suất chuẩn và phần dư chuẩn hóa của số liệu lực kéo.. 37
Hình 3.1. Tập dữ liệu huấn luyện.................................................................. 48
Hình 3. 2. Mô tả tập dữ liệu huấn luyện........................................................ 49
Hình 3. 3. Kết quả xây dựng mô hình............................................................ 50
Hình 3. 4. Kết quả tính điểm rủi ro của các doanh nghiệp trên tập dữ liệu kiểm
tra..............................................................................................................51


DANH MỤC CÁC BẢNG

Bảng 2. 1. Độ sạch của oxy ứng với tỷ lệ phần trăm hydrocarbon................ 12
Bảng 2. 2. Phân tích phương sai để kiểm định tính hiệu quả của hồi quy..... 18
Bảng 2. 3. Phân tích hệ số và phân tích phương sai cho Ví dụ 1.2................. 27
Bảng 2. 4. Số liệu cho mô hình hồi quy bội................................................... 28
Bảng 2. 5. Kết quả xử lý với số liệu lực kéo dây dẫn.................................... 35
Bảng 2. 6. Tóm tắt, phân tích phương sai và phân tích hệ số......................... 36
Bảng 3. 2. Bảng dữ liệu đầu vào của hệ thống............................................... 43


1

MỞ ĐẦU
1. Lý do chọn đề tài
Sự phát triển nhanh chóng các ứng dụng công nghệ thông tin và
Internet vào nhiều lĩnh vực khác nhau của đời sống xã hội trong mấy năm gần
đây đã tạo ra nhiều cơ sở dữ liệu khổng lồ. Để khai thác hiệu quả nguồn thông

tin trên các cơ sở dữ liệu khổng lồ đó nhằm mục đích dự báo, hỗ trợ ra quyết
định, bên cạnh các phương pháp khai thác thông tin truyền thống, các nhà
nghiên cứu đã sử dụng công cụ máy tính điện tử để phát triển các phương
pháp, kỹ thuật mới hỗ trợ tiến trình khám phá, phân tích, tổng họp thông tin.
Lĩnh vực này được gọi là khai phá dữ liệu và khám phá tri thức (Data Mining
and Knowledge Discovery). Trong khai phá dữ liệu, phân lớp (classification)
và hồi quy (regresstion) là các phương pháp quan ừọng và có ứng dụng rộng
rãi và hiệu quả trong các bài toán phân tích dữ liệu và dự báo trong lĩnh vực
kinh tế, tài chính.
Hồi quy dữ liệu là việc xác định một hàm ánh xạ từ một mẫu dữ liệu
vào một biến dự đoán có giá trị thực. Các phương pháp hồi quy được chia
thành các nhóm chính: hồi quy tương quan để xác định mối liên hệ giữa nhiều
biến ngẫu nhiên với nhau; hồi quy tuyến tính đơn biến để xác định mối liên hệ
giữa một biến độc lập vào một biến phụ thuộc; hồi quy tuyến tính đa biến xác
định mối liên hệ giữa nhiều biến độc lập vào một biến phụ thuộc...
Trong lĩnh vực thuế, vấn đề gian lận và trốn thuế đang diễn biến ngày
càng trầm trọng và ngày càng phổ biến trên thế giới và tại Việt Nam [9].
Nhiều quốc gia trên thế giới đã xây dựng các phần mềm máy tính nhằm dự
báo các doanh nghiệp có khả năng gian lận, ừốn thuế dựa trên các kỹ thuật
khai phá dữ liệu và học máy [5, 6, 7, 8]. Tại Việt Nam, Tổng cục thuế đã xây
dựng được kho dữ liệu tập trung về tình hình thu nộp thuế và thanh tra thuế
cùa các doanh nghiệp. Bài toán đặt ra là từ số liệu về kết quả thu nộp thuế,


2

làm sao để dự báo được các doanh nghiệp có khả năng gian lận thuế để tiến
hành thanh tra nhằm truy thu thuế, đảm bảo chống thất thu ngân sách. Do đó,
việc xây dựng phần mềm máy tính nhằm tính điểm rủi ro của doanh nghiệp
dựa vào số liệu thu nộp thuế nhằm hỗ trợ công tác lập kế hoạch thanh tra thuế

là yêu cầu cấp thiết. Doanh nghiệp có điểm rủi ro càng cao thì khả năng gian
lận thuế càng cao và khả năng đưa vào thanh tra càng cao.
Từ ý nghĩa khoa học và thực tiễn nêu ừên, học viên chọn đề tài:
“Nghiên cứu một số phương pháp hồi quy dữ liệu và ứng dụng vào bài toán
tính điểm rủi ro của doanh nghiệp phục vụ thanh ưa thuế”.
2. Mục đích nghiên cứu
Nghiên cứu một số phương pháp hồi quy dữ liệu, tập trung vào các
phương pháp hồi quy tuyến tính (đơn biến, đa biến), ứng dụng vào bài toán
tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế.
3. Nhiệm vụ nghiên cứu
Tìm hiểu các phương pháp hồi quy dữ liệu, tập trung vào phương pháp
hồi quy tuyến tính đơn biến, đa biến. Tìm hiểu bài toán tính điểm rủi ro của
doanh nghiệp dựa trên bộ tiêu chí phân tích rủi ro do Tổng cục thuế ban hành.
Cài đặt chương trình thử nghiệm tính điểm rủi ro của một số doanh nghiệp tại
Cục thuế Hà Nội trên bộ dữ liệu thử nghiệm, đánh giá độ chính xác của mô
hình hồi quy.
4. Đối tượng và phạm vỉ nghiên cứu
Đối tượng nghiên cứu là các phương pháp hồi quy dữ liệu. Phương
pháp nghiên cứu là phương pháp hồi quy tuyến tính đa biến và thử nghiệm
với bài toán tính điểm rủi ro cho các doanh nghiệp phục vụ thanh tra thuế.
5. Phương pháp nghiên cứu
Phương pháp nghiên cứu của luận văn là nghiên cứu lý thuyết và
nghiên cứu thực nghiệm.


3

về nghiên cứu lý thuyết, luận văn sử dụng các phương pháp phân tích,
tổng họp thông tin để tổng kết các kiến thức nền tảng, các công bố khoa học
và các ứng dụng của các phương pháp hồi quy dữ liệu từ các nguồn tài liệu

trên internet và các nguồn tài liệu khác: bao gồm các bài báo khoa học ttên
các kỷ yếu hội thảo, tạp chí chuyên ngành...

về nghiên cứu thực nghiệm,

Tìm hiểu bài toán tính điểm rủi ro của

doanh nghiệp phục vụ công tác thanh tra thuế. Cài đặt chương trình tính điểm
rủi ro và thử nghiệm chương trình trên dữ liệu thử nghiệm của một số doanh
nghiệp thuộc Cục thuế Hà Nội.


4

NỘI DUNG
Luận văn gồm: Phần mở đầu, ba chương chính, phần kết luận, danh
mục tài liệu tham khảo và phụ lục. Bố cục như sau:
Phần mở đầu: Nêu lý do chọn đề tài và bố cục luận văn.
Chương 1. Tồng quan, giới thiệu tình hình trong và ngoài nước về vấn
đề liên quan đến ứng dụng công nghệ thông tin vào lĩnh vực thuế, vấn đề gian
lận và trốn thuế đang diễn biến ngày càng trầm trọng và ngày càng phổ biến ở
hầu hết tất cả các nước trên thế giới. Và trình bày hiện hạng hệ thống phân
tích rủi ro của người nộp thuế. Cho thấy sự cần thiết phải xây dựng hệ thống
tính điểm của doanh nghiệp phục vụ thanh tra thuế.
Chương 2. Một sổ phương pháp hồi quy tuyến tính. Nội dung chính của
chương là trình bày hai phương pháp hồi quy tuyến tính: Phương pháp hồi quy
đơn biến và phương pháp hồi quy đa biến.
Chương 3. Xây dựng và thử nghiệm chương trình tỉnh điểm rủi ro của
doanh nghiệp phục vụ thanh tra thuế. Chương này tập trung trình bày bài toán
tính điểm rủi ro của doanh nghiệp, xây dựng mô hình hồi quy tuyến tính giải

quyết bàu toán và các bước thực hiện, lập trình, cài đặt, thử nghiệm và đánh
giá độ chính xác mô hình trên dữ liệu lịch sử năm 2014 của một số doanh
nghiệp thuộc Cục thuế Hà Nội quản lý được kết xuất từ hệ thống tập trung dữ
liệu người nộp thuế tại Tổng cục thuế (TPH).
Phần kết luận: Tóm tắt các kết quả đạt được, hướng phát triển tiếp theo.
Tài liệu tham khảo.
Phụ lục.


5

CHƯƠNG 1. TỔNG QUAN
1.1 Tổng quan tình hình nghiên cứu trong và ngoài nước
Sự phát triển nhanh chóng các ứng dụng công nghệ thông tin và
Internet vào nhiều lĩnh vực khác nhau của đời sống xã hội trong mấy năm gần
đây đã tạo ra nhiều cơ sở dữ liệu khổng lồ. Để khai thác hiệu quả nguồn thông
tin trên các cơ sở dữ liệu khổng lồ đó nhằm mục đích dự báo, hỗ trợ ra quyết
định, bên cạnh các phương pháp khai thác thông tin truyền thống, các nhà
nghiên cứu đã sử dụng công cụ máy tính điện tử để phát triển các phương
pháp, kỹ thuật mới hỗ trợ tiến trình khám phá, phân tích, tổng họp thông tin.
Lĩnh vực này được gọi là khai phá dữ liệu và khám phá tri thức (Data Mining
and Knowledge Discovery). Trong khai phá dữ liệu, phân lớp (classification)
và hồi quy (regresstion) là các phương pháp quan ừọng và có ứng dụng rộng
rãi và hiệu quả trong các bài toán phân tích dữ liệu và dự báo trong lĩnh vực
kinh tế, tài chính.
Hồi quy dữ liệu là việc xác định một hàm ánh xạ từ một mẫu dữ liệu
vào một biến dự đoán có giá trị thực. Các phương pháp hồi quy được chia
thành các nhóm chính: hồi quy tương quan để xác định mối liên hệ giữa nhiều
biến ngẫu nhiên với nhau; hồi quy tuyến tính đơn biến để xác định mối liên hệ
giữa một biến độc lập vào một biến phụ thuộc; hồi quy tuyến tính đa biến xác

định mối liên hệ giữa nhiều biến độc lập vào một biến phụ thuộc...
Trong lĩnh vực thuế, vấn đề gian lận và trốn thuế đang diễn biến ngày
càng trầm trọng và ngày càng phổ biến ừên thế giới và tại Việt Nam [5].
Trên thế giới, phân tích rủi ro của các doanh nghiệp để phát hiện các
gian lận trong lĩnh vực thuế là chiến lược cải thiện nguồn thu ngân sách của
hầu hết các chính phủ trên thế giới, đặc biệt là các nước đang phát triển. Theo
báo cáo thống kê của tổ chức họp tác kinh tế phát triển phúc lợi kinh tế xã hội
ừên toàn thế giới (OECD) [6], số tiền ước tính gian lận từ thuế và tài chính từ


6

các quốc gia là rất lớn.Tại úc, ước tính gian lận thuế khoảng từ 1- 4 tỷ $AUD
hàng năm và số tiền gian lận thuế được xác minh thông qua hồ sơ kê khai
thuế của người nộp thuế, hồ sơ tài chính của cá nhân và doanh nghiệp. Tại
Canada, ước tính gian gian lận thuế, tài chính khoảng 2,5 tỷ $CAN mỗi năm.
Cơ quan thuế của Canada xác minh tiền gian lận thuế trong dữ liệu đăng ký
thuế trong dựa trên quan hệ các yếu tố của doanh nghiệp như thời gian hoạt
động kinh doanh, giao dịch tín dụng, lợi nhuận từ hoạt động kinh doanh qua
kê khai thuế. Tại Ireland, ước tính thiệt hại về thuế từ các hộ gia đình và các
dịch vụ an sinh xã hội khoảng 25 - 50 tỷ USD. Tại Bồ Đào Nha ước tính hàng
triệu Euro mỗi năm. Tại vương quốc Anh ước tính có khoảng 1,7 tỷ bảng Anh
gian lận thuế mỗi năm. Xác định tình ừạng gian lận thuế thông qua điều tra
một nhóm nhỏ và các yếu tố tuân thủ nộp thuế và dữ liệu lợi nhuận được xác
định qua đơn vị thứ ba. Tại Mỹ ước tính khoảng 9,3 triệu đối tượng gian lận
thuế (cá nhân và doanh nghiệp) có khoảng 5,2 tỷ USD thất thu từ gian lận
thuế. Các số liệu nêu ừên cho thấy, gian lận thuế là vấn nạn quốc gia và nó
gây ra thất thu ngân sách vô cùng lớn và ảnh hưởng nghiêm trọng tới sự phát
triển kinh tế, xã hội của quốc gia đó. Nhận thức được vấn đề nghiêm trọng đó,
các quốc gia ừên thế giới đã và đang xây dựng các phần mềm máy tính để

phân tích các rủi ro của các doanh nghiệp nộp thuế dựa trên các kỹ thuật phân
tích dữ liệu nhằm phát hiện các doanh nghiệp gian lận, trốn thuế. Nhóm tác
giả Bruno Chiarini và các cộng sự đã xây dựng phần mềm phân tích gian lận
thuế giá trị gia tăng (GTGT) và thu nhập doanh nghiệp (TNDN) bằng phương
pháp phân tích chuỗi thời gian (time series analysis) [7]. Nhóm tác giả
Stefano Pisani và các cộng sự [8] đã xây dựng phần mềm phân tích rủi ro thuế
dựa ừên dữ liệu thu nhập phát sinh qua thẻ tín dụng sử dụng phương pháp cây
quyết định CART. Nhóm tác giả Shebo Nalishebo và các cộng sự [9] thực
hiện phân tích rủi ro thuế thông qua khảo sát định lượng phỏng vấn một nhóm


7

người theo từng loại hình doanh nghiệp và ngành nghề kinh doanh sử dụng
phương pháp phân tích phương sai ANOVA và mô hình hồi quy tuyến tính đa
biến. Nhóm tác giả Francisco Roberto Pinto và các cộng sự [10] xây dựng
công cụ phân tích rủi ro qua khảo sát các doanh nghiệp dựa trên bốn giả
thuyết: sự khác biệt giữa các doanh nghiệp; loại hình doanh nghiệp; khác biệt
quan điểm kinh doanh; dữ liệu kê khai và nộp thuế sử dụng mô hình hồi quy
tuyến tính đa biến.
Tại Việt Nam, theo thống kê của Bộ Tài chính cho biết năm 2013 đã
thực hiện thanh ưa, kiểm tra đối với 64.119 doanh nghiệp (tăng 8% so vói năm
2012) xử lý truy thu, phạt và truy hoàn số tiền là 13.657,08 tỷ đồng. Năm 2014
đã thực hiện thanh ưa, kiểm ưa đối với 67.053 doanh nghiệp với tổng số thuế
tăng thu qua thanh ưa, kiểm ưa là 12.224,85 tỷ đồng. Nhiều vụ gian luận thuế
được phát hiện ưong thời gian gần đây tại Việt Nam cho thấy vấn đề gian luận
thuế đã và đang xảy ra với một mức độ nghiêm ưọng. Hai vụ gian lận thuế điển
hình ưong thời gian vừa qua là công ty Meưo và công ty Coca Cola: “Hoạt
động 12 năm tại Việt Nam nhưng chỉ duy nhất vào năm 2010 Metro báo lãi còn
lại đều liên tục bảo lỗ, tỉnh đến năm 2012 Metro lỗ lũy kể lên đến 598 tỷ đồng

và chưa từng nộp thuế thu nhập doanh nghiệp ” [11].
1.2 Sự cần thiết phải triển khai vấn đề nghiên cứu
Như đã trình bày ở ưên, vấn đề gian lận, ưốn thuế đang diễn biến ngày
càng trầm ưọng cả ở ưên thế giới và tại Việt Nam và là nguyên nhân quan
ưọng dẫn đến thất thu ngân sách. Nhận thức được vấn đề này, Tổng cục thuế
đã nghiên cứu xây dựng dự án phần mềm ứng dụng “Phân tích thông tin phục
vụ công tác thanh ưa thuế các cấp” năm 2009 nhằm tính điểm rủi ro của
doanh nghiệp phục vụ công tác lập kế hoạch thanh ưa, kiểm ưa thuế.
1.2.1. Hiện trạng hệ thắng phân tích rủi ro người nộp thuế


8

Mục tiêu của hệ thống phần mềm phân tích thông tin phục vụ công tác
thanh tra thuế các cấp (viết tắt là TPR) là tính điểm rủi ro của doanh nghiệp
dựa ừên các số liệu thu, nộp thuế trong cơ sở dữ liệu ngành Thuế hiện có.
Điểm rủi ro của doanh nghiệp là cơ sở để xếp loại rủi ro doanh nghiệp phục
vụ công tác lập kế hoạch thanh tra thuế. Doanh nghiệp có điểm rủi ro càng
cao thì có nguy cơ gian lận thuế càng cao và khả năng đưa vào thanh tra càng
cao. Hệ thống bao gồm hai phân hệ chính như sau:
1) Phân hệ xây dựng và thử nghiệm bộ tiêu chí phân tích rủi ro.
Quy trình xây dựng và thử nghiệm bộ tiêu chí phân tích rủi ro được
thực hiện như sau:
- Bước 1. Thiết lập bộ tiêu chí đánh giá rủi ro.
Bộ phận Thanh tra thuế là đơn vị chịu trách nhiệm xây dựng bộ tiêu chí
đánh giá rủi ro của doanh nghiệp, bao gồm các tiêu chí tĩnh do Tổng cục thuế
ban hành và các tiêu chí động do Cục thuế tự xây dựng bổ sung phù họp với
tình hình cụ thể tại địa phương. (Xem phụ lục về bộ tiêu chí phân tích rủi ro).
- Bước 2. Thử nghiệm bộ tiêu chí đánh giá rủi ro.
Nguồn số liệu để thử nghiệm bao gồm: Dữ liệu đăng ký thuế, kê khai

thuế, thu nộp thuế lấy từ hệ thống tập trung dữ liệu và khai thác thông tin
người nộp thuế (TPH); Dữ liệu bảng cân đối kế toán, báo cáo kết quả hoạt
động sản xuất kinh doanh lấy từ hệ thống báo cáo tài chính cấp Tổng cục
(BCTC); Dữ liệu kết quả thanh ừa thuế lấy từ hệ thống thanh tra, kiểm ừa
thuế cấp Tổng cục (TTR).
Việc thử nghiệm bộ tiêu chí được thực hiện với các bước như sau:
a)

Xác định các tiêu chỉ đưa vào thử nghiệm: Sau khi xác định được

các tiêu chí có thể sử dụng để đánh giá rủi ro, cán bộ thanh ứa lựa chọn các


9

tiêu chí để đưa vào thử nghiệm dựa vào kinh nghiệm của mình, bao gồm các
tiêu chí tĩnh và một số tiêu chí động.
b) Xác định điểm cho từng tiêu chỉ: Gán điểm cho từng tiêu chí dựa vào
công thức đã thiết lập của từng tiêu chí. Mỗi tiêu chí được phân thành 4 mức
độ rủi ro là rủi ro cao, rủi ro trung bình, rủi ro thấp và rủi ro rất thấp và tương
ứng với các mức độ rủi ro là các điểm rủi ro 4, 3, 2 và 1.
c) Đánh trọng sổ cho từng tiêu chỉ: Cán bộ thanh tra gán trọng số cho
từng tiêu chí dựa vào kinh nghiệm của mình và dựa vào độ quan trọng của
từng tiêu chí thay đổi qua các năm. Ví dụ: các tiêu chí ảnh hưởng đến tình
hình nộp thuế của doanh nghiệp thường được đánh trọng số cao.
d) Tỉnh điểm rủi ro cho doanh nghiệp: Sau khi xác định được bộ tiêu
chí, cho điểm từng tiêu chí và đánh trọng số cho từng tiêu chí, dựa vào số liệu
lịch sử thu nộp thuế từ cơ sở dữ liệu ngành thuế, cán bộ thanh ừa tính tổng
điểm rủi ro của từng người nộp thuế bằng cách tính tổng điểm của từng tiêu
chí nhân với trọng số của từng tiêu chí theo công thức sau:

Điểm rủi ro =

(Zj

* TCj + a2 * TC2 +... +an * TCn

Với a i là trọng số của tiêu chí i, TCi là điểm rủi ro của tiêu chí i.
Nếu điểm rủi ro được tính sai khác so với kết quả thanh tra, cán bộ
thanh tra thay đổi việc lựa chọn các tiêu chí rủi ro và thay đổi các trọng số gán
cho từng tiêu chí. Quá trình này được lặp đi lặp lại cho đến khi điểm rủi ro
được tính phù hợp với kết quả thanh tra. Khi đó, các tiêu chí phân tích rủi ro
và trọng số tương ứng được chọn để chuyển sang bước phê duyệt.
- Bước 3. Phê duyệt bộ tiêu chí đánh giá rủi ro.
Lãnh đạo đơn vị có trách nhiệm phê duyệt bộ tiêu chí phân tích rủi ro,
bao gồm: phê duyệt bộ tiêu chí, phê duyệt trọng số. Bộ tiêu chí phê duyệt
được sử dụng trong năm.


10

2) Phân hệ phân tích rủi ro
Phân hệ phân tích rủi ro bản chất là tính điểm rủi ro cho doanh nghiệp
dựa vào bộ tiêu chí phân tích rủi ro và trọng số được phê duyệt nhằm phục vụ
công tác lập kế hoạch thanh tra thuế.
- Bước 1. Tính điểm rủi ro cho doanh nghiệp dựa vào bộ tiêu chí phân
tích rủi ro đã phê duyệt và số liệu thu nộp thuế trong cơ sở dữ liệu ngành thuế.
- Bước 2. Lập kế hoạch thanh tra thuế. Bộ phận thanh tra tổng họp danh
sách người nộp thuế theo điểm rủi ro từ cao xuống thấp và cân đối với nguồn
nhân lực của bộ phận thanh tra để xác định số lượng người nộp thuế đưa vào
kế hoạch thanh tra.

1.2.2. Phân tích hạn chế của hệ thống TPR
Qua phần trình bày tóm tắt về hiện trạng hệ thống thanh tra rủi ro ở
phần trên, ta có thể thấy rằng bản chất hệ thống thanh tra rủi ro chỉ là phần
mềm quản lý thông tin rủi ro,chưa phải là hệ thống phân tích rủi ro. Điều này
thể hiện ở các khía cạnh sau:
- Các tiêu chí phân tích rủi ro được chọn hoàn toàn dựa vào kinh
nghiệm của cán bộ thanh tra và thay đổi theo thời gian, chưa được học từ dữ
liệu lịch sử về thu nộp thuế và kết quả thanh ừa.
- Trọng số của các tiêu chí phân tích rủi ro được gán hoàn toàn dựa vào
kinh nghiệm của cán bộ thanh tra và thay đổi theo năm, chưa được học từ dữ
liệu lịch sử về thu nộp thuế và kết quả thanh tra.
- Việc tính điểm rủi ro cho doanh nghiệp hoàn toàn dựa vào công thức
do chuyên gia nghiệp vụ xây dựng (cán bộ thanh tra) mà không được tính từ
mô hình phân tích. Do đó, kết quả điểm rủi ro được tính phụ thuộc vào ý thức
chủ quan của con người và có độ chính xác không cao.
1.2.3. Sự cần thiết phải xây dựng hệ thống tính điểm rủi ro của doanh
nghiệp


11

Qua phân tích các hạn chế của hệ thống TPR, luận văn đề xuất xây
dựng hệ thống tính điểm rủi ro của doanh nghiệp phục vụ công tác thanh tra
thuế. Bản chất hệ thống là mô hình phân tích dữ liệu với các tính năng cơ bản
như sau:
- Trọng số của các tiêu chí phân tích rủi ro được học tự động từ dữ liệu
lịch sử thu nộp thuế và thanh tra thuế trong kho dữ liệu ngành thuế trong quá
trình xây dựng mô hình, sử dụng mô hình hồi quy đa biến.
- Việc tính điểm rủi ro cho doanh nghiệp được thực hiện từ mô hình
phân tích. Vì mô hình phân tích được xây dựng từ dữ liệu lịch sử nên độ

chính xác cao và không phụ thuộc vào ý thức chủ quan của con người.

Kết luận chương 1
Trong chương 1, luận văn đã trình bày tình hình trong và ngoài nước về
vấn đề liên quan đến ứng dụng công nghệ thông tin vào lĩnh vực thuế, vấn đề
gian lận và ừốn thuế đang diễn biến ngày càng trầm trọng và ngày càng phổ
biến ở hàu hết tất cả các nước ừên thế giới. Và trình bày hiện trạng hệ thống
phân tích rủi ro của người nộp thuế. Cho thấy sự cần thiết phải xây dựng hệ
thống tính điểm của doanh nghiệp phục vụ thanh tra thuế.


12
CHƯƠNG 2
MỘT SỐ PHƯƠNG PHÁP HỒI QUY TUYẾN TÍNH
2.1. Phương pháp hồi quy đơn biến
2.1.1. Vẩn đề mô hình hồi quy
Nhiều bài toán trong khoa học kỹ thuật đòi hỏi khảo sát quan hệ giữa
hai hoặc nhiều biến. Lấy làm ví dụ, chứng ta xét số liệu ở Bảng 2.1, ở đó y chỉ
thị độ sạch của oxy sinh ra trong quá trình chưng cất hóa học, còn X là nồng
độ phàn ừăm của hydrocarbon có mặt ở bình ngưng bộ phận chưng cất.
Bảng 2. 1. Độ sạch của oxy ứng với tỷ lệ phần trăm hydrocarbon
TT

x(%) y(%)

TT

x(%) y(%)

TT


x(%) y(%)

1

0.99 90.01

8

1.23 91.77

15

1.11 89.85

2

1.02 89.05

9

1.55 99.42

16

1.2 90.39

3

1.15 91.43


10

1.4 93.65

17

1.26 93.25

4

1.29 93.74

11

1.19 93.54

18

1.32 93.41

5

1.46 96.73

12

1.15 92.52

19


1.43 94.98

6

1.36 94.45

13

0.98 90.56

20

0.95 87.33

7

0.87 87.59

14

1.01 89.54

21

1.32 94.01

Khi thê hiện các diêm (xÌ5 y i) lên đô thị, ta nhận được đô thị rải điểm
như ở Hình 2.1. Ta nhận thấy, mặc dù không có đường cong đon giản nào đi
qua các điểm này, song có thể khẳng định rằng, các điểm ấy dường như nằm

phân tán quanh một đường cong với phương trình y = f (x) nào đó. Vậy có thể
giả thiết rằng giá trị trung bình của Y - biến chỉ thị độ sạch khi nồng độ phần
trăm X của hydrocarbon tại mức X thỏa mãn quan hệ
E(Y I x) = f (x)

(2.1.1)

Để tổng quát hóa, chúng ta nên dừng mô hình xác suất bằng cách coi Y
là BNN mà ứng với giá trị X của biến X thì
Y = f(x) + 8
với 8 là sai sô ngâu nhiên.

(2.1.2)


13

Trước hết chúng ta xét trường hợp đơn giản nhất, cũng rất hay xảy ra
trong thực tế, khi f (x) = ax+b. Khi đó (2.1.2) trở thành
Y= ax+b+ 8

(2.1.3)

Hình 2. 1. Đồ thị rải điểm, đường hồi quy cho sổ liệu độ sạch của oxy
Mô hình (2.1.3) được gọi là mô hình hồi quy tuyến tính đơn; X được gọi
là biến hồi quy (hay biến độc lập, biến giải thích), Y được gọi là biến phản hồi
(hay biến phụ thuộc, biến được giải thích); a, b được gọi là các tham số hồi quy,
a: hệ số chặn, b: hệ số góc; đường thẳng y = ax +b được gọi là đường hồi quy.
Mô hình được gọi là tuyến tính vì nó tuyến tính với các tham số a, b (a,
b có lũy thừa 1); được gọi là đơn vì có một biến hồi quy.

Giả sử ở quan sát thứ i biến X nhận giá trị Xi, biến Y nhận giá trị yi và
sai lầm ngẫu nhiên là £ i. Như vậy, dưới dạng quan sát, mô hình (2.1.3) trở
thành
'y 1 = a + bx1 + £i
..........................
yn = a + bxn + £n

(2.1.4)

Lưu ý rằng yi là các biến ngẫu nhiên.
Để khảo sát mô hình chúng ta phải tiến hành các thí nghiệm, các phép
đo đạc hay các phép quan sát, gọi chung là quan sát, để có bộ số liệu {(Xi, yO}.
Thông qua bộ số liệu này, người ta đưa ra các xấp xỉ (ước lượng) tốt cho các
tham số. Mô hình với các hệ số đã ước lượng được gọi là mô hình thực
nghiệm (empữical model) hay mô hình lọc (íilted model). Dừng mô hình thực


14

nghiệm chứng ta có thể tiến hành một số dự đoán, tính các giá trị cực trị cũng
như các khía cạnh của vấn đề điều khiển.
2.1.2. ước lượng hệ số hồi quy
Bây giờ giả sử các biến yi,..., yn nhận các giá trị cụ thể nào đó, vẫn ký
hiệu là yi,..., yn. Khi đó
Si=yi-(axi+b)

(2.1.5)

thể hiện độ lệch của quan sát thứ i so với đường hồi quy lý thuyết (xem Hình
2.2). Tổng bình phương các độ lệch

71

71

eỉ =
i=1

- (a +

bxi)y

i=1

thể hiện “chất lượng” của việc xấp xỉ số liệu bởi đường hồi quy lý thuyết. Ta
không thể biết đường hồi quy lý thuyết, việc ta có thể làm là tìm các hệ số a, b để
^(a,b) = S ”=i((yi —(« + bXi)Y -* m in

(2.16)

Vì f (a,b) là đa thức bậc 2 của 2 ẩn a, b; điều kiện càn để nó đạt cực tiểu là
£í. —££ — 0
da

db

(2.1.7)

Hình 2. 2. Độ lệch và các đường hồi quy ỉỷ thuyết, thực nghiệm
Thực ra chứng minh được đây cũng là điều kiện đủ. Đây là hệ 2 phương
trình tuyến tính bậc nhất của a, b. không khó khăn gì ta tính được nghiệm của

hệ này là:


15
■ r

xy-x.y

b = ——-—
Sxx/n

(2 . 1.8)

â = y — bx

trong đó

(2.1.9)
Với các ước lượng này ta được phương trình hồi quy thực nghiệm
■y = ầXị + b

( 2 . 1. 10)

Phương pháp tìm các ước lượng của hệ số như trên gọi là phương pháp
bình phương cực tiểu.
Các phương trình (2.1.5) - (2.1.10) áp dụng với mọi giá trị cụ thể của
các biến ngẫu nhiên yi,..., yn nên chúng cũng đúng cho các BNN này.
Dưới đây, khi áp dụng các phương trình này và khi không sợ nhàm lẫn,
ta không phân biệt các BNN yi,..., yn với các giá trị cụ thể của chúng.
2.1.3. Tính chắt của ước lượng của hệ số hồi quy

Từ (2.1.8) ta có ngay ỹ = ẵ + bx. Như vậy, đường hồi quy đi qua
điểm “trung tâm” (x, y) của số liệu.
Lưu ý rằng, ước lượng hệ số (2.1.8) hoàn toàn không càn các giả thiết
về các thành phần ngẫu nhiên S i . Để có các tính chất tốt của ước lượng, cần có
những giả thiết đặt lên các thành phần ngẫu nhiên này. Giả thiết dễ chấp nhận
là chúng có kỳ vọng không, cùng phương sai ơ2, độc lập; giả thiết tiếp sau là
chúng có phân bố chuẩn:
S i ,...,

sn độc lập, cùng phân bố chuẩnN(0; ơ2).

(2.1.11)

Khi đó ước lượng hệ số có những tính chất thống kê tốt thể hiện ở định
lý sau.
Định lý 1.1. Khi điều kiện (2.1.11) thỏa mãn thì:
i) â và b lần lượt là ước lượng không chệch của tham số a và b:
E[d] = a; E[b] = b
ii) Phương sai của các ước lượngâ và b được tính như sau

( 2 . 1. 12)


16

(2.1.13)
iii) Uớc lượng không chệch của phương sai chung ơ2 của mô hình cho bởi
n
n
i=1

với

i=1

ỹị = â + bxt: dự báo của quan sát thứ i
ẽị = y ị —ỹị'. phần dư thứ i.
Ý tưởng chứng minh phần i) dựa vào chỗ â và b là tổ họp tuyến tính

của các biến ngẫu nhiên chuẩn nên chúng là các biến ngẫu nhiên chuẩn, rồi
thực hiện phép lấy kỳ vọng.
Vì ơ2 trong công thức (1.1.13) chưa biết, ta phải dùng xấp xỉ của nó là
ỡ2. Chúng ta đưa ra định nghĩa.
Định nghĩa. Đối với mô hình hồi quy tuyến tính đơn, sai số chuẩn hóa
(thực nghiệm) của hệ số góc và hệ số chặn làn lượt được xác định bởi
(2.1.15)
ừong đó, â 2 được tính theo (2.1.14).
2.1.4. Kiểm định giả thiết
Một khâu quan trọng để kiểm ưa tính phù họp của mô hình hồi quy là
kiểm định giả thuyết. Các hệ số ẫ, s,và ỡ 2 là những biến ngẫu nhiên nên có
thể làm một số kiểm định về chúng. Ta luôn nhớ rằng điều kiện (2.1.11) phải
được thỏa mãn. Các đối thuyết đưa ra dưới đây đều là 2 phía. Độc giả có thể
đưa ra đối thuyết 1 phía với điều chỉnh thích hợp các ngưỡng phê phán.
a) Sử dụng kiểm định T
Hệ số góc là tham số quan tíọng nhất của mô hình hồi quy tuyến tính
đơn. Xét bài toán kiểm định giả thuyết hai phía:
H0:b
- . b ± b '0{
u = ụH±

(2.1.16)



×