BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ
THUẬT THÀNH PHỐ HỒ CHÍ MINH
LUẬN VĂN THẠC SĨ
LÊ MINH TÂN
ÁP DỤNG CÁC KỸ THUẬT SUY LUẬN NHÂN
QUẢ TRONG CHIẾN LƯỢC ĐỊNH GIÁ
NGÀNH: KHOA HỌC MÁY TÍNH – 8480101
SKC007262
Tp. Hồ Chí Minh, tháng 04/2021
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ
THUẬT THÀNH PHỐ HỒ CHÍ MINH
LUẬN VĂN THẠC SĨ
LÊ MINH TÂN
ÁP DỤNG CÁC KỸ THUẬT SUY LUẬN NHÂN QUẢ
TRONG CHIẾN LƯỢC ĐỊNH GIÁ
NGÀNH: KHOA HỌC MÁY TÍNH – 8480101
Hướng dẫn khoa học:
TS. LÊ VĂN VINH
Tp. Hồ Chí Minh, tháng 4 năm 2021
LÝ LỊCH KHOA HỌC
I. LÝ LỊCH SƠ LƯỢC:
Họ & tên: LÊ MINH TÂN
Giới tính: Nam
Ngày, tháng, năm sinh: 20 / 02 / 1997 Nơi sinh: Thành phố Hồ Chí Minh
Quê quán: Tây Ninh
Dân tộc: Kinh
Chỗ ở riêng hoặc địa chỉ liên lạc: 328 tầng 4 chung cư Lô D, cư xá Gò Dầu,
phường Tân Quý, quận Tân Phú, thành phố Hồ Chí Minh.
Điện thoại cơ quan:
Điện thoại nhà riêng: 0932.751.620
Fax:
E-mail:
II. Q TRÌNH ĐÀO TẠO:
Đại học:
Hệ đào tạo: Chính quy
Thời gian đào tạo từ 09/2015 đến 09/2019
Nơi học (trường, thành phố): Đại học Sư phạm Kỹ thuật Tp. Hồ Chí Minh
Ngành học: Công nghệ thông tin
Tên đồ án, luận án hoặc mơn thi tốt nghiệp: Khóa luận: Tìm hiểu Faster RCNN, CNTK và xây dựng ứng dụng Sketch2Code”
Ngày & nơi bảo vệ đồ án, luận án hoặc thi tốt nghiệp: 07/2019 – Đại học Sư
phạm Kỹ thuật Tp. Hồ Chí Minh
Người hướng dẫn: TS. Trần Lê Minh Sang
Thạc sĩ:
Hệ đào tạo: Chính quy
Thời gian đào tạo từ 10/2019 đến 05/2021
Nơi học (trường, thành phố): Đại học Sư phạm Kỹ thuật Tp. Hồ Chí Minh
Ngành học: Khoa Học Máy Tính
Tên luận văn: Áp dụng các kỹ thuật suy luận nhân quả trong chiến lược
định giá
Ngày & nơi bảo vệ luận văn: 22/04/2021, Đại học Sư phạm Kỹ thuật Tp. Hồ
Chí Minh
Người hướng dẫn: TS. Lê Văn Vinh
III. Q TRÌNH CƠNG TÁC CHUYÊN MÔN KỂ TỪ KHI TỐT NGHIỆP
ĐẠI HỌC:
Thời gian
07/2019 –
12/2019
i
LỜI CẢM ƠN
Trước hết, tôi xin chân thành cảm ơn đến TS. Lê Văn Vinh. Thầy đã luôn tận tâm
chỉ bảo và hướng dẫn tôi trong suốt thời gian tôi thực hiện luận văn này. Cơng trình
nghiên cứu này sẽ khơng thể hồn thiện nếu khơng có những lần hướng dẫn tận tâm
từ Thầy. Xin cảm ơn Thầy.
Tôi xin cảm ơn Q Thầy Cơ đã thẳng thắn góp ý, giúp tơi nhìn ra được những
điểm cịn thiếu sót, từ kiến thức cho đến cách trình bày, kỹ năng tơi đã gặp phải.
Tơi xin dành những dịng cuối để gửi lời cảm ơn đến gia đình, nhà trường và bạn bè
đã tạo điều kiện để tơi hồn thành cơng trình nghiên cứu. Xin cảm ơn mọi người.
ii
LỜI CAM ĐOAN
Tơi cam đoan đây là cơng trình nghiên cứu của tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố
trong bất kỳ cơng trình nào khác.
Tp. Hồ Chí Minh, ngày … tháng … năm
202…
(Ký tên và ghi rõ họ tên)
iii
ABSTRACT
Pricing strategies refer to the methods that price products to maximize business profits.
One of the challenges is that while improving profits, businesses should have chosen
the appropriate method and come up with an efficient usage. Thus, statistical
estimations have become useful in supporting solving the problem. Many existing
pricing tactics applications can be used with regression or causal inference. However,
those approaches may include general assumptions or robust which might result in
ineffective strategies. In this paper, we apply machine learning techniques with causal
inference to the pricing strategies. We consider two groups of methods. The first group,
known as unconfoundedness, is using conditional moment models that gives strict
statistical assumptions and most of its’ models implement regressions, while the other,
known as instrumental variable estimation, includes flexible demonstrations of
nuisance components and weaker assumptions. Orthogonal Random Forest which
belongs to unconfoundedness models and our suggested improvements were
experimented and analyzed with both synthetic and real datasets. Testing with real
dataset helped evaluate the model when applying to pricing strategy problems.
Depending on specific strategy, predictions should provide suggestions that support
human in making significant decisions to optimize the business benefit.
This work aimed to improve the highly effective Orthogonal Random Forest which was
introduced in 2019. In short, instead of calculating scores based on moment function
assumption, we would like to do some estimations. This comes from the idea that
absolute sampling errors related to the moment may increase while splitting data.
Therefore, exact score finding can accidentally skip those. While measurement is not
feasible, adding definable errors by estimating can make things more realistic.
Moreover, controllable errors support in tuning the model with low cost comparing
with tree increments or some other solutions, which usually harm the training speed.
We performed simulation experiments learned from the model paper. Furthermore,
iv
we tested on real data to see how effective the model in solving pricing strategies
problems.
v
TÓM TẮT
Chiến lược định giá là tên gọi của một nhóm các phương pháp gán giá cho sản
phẩm nhằm tối đa lợi ích doanh nghiệp. Một trong những thách thức là trong lúc cải
thiện lợi ích, doanh nghiệp cần chọn phương pháp phù hợp và suy nghĩ về cách thực
hiện sao cho hiệu quả. Vì vậy, ước lượng thống kê đã trở nên cực kỳ hữu ích. Hầu
hết ứng dụng chiến lược định giá đều có thể kết hợp hồi quy hay suy luận nhân quả.
Tuy nhiên, những cách tiếp cận này có thể bao gồm giả định mang tính chung chung
hoặc mạnh mẽ và từ đó có thể khiến chiến lược khơng hiệu quả. Cũng trong cơng
trình nghiên cứu này, kỹ thuật máy học được áp dụng cùng suy luận nhân quả trong
chiến lược định giá. Có hai nhóm phương pháp. Ở nhóm đầu tiên, được biết đến với
tên “unconfoundedness”, sử dụng các mơ hình mơ-men có điều kiện mà theo đó là
các giả định thống kê khắt khe, và hầu hết trong nhóm này đều tích hợp các giải
pháp hồi quy. Trong khi đó, nhóm cịn lại là ước lượng biến điều khiển, bao gồm
các thành phần gây hại cùng với giả định yếu hơn. Kỹ thuật Rừng Ngẫu Nhiên Trực
Giao thuộc nhóm unconfoundedness cùng với cải tiến của nó được thực nghiệm và
phân tích với dữ liệu giả lập và dữ liệu thật. Thực nghiệm dữ liệu thật giúp đánh giá
mơ hình khi áp dụng vào bài tốn chiến lược định giá. Trong đó, tùy thuộc vào
chiến lược cụ thể, dự đốn mơ hình dẫn đến các gợi ý hỗ trợ con người đưa ra các
quyết định quan trọng nhằm tối ưu hóa lợi ích doanh nghiệp.
Nghiên cứu này tập trung cải thiện mơ hình đã rất hiệu quả Rừng Ngẫu Nhiên Trực
Giao lần đầu giới thiệu năm 2019. Một cách ngắn gọn, thay vì tính tốn điểm số dựa
trên giả định liên quan đến hàm mô-men, cải tiến sẽ thực hiện ước lượng. Ý tưởng là
việc lỗi xây dựng tập mẫu sẽ tăng lên đáng kể trong lúc thực hiện chia tách dữ liệu. Từ
đó, việc tính tốn chính xác có thể khiến nó bị bỏ qua. Khi việc đo lượng lỗi chính xác
là khơng khả thi, thêm một hàm phát sinh lỗi định nghĩa từ trước bằng cách ước lượng
có thể khiến mọi thứ thực tế hơn. Hơn nữa, giá trị lỗi còn giúp bổ sung thêm tham số có
thể thay đổi giúp cải thiện mơ hình với chi phí thấp so với việc tăng số lượng cây hoặc
các giải pháp ảnh hưởng đến tốc độ huấn luyện khác. Thử nghiệm giả
vi
lập được tham khảo từ bài báo. Hơn nữa, thực nghiệm trên dữ liệu có thật được tiến
hành để quan sát độ hiệu quả của mơ hình trong việc giải quyết vấn đề chiến lược
định giá.
vii
MỤC MỤC
Trang tựa
TRANG
Quyết định giao đề tài ........................................................................................
Biên bản chấm luận văn tốt nghiệp thạc sĩ .........................................................
Phiếu nhận xét ....................................................................................................
Lý lịch khoa học.................................................................................................i
Lời cảm ơn........................................................................................................ii
Lời cam đoan................................................................................................... iii
Abstract............................................................................................................iv
Tóm tắt.............................................................................................................vi
Mục mục........................................................................................................viii
Danh sách chữ viết tắt.......................................................................................x
Danh sách các bảng..........................................................................................xi
Danh sách các hình.........................................................................................xii
Chương 1 TỔNG QUAN.................................................................................. 8
1.1
Tính cấp thiết của đề tài........................................................................8
1.2
Mục tiêu và đối tượng nghiên cứu........................................................ 9
1.3
Nhiệm vụ nghiên cứu và giới hạn.........................................................9
1.4
Phương pháp nghiên cứu.......................................................................9
1.5
Ý nghĩa thực tiễn của đề tài.................................................................10
1.6
Kết cấu của luận văn........................................................................... 10
Chương 2 CƠ SỞ LÝ THUYẾT.....................................................................11
2.1
Suy luận nhân quả...............................................................................11
2.1.1 Hồi quy tuyến tính...............................................................................11
2.1.2 Hiệu ứng liệu pháp dựa trên nhân quả................................................ 12
2.2
Phương pháp suy luận.........................................................................16
2.2.1 Cơ sở xây dựng phương pháp.............................................................16
2.2.2 Chiến lược định giá.............................................................................28
Chương 3 TÌNH HÌNH NGHIÊN CỨU.........................................................32
3.1
Suy luận nhân quả...............................................................................32
3.2
Ước lượng nghiệm phương trình........................................................ 34
3.3
Tối ưu chiến lược định giá.................................................................. 35
Chương 4 CẢI TIẾN RỪNG NGẪU NHIÊN TRỰC GIAO BẰNG
PHƯƠNG PHÁP KẾT HỢP ƯỚC LƯỢNG NGHIỆM................................. 37
viii
4.1
Giải pháp xây dựng cây trong Rừng Ngẫu Nhiên Trực Giao..............37
4.2
Phương pháp kết hợp giải nghiệm Newton phương trình bậc một.....39
4.3
Phương pháp đề xuất...........................................................................39
4.3.1 Phương pháp Ước lượng Chebyshev – Halley....................................41
4.3.2 Phương pháp Ước lượng Newton cải tiến...........................................44
CHƯƠNG 5 KẾT QUẢ THỰC NGHIỆM.....................................................46
5.1
Giả lập.................................................................................................46
5.2
Dữ liệu thật..........................................................................................57
Chương 6 KẾT LUẬN....................................................................................72
6.1
Kết luận...............................................................................................72
6.2
Hạn chế............................................................................................... 72
6.3
Hướng phát triển đề tài....................................................................... 73
TÀI LIỆU THAM KHẢO...............................................................................74
BÀI BÁO........................................................................................................ 79
ix
DANH SÁCH CHỮ VIẾT TẮT
STT
1
2
3
4
5
6
7
8
9
10
x
DANH SÁCH CÁC BẢNG
BẢNG
TRANG
Bảng 5.1: Cấu hình cho các mơ hình tham gia thử nghiệm.....................................47
Bảng 5.2: Mơi trường thực hiện thử nghiệm, thời gian chạy giả lập.......................48
Bảng 5.3: Kết quả thử nghiệm giả lập sơ bộ với n = 25, support = 1......................49
Bảng 5.4: Kết quả thử nghiệm giả lập sơ bộ với n = 25, support = 15....................50
Bảng 5.5: Kết quả thử nghiệm giả lập sơ bộ với n = 25, support = 20....................50
Bảng 5.6: Phần trăm tăng hay giảm hệ số lỗi MAE so với Newton chuẩn..............53
Bảng 5.7: Phần trăm tăng hay giảm hệ số lỗi MSE so với Newton chuẩn...............53
Bảng 5.8: Phần trăm tăng hay giảm hệ số lỗi tuyệt đối của ATE so với Newton
chuẩn....................................................................................................................... 53
Bảng 5.9: Phần trăm tăng hay giảm hệ số lỗi MAE so với Newton chuẩn..............55
Bảng 5.10: Phần trăm tăng hay giảm hệ số lỗi MSE so với Newton chuẩn.............55
Bảng 5.11: Phần trăm tăng hay giảm hệ số lỗi tuyệt đối của ATE so với Newton
chuẩn....................................................................................................................... 56
Bảng 5.12: Bảng thuộc tính bộ dữ liệu thực nghiệm............................................... 58
Bảng 5.13: Mơ tả kiểu trình bày đồ thị quan hệ giữa thuộc tính - hiệu ứng.............59
Bảng 5.14: Kết luận dựa trên ước lượng UTE với định giá tâm lý là liệu pháp.......62
Bảng 5.15: Kết luận dựa trên ước lượng UTE với định giá giảm là liệu pháp.........66
Bảng 5.16: Kết luận dựa trên ước lượng UTE với giá cả là liệu pháp.....................70
xi
DANH SÁCH CÁC HÌNH
HÌNH
Hình 2.1: Mơ hình quan hệ của biến nhiễu W ..........................................................
Hình 2.2: Mơ hình quan hệ của biến điều khiển Z ....................................................
Hình 4.1: Mơ hình sơ đồ cây mẫu trong Rừng Ngẫu Nhiên Trực Giao ...................
Hình 4.2: Đồ thị củavà..................................................................................
Hình 4.3: Đường phân cách thẳng dọc tại = 1, vng góc với trục Ox ................
Hình 5.1: Biểu đồ MAE theo giá trị support của bốn giải pháp, với = 25 ...........
Hình 5.2: Biểu đồ MSE theo giá trị support của bốn giải pháp, với = 25 ............
Hình 5.3: Biểu đồ hệ số lỗi tuyệt đối của ATE theo giá trị support của bốn giải
pháp, với = 25 .......................................................................................................
Hình 5.4: Biểu đồ MAE theo giá trị support của bốn giải pháp, với = 50 ...........
Hình 5.5: Biểu đồ MSE theo giá trị support của bốn giải pháp, với = 50 ............
Hình 5.6: Biểu đồ hệ số lỗi tuyệt đối của ATE theo giá trị support của bốn giải
pháp, với = 50 .......................................................................................................
Hình 5.7: Đồ thị điểm dữ liệu theo giá trị từng đặc trưng - UTE, dự đoán hiệu ứng
chiến lược định giá tâm lý từ dữ liệu thật bằng phương pháp Newton .....................
Hình 5.8: Đồ thị điểm dữ liệu theo giá trị từng đặc trưng - UTE, dự đoán hiệu ứng
chiến lược định giá tâm lý từ dữ liệu thật bằng phương pháp Chebyshev – Halley
(2) ..............................................................................................................................
Hình 5.9: Đồ thị điểm dữ liệu theo giá trị từng đặc trưng - UTE, dự đoán hiệu ứng
chiến lược định giá tâm lý từ dữ liệu thật bằng phương pháp Chebyshev – Halley
(3) ..............................................................................................................................
Hình 5.10: Đồ thị điểm dữ liệu theo giá trị từng đặc trưng - UTE, dự đoán hiệu ứng
chiến lược định giá tâm lý từ dữ liệu thật bằng phương pháp Newton cải tiến ........
Hình 5.11: Kết quả từ mơ hình Newton cải tiến. Các mơ hình đều dự đốn tỉ lệ nữ
giới có việc làm tồn thời gian trên 35% giúp hiệu ứng ổn định hơn. ......................
xii
Hình 5.12: Đồ thị điểm dữ liệu theo giá trị từng đặc trưng - UTE, dự đoán hiệu ứng
chiến lược định giá giảm từ dữ liệu thật bằng phương pháp Newton......................64
Hình 5.13: Đồ thị điểm dữ liệu theo giá trị từng đặc trưng - UTE, dự đoán hiệu ứng
chiến lược định giá giảm từ dữ liệu thật bằng phương pháp Chebyshev – Halley (2)
64
Hình 5.14: Đồ thị điểm dữ liệu theo giá trị từng đặc trưng - UTE, dự đoán hiệu ứng
chiến lược định giá giảm từ dữ liệu thật bằng phương pháp Chebyshev – Halley (3)
65
Hình 5.15: Đồ thị điểm dữ liệu theo giá trị từng đặc trưng - UTE, dự đoán hiệu ứng
chiến lược định giá giảm từ dữ liệu thật bằng phương pháp Newton cải tiến..........66
Hình 5.16: Đồ thị dự đoán hiệu ứng định giá giảm theo income của Newton cải tiến.
Vùng xám là miền có hệ số thu nhập dưới 10.4 hoặc trên 10.95.............................67
Hình 5.17: Đồ thị điểm dữ liệu theo giá trị từng đặc trưng - UTE, dự đoán hiệu ứng
chiến lược định giá từ dữ liệu thật bằng phương pháp Newton...............................68
Hình 5.18: Đồ thị điểm dữ liệu theo giá trị từng đặc trưng - UTE, dự đoán hiệu ứng
chiến lược định giá từ dữ liệu thật bằng phương pháp Chebyshev – Halley (2)......69
Hình 5.19: Đồ thị điểm dữ liệu theo giá trị từng đặc trưng - UTE, dự đoán hiệu ứng
chiến lược định giá từ dữ liệu thật bằng phương pháp Chebyshev – Halley (3)......69
Hình 5.20: Đồ thị điểm dữ liệu theo giá trị từng đặc trưng - UTE, dự đoán hiệu ứng
chiến lược định giá từ dữ liệu thật bằng phương pháp Newton cải tiến...................70
xiii
Chương 1
TỔNG QUAN
Chương đầu tiên sẽ tổng qt hóa cơng trình nghiên cứu và trình bày kết cấu của
luận văn.
1.1 Tính cấp thiết của đề tài
Thế kỉ XXI đánh dấu bước tiến bộ mạnh mẽ của nhiều ngành khoa học. Cuộc cách
mạng công nghiệp 4.0 cũng đánh dấu sự vực dậy của trí tuệ nhân tạo, internet vạn
vật, dữ liệu lớn và nhiều hơn thế nữa. Với sự tiến bộ cả về dân trí và điều kiện sống,
con người chắc chắn không ngừng đặt những mục tiêu cao hơn. Điển hình là những
mơ hình máy học hiện nay đã khắc phục hạn chế của chính nó trong nhiều năm
trước. Từ bài toán phân loại đơn giản, đến nay, chúng ta đã xây dựng thành công các
hệ thống phức tạp như xử lý hình ảnh, video theo thời gian thực, hay ứng dụng
trong an ninh mạng, thương mại điện tử, Y học với tốc độ và độ chính xác vượt trội.
Nhưng như đã đề cập, đó vẫn chưa phải là giới hạn. Vài năm trở lại đây, ý tưởng về
những cỗ máy có khả năng đưa ra kết quả dựa trên đặc tính nhân quả được đề cập
trong nhiều bài báo nghiên cứu nước ngoài. Sự vượt trội giúp máy học ra khỏi biên
giới về tương quan đơn thuần giữa các biến độc lập – phụ thuộc truyền thống.
Không phải lĩnh vực quen thuộc, suy luận nhân quả lại chứa đựng quan điểm mang
tính thực tế hơn. Bắt đầu từ câu hỏi phức tạp rằng kết quả sẽ thay đổi ra sao khi tác
nhân thay đổi, các máy học truyền thống sẽ khó đảm bảo cho ra kết quả thuyết phục
vì chúng khơng được thiết kế cho mục đích cụ thể như vậy.
Tính tương quan từ lâu là cơ sở cho máy học truyền thống. Dự đốn có thể
dựa trên tính tương quan đơn thuần. Tuy vậy, cơ sở thiếu yếu tố nhân quả khiến dự
đốn khó trở thành gợi ý ra quyết định hay ra quyết định. Quyết định nói đến ở đây
có tính quan trọng như chiến lược trong kinh doanh, chính sách vĩ mơ, thử nghiệm
thuốc.
Giải pháp suy luận nhân quả, với mục tiêu ước lượng hiệu ứng liệu pháp, được
xây đựng để giải quyết vấn đề trên. Với thử nghiệm lâm sàng trong Y học, ước lượng
8
hiệu quả liệu pháp điều trị là công việc thiết yếu để hiểu rõ hơn về thuốc. Còn trong
lĩnh vực kinh tế, mơ hình suy luận nhân quả cho ra hiệu ứng của chính sách bán
hàng, thường được gọi là độ co giãn của cầu theo giá. Ngoài chiến lược định giá sẽ
bàn ở mục sau, mơ hình vừa đề cập có thể được vận dụng trong thương mại điện tử
qua tác vụ học tỉ lệ nhấp chuột vào đường dẫn, hình ảnh trên trang web, gợi ý định
giá tối ưu. Dễ dàng thấy được phạm vi áp dụng của phương pháp suy luận nhân quả
dù mang tính đặc thù nhưng vẫn rộng và thực tế.
1.2 Mục tiêu và đối tượng nghiên cứu
Nghiên cứu ứng dụng mơ hình suy luận nhân quả Rừng Ngẫu Nhiên Trực Giao, cải
tiến đề xuất cho mơ hình và đánh giá cải tiến trên. Đối tượng nghiên cứu là các mơ
hình máy học suy luận nhân quả nổi bật những năm vừa qua cùng các cơng trình
ước lượng nghiệm liên quan đến cải tiến.
1.3 Nhiệm vụ nghiên cứu và giới hạn
- Nhiệm vụ nghiên cứu là giới thiệu lý thuyết về các thuật toán tiêu biểu và chiến
lược định giá, đưa ra cái nhìn tổng quan về khía cạnh vận dụng thực tế trong một
mục đích cụ thể.
- Lập luận, phân tích, chứng minh bằng thử nghiệm phương pháp gốc và giải pháp
cải tiến ước lượng nghiệm với Rừng Ngẫu Nhiên Trực Giao.
1.4 Phương pháp nghiên cứu
Phương pháp nghiên cứu tài liệu: Các tài liệu được tham khảo phù hợp với nhiệm
vụ, giới hạn và mục đích nghiên cứu. Những yếu tố cần tiếp thu gồm lý thuyết, kết
quả thử nghiệm trước đây, phương pháp xây dựng mơ hình giả lập.
- Phương pháp thống kê, đối chiếu: Các thử nghiệm được chạy nhiều lần và hệ số
lỗi sẽ là cơ sở để so sánh, đánh giá khách quan.
- Phương pháp thử nghiệm: Thực nghiệm trên dữ liệu thật rất khó để đánh giá hiệu
quả mơ hình. Ngược lại, thử nghiệm trên mơ hình giả lập khắc phục vấn đề này.
9