Kỷ yếu Hội thảo quốc tế “Thương mại và phân phối” lần 1 năm 2018
KHAI PHÁ DỮ LIỆU WEB NHẰM TỐI ƯU HÓA KÊNH PHÂN PHỐI
TRÊN INTERNET
WEB DATA MINING TO OPTIMIZE CHANNEL DISTRIBUTORS
ON THE INTERNET
Nguyễn Thị Khánh Hà
Trường CĐ CNTT hữu nghị Việt – Hàn
Email:
Tóm tắt
Hiện nay, internet đang phát triển một cách nhanh chóng và được sử dụng rộng rãi trong mọi lĩnh vực
đặc biệt là trong lĩnh vực thương mại tồn cầu. Hoạt động marketing cũng khơng nằm ngồi sự ảnh hưởng đó.
Với mục tiêu tối thượng là thỏa mãn nhu cầu khách hàng, tất cả các chính sách mà doanh nghiệp đưa ra đều
nhằm mục đích đưa sản phẩm đến đúng người, qua đúng kênh, vào đúng thời điểm. Như vậy, doanh nghiệp cần
thu thập thông tin từ khách hàng sẵn có, và thơng qua những quy tắc nhất định để đưa ra khuynh hướng mua
sắm của những khách hàng mới. Để làm được điều này cần thiết phải có những kỹ thuật để tìm ra thơng tin,
kiến thức từ những dữ liệu đã có, phải vận dụng kĩ thuật khai phá dữ liệu. Trong giới hạn bài viết này, tác giả
tập trung nghiên cứu việc ứng dụng dữ liệu web được khai phá vào hoạt động phân phối trên internet nhằm tối
ưu hóa hoạt động này.
Từ khóa: Kênh phân phối, khai phá dữ liệu, Internet.
Abstract
Today, the in internet is growing rapidly and it is used extensively in all areas especially in the field of
global trade. Marketing is not out of touch. With the ultimate goal of satisfying customer needs, all the policies
that businesses offer are aimed at bringing the product to the right people, right channel, at the right time. Thus,
businesses need to collect information from existing customers, and and through certain rules to make the
shopping trends of new customers. To do this, it is necessary to have techniques to find information and
knowledge from existing data, to use data mining techniques. In this article, the author focuses on the
application of web data mining to internet distribution in order to optimize this activity.
Keywords: Distribution channel, data mining, Internet.
1. Đặt vấn đề
Là một trong số các chức năng quan trọng của marketing, phân phối giữ vai trò đưa sản phẩm đến
thị trường mục tiêu, kênh phân phối làm cho sản phẩm sẵn có ở đúng thời gian, địa điểm và phương thức
mà khách hàng mong muốn. Với sự hỗ trợ của internet, hoạt động phân phối ngày càng thể hiện tầm
quan trọng trong quá trình tạo nên lợi thế cạnh tranh dài hạn cho doanh nghiệp. Nhằm mục đích cuối
cùng là nâng cao lợi ích so với số vốn đầu tư đã bỏ ra, các doanh nghiệp không ngừng nghiên cứu sao
cho hoạt động của kênh phân phối nói chung và kênh phân phối trên internet nói riêng ngày càng tối ưu.
Đây là việc nắm bắt xem khách hàng thường ghé thăm website thông qua đâu, họ tìm kiếm thơng tin với
động cơ nào, từ khóa nào được khách hàng tìm kiếm nhiều nhất… Vậy làm thế nào để doanh nghiệp có
thể có được những thơng tin này? Bài viết sau đây sẽ phần nào lý giải được câu hỏi đó.
2. Tổng quan nghiên cứu, cơ sở lý thuyết và phương pháp nghiên cứu
2.1. Khai phá dữ liệu web
Hiện nay, với sự phát triển vượt bật của cơng nghệ thơng tin, các hệ thống thơng tin có thể lưu
trữ một khối lượng dữ liệu lớn. Trong kho dữ liệu lớn đó khơng phải thơng tin nào cũng có ích. Vì vậy
để khai thác được những tri thức có ích đó các phương pháp Khai phá dữ liệu ra đời. Chúng cho phép
chúng ta trích xuất những thơng tin hữu ích mà chúng ta chưa biết. Các tri thức vừa tìm thấy có thể vận
dụng để cải thiện hiệu quả hoạt động của hệ thống thông tin ban đầu.
351
Kỷ yếu Hội thảo quốc tế “Thương mại và phân phối” lần 1 năm 2018
Khai phá dữ liệu có thể định nghĩa là việc khám phá tri thức trong cơ sở dữ liệu, là một q
trình trích xuất những thơng tin ẩn, trước đây chưa biết và có khả năng hữu ích trong cơ sở dữ liệu [3];
Là q trình tính tốn để tìm ra các mẫu trong các bộ dữ liệu lớn liên quan đến các phương pháp tại
giao điểm của máy học, thống kê và các hệ thống cơ sở dữ liệu [1].
Quá trình Khai phá dữ liệu bao gồm 5 giai đoạn chính như sau [1]:
− Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (Problem understanding and data
understanding).
− Chuẩn bị dữ liệu (Data preparation), bao gồm các quá trình làm sạch dữ liệu (data cleaning),
tích hợp dữ liệu (data integration), chọn dữ liệu (data selection), biến đổi dữ liệu (data transformation).
− Khai phá dữ liệu (Data mining): xác định nhiệm vụ khai phá dữ liệu và lựa chọn kĩ thuật khai
phá dữ liệu. Kết quả cho ta một nguồn tri thức thông minh.
− Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm tra và lọc nguồn tri thức thu
được.
− Triển khai (Deployment).
2.2. Một số kỹ thuật khai phá dữ liệu trong marketing [2]
2.2.1. Phân tích cụm để xác định nhóm mục tiêu duy nhất
Phân tích cụm cho phép xác định một nhóm người dùng cụ thể theo các tính năng phổ biến
trong cơ sở dữ liệu. Các tính năng này có thể bao gồm độ tuổi, vị trí địa lý, trình độ học vấn,... Đó là
một kỹ thuật khai phá dữ liệu hữu ích trong marketing để phân đoạn cơ sở dữ liệu. Sự kết hợp các biến
là vơ tận và phân tích cụm nhiều hay ít chọn lọc theo u cầu tìm kiếm.
2.2.2. Phân tích hồi qui để dự báo marketing
Kỹ thuật này cho phép nghiên cứu sự thay đổi, thói quen, mức độ hài lịng của khách hàng và
các yếu tố khác liên quan đến tiêu chí. Khi một trong số các tiêu chí này thay đổi, doanh nghiệp sẽ có
một ý tưởng khá rõ ràng về những gì sẽ xảy ra với người dùng của mình.
2.2.3. Phân tích phân hạng để xác định spam và các khía cạnh khác
Làm thế nào doanh nghiệp có thể phân loại một email trả lời từ một khách hàng? Và làm cách
nào để doanh nghiệp có thể nhận ra bất kỳ liên kết nào giữa khách hàng tiềm năng cho sản phẩm của
mình trước và sau khi chạy chiến dịch quảng cáo? Chỉ có một câu trả lời: phân tích phân hạng, kỹ
thuật khai phá dữ liệu cho phép nhận ra các mẫu (các lược đồ định kỳ) bên trong một cơ sở dữ liệu.
Một giải pháp hiệu quả để cải thiện hiệu suất chiến lược marketing của doanh nghiệp.
2.2.4. Phát hiện bất thường
Kỹ thuật phát hiện bất thường được sử dụng để loại bỏ bất kỳ cơ sở dữ liệu không nhất quán
hoặc bất thường tại nguồn. Phần mềm sẽ xử lý việc tìm kiếm vì nó được lập trình để thực hiện các thao
tác phức tạp trong cơ sở dữ liệu chứa tới hàng nghìn bản ghi (địa chỉ, tên,...).
2.2.5. Phát hiện xâm nhập để bảo mật hệ thống tốt hơn
Để tránh sử dụng cơ sở dữ liệu bị xâm nhập (các giá trị cá nhân được thêm vào bởi tin tặc, hoặc
thậm chí là virus sao chép dữ liệu), kỹ thuật khai phá dữ liệu được sử dụng để khử nhiễm cơ sở dữ liệu
và đảm bảo an toàn hơn cho toàn bộ hệ thống.
2.2.6. Nghiên cứu quy tắc kết hợp để khám phá sự liên kết giữa các dữ liệu
Việc nghiên cứu qui tắc kết hợp được sử dụng cho tất cả các hoạt động bán sản phẩm. Các dữ
liệu khách hàng lưu lại khi tham gia giao dịch trực tuyến hoặc tại cửa hàng hoặc trung tâm mua sắm sẽ
được tạo mối liên hệ với nhau.
352
Kỷ yếu Hội thảo quốc tế “Thương mại và phân phối” lần 1 năm 2018
2.2.7. Cây quyết định để tối ưu hóa quản lý rủi ro dự án
Doanh nghiệp ln đứng trước nhiều sự lựa chọn trước khi đưa ra quyết định, đường giao nhau
của những lựa chọn đó sẽ trở thành cây quyết định. Ban đầu nó có thể gây nhầm lẫn khi phải xử lý cây
quyết định, nhưng nếu chúng ta có cơng cụ máy tính phù hợp để tổ chức cây và đưa các lựa chọn hoàn
chỉnh cuối cùng với chi phí / lợi ích thì đó là một câu chuyện khác và cây trở thành một cơng cụ có giá
trị cho việc quản lý rủi ro của dự án. Mức độ phân tích chủ yếu phụ thuộc vào cơng nghệ có sẵn: phần
mềm tiên tiến hơn thì cây sẽ cho thấy con đường tốt hơn để theo đuổi.
2.2.8. Mạng thần kinh để nghiên cứu tự động hóa
Đây là một trong những ứng dụng khai phá dữ liệu mới nhất, theo đó doanh nghiệp sử dụng các
phép tính marketing nghĩa là máy tính quản lý cơ sở dữ liệu, nghiên cứu để xác định mẫu có chứa các
phần tử có mối quan hệ với nhau. Kết quả của việc nghiên cứu này sẽ công nhận và lưu trữ các mẫu có
ích khơng chỉ cho hiện tại mà còn cho tương lai.
2.2.9. Quy tắc qui nạp cho dự báo dữ liệu trên cơ sở phân tích
Với kỹ thuật khai phá dữ liệu này, doanh nghiệp có thể phân tích dự đốn phức tạp bên trong
cơ sở dữ liệu với hàng ngàn bản ghi.
2.2.10. Lưu kho dữ liệu cho quá trình xử lý dữ liệu lớn
Khi phải dịch chuyển các chương trình và hệ thống, doanh nghiệp có thể tính tốn trên phần
mềm kho dữ liệu, khơng chỉ riêng cho hoạt động marketing mà còn cho cả sự phát triển của chính
doanh nghiệp.
3. Kết quả và thảo luận
Tối ưu hóa kênh phân phối là việc nắm bắt xem khách hàng thường ghé thăm website thơng
qua đâu, họ tìm kiếm thơng tin với động cơ nào, và từ khóa nào được khách hàng tìm kiếm nhiều nhất.
Những việc làm này nhằm tập trung vào kênh marketing hiệu quả nhất và mục đích cuối cùng là nâng
cao lợi ích so với số vốn đầu tư đã bỏ ra.
Hiện nay, hầu như các doanh nghiệp có hệ thống giao dịch điện tử đều không nắm bắt được
lượng mua qua website của họ là bao nhiêu, bởi vì họ chỉ quan tâm đến lượng khách viếng thăm
website nên việc tìm hiểu xem trong số lượng khách viếng thăm đó có bao nhiêu người mua hàng, và
mua bao nhiêu chưa được để ý đến. Những doanh nghiệp này không thể nắm bắt được việc khách hàng
viếng thăm website của họ với mục đích gì, xem những gì ở website, làm những hành động nào trên
trang chính, thốt ra khỏi website khi nào và từ đâu. Chính vì vậy, cho dù có nhiều khách hàng viếng
thăm website với động cơ tìm kiếm thơng tin như thế nào đi chăng nữa, thì doanh số bán vẫn khơng
thể tăng lên được.
Để tăng doanh số bán thì việc tăng số lượng khách hàng cũng quan trọng, tuy nhiên việc nắm
bắt được những khách hàng đó làm gì trên website là việc quan trọng hơn. Nghĩa là, doanh nghiệp phải
phân tích con đường dẫn khách hàng viếng thăm website và liên kết việc ghé thăm này với doanh số
bán hàng. Không chỉ dừng lại ở chỗ đếm lượng khách ghé thăm website ở mức độ “nhiều, ít” bằng con
số, nếu doanh nghiệp không nắm được nguyên nhân cũng như các chủng loại, những con đường khiến
khách hàng ghé thăm website thì lượng thăm có tăng đến đâu đi chăng nữa, cũng không đạt được kết
quả đáng kể. Khi không nắm được lượng mua hàng trên website, người nào thực hiện những hành
động nào trên website, họ vào và ra vào thời điểm nào, bằng cách nào thì thật khó để mong chờ vào
một kết quả tốt đẹp.
Đặc biệt ở đây doanh nghiệp có thể dùng phép phân tích web log file (phân tích log) để tìm
hiểu về giao thơng trên một website. Web log file là file dữ liệu tập hợp những dấu tích của người sử
dụng web để lại trên web server, file này chứa các dữ liệu hữu ích liên quan đến việc tiếp cận của
người sử dụng web. Web log file được chia thành hai hình thái standard log và extend log [4].
353
Kỷ yếu Hội thảo quốc tế “Thương mại và phân phối” lần 1 năm 2018
- Standard log được chia ra làm 4 hình thái: Access log file là file tập hợp các ghi chép về việc
ghé thăm site, thời gian ghé thăm, thơng tin về con đường ghé thăm. Ngồi ra, nếu người sử dụng đã
được kiểm chứng thì file này cịn chứa thơng tin về ID của người đăng nhập và xác nhận được cả
những việc mà người này đã tiến hành trên web nữa. Error log file là những nội dung và thời gian
được ghi chép về các lỗi xảy ra trên web server và những thất bại khi tiếp cận web. Khi error log q
lớn thì có thể ảnh hưởng đến mức độ tin cậy của web, vì thế phải để ý đến chỉ số này để bảo trì web
theo chu kỳ. Referr log file là file ghi chép động cơ tìm kiếm và từ khóa tìm kiếm khi sử dụng web, nó
cịn bao gồm cả những thơng tin về trang trước của web. Có thể sử dụng những thông tin thu thập được
qua Referr log file để chọn ra phương tiện quảng cáo trên internet. Agent log file cung cấp các thơng
tin về chủng loại trình duyệt, phiên bản trình duyệt, và hệ điều hành mà người sử dụng dùng để tiếp
cận web, nó được sử dụng để tối ưu hóa web pages.
- Extend log cung cấp thêm những thông tin mà standard log chưa cung cấp.
Để thực hiện được việc khai phá dữ liệu web phải lấy được web log file từ web server, tiếp theo
là tiến hành tiền xử lý và sau đó áp dụng các kĩ thuật khai phá dữ liệu để phân tích. Đặc biệt khi khai
thác sử dụng web trong web log file có ghi chép lại tất cả các dấu tích ghé thăm của người sử dụng vì
thế sẽ có rất nhiều thông tin không cần thiết cho việc phân tích cũng được ghi chép lại. Vì vậy, để tìm
hiểu người sử dụng và tính ra được số lần ghé thăm của người sử dụng đó việc nắm rõ session và quy
trình tiền xử lý việc hồn thành con đường ghé thăm của người sử dụng mà không được ghi chép lại
bằng web log file là quan trọng hơn so với khai phá dữ liệu thơng thường.
Phép phân tích này sẽ cho thấy khách hàng thông qua con đường nào để ghé thăm web, trang
đầu họ ghé thăm là trang nào, sau khi ghé thăm website thì họ kích chọn vào link nào và họ thoát ra
khỏi web lúc nào, thốt ra từ đâu. Bằng việc phân tích giao thơng trên web, doanh nghiệp có thể nắm
bắt được những khách hàng nào thực sự quan tâm đến website, và những khách hàng nào có ý định
muốn giao dịch với doanh nghiệp.Và phát triển hơn nữa, doanh nghiệp cũng có thể biết được trang nào
có ấn tượng nhất đối với khách hàng, yếu tố nào khiến khách hàng giao dịch mua, yếu tố nào ngăn cản
giao dịch mua đối với khách hàng.Với những biện pháp như trên, doanh nghiệp có thể đạt được lượng
khách cố định ghé thăm website của mình với mục đích tìm kiếm thơng tin mua dịch vụ. Đặc biệt, đối
với dịch vụ làm tăng doanh số bán, doanh nghiệp phải cung cấp cho khách hàng những thông tin như
dưới đây và hàng tháng phải phân tích số khách hàng ghé thăm cũng như sự thay đổi của họ theo
những nội dung sau:
- Vào web của doanh nghiệp từ link nào hay thông qua website nào nhiều nhất.
- Con đường khách ghé thăm dùng để ra vào nhiều nhất.
- Trang khách hàng vào nhiều nhất hay còn gọi là trang entry.
- Trang khách hàng ra nhiều nhất hay cịn gọi là trang exit.
- Khách hàng dùng trình duyệt nào nhiều nhất, độ phân giải của màn hình, màu sắc và hệ điều
hành.
- Từ khóa tìm kiếm nhiều nhất trong website.
- Trang có ấn tượng nhất và trang khơng có ấn tượng nhất.
- Phần nào của website có lỗi nhiều nhất.
- Khách hàng nào tìm đến web nhiều nhất
Bằng việc có những thơng tin trên để nâng cao doanh số bán thì doanh nghiệp phải tiến hành
cung cấp những dịch vụ như sau để nâng cao doanh số bán trên thực tế:
- Phân tích khách ghé thăm: quan tâm đến sự thay đổi của số lượng khách ghé thăm theo chu kỳ
và định kỳ, phân tích những thơng tin chi tiết liên quan tới khách ghé thăm vào từ đâu, ở đâu và bằng
354
Kỷ yếu Hội thảo quốc tế “Thương mại và phân phối” lần 1 năm 2018
cách nào, ghé thăm website thường xun hay khơng. Những phân tích này sẽ mang lại những thơng
tin hữu ích, báo cáo định kỳ về khách hàng cho doanh nghiệp.
- Phân tích nguyên nhân và chủng loại của giao thơng web: phân tích sự khác biệt giữa con
đường tìm kiếm thơng qua động cơ tìm kiếm. Bằng phân tích log, doanh nghiệp nắm bắt được nền tảng
của khách ghé thăm. Thông qua những thông tin này doanh nghiệp sẽ tối ưu hóa được website, điều
chỉnh được hình thức kinh doanh nhằm nâng cao lượng bán.
Vai trị cơ bản của kênh phân phối là điểm để khách hàng có thể trực tiếp mua hàng, tuy nhiên
thơng qua đây doanh nghiệp cũng có thể tiếp xúc với khách hàng. Hơn nữa, ở vị trí của doanh nghiệp,
để vận hành kênh phân phối, doanh nghiệp phải đầu tư, vì thế nguyên tắc của doanh nghiệp là đầu tư ít
nhưng phải thu lại được lợi nhuận cao. Vì đặc điểm này, nên internet trở thành kênh phân phối có sức
hấp dẫn nhất. Bởi vì internet là nơi doanh nghiệp có thể gặp gỡ khách hàng, tương tác với khách hàng
thông qua kênh phân phối. Tuy nhiên đối với các mặt hàng yêu cầu phải có sự di chuyển thực tế, vì
việc thực hiện đơn hàng mà có thể dẫn đến việc gây lỗ vốn cho doanh nghiệp nếu thực hiện bằng hình
thức này. Bởi vậy, khi phân hóa kênh phân phối, doanh nghiệp phải kiểm tra liệu có gây tổn hại đến
hình ảnh tổng hợp của sản phẩm theo kênh phân phối và thương hiệu hay không, sự khác biệt giữa sản
phẩm và giá cả, sự khác biệt về cách tiếp cận kênh phân phối giữa các khách hàng cá nhân.
4. Kết luận
Thỏa mãn nhu cầu nhằm đạt được sự hài lịng của khách hàng là một trong những đích đến
quan trọng của doanh nghiệp. Để làm được điều này, doanh nghiệp cần phải hiểu khách hàng hơn
chính bản thân họ hiểu về mình. Việc khai phá dữ liệu giúp tìm ra “bảo vật” được chơn dấu trong vơ
vàn dữ liệu có sẵn, những bảo vật này (thơng tin) sẽ giúp doanh nghiệp đưa ra những quyết định đúng
đắn. Kênh phân phối trên internet được tối ưu hóa nhờ việc khai phá dữ liệu web sẽ có lợi cho cả
khách hàng lẫn doanh nghiệp, con đường mà hai bên đi để gặp sẽ là con đường nhanh, thuận tiện và
hiệu quả nhất.
TÀI LIỆU THAM KHẢO
1. Website />2. , “The secrects of data mining for your marketing strategy”
3. K A Taipale. Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data, Columbia
Science and Technology Law Review, 5(2), December 2003
4. Kang (2016), “Customer relationship management”, Soongsil University
355