Tải bản đầy đủ (.docx) (19 trang)

TÌM HIỂU CÁC ỨNG DỤNG CỦA DATAMINING TRONG KINH DOANH

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (177.2 KB, 19 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT QUA MẠNG

BÀI THU HOẠCH MÔN KHAI PHÁ DỮ LIỆU
ĐỀ TÀI:
TÌM HIỂU CÁC ỨNG DỤNG CỦA
DATAMINING TRONG KINH DOANH
Giáo viên hướng dẫn: PGS. Ts. Đỗ Phúc
Sinh viên thực hiện:
Nguyễn Thị Thanh Thảo – MS: CH1101137
Tp HCM, tháng 11 năm 2012
Mục lục
Lời nói đầu 3
Phần 1 4
I. Giới thiệu 4
II. Khái niệm về Datamining 4
III. Một vài ví dụ cho datamining 5
IV. Các thành phần cơ bản của datamining 6
V. Các chức năng chính của khai phá dữ liệu 7
VI. Các giải thuật/thuật toán của datamining 8
VII. Một số công nghệ dùng trong datamining 8
VIII. Phạm vi ứng dụng 9
Phần 2 11
1. Ứng dụng Datamining trong phân tich rủi ro ở ngân hàng ACB 12
2. Ứng dụng Datamining trong kinh doanh đồ chơi trẻ em 13
3. Ứng dụng trong kinh doanh siêu thị 13
4. Ứng dụng của datamining trong Viễn thông 13
Kết luận 18
Lời nói đầu.
Ngày nay, với sự phát triển của khoa học kỹ thuật, các cơ quan, doanh nghiệp,….
ứng dụng công nghệ thông tin vào công tác quản lý điều hành, sản xuất kinh doanh ngày


càng phổ biến.
Đặc biệt là Datamining được sử dụng ngày càng nhiều và thành công vào các lĩnh
vực khác nhau như: trong kinh doanh, trong chuẩn đoán y học, trong xã hội, trong công
nghiệp,….Việc ứng dụng Datamining giúp cho các cơ quan, doanh nghiệp,… đưa ra các
quyết định đúng đắn, kịp thời, dự đoán được những rủi ro, xác định khách hàng tiềm
năng,… Như vậy, nắm bắt được những kyc thuật về Datamining là rất quan trọng.
Nhận thức được tầm quan trọng và sự ảnh hưởng của Datamining, em tiến hành
nghiên cứu một vài ứng dụng của Datamining trong kinh doanh, trong viễn thông,…
Qua đây, em chân thành cảm ơn Phó Giáo sư – Ts. Đỗ Phúc đã truyền đạt cho em
những kiến thức hữu ích này.
Chân thành cảm ơn !
PHẦN 1: CƠ SỞ LÝ THUYẾT
I. Giới thiệu.
Khai phá dữ liệu (datamining) được định nghĩa như là một quá trình chắt lọc hay khai
phá tri thức từ một lượng lớn dữ liệu. Một ví dụ hay được sử dụng là là việc khai thác
vàng từ đá và cát, Dataming được ví như công việc "Đãi cát tìm vàng" trong một tập hợp
lớn các dữ liệu cho trước. Thuật ngữ Dataming ám chỉ việc tìm kiếm một tập hợp nhỏ có
giá trị từ một số lượng lớn các dữ liệu thô. Có nhiều thuật ngữ hiện được dùng cũng có
nghĩa tương tự với từ Datamining như Knowledge Mining (khai phá tri thức), knowledge
extraction(chắt lọc tri thức), data/patern analysis(phân tích dữ liệu/mẫu), data
archaeoloogy (khảo cổ dữ liệu), datadredging(nạo vét dữ liệu),
II. Khái niệm về Datamining.
Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và
tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức
tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó.
Khai phá dữ liệu là một bước của quá trình khai thác tri thức ( Knowledge Discovery
Process ) bao gồm:
- Làm sạch dữ liệu (data cleaning & preprocessing)s: Loại bỏ nhiễu và các dữ liệu không
cần thiết.
- Tích hợp dữ liệu: (data integration): quá trình hợp nhất dữ liệu thành những kho dữ liệu

(data warehouses & data marts) sau khi đã làm sạch và tiền xử lý (data cleaning &
preprocessing).
- Trích chọn dữ liệu (data selection): trích chọn dữ liệu từ những kho dữ liệu
và sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức. Quá trình này
bao gồm cả việc xử lý với dữ liệu nhiễu (noisy data), dữ liệu không đầy đủ (incomplete
data), .v.v.
- Chuyển đổi dữ liệu: Các dữ liệu được chuyển đổi sang các dạng phù hợp
cho quá trình xử lý
- Khai phá dữ liệu(data mining): Là một trong các bước quan trọng nhất,
trong đó sử dụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu.
- Ước lượng mẫu (knowledge evaluation): Quá trình đánh giá các kết quả tìm
được thông qua các độ đo nào đó.
- Biểu diễn tri thức (knowledge presentation): Quá trình này sử dụng các kỹ
thuật để biểu diễn và thể hiện trực quan cho người dùng.
III. Một vài ví dụ cho quá trình dataming
Đầu tiên là câu hỏi tại sao kết quả tìm kiếm của Google lại khác nhau khi đăng
nhập và khi không đăng nhập? Tôi nghĩ đọc đến đây, có lẽ bạn đã có thể hình dung được
câu trả lời. Câu trả lời ngắn gọn là: Khi bạn đăng nhập Google biết bạn là ai, biết hành vi
trong quá khứ của bạn như thế nào (thông qua quá trình thu thập dữ liệu hành vi của bạn
trên các site mà Google hiện diện), do đó nó dựa vào sự hiểu biết này nên kết quả trả về
bao giờ cũng là kết quả có độ chính xác với nhu cầu của bạn cao nhất và ngược lại, khi
không đăng nhập, Google chỉ trả về kết quả ranking bình thường mà không có kèm theo
tham số ranking theo user. Và dĩ nhiên để biết được hành vi trong quá khứ của bạn,
Google phải sử dụng đến các công nghệ data mining.
Thứ hai, tại sao Facebook lại có thể gợi ý cho chúng ta toàn những người mà
chúng ta đã quen biết? Để có thể đưa ra gợi ý này đòi hỏi Facebook kết hợp rất nhiều các
tham số, cụ thể là những tham số gì thì là bí mật công nghệ riêng của FB. Tuy nhiên có
thể giải thích tóm lược như sau: Khi bạn đăng ký tài khoản Facebook, thông thường bạn
nhập thêm các thông tin khác như: quá trình làm việc ở các công ty, công ty bạn đang
làm, trường/lớp bạn đã/đang học, các hội bạn tham gia, bạn gái/trai/vợ/chồng của bạn

v.v Đây chính là các thông tin mà Facebook có thể dựa vào để xác định ai là bạn của
bạn. Ở đây, Facebook đã mô hình hóa các tham số có độ liên quan nhất định để đưa ra
những gợi ý mà có xác xuất đúng rất cao, và bạn thấy đó, thực sự là rất đúng :D. News
stream của Facebook còn phức tạp và hay ho hơn nữa. Tất các điều đó Facebook làm
được là quá trình thu thập dữ liệu hoạt động của người dùng trên site, sau đó sử dụng các
công nghệ data mining để cung cấp nội dung, tính năng phù hợp nhất cho người dùng.
Thứ ba, tại sao Amazon lại có thể đưa ra danh sách các quyển sách bán kèm có tỷ
lệ bán được cao như vậy? Để làm được điều này Amazon đã đầu tư phát triển hệ thống
recommendation trong hàng chục năm, thời gian dài đó không chỉ là phát triển thuần túy
công nghệ mà còn là quãng thời gian thu thập và phân tích hành vi người sử dụng trên
site của Amazon, thời gian càng dài, dữ liệu thu thập càng lớn, dẫn đến tập thông tin có
độ tương quan càng nhiều và càng chính xác. Nôm na bạn có thể hiểu là 100 khách hàng
mua quyển sách ABC thì có tới 40 khách hàng đồng thời mua quyển sách DEF, vì thế với
khách hàng 101 xem quyển ABC, hệ thống nhận diện và đưa ra gợi ý mua them quên
DEF, đơn giản là vậy, tuy nhiên bên dưới còn có nhiều tham số khác để tăng độ tương
quan lên nữa. Và đây cũng là một quá trình mining dữ liệu.
IV. Các thành phần cơ bản của Datamining.
Công nghệ data mining là kết quả của quá trình lâu dài nghiên cứu và phát triển
sản phẩm. Quá trình này bắt đầu từ khi những dữ liệu đầu tiên lưu vào máy tính, tiếp đến
là quá trình cải tiến, nâng câp cách thức truy xuất dữ liệu và dần dần cho phép người
dùng có thể duyệt dữ liệu theo thời gian thực. Kết quả của quá trình này cho phép truy
xuất các nguồn dữ liệu quá khứ, tính toán và định vị lại việc truyền tải, cung cấp thông
tin cho hiện tại, tương lai hay đưa ra các dự đoán tình huống có thể sắp diễn ra.
Có ba kỹ thuật cơ bản nhưng rất tổng quát và đầy đủ trong công nghệ data mining:
Thu thập dữ liệu lớn. (Massive data collective).
Nền tảng sức mạnh tính toán. Đây chính là hạ tầng bao gồm cả phần cứng và phần
mềm lõi. (Powerful computing)
V. Các chức năng chính của khai phá dữ liệu.
Data Mining được chia nhỏ thành một số hướng chính như sau:
• Mô tả khái niệm (concept description): thiên về mô tả, tổng hợp và tóm tắt khái niệm.

Ví dụ: tóm tắt văn bản.
• Luật kết hợp (association rules): là dạng luật biểu diễn tri thứ ở dạng khá đơn giản.
Ví dụ: “60 % nam giới vào siêu thị nếu mua bia thì có tới 80% trong số họ sẽ mua thêm
thịt bò khô”. Luật kết hợp được ứng dụng nhiều trong lĩnh vực kính doanh, y học, tin-
sinh, tài chính & thị trường chứng khoán, .v.v.
• Phân lớp và dự đoán (classification & prediction): xếp một đối tượng vào một trong
những lớp đã biết trước. Ví dụ: phân lớp vùng địa lý theo dữ liệu thời tiết. Hướng tiếp
cận này thường sử dụng một số kỹ thuật của machine learning như cây quyết định
(decision tree), mạng nơ ron nhân tạo (neural network), .v.v. Người ta còn gọi phân lớp là
học có giám sát (học có thầy).
• Phân cụm (clustering): xếp các đối tượng theo từng cụm (số lượng cũng
như tên của cụm chưa được biết trước. Người ta còn gọi phân cụm là học không giám
sát (học không thầy).
• Khai phá chuỗi (sequential/temporal patterns): tương tự như khai phá
luật kết hợp nhưng có thêm tính thứ tự và tính thời gian. Hướng tiếp cận này được ứng
dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán vì nó có tính dự báo
cao.
VI. Các giải thuật/thuật toán để khai thác dữ liệu.
(Data mining Algorithms)
Để có thể hiểu rõ hơn, tôi lấy ví dụ về hệ thống của VCC. Hệ thống thu thập dữ
liệu: từ các site nội bộ của VCC, lượng dữ liệu thu thập hàng ngày trung bình khoảng gần
200GB data, số bản ghi dao động từ 200 đến 700 triệu, thời điểm cao nhất đạt 1.8 tỷ bản
ghi được ghi nhận trong một ngày. Các dữ liệu thu thập bao gồm thông tin về ads item,
user-agent, user id, url v.v…
Nền tảng tính toán bao gồm hệ thống Hadoop Cluster, Datawarehouse và các
application server. Hệ thống Hadoop ứng dụng để giải các bài toán đòi hỏi phải xử lý
song song trên một khối lượng dữ liệu cực lớn (hàng TB data và chục tỷ bản ghi), hệ
thống DW ứng dụng để tính toán nhanh các dữ liệu nằm ở các khoảng thời gian ngắn,
lượng bản ghi tính toán khoảng dưới 1 tỷ, và cần tính nhanh. Nền tảng này kết hợp với
thành phần thứ ba dưới đây để giải các bài toán phân tích về hành vi người dùng, target,

re-targeting sản phẩm đúng đối tượng, xây dựng hệ thống recommendation v.v
Các thuật toán/giải thuật ứng dụng để khai thác dữ liệu: Hệ thống của VCC ứng
dụng khác nhiều các giải thuật/thuật toán khác nhau, tùy vào từng bài toán cụ thể. Ví dụ
với bài toán chống spam thì ứng dụng thuật toán Cosine Similarity, Bayesian,
Clustering… bài toán detect IP thì ứng dụng một số giải thuật tự nghiên cứu, hay bài toán
tính lượng unique user theo khoảng thời gian bất kỳ ứng dụng giải thuật Bloom filter
v.v…
VII. Một số công nghệ thường áp dụng trong data
mining:
Mạng trí tuệ nhân tạo (Artificial neural networks): Đây là mô hình mà hệ thống có
thể tự học thông qua đào tạo với tập dữ liệu ban đầu, từ đó suy đoán ra các tập kết quả từ
tập dữ liệu mà nó khai thác.
Cây quyết định (Decisions Trees): Một tập các decisions biểu diễn dưới dạng cây,
các decisions này tạo ra các luật cho việc phân loại tập dữ liệu. Nôm na là, nếu tập thông
tin A thõa mãn các luật B thì quyết định C.
Giải thuật di truyền (Generic Algorithms): Kỹ thuật này sử dụng trong các quá
trình phối hợp, biến đổi, chọn lọc tự nhiên kế thừa từ khái niệm tiến hóa.
Phương pháp ông hàng xóm gần nhất (Nearest neighbor method): Đây là kỹ thuật phân
loại từng bản ghi/thông tin trong tập dữ liệu dựa trên sự kết hợp của k records có độ
giống nhau nhất trong tập dữ liệu quá khứ.
Nguyên tắc suy diễn (Rule induction): Kỹ thuật bóc tác dữ liệu dựa trên nguyên
tắc Nếu-Thì từ các tập dữ liệu thống kê.
VIII. Phạm vi và ứng dụng.
Phạm vi ứng dụng của data mining rất rộng, bao phủ hầu hết các lĩnh vực. Tuy vậy
có thể tóm lược lại phạm vi ứng dụng của data ming trong các bài toán yêu cầu có cần có
các chức năng/nghiệp vụ sau:
Tự động hóa việc dự doán các xu thế và hành vi sẽ diễn ra trong tương lai: Data
mining tự động hóa quá trình tìm kiếm và trích xuất các tập thông tin có mối quan hệ
hoặc tương quan trong một tập dữ liệu cực lớn. Những vấn đề/câu hỏi đặt ra với các cách
truyền thống đòi hỏi một quá trình rất phức tạp và tốn kém cả về tài chính và thời gian để

giải đáp thì giờ có thể trả lời một cách nhanh chóng trong khi giá thành là thấp nhất. Một
ví dụ đơn giản trong quảng cáo online là quá trình targeting, khi một người dùng click
vào một banner quảng cáo bán giầy dành cho nữ giới, thì khả năng người đó là nữ và họ
đang quan tâm đến đôi giầy đó, khi hệ thống nhận diện được điều này thì có thể target
thêm các kiểu dáng giầy khác nhau, kích cỡ khác nhau, giá thành khác nhau với mục tiêu
là người dùng sẽ kết thúc quá trình là mua một đôi giày, ngoài ra bởi vì hệ thống nhận
diện người dùng là phụ nữ nên nó có thể quảng cáo thêm các sản phẩm khác như mỹ
phẩm, quần áo v.v
Tự động hóa việc khám phá/nhận diện ra những tập thông tin quá khứ mà hệ thống
không/chưa biết: Công cụ data mining trong quá trình phân tích dữ liệu sẽ nhận diện ra
nhưng tập thông tin/dữ liệu không có hoặc bị ẩn bởi những mối liên hệ mà được xác định
trước. Ví dụ như trong việc bán hàng, có những sản phẩm không có mối liên hệ gì với
nhau, nhưng lại hay bán được cùng nhau, từ đó đưa ra cơ chế recommendation. Hay cơ
chế nhận diện giao dịch gian lận trong thanh toán điện tử dựa vào việc phân tích các giao
dịch bất thường…
Ngày nay, các công nghệ data mining được ứng dụng rộng rãi trong các công ty
lấy khách hàng làm trung tâm như truyền thông, tài chính, marketing, bán hàng, các
nghành công nghiệp sản xuất v.v… Nó cho phép các công ty xác định được các mối quan
hệ giữa các yếu tố nội tại như giá thành, mẫu mã, cách thức quảng cáo, thậm chí là kỹ
năng của nhân viên công ty… các yếu tố bên ngoài như đối thủ cạnh tranh, chính sách
kinh tế hay nhu cầu thị trường v.v Và nó còn hỗ trợ việc xác định được sự tác động của
các chính sách khuyến mại, giảm giá, độ hài lòng của khách hàng và lợi nhuận của doanh
nghiệp…
Bên cạnh những ứng dụng trong kinh doanh, Datamining còn được ứng dụng
trong điều trị y học.
PHẦN 2: ỨNG DỤNG CỦA
DATAMINING.
Ngày nay, hầu hết các cơ quan, doanh nghiệp,… đều ứng dụng CNTT phục vụ
công tác quản lý điều hành, SX-KD. Mỗi đơn vị có thể tự xây dựng, trang bị cho mình
các ứng dụng đặc thù, các hệ thống quản lý, lưu trữ dữ liệu riêng,…Tuy nhiên, các kho

dữ liệu của các cơ quan, doanh nghiệp mới chỉ được sử dụng để lưu trữ, cập nhật, tra cứu
thông tin.
Để khai thác, khai phá các hệ thống dữ liệu hiện có nhằm phục vụ công tác dự
báo, dự đoán các xu thế tương lai,… như ứng dụng hỗ trợ ra quyết định, nghiên cứu khoa
học, … Các công cụ, kỹ thuật data mining có thể trả lời các câu hỏi mà các công cụ
truyền thống đòi hỏi rất nhiều thời gian cần thiết để có thể giải đáp được (thậm chí các
cách truyền thống không thể giải được).
Để có thể data mining một cách hiệu quả, điều đầu tiên cần phải thu thập dữ liệu
và định nghĩa lại theo các tiêu chí cần phân tích. Các kỹ thuật data mining có thể cài đặt
rất nhanh chóng trên các nền tảng phần mềm, phần cứng phổ thông mà không cần đòi hỏi
quá phức tạp, tuy vậy data mining thường gắn liền với việc phân tích một khối lượng dữ
liệu cực lớn trong thời gian rất ngắn nên cần ứng dụng các công nghệ high performance
client/server hoặc xử lý song song (parallel programming).
Phạm vi ứng dụng của data mining rất rộng, bao phủ hầu hết các lĩnh vực, nó tự
động hóa quá trình tìm kiếm và trích xuất các thông tin có mối quan hệ hoặc tương quan
trong một tập dữ liệu cực lớn; tự động hóa việc khám phá, nhận diện ra những tập thông
tin quá khứ không có hoặc bị ẩn bởi những mối liên hệ mà được xác định trước,… Ngày
nay, data mining được ứng dụng rộng rãi trong các công ty lấy khách hàng làm trung tâm
như truyền thông, tài chính, marketing, bán hàng, các ngành công nghiệp sản xuất v.v…
Nó cho phép các công ty xác định được các mối quan hệ giữa các yếu tố nội tại như giá
thành, mẫu mã, cách thức quảng cáo, thậm chí là kỹ năng của nhân viên công ty,… các
yếu tố bên ngoài như đối thủ cạnh tranh, chính sách kinh tế hay nhu cầu thị trường v.v
Và nó còn hỗ trợ việc xác định được sự tác động của các chính sách khuyến mại, giảm
giá, độ hài lòng của khách hàng và lợi nhuận của doanh nghiệp.
1. Ứng dụng Datamining trong phân tich rủi ro ở
ngân hàng ACB
Một ngân hàng ABC có dịch vụ cho vay dành cho người đi làm, trong số những
người vay tiền, tồn tại khả năng một số người không trả nợ (phá sản hay trốn nợ). Ngân
hàng có trong tay các bản ghi về khách hàng, độ tuổi, tình trạng hôn nhân, tình trạng nhà
cửa, mức thu nhập,…có trả nợ hay không trả nợ. Dữ liệu được thể hiện thành bảng như

sau:
Dựa vào bảng số liệu này, các thuật toán Data Mining sẽ phân tích dữ liệu và cho
ra các dự đoán về những yếu tố chính ảnh hưởng đến việc người vay trả tiền hay không
trả tiền, các thuật toán này còn cho ra được các mô hình phân tích rủi ro cho những người
vay tiếp theo, những ai sẽ có xác suất trốn nợ cao để Ngân hàng xiết chặt điều kiện khi
cho vay.
2. Ứng dụng Datamining trong kinh doanh đồ chơi
trẻ em.
Etoys là một ví dụ về khai thác mỏ dữ liệu trực tuyến. www.etoys.com bán các đồ
chơi trực tuyến. Trên web site này, khách tham quan có thể chọn ''toy search'' (tìm
đồ chơi). Bằng cách sử dụng một pull down menu, khách tham quan có thể chọn
các tiêu chí cơ bản như tuổi của đứa bé, mức giá, và loại đồ chơi. Site khảo hàng
trực tuyến Etoys.com sau đó cung cấp cho khách hàng một danh sách các đồ chơi
đáp ứng các tiêu chí này, tiết kiệm cho họ thời gian, và sự hối hả khi phải đến cửa
hàng đồ chơi để mua quà cho con.
3. Ứng dụng trong kinh doanh siêu thị.
Trong siêu thị Big C, ngoài những đợt khuyến mãi giảm giá, siêu thị còn thành
công khi đã khai thác triệt để tâm lý khách hàng về những phương diện khác nhau chứ
không đơn thuần ở giá. Có những khách hàng sẵn sàng mua với giá không rẻ vì cho rằng
“ tiền nào của nấy ”. Siêu thị tập trung quan tâm thỏa đáng đến trật tự các mặt hàng trong
siêu thị trong phương châm “ phạm vi mặt hàng nhỏ ( cùng một mức độ giá ), bày biện
khoa học để dễ nhận biết và mua bán, thanh toán nhanh”. Ngoài ra, thanh toán được tổ
chức mau lẹ, thái độ phục vụ chu đáo khiến cho khách hàng có tâm lý thoải mái khi mua
hàng, tạo cho khách hàng tâm lý không ở đâu đáp ứng yêu cầu tốt bằng ở Big C.
4. Ứng dụng của datamining trong Viễn thông.
Dữ liệu chính.
Trong ngành viễn thông có một số dữ liệu chính như sau:
Dữ liệu chi tiết cuộc gọi ( call detail data )
Mỗi một cuộc gọi của khách hàng trên mạng viễn thông đều phát sinh một mẫu tin
chi tiết cuộc gọi. Các mẫu tin này bao gồm các thông tin đặc tả thuộc tính quan trọng của

cuộc gọi như : số gọi, số bị gọi, thời gian bắt đầu và thời gian đàm thoại. Thông thường
các dữ liệu chi tiết cuộc gọi không được sử dụng trực tiếp cho các ứng dụng data mining
mà thường kết hợp với thông tin cá nhân khách hàng để tổng quát hóa thành thông tin về
hành vi sử dụng điện thoại của khách hàng.
Dữ liệu trạng thái mạng ( network data )
Mạng viễn thông có cấu hình rất phức tạp, được cấu trúc bởi hàng ngàn thiết bị
viễn thông kết nối với nhau. Các thông điệp trạng thái (status message) của mỗi thiết bị
phải được lưu trữ thành một kho dữ liệu trạng thái mạng (network data) và chúng được
phân tích theo trình tự để hỗ trợ chức năng quản lý mạng. Mỗi thông điệp trạng thái ít
nhất phải bao gồm thời gian phát sinh và thông tin mã hóa về lỗi hay trạng thái của thiết
bị.
Dữ liệu khách hàng ( customer data )
Cũng như các lĩnh vực kinh doanh lớn khác, các thông tin về khách hàng cần được
lưu trữ để dùng cho các ứng dụng như tính cước, tiếp thị Thông tin về khách hàng bao
gồm số điện thoại, họ tên, địa chỉ và các thuộc tính quan trọng khác như quá trình thanh
toán nợ, quá trình sử dụng các dịch vụ, thu nhập Thông thường dữ liệu khách hàng phải
được kết hợp với các dữ liệu khác, (ví dụ như dữ liệu chi tiết cuộc gọi) trong khi sử dụng
uật data mining.
MỘT SỐ ỨNG DỤNG
Các ứng dụng data mining được phát triển trong ngành viễn thông rất sớm. Chúng
ta sẽ xem xét một vài ứng dụng tiêu biểu, các ứng dụng này được chia thành 3 nhóm ứng
dụng khác nhau : Phát hiện gian lận (fraud detection), các ứng dụng hỗ trợ tiếp thị và
quản lý khách hàng, cuối cùng là các ứng dụng về phát hiện và xử lý lỗi hệ thống mạng.
a. Phát hiện gian lận ( fraud detection ):
Gian lận là một trong những vấn đề nghiêm trọng của các công ty viễn thông, nó
có thể làm thất thoát hàng tỷ đồng mỗi năm. Có thể chia ra làm 2 hình thức gian lận khác
nhau thường xảy ra đối với các công ty viễn thông : Trường hợp thứ nhất xảy ra khi một
khách hàng đăng ký thuê bao với ý định không bao giờ thanh toán khoản chi phí sử dụng
dịch vụ. Trường hợp thứ hai liên quan đến một thuê bao hợp lệ nhưng lại có một số hoạt
động bất hợp pháp gây ra bởi một người khác. Những ứng dụng này sẽ thực hiện theo

thời gian thực bằng cách sử dụng dữ liệu chi tiết cuộc gọi, một khi xuất hiện một cuộc gọi
nghi ngờ gian lận, lập tức hệ thống phải có hành động ứng xử phù hợp, ví dụ như một
cảnh báo xuất hiện hoặc từ chối cuộc gọi nếu biết đó là cuộc gọi gian lận.
Hầu hết các phương thức nhận diện gian lận đều dựa trên hành vi sử dụng điện
thoại khách hàng trước kia so sánh với hành vi hiện tại để xác định xem đó là cuộc gọi
hợp lệ không.
b. Các ứng dụng quản lý và chăm sóc khách hàng
Các công ty viễn thông quản lý một khối lượng lớn dữ liệu về thông tin khách
hàng và dữ liệu về chi tiết cuộc gọi (call detail records). Những thông tin này có thể cho
ta nhận diện được những đặc tính của khách hàng và thông qua đó có thể đưa ra các
chính sách chăm sóc khách hàng thích hợp dựa trên dự đoán hoặc có một chiến lược tiếp
thị hiệu quả.
Một trong các ứng dụng data mining phổ biến dựa trên việc xem xét luật kết hợp
giữa các dịch vụ viễn thông khách hàng sử dụng. Hiện nay trên một đường điện thoại
khách hàng sử dụng rất nhiều dịch vụ khác nhau, ví dụ như : gọi điện thoại, truy cập
internet, tra cứu thông tin từ hộp thư tự động, nhắn tin, gọi 108, .v.v. Dựa trên cơ sở dữ
liệu khách hàng chúng ta có thể khám phá mối liên kết trong việc sử dụng các dịch vụ, có
thể đưa ra các luật như (khách hàng gọi điện thoai quốc tế) => (truy cập internet) .v.v.
Trên cơ sở phân tích được các luật như vậy các công ty viễn thông có thể điều chỉnh việc
bố trí nơi đăng ký các dịch vụ phù hợp, ví dụ điểm đăng ký điện thoại quốc tế nên bố trí
gần với điểm đăng ký Internet chẳng hạn.
Một ứng dụng phục vụ chiến lược marketing khác đó là dựa trên kỹ thuật luật kết
hợp của data mining để tìm ra tập các thành phố, tỉnh nào trong nước thường gọi điện
thoại với nhau. Ví dụ ta có thể tìm ra tập phổ biến ( Cần Thơ, HCM, Hà Nội ) chẳng hạn.
Điều này thật sự hữu dụng trong việc hoạch định chiến lược tiếp thị hoặc xây dựng các
vùng cước phù hợp.

Một vấn đề khá phổ biến ở các công ty viễn thông hiện là sự thay đổi nhà cung cấp
dịch vụ (customer churn) đặc biệt với các công ty điện thoại di động. Đây là vấn đề khá
nghiêm trọng ảnh hưởng đến tốc độ phát triển thuê bao, cũng như doanh thu của các nhà

cung cấp dịch vụ. Thời gian gần đây các nhà cung cấp dịch vụ di động luôn có chính sách
khuyến mãi lớn để lôi kéo khách hàng. Điều đó dẫn đến một lượng không nhỏ khách
hàng thường xuyên thay đổi nhà cung cấp để hưởng những chính sách khuyến mãi đó. Kỹ
thuật data mining hiện nay có thể dựa trên dữ liệu tiền sử để tìm ra các quy luật, từ đó có
thể tiên đoán trước được khách hàng nào có ý định rời khỏi mạng trước khi họ thực hiện.
Dựa trên các kỹ thuật data mining như cây quyết định (decision tree), mạng nơ ron nhân
tạo (neural nerwork) trên dữ liệu cước (billing data), dữ liệu chi tiết cuộc gọi (call detail
data), dữ liệu khách hàng (customer data) tìm ra các quy luật mà dựa trên đó ta có thể tiên
đoán trước ý định rời khỏi mạng của khách hàng, từ đó công ty viễn thông sẽ có các ứng
xử phù hợp nhằm lôi kéo khách hàng.
Cuối cùng, một ứng dụng cũng rất phổ biến đó là phân lớp khách hàng
(classifying). Dựa vào kỹ thuật data mining học trên cây quyết định (decision tree) trên
dữ liệu khách hàng và chi tiết cuộc gọi có thể tìm ra các luật để phân loại khách hàng. Ví
dụ ta có thể phân biệt được khách hàng nào thuộc đối tượng kinh doanh hay nhà riêng
dựa vào các luật sau :
- Luật 1 : nếu không quá 43% cuộc gọi có thời gian từ 0 đến 10 giây và không đến 13%
cuộc gọi vào cuối tuần thì đó là khách hàng kinh doanh.
- Luật 2 : Nếu trong 2 tháng có các cuộc gọi đến hầu hết từ 3 mã vùng giống nhau và
<56,6% cuộc gọi từ 0-10 giây thì có là khách hàng nhà riêng.
Trên cơ sở tìm ra được các luật tương tự vậy, ta dể dàng phân loại khách hàng, để
từ đó có chính sách phân khúc thị trường hợp lý.
c. Các ứng dụng phát hiện và cô lập lỗi trên hệ thống mạng viễn
thông (Network fault isolation )
Mạng viễn thông là một cấu trúc cực kỳ phức tạp với nhiều hệ thống phần cứng và
phần mềm khác nhau. Phần lớn các thiết bị trên mạng có khả năng tự chuẩn đoán và cho
ra thông điệp trạng thái, cảnh báo lỗi (status and alarm message). Với mục tiêu là quản lý
hiệu quả và duy trì độ tin cậy của hệ thống mạng, các thông tin cảnh báo phải được phân
tích tự động và nhận diện lỗi trước khi xuất hiện làm giảm hiệu năng của mạng. Bởi vì số
lượng lớn các cảnh báo độc lập và có vẻ như không quan hệ gì với nhau nên vấn đề nhận
diện lỗi không ít khó khăn. Kỹ thuật data mining có vai trò sinh ra các luật giúp hệ thống

có thể phát hiện lỗi sớm hơn khi nó xảy ra. Kỹ thuật khai thác mẫu tuần tự
(sequential/temporal patterns) của data mining thường được ứng dụng trong lĩnh vực này
thông qua việc khai thác cơ sở dữ liệu trạng thái mạng (network data).
Kết luận
Data Mining đã được ứng dụng rất rộng rãi và thành công vào nhiều ngành khác nhau:
Khoa học Tự nhiên & Xã hội, Kinh doanh, Công nghệ thông tin, chuẩn đoán y học…
Trong ngành Công nghiệp, Data Mining cung cấp các công cụ hữu hiệu để giải thích các
hiện tượng cũng như dự đoán chính xác các sự kiện và có thể được dùng để điều tra sai
hỏng máy móc, khảo sát nhu cầu thị trường, thăm dò khách hàng,…
Nắm được các kỹ thuật về Data Mining sẽ giúp Doanh nghiệp có cái nhìn “sâu” hơn về
khách hàng và thị trường của mình, qua đó đưa ra các quyết định đúng đắn hơn nhằm đạt
hiệu quả tối đa.
Tài liệu tham khảo
[1] ĐỖ PHÚC. Giáo trình khai phá dữ liệu và data warehousing. Đại học quốc gia TP
HCM
[2] GARY M. WEISS. Data mining in telecommunicaton. Department of computer and
information science, Fordham university
[3] www. en.wikipedia.org
[4] www.tailieu.vn
các tài liệu khác trên internet

×