Tải bản đầy đủ (.pdf) (2 trang)

042_Nghiên cứu kỹ thuật khai phá dữ liệu và ứng dụng trong hệ thống bán sách

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (225.4 KB, 2 trang )


- 22 -
NGHIÊN CỨU KỸ THUẬT KHAI PHÁ DỮ LIỆU
VÀ ỨNG DỤNG TRONG HỆ THỐNG
BÁN SÁCH TRỰC TUYẾN

1. Thông tin về sinh viên, người hướng dẫn
• Nhóm sinh viên thực hiện (K47CB):
¾ Tạ Thanh Hùng
¾ Đinh Tiến Đức
¾ Nguyễn Văn Công
• Giáo viên hướng dẫn: PGS.TS. Đỗ
Trung Tuấn (ĐH Khoa Học Tự
Nhiên - ĐHQGHN)
• Giáo viên đồng hướng dẫn: Ths.
Đào Kiến Quốc (ĐH Công Nghệ -
ĐHQGHN)
2. Giới thiệu
Trong gần hai thập kỷ qua, các hệ
thống cơ sở dữ liệu đã đem lại những lợi ích vô
cùng to lớn cho nhân loại. Cùng với sự phát
triển của công nghệ thông tin và ứng dụng của
nó trong đời sống - kinh tế - xã hội, lượng dữ
liệu thu thập được ngày càng nhiều theo thời
gian, làm xuất hiện ngày càng nhiều các hệ
thống cơ sở dữ liệu có kích thước lớn. Trong
tình hình hiện nay, khi thông tin đang trở thành
yếu tố quyết định trong kinh doanh thì vấn đề
tìm ra các thông tin hữu ích trong các cơ sở dữ
liệu khổng lồ ngày càng trở thành mục tiêu
quan trọng của các doanh nghiệp và khai phá


dữ liệu dần trở thành thành phần chính để thực
thi nhiệm vụ khai phá tri thức. Được đánh giá
sẽ tạo ra cuộc cách mạng trong thế kỷ 21, khai
phá dữ liệu sẽ ngày càng được ứng dụng phổ
biến trong các lĩnh vực kinh tế, xã hội: ngân
hàng, truyền thông, quảng cáo….
Trong quá trình nghiên cứu, học tập tại
trường, được sự chỉ bảo và hướng dẫn trực tiếp
của thầy Đỗ Trung Tuấn và thầy Đào Kiến
Quốc, cũng như sự giúp đỡ, động viên của các
thầy, cô giáo trong trường ĐH Công Nghệ -
ĐHQGHN, chúng tôi đã quyế
t định làm khóa
luận tốt nghiệp với đề tài “Nghiên cứu kỹ
thuật khai phá dữ liệu và ứng dụng trong hệ
thống bán sách trực tuyến”.
Khóa luận được chia thành 4 chương:
- Chương 1: Tổng quan về khai phá
dữ liệu.
- Chương 2: Một số thuật toán KPDL.
- Chương 3: Áp dụng một số kỹ thuật
KPDL vào hệ thống bán sách trực tuyến.
- Chương 4: K
ết luận.
3. Các mục nội dung
Trước tiên, khóa luận xin trình bày tổng
quan về khai phá dữ liệu, bao gồm sự cần thiết, khái
niệm và các bước xây dựng một hệ thống khai phá
dữ liệu, kiến trúc điển hình của một hệ thống khai
phá dữ liệu và vấn đề bán sách trực tuyến liên quan

đến khai phá dữ liệu. Tiếp theo, khóa luận giới thiệu
một vài thuật toán khai phá dữ liệu: thuật toán kinh
điển và thuật toán của Microsoft tích hợp trong công
cụ MSSQL Server 2005 nhằm mục tiêu giải quyết
ba nhóm bài toán của khai phá dữ liệu là bài toán
phân loại, bài toán phân tích luật kết hợp và bài toán
dự đoán. Khóa luận cũng xin trình bày việc xây
dựng một ứng dụng nhỏ – hệ thống bán sách trực
tuyến – để minh họa triển khai, áp dụng thử nghiệm
kỹ thuật khai phá dữ liệu vào bài toán trên. Cuối
cùng, qua bài toán, khóa luận cũng xin được giới
thiệu một số kỹ thuật, công nghệ liên quan đến vấn
đề xây dựng một ứng dụng có áp dụng khai phá dữ
liệu với 2 công cụ là ASP.NET 2.0 (VS.NET 2005)
và MSSQL Server 2005.
4. Kết luận
Qua thời gian thực hiện khoá luận này,
chúng tôi đã nghiên cứu một số kỹ thuật khai phá dữ
liệu theo hướng ứng dụng từ đó áp dụng vào triển
khai hệ thống bán sách trực tuyến
.
Mục tiêu
đặt ra ở đầu khoá luận đã đạt
được thành công tuy còn ở mức đơn giản:
- Nắm được các ý tưởng chủ đạo về khai
phá dữ liệu.
- Áp dụng kỹ thuật khai phá dữ liệu trong
các chức năng: phân loại khách hàng,
gợi ý sách mua kèm theo và lập các báo
cáo dự đoán.


- 23 -
- Áp dụng các công nghệ mới trong
việc cài đặt hệ thống, sử dụng
ASP.NET tích hợp trong VS.NET
2005 và hệ quản trị cơ sở dữ liệu
MSSQL Server 2005.
Để hệ thống có thể đưa hệ thống vào
vận hành thực sự trên thực tế cần có thêm thời
gian và công sức nghiên cứu kiểm thử, hoàn
thiện giải pháp và xây dựng phần mềm hoàn
chỉnh.
Hướng phát triển:
- Bổ sung và hoàn thiện các dịch vụ
để khai thác hệ thống.
- Cần kiểm định với lượng dữ liệu
chương trình lớn, thực tế và bổ
xung, nâng cao nghiệp vụ kinh
doanh để đạt được một hệ thống có
hiệu suất xử lý tốt cũng như độ
chính xác về các kết quả hệ thống
suy luận và dự đoán
Trong phạm vi của một khoá luận tốt
nghiệp, đề tài này không thể tránh khỏi những
thiếu sót. Chúng tôi mong nhận được những ý
kiến phê bình, đóng góp, sự chỉ bảo chân tình
của các thầy cô và các bạn để có thể tiếp tục
phát triển đề tài này trong thời gian tới.
Một lần nữa tôi xin chân thành cảm ơn
Công ty Công nghệ Tin học Tinh Vân đã tạo

điều kiện cho chúng tôi phát triển đề tài. Cảm
ơn các thầy cô giáo bộ môn Công Nghệ Phầ
n
Mềm và bộ môn Các Hệ Thống Thông Tin. Đặc
biệt là thầy Đỗ Trung Tuấn và thầy Đào Kiến
Quốc, hai thầy đã định hướng và trực tiếp giúp
đỡ tôi hoàn thành khoá luận này.
5. Tài liệu tham khảo

Tài liệu tiếng Việt:

[1] Đào Kiến Quốc, “Phân tích thiết kế hệ
thống thông tin tin học hóa”, NXB Đại Học
Quốc Gia Hà Nội, 1998.

[2] Trần Mạnh Tuấn, “Xác suất thống kê”
(Giáo trình).

[3] Đỗ Trung Tuấn, “Cơ sở dữ liệu, Giáo trình dùng
cho sinh viên, kỹ sư, cử nhân chuyên nghành công
nghệ thông tin”, NXB Giáo dục, 1997.

[4] Đỗ Trung Tuấn, Thầy Trần Thọ Châu , “Trí tuệ
nhân tạo“ (Bài giảng).

[5] Nguyễn Tuệ, “SQL cơ bản” (Giáo trình).

[6] Nguyễn Tuệ, “SQL nâng cao” (Giáo trình).

[7] Đinh M

ạnh Tường, “Nhập môn Trí tuệ nhân
tạo”, NXB Khoa học kỹ thuật, 2002 .

[8] Nguyễn Văn Vỵ, “Giáo trình phân tích thiết kế
hệ thống thông tin” , NXB Đại Học Quốc Gia TP.
Hồ Chí Minh, 2004.

[9] Nguyễn Văn Vỵ. “Phân tích và thiết kế hệ thống
thông tin quản lý”, NXB Thống kê, 2004.

Tài liệu tiếng Anh:

[1] Nguyễn Hùng Sơn, “Giáo trình Dataming”
(Slide).

[2] Wiley.IEEE.Press.DANIEL T. LAROSE Data
Mining Methods and Models Jan 2006.

[3] (By Laxxus) Data Mining Cookbook - Modeling
Data for Marketing, Risk, and Customer
Relationship Management (OCR) – 2001.

[4] Micheal J.A.Berry, Gordon S.Linoff.Data
mining technique, 2006.

[5] Ykie Go, Robert Grossman, High Performent
data mining Scaling Algorithms, Applications and
Systems, 2003.

[6] Hewett R., Leuchner J. Restructuring decision

tables for elucidation of knowledge. Data &
Knowledge Engineering 46(3), 2003.

×