Tải bản đầy đủ (.pdf) (17 trang)

Nghiên cứu luật kết hợp và thử nghiệm khai phá Cơ sở dữ liệu Hợp đông giao nhận vận tải tại Công ty STC Việt Nam nhằm phát hiện ra xu hƣớng về các điều khoản giao nhận vận tải lựa chọn trong các hợp đồng vận tải hàng hóa

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (674.63 KB, 17 trang )

Nghiên cứu luật kết hợp và thử nghiệm khai phá
Cơ sở dữ liệu Hợp đông giao nhận vận tải tại
Công ty STC Việt Nam nhằm phát hiện ra xu
hƣớng về các điều khoản giao nhận vận tải lựa
chọn trong các hợp đồng vận tải hàng hóa
Phùng Văn Việt
Trƣờng Đại học Công nghệ
Luận văn Thạc sĩ ngành: Hệ thống Thông tin; Mã số: 60 48 05
Ngƣời hƣớng dẫn: TS. Phùng Văn Ổn
Năm bảo vệ: 2012
Abstract: Nghiên cứu một số vấn đề về luật kết hợp, tính chất của luật kết hợp, đặc trƣng của
luật kết hợp và một số giải thuật cơ bản khai phá các tập phổ biến. Tổng quan về dịch vụ gioa
nhận vận tải; các phƣơng thức vận tải hàng hóa; rủi ro trong giao nhận vận tải; cácđiều khoản
giao nhận vận tải (Incoterm); tập đoàn STC và công ty STC Việt Nam. Ứng dụng, thử
nghiệm khai phá dữ liệu tịch hợp hệ thống cơ sở dữ liệu hợp đồng giao nhận vận tải.
Keywords: Hệ thống thông tin; Cơ sở dữ liệu; Hợp đồng vận tải; Hàng hóa
Content
MỞ ĐẦU
Trong những năm gần đây, việc nắm bắt đƣợc thông tin đƣợc coi là cơ sở của mọi hoạt động sản
xuất, kinh doanh. Cá nhân hoặc tổ chức nào thu thập và hiểu đƣợc thông tin, và hành động dựa trên
các thông tin đƣợc kết xuất từ các thông tin đã có sẽ đạt đƣợc thành cơng trong mọi hoạt động. Chính
vì lý do đó, việc tạo ra thơng tin, tổ chức lƣu trữ và khai thác ngày càng trở nên quan trọng và gia
tăng không ngừng.
Sự tăng trƣởng vƣợt bậc của các cơ sở dữ liệu (CSDL) trong cuộc sống nhƣ: thƣơng mại, quản
lý và khoa học đã làm nảy sinh và thúc đẩy sự phát triển của kỹ thuật thu thập, lƣu trữ, phân tích và
khai phá dữ liệu… khơng chỉ bằng các phép tốn đơn giản thơng thƣờng nhƣ: phép đếm, thống kê…
mà đòi hỏi cách xử lý thơng minh hơn, hiệu quả hơn. Từ đó các nhà quản lý có đƣợc thơng tin có ích
để tác động lại quá trình sản xuất, kinh doanh của mình… đó là tri thức. Các kỹ thuật cho phép ta
khai thác đƣợc tri thức hữu dụng từ CSDL (lớn) đƣợc gọi là các kỹ thuật khai phá dữ liệu (DM –
Data Mining). Khai phá luật kết hợp là một nội dung quan trọng trong khai phá dữ liệu.
Luận văn tìm hiểu về luật kết hợp và ứng dụng một số thuật toán khai phá luật kết hợp trong


CSDL lớn từ đó áp dụng kỹ thuật khai phá dữ liệu vào hệ thống cơ sở dữ liệu hàng hóa vận chuyển

1


tại công ty STC Việt Nam nhằm phát hiện ra xu hƣớng về các điều khoản trong giao nhận vận
tải(Incoterm) đƣợc lựa chọn theo từng khu vực, quốc gia.
CHƢƠNG 1:
NGHIÊN CỨU MỘT SỐ VẤN ĐỀ VỀ LUẬT KẾT HỢP
1.1 Lý thuyết về luật kết hợp
Từ khi nó đƣợc giới thiệu từ năm 1993, bài toán khai thác luật kết hợp nhận đƣợc rất nhiều sự
quan tâm của nhiều nhà khoa học. Ngày nay việc khai thác các luật nhƣ thế vẫn là một trong những
phƣơng pháp khai thác mẫu phổ biến nhất trong việc khám phá tri thức và khai thác dữ liệu (KDD:
Knowledge Discovery and Data Mining).
Một cách ngắn gọn, một luật kết hợp là một biểu thức có dạng: X  Y , trong đó X và Y là tập
các trƣờng gọi là item.
1.1.1. Luật kết hợp
a) Ý nghĩa luật kết hợp: Luật kết hợp là một lĩnh vực quan trọng trong khai thác dữ liệu. Luật kết
hợp giúp chúng ta tìm đƣợc các mối liên hệ giữa các mục dữ liệu (items) của cơ sở dữ liệu.
b) Định nghĩa luật kết hợp: có dạng R: X  Y, trong đó X, Y là các itemset, X, Y  I(tập các phần
tử Items) và X Y = . X đƣợc gọi là tiên đề và Y đƣợc gọi là hệ quả của luật
1.1.2. Một số tính chất của luật kết hợp [6]
Trƣớc hết ta phải giả sử rằng với luật X  Y, X có thể là rỗng, cịn Y phải ln khác rỗng và
support(X Y)
1
X  Y vì nếu khơng thì: confidence(XY) =
support(X)
Ta có các tính chất sau :
1) Nếu X  Z và Y  Z là thoả trên D, thì khơng nhất thiết là X  Y  Z.
2) Nếu luật X  Y  Z là thoả trên D thì X  Z và Y  Z có thể khơng thoả trên D.

3) Nếu X  Y và Y  Z là thoả trên D thì khơng thể khẳng định rằng X  Z cũng giữ đƣợc
trên D.
4) Nếu luật A  (L-A) không có confidence tối thiểu thì cũng khơng có luật nào trong các luật
B  (L-B) có confidence tối thiểu trong đó L-A, B là các intemset và B  A.
1.1.3. Phân loại luật kết hợp
-

Luật kết hợp nhị phân

-

Luật kết hợp có thuộc tính số và thuộc tính hạng mục

-

Luật kết hợp tiếp cận theo hƣớng tập

-

Luật kết nhiều mức

-

Luật kết hợp mờ

-

Luật kết với thuộc tính đƣợc đánh trọng số

-


Khai thác luật kết hợp song song

2


1.1.4. Đặc tả bài toán khai phá dữ liệu
Với các định nghĩa trên, ta có thể mơ tả cấu trúc cơ bản của một thuật toán khai phá luật kết
hợp. Mặc dù, trong thực tế, các thuật tốn có thể có sự khác nhau về một số vấn đề, nhƣng về cơ bản
thì chúng tuân theo một lƣợc đồ chung. Có thể tóm tắt lƣợc đồ qua 2 giai đoạn chính sau:
Khai phá tất cả các tập phổ biến-Frequent itemset (Large itemset)
Khai phá luật kết hợp (sinh ra các luật kết hợp mạnh từ các tập mục phổ biến)
1.2. Các đặc trƣng của luật kết hợp
1.2.1. Khơng gian tìm kiếm của luật
Nhƣ đã giải thích trên đây, ta phải tìm tất cả các itemset thỏa ngƣỡng minsupp. Với các ứng
dụng thực tiễn, việc duyệt tất cả các tập con của I sẽ hồn tồn thất bại vì khơng gian tìm kiếm quá
lớn. Trên thực tế, sự tăng tuyến tính số lƣợng các item vẫn kéo theo sự tăng theo cấp lũy thừa các
itemset cần xem xét. Với trƣờng hợp đặc biệt I ={1,2,3,4}, ta có thể biểu diễn khơng gian tìm kiếm
thành một lƣới nhƣ trong hình 6.

1.2.2. Độ hỗ trợ của luật
Luật X  Y tồn tại một độ hỗ
trợ support. Supp(X  Y) đƣợc
định nghĩa là khả năng mà tập
giao dịch hỗ trợ cho các thuộc
tính có trong cả X lẫn Y
Support(XY) = support(XY)
1.3. Một số giải thuật cơ bản
khai phá các tập phổ biến
-


Giải thuật BFS (BFS –
breadth first search)



Hình 1.1: Dàn cho tập I =

-

First Search){1,2,3,4}
-

Giải thuật DHP (Direct Hashing and Pruning)

-

Giải thuật PHP (Perfect Hashing and Pruning)

3

Một số biến thể của
giải thuật Apriori
Cải tiến thuật toán
Apriori:

Giải thuật DFS (Depth


1.4. Phát sinh luật từ các tập phổ biến

Sau khi có đƣợc các tập phổ biến với độ tin cậy minSupp, chúng ta cần rút ra các luật có độ tin
cậy minConf. Để sinh các luật, với mỗi tập phổ biến L, ta tìm các tập con khác rỗng của L. Với mỗi
tập con s tìm đƣợc, ta xuất ra luật s  (L-s) nếu tỉ số supp(L)/supp(a) tối thiểu là minsconf
for mỗi tập phổ biến L
tạo tất cả các tập con khác rỗng s of L
for mỗi tập con khác rỗng s of L
cho ra luật "s  (L-s)" nếu support(L)/support(s)  min_conf"
trong đó min_conf là ngƣỡng độ tin cậy tối thiểu
-

Cải tiến 1 - Giảm số lƣợng các luật đƣợc phát sinh & cần phải

-

Cải tiến 1.a – Tránh phát sinh các luật khơng có ý nghĩa

-

Một số kỹ thuật khác trong việc tối ƣu hóa chi phí tính độ confident

1.5. Đánh giá, nhận xét
Phần này chúng ta đã xem xét các giải thuật khai phá tập phổ biến nhƣ: Apriori, AprioriTID,
... Các giải thuật này đều tỷ lệ tuyến tính với kích thƣớc CSDL. Nghĩa là tất cả các độ phức tạp về
thời gian, bộ nhớ, tính toán thuật toán, . . . đều tỉ lệ thuận với độ lớn CSDL D.
CHƢƠNG 2:
HỆ THỐNG GIAO NHẬN VẬN TẢI VÀ TẬP ĐOÀN STC
2.1. Tổng quan về dịch vụ giao nhận vận tải
Dịch vụ giao nhận hàng hoá là hành vi thƣơng mại, theo đó ngƣời làm dịch vụ giao nhận hàng
hoá nhận hàng từ ngƣời gửi, tổ chức việc vận chuyển, lƣu kho, lƣu bãi, làm các thủ tục giấy tờ và các
dịch vụ khác có liên quan để giao hàng cho ngƣời nhận theo sự uỷ thác của chủ hàng, của ngƣời vận

tải, hoặc của ngƣời làm dịch vụ giao nhận khác (gọi chung là khách hàng).
Ngƣời làm dịch vụ giao nhận khi nhận việc vận chuyển hàng hố thì phải tn theo quy định
của pháp luật chuyên ngành về vận tải.
Trong xu thế thƣơng mại toàn cầu hố cùng với sự phát triển nhiều hình thức vận tải mới trong
những thập niên qua. Ngày nay, ngƣời làm dịch vụ giao nhận hàng hố giữ vai trị quan trọng trong
vận tải và buôn bán quốc tế. Những dịch vụ ngƣời giao nhận thực hiện không chỉ dừng lại ở các
công việc cơ bản truyền thống nhƣ đặt chổ đóng hàng, nơi dùng để kiểm tra hàng hố, giao nhận
hàng hố mà cịn thực hiện những dịch vụ chuyên nghiệp hơn nhƣ tƣ vấn chọn tuyến đƣờng vận
chuyển, chọn tàu vận tải, đóng gói bao bì hàng hố, .v.v...
Trong phần này, chúng tơi sẽ trình bày về những hoạt động khác nhau trong dịch vụ giao nhận
hàng hoá, quyền lợi, trách nhiệm và nghĩa vụ của ngƣời làm dịch vụ giao nhận, cũng nhƣ mối quan
hệ giữa ngƣời làm dịch vụ giao nhận với các tổ chức liên quan khác.
Các doanh nghiệp tham gia vào dịch vụ giao nhận hàng hóa gơm:

4







Dịch vụ đại lý vận tải đƣờng biển;
Dịch vụ môi giới hàng hải;
Dịch vụ kiểm đếm hàng hóa;
Dịch vụ bốc dỡ hàng hóa tại cảng biển.

Phạm vi của dịch vụ giao nhận hàng hóa:
a. Ðại diện cho người xuất khẩu
Ngƣời giao nhận với những thoả thuận cụ thể sẽ giúp khách hàng của mình (ngƣời xuất khẩu) những

cơng việc sau:
-

-

Lựa chọn tuyến đƣờng vận tải.
Ðặt/ thuê địa điểm để đóng hàng theo yêu cầu của ngƣời vận tải.
Giao hàng hoá và cấp các chứng từ liên quan (nhƣ: biên lai nhận hàng - the Forwarder
Certificate of Receipt hay chứng từ vận tải - the Forwarder Certificate of Transport).
Nghiên cứu các điều khoản của thƣ tín dụng (L/C) và các văn bản luật pháp của chính phủ
liên quan đến vận chuyển hàng hoá của nƣớc xuất khẩu, nƣớc nhập khẩu, kể cả các quốc gia
chuyển tải (transit) hàng hoá, cũng nhƣ chuẩn bị các chứng từ cần thiết.
Ðóng gói hàng hố (trừ khi hàng hố đã đóng gói trƣớc khi giao cho ngƣời giao nhận).
Tƣ vấn cho ngƣời xuất khẩu về tầm quan trọng của bảo hiểm hàng hoá (nếu đƣợc yêu cầu).
Chuẩn bị kho bao quản hàng hoá, cân đo hàng hoá (nếu cần).
Vận chuyển hàng hoá đến cảng, thực hiện các thủ tục về lệ phí ở khu vực giám sát hải quan,
cảng vụ, và giao hàng hoá cho ngƣời vận tải.
Nhận B/L từ ngƣời vận tải, sau đó giao cho ngƣời xuất khẩu.
Theo dõi quá trình vận chuyển hàng hố đến cảng đích bằng cách liện hệ với ngƣời vận tải
hoặc đại lý của ngƣời giao nhận ổ nƣớc ngoài.
Ghi chú về những mất mát, tổn thất đối với hàng hố (nếu có).
Giúp ngƣời xuất khẩu trong việc khiếu nại đối với những hƣ hỏng, mất mát hay tổn thất của
hàng hoá.

b . Ðại diện cho người nhập khẩu
- Theo dõi q trình vận chuyển hàng hố trong trƣờng hợp ngƣời nhập khẩu chịu trách nhiệm
về chi phí vận chuyển.
- Nhận và kiểm tra tất cả các chứng từ liên quan đến q trình vận chuyển hàng hố.
- Nhận hàng từ ngƣời vận tải.
- Chuẩn bị các chứng từ và nộp các lệ phí giám sát hải quan, cũng nhƣ các lệ phí khác liên quan.

- Chuẩn bị kho hàng chuyển tải (nếu cần thiết).
- Giao hàng hoá cho ngƣời nhập khẩu.
- Giúp ngƣời nhập khẩu trong việc khiếu nại đối với những tổn thất, mất mát của hàng hoá.
Quyền và nghĩa vụ các bên:
a. Doanh nghiệp làm dịch vụ giao nhận hàng hố:
 Ðƣợc hƣởng tiền cơng và các khoản thu nhập hợp lý khác.
 Thực hiện đầy đủ các nghĩa vụ của mình theo hợp đồng.

5


 Q trình thực hiện hợp đồng, nếu có lý do chính đáng vì lợi ích của khách hàng thì có thể
thực hiện khác với chỉ dẫn của khách hàng nhƣng phải thông báo ngay cho khách hàng.
 Sau khi ký kết hợp đồng, nếu xẩy ra trƣờng hợp có thể dẫn đến việc khơng thực hiện đƣợc
tồn bộ hoặc một phần những chỉ dẫn củ a khách hàng thì phải thông báo ngay cho khách
hàng biết để xin chỉ dẫn thêm.
 Trong trƣờng hợp hợp đồng khơng có thoả thuận về thời hạn cụ thể thực hiện nghĩa vụ với
khách hàng thì phải thực hiện các nghĩa vụ của mình trong thời hạn hợp lý.
b. Khách hàng:
 Lựa chọn ngƣời làm dịch vụ giao nhận hàng hoá đáp ứng với yêu cầu của mình.
 Hƣớng dẫn, kiểm tra, giám sát việc thực hiện hợp đồng.
 Yêu cầu bồi thƣờng thiệt hại nếu ngƣời làm dịch vụ giao nhận hàng hoá vi phạm hợp đồng.
 Cung cấp đầy đủ chỉ dẫn cho ngƣời làm dịch vụ giao nhận hàng hoá.
 Thơng tin đầy đủ, chi tiết và chính xác về hàng hoá cho ngƣời làm dịch vụ giao nhận hàng
hoá.
 Ðóng gói, ghi ký mã hiệu hàng hố theo hợp đồng mua bán hàng hoá, trừ trƣờng hợp ngƣời
làm dịch vụ giao nhận hàng hố đảm nhận cơng việc này.
 Bồi thƣờng thiệt hại, trả các chi phí phát sinh cho ngƣời làm dịch vụ giao nhận hàng hoá nếu
ngƣời đó đã thực hiện đúng chỉ dẫn của khách hàng hoặc do lỗi của khách hàng gây ra.
 Trả cho ngƣời làm dịch vụ giao nhận hàng hoá mọi khoản tiền đã đến hạn thanh toán.

Giới hạn trách nhiệm
Trách nhiệm của ngƣời làm dịch vụ giao nhận hàng hoá trong mọi trƣờng hợp khơng vƣợt q giá trị
hàng hố, trừ khi các bên có thoả thuận khác trong hợp đồng.
Ngƣời làm dịch vụ giao nhận hàng hố khơng đƣợc miễn trách nhiệm nếu không chứng minh
đƣợc việc mất mát, hƣ hỏng hoặc chậm giao hàng không phải do lỗi của mình gây ra.
Ngƣời làm dịch vụ giao nhận hàng hố không phải chịu trách nhiệm, khi họ không nhận đƣợc
thông báo về khiếu nại trong thời hạn 14 ngày, kể từ ngày giao hàng, khơng tính ngày chủ nhật, ngày
lễ; không nhận đƣợc thông báo bằng văn bản về việc bị kiện tại Toà án hoặc Trọng tài trong thời hạn
9 tháng, kể từ ngày giao hàng.
Các trường hợp miễn trách nhiệm
 Do lỗi của khách hàng hoặc của ngƣời đƣợc khách hàng uỷ quyền.
 Ðã làm đúng theo những chỉ dẫn của khách hàng hoặc của ngƣời đƣợc khách hàng uỷ quyền.
 Khách hàng đóng gói và ghi ký mã hiệu không phù hợp.
 Do khách hàng hoặc ngƣời đƣợc khách hàng uỷ quyền thực hiện việc xếp, dỡ hàng hố.
 Do khuyết tật của hàng hố.
 Do có đình cơng hoặc các trƣờng hợp khác bất khả kháng.
 Ngƣời làm dịch vụ giao nhận hàng hố cũng khơng phải chịu trách nhiệm về việc mất khoản
lợi đáng lẽ khách hàng đƣợc hƣởng về sự chậm chễ hoặc giao hàng sai địa chỉ mà khơng phải
do lỗi của mình, trừ trƣờng hợp pháp luật có quy định khác.
2.2. Các phƣơng thức vận tải hàng hóa

6


Hình 2.1: Mơ hình các phư ơ ng thứ c vậ n tả i
-

Đƣờng bộ

-


Đƣờng không

-

Đƣờng thủy
2.3. Các điều khoản giao nhận vận tải

Incoterms (viết tắt của International Commerce Terms - Các điều khoản thƣơng mại quốc tế) là
một bộ các quy tắc thƣơng mại quốc tế đƣợc công nhận và sử dụng rộng rãi trên toàn thế giới.
Incoterm quy định những quy tắc có liên quan đến giá cả và trách nhiệm của các bên (bên bán và bên
mua) trong một hoạt động thƣơng mại quốc tế.
Incoterms 2010 bao gồm có 11 điều khoản giao hàng mẫu, chia thành 4 nhóm: C, D, E, F.
2.3.1. EXW: Ex Works (named Place) Giao hàng tại xƣởng. (địa điểm ở nƣớc xuất khẩu)
2.3.2. FCA : Free Carrier (named place) Giao hàng cho ngƣời vận tải (tại địa điểm qui định ở nƣớc
xuất khẩu)
2.3.3. FAS: Free Alongside ship (named port of shipment) Giao hàng dọc mạn tàu(tại cảng bốc hàng
qui định)
2.3.4. FOB: Free On Board (named port of shipment) Giao hàng lên tàu (tại cảng bốc hàng qui định)
2.3.5. CFR : Cost and Freight (named port of destination) Tiền hàng và cƣớc phí vận tải (cảng đích
qui định)
2.3.6. CIF: Cost, Insurance and Freight (named port of destination) Tiền hàng,bảo hiểm và cƣớc phí
vận tải (cảng đích qui định)
2.3.7. CPT: Carriage Paid To (named place of destination) Cƣớc phí, bảo hiểm trả tới (nơi đích qui
định)
2.3.8. CIP: Carriage &Insurance Paid To (named place of distination) Cƣớc phí, bảo hiểm trả tới
(nơi đích qui định)
2.3.9. DAT: (Delivered At Terminal) Giao tại bến

7



Là điều khoản mới bổ sung trong Incoterms 2010. Điều khoản này có thể đƣợc sử dụng cho tất
cả các loại hình chuyên chở.
2.3.10. DAP: (Delivered At Place) Giao tại địa điểm
Là điều khoản mới bổ sung trong Incoterms 2010. Điều khoản này có thể đƣợc sử dụng cho tất cả
các loại hình chuyên chở.
2.3.11. DDP: Delivered Duty Paid (named place of destination) Giao hàng thuế đã trả (tại nơi đích
qui định)
2.4. Tập đồn STC và Cơng ty STC Việt Nam
Tập đồn STC là một tổ hợp giáo dục có chiến lƣợc toàn cầu chuyên đào tạo, nghiên cứu, hỗ
trợ, tƣ vấn và cung cấp một số dịch vụ khác cho ngành vận tải biển, cảng, dây chuyền vận tải và hậu
cần, cũng nhƣ cho các khu vực hoá dầu gần cảng
CHƢƠNG 3 - ỨNG DỤNG, THỬ NGHIỆM KHAI PHÁ DỮ LIỆU TÍCH HỢP HỆ
THỐNG CƠ SỞ DỮ LIỆU HỢP ĐỒNG GIAO NHẬN VẬN TẢI
3.1. Bài toán
3.1.1. Phát biểu bài toán
Từ các hợp đồng mua bán giao nhận vận tải tại các cơng ty con trong tập đồn STC Group, Tác
giả sử dụng các kỹ thuật khai phá dữ liệu đối với CSDL về các hợp đồng giao nhận vận tải tại STC
Việt nam nhằm xác định, phát hiện ra các xu hƣớng lựa chọn các điều khoản áp dụng trong hợp
đồng mua bán giao nhận vận tải theo từng khu vực địa lý cụ thể. Giúp Công ty đƣa ra, đề xuất các
điều khoản áp dụng trong quá trình vận tải phù hợp với từng hợp đồng nhằm tạo ra lợi nhuận cao, chi
phí giảm cũng nhƣ giảm thiểu rủi ro thiệt hại trong quá trình giao nhận vẫn tải.
3.1.2. Đặc tả dữ liệu

8


Bảng 3.1: Cơ sở dữ liệu về điều khoản giao nhận vận tải được áp dụng trong quá trình giao nhận vận tải


ST
T

Quốc
gia

1

The
Netherla
nds
Belgium

2
3
4
5
6
7
8
9

Số lượng
hợp đồng

FAS

FOP

CFR


Điều
khoản
khác

CIF

Tổn
g số

Gia
tăng

Tổng
số

Gia
tăng

Tổn
g số

Gia
tăng

Tổng
số

Gia
tăng


Tổn
g số

Gia
tăng

Tổn
g số

Gia
tăng

156

40

27

2

45

21

10

1

46


14

16

2

150

32

20

6

40

12

15

2

35

7

22

5


France
German
y
U.S.A.
South
Africa
Brazil

145

44

20

8

50

24

10

0

25

3

25


9

15

0

0

0

10

0

0

0

5

0

0

0

60

5


10

1

25

3

0

0

20

1

5

0

90

16

16

0

34


7

19

3

15

4

6

2

211

69

33

4

55

15

15

4


65

21

24

15

China
Australi
a

171

36

22

3

15

6

10

2

80


13

14

12

202

50

29

9

43

17

30

4

47

15

30

5



năm 2010

9


Nhƣ vậy, với cách ánh xạ trên, từ CSDL gốc ban đầu, ta có CSDL dạng boolean sau
đây:
Số lượng tồn bộ hợp đồng
STT

1
2
3
4
5
6
7
8
9


Tỉnh/ thành
The
Netherlands
Belgium
France
Germany
U.S.A.

South Africa
Brazil
China
Australia

Tổng
số

Gia
tăng(0..25
)

156

0

1

0

0

150
145
15
60
90
211
171
202


0
0
1
1
1
0
0
0

1
1
0
0
0
0
1
1

0
0
0
0
0
1
0
0

0
0

0
0
0
0
0
0

Gia
Gia
tăng(26..50) tăng(51..75)

Bảng 3.2: Dữ liệu chuyển đổi từ dạng số sang dạng Boolean

10

Gia
tăng(75 ..)


Nhƣ vậy, khi xét trên CSDL là thực tế gia tăng các các thông số trong các hợp đồng mua bán
vận chuyển hàng hóa điều khoản áp dụng theo từng vùng miền địa lý, ta có thể thực hiện phân chia
các thuộc tính trong bảng thành các khoảng và đƣợc ký hiệu nhƣ sau:
Số lượng hợp đồng:
Cột số 3 Tổng số:
Kí hiệu:
Cột 4
Kí hiệu:

[0, 100]


A
Gia tăng:

[101, 200]

B

C
[51, …]

[0, 25] [26, 50]

a

[201, …]

b

c

FAS:
Cột 5
Kí hiệu:
Cột 6

Tổng số:

[0,15]

D


E

Gia tăng:

[0, 3]

[4, 7]

[8, .....]

d

e

f

Tổng số:

[0,2 0]

[21, 40]

[41, ...]

G

H

Kí hiệu


[16, 30]

[31, ...]

F

FOB:
Cột 7
Kí hiệu:
Cột 8
Kí hiệu:

Gia tăng:

[0, 10]

I
[11, 20]
h

g

[21, ....]
i

CFR:
Cột 9
Kí hiệu:


Tổng số: [0,10]
J

[11,20]
K

L

Cột 10 Gia tăng: [0, 2]
Kí hiệu:

[21, ...]

[3, 5]

j

k

[6, ....]
l

CIF:
Cột 11 Tổng số: [0,30]
Kí hiệu:

M

[31,60]
N


O

Cột 12 Gia tăng: [0, 10]
Kí hiệu:

[61, ...]

[11, 20]

m

n

[21, ....]

o

Các điều khoản áp dụng khác:
Cột 13

Tổng số: [0,10]

Kí hiệu:

P

Cột 14
Kí hiệu:


[11, 20]
Q

Gia tăng: [0, 5]
p

R
[6, 10] [11, ...]

q

r

11

[21, ...]


Từ việc phân tích như trên, ta có sơ đồ quan hệ để lưu trữ dữ liệu của bài toán như sau:

Hình 3.1: Sơ đồ quan hệ sử dụng trong chương trình

12


Chƣơng trình chạy trên một phần bộ dữ liệu tại Công ty STC Viêt nam. Kết quả nhận đƣợc là
(kết quả này tùy thuộc vào minsupp và minconf, dƣới đây là kết quả nhận đƣợc với minsupp =0.4,
minconf =0.8 ):
Tập phổ biến
Supp

CFR_Giatang[0.. 2]
0.6668
CFR_Giatang[6 .. ]
0.5556
Tongsohopdong_Giatang[26 ..
0.5556
50]
FAS_Giatang[0 .. 3]
0.5556
CIF_Giatang[0 .. 10]
0.5556
Dieukhoankhac_Giatang[0 ..
0.5556
10]
Tongsohopdong_Tongso[101
0.4444
..200]
FAS_Tongso[31 .. ]
0.4444
CFR_Tongso[1 .. 30]
0.4444
FOB_Giatang[0 .. 10]
0.4444
CFR_Giatang[0 .. 2] and
Tongsohopdong_Giatang[26 ..
0.4444
50]
CFR_Giatang[0 .. 2] and
0.4444
FAS_Giatang[0 .. 3]

CFR_Giatang[0 .. 2] and
0.4444
CIF_Giatang[0 .. 10]
CFR_Giatang[0 .. 2] and
Dieukhoankhac_Giatang[0 ..
0.4444
10]
CFR_Giatang[0 .. 2] and
Tongsohopdong_Tongso[101
0.4444
.. 200]
CFR_Giatang[0 .. 2] and
0.4444
CFR_Tongso[0 .. 10]
CFR_Giatang[6 ..] and
Tongsohopdong_Giatang[26 ..
0.4444
50]
Tongsohopdong_Giatang[26 ..
50] and
0.4444
Tongsohopdong_Tongso[101
.. 200]
FAS_Giatang[0 .. 3] and
0.4444
CFR_Tongso[0 .. 10]
CIF_Giatang[0 .. 10] and
0.4444
CIF_Tongso[0 .. 30]
CFR_Giatang[0 .. 2] and

Tongsohopdong_Giatang[26 ..
50] and
0.4444
Tongsohopdong_Tongso[101
.. 200]
Luật kết hợp
Tongsohopdong_Tongso[101..200] ->

Supp
0.4444

13

Conf
1


CFR_Giatang[0..2]
CFR_Tongso[0..10] ->
CFR_Giatang[0..2]
Tongsohopdong_Tongso[101..200] ->
Tongsohopdong_Giatang[26..50]
CFR_Tongso[0..10]>FAS_Giatang[0..3]
CIF_Tongso[0..30]>CIF_Giatang[0..10]
CIF_Tongso[0..30] and
Tongsohopdong_Giatang[26..50]->
Tongsohopdong_Tongso[101..200]
Tongsohopdong_Tongso[101..200] ->
CFR_Giatang[0..2] and
Tongsohopdong_Giatang[26..50]

Tongsohopdong_Tongso[101..200]
and Tongsohopdong_Giatang[26..50]
-> CFR_Giatang[0..2]
Tongsohopdong_Giatang[26..50]>CFR_Giatang[0..2]
FAS_Giatang[0..3]>CFR_Giatang[0..2]
CIF_Giatang[0..10]>CFR_Giatang[0..2]
Dieukhoankhac_Giatang[0..10]>CFR_Giatang[0..2]
CFR_Giatang[6…]>Tongsohopdong_Giatang[26..50]
Tongsohopdong_Giatang[26..50]>CFR_Giatang[6…]
Tongsohopdong_Giatang[26..50]>Tongsohopdong_Soluong[101..200]
FAS_Giatang[0..3]>CFR_Tongso[0..10]
CIF_Giatang[0..10]>CIF_Tongso[0..30]

0.4444

1

0.4444

1

0.4444

1

0.4444

1

0.4444


1

0.4444

1

0.4444

1

0.4444

0.8

0.4444

0.8

0.4444

0.8

0.4444

0.8

0.4444

0.8


0.4444

0.8

0.4444

0.8

0.4444

0.8

0.4444

0.8

Dựa vào bảng kết quả trên ta nhận thấy rằng:
-

Nhìn chung ở hầu hết các quốc gia số lƣợng hợp đồng ký đƣợc đồng đều trong năm trong khoảng
từ 100 đến 200 hợp đồng và số lƣợng gia tăng so với năm trƣớc đó là khơng nhiều chỉ trong
khoảng từ 25 đến 50 hợp đồng.

-

Điều khoản áp dụng trong giao nhận vận CFR gia tăng không đáng kể ở hầu hết các quốc gia tuy
rằng đây chủ yếu là các quốc gia có thế mạnh về hàng hải cũng nhƣ kinh doanh dịch vụ giao
nhận vận tải.


-

Các quốc gia có xu hƣơng sử dụng điều khoản CIF nhiều hơn tuy rằng số lƣợng hợp đồng sử
dụng CIF khơng q nhiều nhƣng nó lại tăng đáng kể so với năm trƣớc đó cụ thể mặc dù tổng số
hợp đồng sử dụng điều khoản CIF chỉ dƣới 30 hợp đồng nhƣng mức tăng so với năm trƣớc đó
cũng trong khoảng gần 30% số hợp đồng.

14


-

Một số quốc gia có xu hƣớng sử dụng điều
lên nhƣ Brazil, Belgium, Nam phi.

khoản CIF trong việc ký kết hợp đồng tăng

3.1.3. Minh họa chƣơng trình

Hình 3.2: Giao diệ n
chính chư ơ ng trìnhQ trình tạ o luậ t kế t
hợ p theo thuậ t tốn
Apriori

Hình 3.3: Mơ phỏ ng thuậ t toán
vớ i dữ liệ u nhậ p từ bà n phím

15



Chƣơng trình đƣợc cài đặt dựa trên ngơn ngữ lập trình VB.Net và sử dụng hệ quản trị cơ
sở dữ liệu SQL Server. Có thể chạy đƣợc trên hầu hết các cấu hình máy tính khơng q thấp
có thể dịng CPU từ Pentum III trở lên.
3.1.4. Phân tích, đánh giá
Chƣơng trình thực hiện tìm các tập phổ biến và luật kết hợp thơng qua hai thuật tốn
Apriori và Apriori_Tid. Ta có một số nhận xét sau:
Để xác định độ Support của các tập ứng viên, thuật tốn Apriori ln ln phải quét lại
toàn bộ các giao tác trong CSDL. Do vậy sẽ tiêu tốn rất nhiều thời gian khi số k-items tăng
(số lần xét duyệt các giao tác tăng).
Trong quá trình xét duyệt khởi tạo thuật tốn Apriori_Tid, kích thƣớc của C’k là rất lớn
và hầu hết là tƣơng đƣơng với kích thƣớc của CSDL gốc. Do đó, thời gian tiêu tốn cũng sẽ
bằng với thuật tốn Apriori, ngồi ra thuật tốn Apriori-Tid cịn phải gánh chịu thêm chi phí
phát sinh nếu C’k vƣợt quá bộ nhớ trong mà phải sử dụng kèm bộ nhớ ngoài. Điều đáng quan
tâm trong thuật tốn này là CSDL D khơng đƣợc dùng để đếm các support với các giai đoạn
k>1 mà là tập C’k. Số lƣợng điểm vào trong C’k có thể nhỏ hơn số giao dịch trong CSDL D,
đặc biệt khi k lớn. Đây chính là ƣu điểm của thuật tốn Apriori_Tid.
3.2. Hƣớng phát triển
Tiếp tục hoàn thiện và mở rộng chƣơng trình trong luận văn này để có thể áp dụng vào
thực tế một cách triệt để. Chƣơng trình thực hiện theo đúng các bƣớc trong quá trình khai phá
dữ liệu nhƣ: 1-chọn lọc dữ liệu (chọn lọc, trích rút các dữ liệu cần thiết từ CSDL), 2-làm
sạch dữ liệu (chống trùng lặp và giới hạn vùng giá trị), 3-làm giàu dữ liệu, 4-khai thác tri
thức từ dữ liệu (tìm tác vụ phát hiện luật kết hợp, trình chiếu báo cáo), 5-chọn dữ liệu có ích
áp dụng vào trong hoạt động thực tế.

16


KẾT LUẬN
Luận văn đề cập đến các nội dung về kho dữ liệu và ứng dụng của lƣu trữ và khai phá
tri thức trong kho dữ liệu nhằm hỗ trợ ra quyết định.

Về mặt lý thuyết, khai phá tri thức bao gồm các bƣớc: Hình thành, xác định và định
nghĩa bài toán; thu thập và tiền xử lý dữ liệu; khai phá dữ liệu, rút ra các tri thức; sử dụng các
tri thức phát hiện đƣợc. Phƣơng pháp khai phá dữ liệu có thể là: phân lớp, hồi quy, cây quyết
định, suy diễn, quy nạp, K- láng giềng gần, … các phƣơng pháp trên có thể áp dụng trong dữ
liệu thơng thƣờng và trên tập mờ.
Về thuật tốn khai phá tri thức, luận văn trình bày một số thuật tốn và minh hoạ một số
thuật toán kinh điển về phát hiện tập chỉ báo phổ biến và khai phá luật kết hợp, nhƣ: Apriori,
AprioriTid, phân hoạch, …
Về mặt cài đặt thử nghiệm, luận văn giới thiệu kỹ thuật khai phá dữ liệu theo thuật toán
Apriori, Apriori_Tid áp dụng vào bài toán phát hiện ra xu hƣớng về các điều khoản vận tải
Incoterm đƣợc lựa chọn theo từng khu vực, quốc gia.
Trong q trình thực hiện luận văn, tơi đã cố gắng tập trung tìm hiểu và tham khảo các
tài liệu liên quan. Tuy nhiên, với thời gian và trình độ có hạn nên khơng tránh khỏi những hạn
chế và thiếu sót. Tơi rất mong đƣợc sự nhận xét và góp ý của các thầy cô giáo và bạn bè, đồng
nghiệp và những ngƣời cùng quan tâm để hoàn thiện hơn các kết quả nghiên cứu của mình.
References
Tiếng Việt
[1]. Một số vấn đề chọn lọc của công nghệ thông tin - Thái Nguyên, 29 – 31 tháng 8
năm 2003, Nhà xuất bản Khoa học Kỹ thuật, 2005.
[2]. Nguyễn Công Cƣờng, Nguyễn Doãn Phƣớc, Hệ mờ, mạng nơron và ứng dụng NXB Khoa học Kỹ thuật, 2001.
[3]. Hoàng Kiếm - Đỗ Phúc, Giáo trình khai phá dữ liệu - Trung tâm nghiên cứu phát
triển công nghệ thông tin, Đại học Quốc gia thành phố Hồ Chí Minh, 2005.
[4]. Nguyễn Lƣơng Thục, Một số phương pháp khai phá luật kết hợp và cài đặt thử
nghiệm - Luận văn thạc sỹ ngành CNTT, Khoa Tin học, Đại học Sƣ phạm Huế, 2002.
[5]. Incorterm 2000, Incoterm 2010
Tiếng Anh
[6]. John Wiley & Sons (2003) - Data Mining-Concepts Models Methods And
Algorithms, Copyright © 2003 The Institute of Electrical and Electronics Engineers, Inc.
[7]. Bao Ho Tu (1998), Introduction to Knowledge Discovery and Data mining, Institute
of Information Technology National Center for Natural Science and Technology.

[8]. Jean – Marc Adamo, Data Mining for Association Rules and Sequential Patterns,
Sequential and Parallel Algorithms, 2001Springer – Verlag New York, Inc.
[9]. Mohammet J. Zaki and Chin Jui Hasiao CHAM - An efficient Algorithm for Close
Itemset Mining.

17



×