Giải quyết sự cố mạng chậm
I. Hiện tượng sự cố
Khái niệm sự cố mạng chậm: là hiện tượng khi khách hàng sử dụng dịch vụ không đạt
được tốc độ bình thường: ví dụ khi download/ upload data, hoặc khách hàng duyệt WEB,
hoặc sử dụng các trò chơi, giải trí trực tuyến: Game-online, nghe nhạc, xem TV trực tuyến.
Cấp độ bao phủ của sự cố: Sự cố tốc độ chậm có thể xẩy ra với một số Server cung cấp
dịch vụ (WEB Server, Game Sever,…) trong nước hoặc với một số Server quốc tế hoặc
xẩy ra với tất cả các Server trong nước và quốc tế tại một số thời điểm sử dụng dịch vụ
hoặc trong toàn bộ thời gian sử dụng dịch vụ.
Không vào được một hoặc một số trang Web: là hiện tượng khách hàng không login vào
được một hoặc một số trang Web nào đó tại một số thời điểm hoặc toàn bộ quá trình sử
dụng dịch vụ.
II. Giải thích nguyên nhân sự cố
Khi khách hàng sử dụng một dịch vụ trên mạng ( Lướt Web, chơi Game –onlie, download
data, nghe nhạc, xem TV trực tuyến…..) có nghĩa là khách hàng thiết lập phiên kết nối
giữa PC của khách hàng tới Server của nhà cung cấp dịch vụ.
Như vậy mạng chậm có thể xẩy ra trên các thành phần của mạng tạo nên kết nối giữa PC
và Server đó hoặc có thể do chính PC ( như nhiễm Virut, dùng nhiều dịch vụ cùng lúc, vấn
đề mạng LAN…) hoặc do Server (Server quá tải về năng lực xử lý, thậm chí bị down- khi
này sẽ không login vào Server dịch vụ được).
Về các thành phần mạng tạo nên sự cố từ PC khách hàng tới Server nhà cung cấp dịch vụ:
(xem sơ đồ IV):
• Phần mạng Ngoại vi: Phần này gồm tuyến cáp, các điểm đấu nhảy từ DSLAM tới
Modem khách hàng, phần mạng này có thể tạo nên tốc độ chậm nếu chất lượng cáp
kém, cự ly quá dài, tiếp điểm tiếp xúc không tốt.
Nếu sự cố tại phần này, sẽ có hiện tượng mạng chậm đều cho tất cả các Server dịch vụ, và
hay bị rớt gói do tín hiệu yếu, chập chờn, thậm trí tốc độ cao nhưng vẫn xẩy ra hiện tượng
mất gói khi PING ( độ trễ gói thấp) hoạc có thể mất kết nối Modem vào mạng.
• Phần mạng ngoại vi: Từ DSLAM tới BRAS, phần mạng nếu bị tắc nghẽn thì cũng
giống như phần mạng ngoại vi là chậm đối với tất cả các Server dịch vụ, phạm vi
ảnh hưởng là tất cả các thuê bao thuộc cùng Trạm (DSLAM) hoặc thuộc cùng
AGG_SW hoặc hơn nữa là thuộc cùng Core_SW, Cùng BRAS.
• Phần mạng Core và Gateway kết nối Peering với các ISP trong nước và quốc tế để
kết nơi tới các Server dịch vụ trên toàn cầu.
Phần này nếu bị tắc nghẽn sẽ gây nên hiện tượng chậm nhưng có sự phân biệt: có sự phân
biệt trong nước và quốc tế, có sự phân biệt giữa các Server dịch vụ do chúng ta có các
đường kết nối khác nhau với các Server dịch vụ khác nhau.
• Phần kết nối từ các ISP đối tác trong nước và quốc tế tới các Server cung cấp dịch
vụ:
Phần này tắc nghẽn cũng gây nên các hiện tượng mạng chậm giống như phần mạng core
của chúng ta.
Có thể tạo nên hiện tượng một số Trang Web không login vào được do không thực hiện
được định tuyến.
5. Phần Server cung cấp dịch vụ: Các Server của các nhà cung cấp dịch vụ ((WEB Server,
Game Sever, Media Server……) sẽ được kết với các ISP, nếu bị quá tải về năng lực xử lý
cũng tạo nên hiện tượng mạng chậm hoặc nếu Server dịch vụ bị down, tạm ngưng nâng
cấp, lỗi đường truyền sẽ tạo nên sự cố không login vào Server được ( như ta vẫn thấy một
số Web site tại thời điểm nào đó không login vào được)
III. CÁCH TEST ĐỂ KIỂM TRA NGUYÊN NHÂN MẠNG CHẬM VÀ CÁCH GẢI
THÍCH CHO KHÁCH HÀNG.
- Khi nhận thông tin phản ánh từ khách hàng hay các bộ phận phản ánh, người thực hiện
Xử lý sự cố cần làm một số bước sau:
B1: Thu thập thông tin một cách chính xác về sự cố ( cần ghi đầy đủ người cung cấp thông
tin), thông tin chi tiết về sự cố, đôi khi khách hàng chỉ cung cấp cho chúng ta những thông
tin rất chung chung, mơ hồ nên cần làm rõ các thông tin này.
Xác định trường hợp sự cố này là lần đầu hay đã nhiều lần và đã từng được xử lý chưa nếu
đã có tiền sử về xử lý sự cố thì cần thu thập thông tin về cách, các bước đã tiến hành xử lý
sự cố và kết quả trước đây.
B2. Dựa theo các nội dung đã nêu trong phần I và II để phân loại sự cố và phán đoán ban
đầu nguyên nhân sự cố trước khi đi thực hiện bài Test.
Thu thập các thông tin về hệ thống xem có nguyên nhân nào gây nên sự cố nói trên không
(hỏi thông tin từ phòng NOC) với những trường hợp cần thiết.
Nếu sau bước này mà chưa xác định được nguyên nhân để xử lý thì tiến hành bước tiếp
theo.
B3. Chuẩn bị các công cụ test.
- Cần chuẩn bị các công cụ test: Máy tính Labtop, Modem tốt, cáp mạng, Các Form test
(phụ lục).
- Hẹn trước khách hàng giờ thực hiện.
- Tiến hành công việc TEST: công việc này có thể chia làm 02 nội dung chính:
B4. Tiến hành các bài test
4.1 Test sơ bộ kiểm tra các thông tin của khách hàng phân ánh có đúng hay không?
Trong bước test này, cần thực hiện nguyên tắc:
- Test theo nguyên trang mạng của khách hàng, test các dịch vụ mà khách hàng phản ánh
có sự cố vào những thời điểm mà khách hàng phản ánh có sự cố.
- Người test thực hiện các thao tác giống như một khách hàng sử dụng các dịch vụ đó.
- Nếu sau bước này, thông tin của khách hàng phản ánh là đúng, thực hiện bước tiếp theo
3.2.
Sau bước này ghi kết quả vào phần kết quả kiểm tra sơ bộ trong
biên bản ” BIÊN BẢN KIỂM TRA CHẤT LƯỢNG DỊCH VỤ-Phụ lục 05”
4.2 Thực hiện các bài test chuẩn.
Điều kiện test:
- Khi test chỉ dùng 01 PC ca chúng ta cắm trực tiếp Modem ( bước 1 là dùng Modem của
khách hàng) nếu nghi ngờ chất lượng Modem hoặc kết qủa test không tốt cần thay bằng
Modem ( hoạt động tốt mang theo) để test, nếu có kết quả tốt -> Modem có vấn đề -> đề
nghị thay Modem.
- Ngắt tất cả các PC khác hay Hub/Switch gắn vào Modem, khi Test PC không chạy các
ứng dụng khác.
4.2.1 Với khách hàng có sự cố mạng chậm đều ( tức là đối với tất cả các Server).
Thực hiện các bài test sau:
- Thực hiện bài test 1- kiểm tra độ trễ ( điền thông tin theo Phụ lục 01)
- Thực hiện bài test 2- kiêm tra tốc độ download ( điền thông tin theo Phụ lục 02)
4.2.2 Với khách hàng có sự cố Mạng chậm với một số trang WEB.
- Thực hiện bài test 3- kiểm tra độ trễ ( điền thông tin theo Phụ lục 03)
- Thực hiện bài test 2- kiêm tra tốc độ download ( điền thông tin theo Phụ lục 02)
4.2.3 Với khách hàng không vào được một số trang WEB
- Thực hiện bài test 4-Kiểm tra sự cố khách hàng không login vào được một số trang WEB
(điền thông tin vào phụ lục 04)
B5 : Hai bên ký xác nhận kết quả test ( Phụ lục 05)
- Ghi đầy đủ nội dung thông tin vào biên bản và kỹ biên bản.
B6: Giải thích cho khách hàng về nguyên nhân sự cố và hẹn với khách hàng thời gian
và cách giải quyết.
- Qua kết quả test, có thể giải thích cho khách hàng nguyên nhân sự cố (trong số trường
hợp cần có cách giải thích tế nhị), nếu trong phạm vi, khả năng người đi test có thể giải
quyết đươc sự cố thì tiến hành giải quyết.
- Nếu có dấu hiệu do mạng ngoại vi thì cần tiến hành xử lý phần mạng ngoại vi: kiểm tra
điểm tiếp xúc, cáp, port trên DSLAM, chất lượng Splitter..).
- Với các sự cố mà trong thẩm quyền và năng lực của đôi không giải quyết được ( Đội có
nhiệm vụ khắc phục phần sự cố từ Port DSLAM tới Modem khách hàng) thì thực hiện tiếp
B7
B7: Báo cáo kết quả xử lý sự cố: gồm biên bản kiểm tra chất lượng dịch vụ, các phụ lục,
các file capture thông tin ( mỗi file đầu có tên file) về Phòng NOC.
Nếu kết quả Ping tới DNS và download tại trang nôị bộ tốt, thì Ban Core cần phối hợp xử
lý.
B8. Dựa trên kết quả test mà các đội gửi về:
Dựa theo kết quả test, NOC phân loại sự cố để có thể chuyển qua có thể: hoặc Ban Access,
hoặc ban Core, hoặc đội, hoặc Tỉnh tiếp tục kiểm tra dựa theo một số tiêu chí:
- Sự cố thuộc phần ngoại vi: Từ Port DSLAM tới Modem khách hàng, sự cố tại DSLAM
cần chuyển qua đội và TT KT TỈnh thành giải quyết.
- Sự cố từ DSLAM đến BRAS, thì Ban Access sẽ phối hợp các Tỉnh xử lý.
- Với các sự cố: mạng chậm đối với một số trang WEB, một số dịch vụ như game lắc (nếu
như bước kiểm tra Ping tới DNS và download trang nội bộ tốt coi như phần Access tốt)
cần chuyển qua Ban Core để kiểm tra: mực độ tắc nghẽn tới các hướng này, việc định
tuyến tới các hướng này.
BÀI TEST 1
KIỂM TRA ĐỘ TRỄ ĐƯỜNG TRUYỀN
• Cách thực hiện:
- Thực hiện lệnh Ping tới 1 số trang Web thông dụng trong nước và quốc tế, với thời gian
khoảng 5-10 phút. Ghi lại kết quả độ trễ Trung bình ( viết tắt ĐTTB) và tỷ lệ mất gói theo
Phụ lục 01 (có Capture màn hình kết quả mỗi lần PING).
Thời gian test:
- Test vào những khoảng thời gian thường hay xẩy ra sự cố.
Trong trường hợp cần thiết (Biên Bản để làm cơ sở pháp lý) thực hiện test vào thời điểm
có lưu lượng trung bình trong ngày tuần, cần test vào cả giờ cao điểm và giờ thấp điểm để
lấy kết quả trung bình.
- Chú ý: chúng ta có thể thực hiện test sơ bộ trước để lựa chọn trang Web tốt khi test
sau đó mới tiến hành test và ghi số liệu.
• Chỉ tiêu độ trễ ( chưa chính thức, chỉ mang tính tham khảo)
+ Đối với các trường hợp khách hàng trên hệ thống IP DSLAM:
Tới các trang trong nước có độ trễ trung bình <= 20-50 ms
Tới địa chỉ Gateway: 203.113.188.252 có ĐTTB <= 20 ms
Tới một số trang Web quốc tế: ĐTTB <=100-300 ms
+ Đối với các trường hợp khách hàng trên hệ thống ATM DSLAM
Trường hợp này chỉ tiêu về độ trễ có thể cao hơn
• Một số trang Web thông dụng để PING:
+ Trong nước: www.tuoitre.com.vn
www.pcworld.com.vn
www.thanhnien.com.vn
+ Trang quốc tế: www.juniper.com
www.download.microsoft.com
www.download.com
BÀI TEST 2
KIỂM TRA TỐC ĐỘ DOWNLOAD
• Cách thực hiện.
- Thực hiện download tới 1 số trang Web thông dụng trong nước và quốc tế, với kích thước
file download từ 2-6 MB, thực hiện từ 2-3 lần cho mỗi file. Ghi lại kết quả download theo
Phụ lục 02. ( cần Capture màn hình kết quả mỗi lần down load).
- Bước một là test với trang Nội bộ http://203.113.188.199/download
- Bước 2 là test với trang trong nước.
- Bước 3 test với trang quốc tế.
Thời gian test:
- Test vào những khoảng thời gian thường hay xẩy ra sự cố.
Trong trường hợp cần thiết (Biên Bản để làm cơ sở pháp lý) thực hiện test vào thời điểm
có lưu lượng trung bình trong ngày tuần, cần test vào cả giờ cao điểm và giờ thấp điểm để
lấy kết quả trung bình.
- Chú ý: chúng ta có thể thực hiện test sơ bộ trước để lựa chọn trang Web tốt khi test
sau đó mới tiến hành test và ghi số liệu.
• Chỉ tiêu tốc độ.
Trang nội bộ: Tốc độ download trung bình ( viết tăt là TĐĐLTB) >= 70% tốc độ cao nhất
của gói dịch vụ.
Trang trong nước: TĐĐLTB >= 60 % tốc độ cao nhất của gói dịch vụ.
Trang quốc tế: TĐĐLTB >= 320 Kbps ( Kilo bít)
Chý Ý: File có đơn vị đo kích thước là Byte, 1 Byte = 8 Bit do vậy khi tính tốc độ cần đổi
ra bit.
TĐĐLTB của mối lần download = Kích thước của file ( Byte) x 8/ tổng số thời gian
download (s)
-> cần tính ra tốc độ đownload trung bình của các lần thực hiện và ghi vào phụ lục:
3. Một số trang Web để test.
+ Trang nội bộ: http://203.113.188.199/download
+ Trang trong nước: www.pcworld.com.vn
www.download.com.vn
www.tuoitre.com.vn
+ Trang quốc tế: www.download.com
www.juniper.net
www.download.microsoft.com
BÀI TEST 3
KIỂM TRA ĐƯỜNG ĐI CỦA GÓI TIN TỚI TRANG WEB
• Cách thực hiện:
Thực hiện lệnh “tracert” và lệnh “PING” tới:
- Trang WEB bị sự cố chậm.
- 1 số trang Web thông dụng trong nước và quốc tế.
- Ghi kết quả vào Phụ lục 03, có Capture mà hình kết quả Tracert.
Tracerout ngược từ quốc gia có trang WEB đó về địa chỉ IP của khách hàng, về
gateway 203.113.188.252.
- Dùng công cụ traceroute trong trang:
- Ghi kết quả vào Phụ lục 03, có Capture mà hình kết quả Tracerout
Thời gian test:
- Test vào những khoảng thời gian thường hay xẩy ra sự cố.
Trong trường hợp cần thiết (Biên Bản để làm cơ sở pháp lý) thực hiện test vào thời điểm
có lưu lượng trung bình trong ngày tuần, cần test vào cả giờ cao điểm và giờ thấp điểm để
lấy kết quả trung bình.
• Một số trang Web thông dụng để Tracert:
+ Trong nước: www.tuoitre.com.vn
www.pcworld.com.vn
www.thanhnien.com.vn
+ Trang quốc tế: www.juniper.com
www.download.microsoft.com
www.download.com
BÀI TEST 4
KIỂM TRA SỰ CỐ KHÁCH HÀNG KHÔNG LOGIN VAO ĐƯỢC MỘT SỐ
TRANG WEB
1. Cách thực hiện.
- Trước khi đi tới khách hàng cần thực hiện Test tại văn phòng, hoặc nhờ NOC test tại
Phòng NOC để kiểm tra trang này có đang bị down hoặc toàn bộ mạng của chúng không
định tuyến tới được trang này.
- Nếu kết quả test tại văn phòng hoặc phòng NOC thành công, khi đó tới khách hàng để
test thử và ghi lại kết quả theo phụ lục 04.
- Nếu test tại văn phòng va phòng NOC không thành công, có nghĩa là có thể Server bị
down hoặc mạng chúng ta không định tuyến tới trang WEB này được, trong trường hợp
này đội không phải xử lý mà chỉ cần báo cáo kết quả kiểm tra, và Ban Core sẽ phối hợp xử
lý.
- Tracert tới trang Web đó (ghi lại kết quả theo phụ lục 04.)
Tracerout ngược từ quốc gia có trang WEB đó về địa chỉ IP của khách hàng, về
gateway 203.113.188.252.
- Dùng công cụ traceroute trong trang:
- Ghi kết quả vào Phụ lục 04, có Capture mà hình kết quả Tracerout