5 cách "ép cân" dữ liệu
Không chỉ giúp tiết kiệm chi phí, việc giảm dung
lượng dữ liệu còn là giải pháp để giảm tải cho hạ
tầng mạng và hệ thống sao lưu dữ liệu.
Với nhu cầu lưu trữ ngày càng bùng nổ, hầu
hết các nhà cung cấp lưu trữ đều yêu cầu người
dùng phải giảm tối đa dung lượng dữ liệu cần
lưu trữ. Việc này không những giúp giảm chi phí
phần cứng, phần mềm, điện năng tiêu thụ và
không gian cho trung tâm dữ liệu mà còn giảm
áp lực cho hệ thống mạng và sao lưu dữ liệu.
Nhưng làm thế nào để chọn được kỹ thuật giảm
dung lượng dữ liệu tốt? Trước hết, bạn cần xác
định được công ty/doanh nghiệp đang sử dụng
dữ liệu như thế nào và các khoản chi phí tiết
kiệm được khi sử dụng phương pháp giảm dung
lượng?
Chọn được kỹ thuật giảm dung lượng dữ liệu tốt
không chỉ tùy thuộc vào đặc thù công việc và
loại dữ liệu cần lưu trữ. Chẳng hạn, phương
pháp chống trùng lặp thường không mang lại
hiệu quả đáng kể cho dữ liệu X-quang, dữ liệu
thử nghiệm kỹ thuật, phim và nhạc; tuy nhiên
phương pháp này có thể làm giảm đáng kể chi
phí sao lưu trên các máy ảo. Sau đây là 5 kỹ
thuật giảm dung lượng lưu trữ thường được sử
dụng.
1. Chống trùng lặp
Chống trùng lặp là quá trình tìm kiếm và loại bỏ
dữ liệu trùng nhau được lưu trữ tại nhiều không
gian lưu trữ khác nhau (như đĩa cứng, bộ
nhớ…), có thể giảm đến 90% dung lượng cần
lưu trữ. Chẳng hạn, thông qua kỹ thuật chống
trùng lặp, bạn có thể đảm bảo rằng mình chỉ lưu
1 bản sao tập tin đính kèm được gửi tới hàng
trăm nhân viên. Chống trùng lặp đã trở thành
một trong những yêu cầu thực tế trong việc sao
lưu, lưu trữ cũng như bất kỳ hình thức lưu trữ
thứ cấp nào, nơi tốc độ truy cập không quan
trọng bằng yêu cầu giảm tình trạng "giẫm chân"
dữ liệu.
Ví dụ, với công cụ Virtual Tape Library của hãng
FalconStor, một tổ chức y tế có thể giảm đến 72
lần dung lượng lưu trữ nhờ kỹ thuật chống trùng
lặp. Trong khi đó, dịch vụ lưu trữ "mây" của
hãng i365 đạt được tỷ lệ từ 30:1 đến 50:1 trong
việc giảm dung lượng của một khối dữ liệu hỗn
hợp gồm Microsoft Exchange, SharePoint, SQL
Server và các tập tin trên máy ảo VMware.
Dữ liệu có thể được loại bỏ ở cấp độ tập tin hay
khối (như tập tin nén). Trong hầu hết trường
hợp, việc lọc nội dung trùng lặp càng chặt chẽ
sẽ càng giúp tiết kiệm chi phí và không gian lưu
trữ. Tuy nhiên, khâu lọc các nội dung trùng nhau
có thể cần nhiều thời gian và qua đó "kìm hãm"
tốc độ truy xuất dữ liệu.
Chống trùng lặp dữ liệu có thể được xử lý trước
(preprocessing/inline) hoặc sau khi dữ liệu được
lưu vào nơi nhất định (postprocessing). Về cơ
bản, xử lý sau là lựa chọn tốt nhất nếu bạn cần
tốc độ truy xuất dữ liệu nhanh, tuy nhiên bạn
cũng nên xem xét giải pháp xử lý trước nếu có
đủ thời gian và cần giảm chi phí lưu trữ. Ngoài
ra, kỹ thuật chống trùng lặp theo phương pháp
xử lý trước có thể giảm lượng dữ liệu lưu trữ
xuống tỷ lệ 20:1, tuy nhiên kỹ thuật này có thể
làm ảnh hưởng đến hiệu năng và buộc người
dùng phải mua nhiều máy chủ hơn. Cạnh đó,
chống trùng lặp theo phương pháp xử lý sau đòi
hỏi nhiều không gian lưu trữ hơn để làm bộ
đệm, qua đó làm giảm dung lượng lưu trữ cho
các nhu cầu sử dụng khác.
Đối với những khách hàng có nhiều máy chủ hay nền
tảng lưu trữ, việc chống trùng lặp dữ liệu có thể giúp
tiết kiệm chi phí bằng cách loại bỏ các bản sao dữ
liệu trên nhiều nền tảng khác nhau. Người dùng hiện
nay cũng quan tâm đến tính năng chống trùng lặp dữ
liệu trên hệ thống đơn lẻ để dễ dàng sử dụng hơn trên
bất kỳ ứng dụng nào hay cho phép người dùng "nạp
lại" dữ liệu (đưa dữ liệu về hiện trạng ban đầu) khi
cần thiết và tránh hiện tượng không tương thích nhiều
hệ thống. Công cụ chống trùng lặp chính (primary
deduplication products) có thể thực hiện trong khâu
tiền xử lý (preprocessing) cho đến một ngưỡng nhất
định và sau đó chuyển sang khâu hậu xử lý
(postprocessing).
Một tùy chọn khác là chống trùng lặp dựa trên
chính sách (policy-based deduplication), cho
phép nhà quản lý dữ liệu lưu trữ chọn các tập tin
để chống trùng lặp, dựa trên kích thước của tập
tin, mức độ quan trọng và một số tiêu chí khác.
Việc "nạp lại" các tập tin sẽ làm giảm thời gian
truy cập đi chút ít nhưng điều này vẫn tốt hơn
việc thông báo cho khách hàng phải chờ 2 ngày
để truy cập được tất cả tập tin. Một số giải pháp
chống trùng lặp và nén tập tin có thể giúp tiết
kiệm đến 50% không gian lưu trữ.
2. Nén
Nén là quá trình tìm kiếm và loại bỏ các byte dữ
liệu trùng lặp. Đây có thể được xem là công
nghệ giảm dung lượng dữ liệu nổi tiếng nhất.
Công nghệ này làm việc tốt với cơ sở dữ liệu, e-
mail và các tập tin, nhưng lại kém hiệu quả với
tập tin ảnh. Tính năng nén thường đi kèm trong
các hệ thống lưu trữ và bạn cũng có thể dễ
dàng tìm thấy các ứng dụng hay thiết bị nén dữ
liệu độc lập.
Nén dữ liệu ở chế độ thời gian thực sẽ không
làm gián đoạn truy cập và giảm hiệu năng bằng
cách giải nén trước khi dữ liệu này được thay
đổi hay truy xuất, do đó phù hợp cho các ứng
dụng trực tuyến như cơ sở dữ liệu và xử lý trên
các giao dịch trực tuyến. Sức mạnh điện toán
bên trong các bộ xử lý đa nhân hiện đại cũng
giúp tính năng nén trên nền máy chủ trở thành
một tùy chọn trong vài môi trường.
Việc nén dữ liệu thực sự mang lại nhiều lợi ích.
Nén có thể làm giảm dữ liệu với tỷ lệ 6:1 hay
nhiều hơn nữa đối với cơ sở dữ liệu SQL,
nhưng với các máy chủ dữ liệu thì tỷ lệ nén sẽ
giảm còn khoảng 2:1. Thực tế cho thấy, việc
nén dữ liệu đạt hiệu quả cao nhất với sao lưu,
lưu trữ thứ cấp (2 hay 3) nơi dung lượng lưu trữ
có thể giảm xuống tỷ lệ 2:1 - 4:1 để các ứng
dụng e-mail hay cơ sở dữ liệu trở nên năng
động hơn.
Đáng chú ý, tập tin được nén bằng ứng dụng
của Microsoft Office hay định dạng ảnh phổ biến
như JPEG không thể giảm tiếp dung lượng
bằng các kỹ thuật nén thông thường, thậm chí
có trường hợp còn tăng. Phần mềm nén của
Neuxpower Solutions có thể "ép" dung lượng
tập tin Office và JPEG đến 95% mà không làm
giảm chất lượng ảnh bằng cách loại bỏ các
thông tin không cần thiết như siêu dữ liệu
(metadata) hay các chi tiết không thể nhìn thấy
trừ khi hình ảnh được phóng to. Trong khi đó,
phần mềm Ocarina (hiện thuộc quyền sở hữu
của hãng Dell) cũng cung cấp tính năng tương
tự nhờ sử dụng nhiều thuật toán tối ưu đã được
điều chỉnh cho nhiều loại nội dung, có khả năng
kiểm tra và chọn lựa nhiều phương pháp nén để
đạt hiệu quả tốt nhất.
Kỹ thuật chống trùng lặp và nén dữ liệu tương trợ lẫn
nhau. Người dùng chọn giải pháp nén khi quan tâm
đến thời gian, hiệu năng và tốc độ truyền, trong khi
đó phương pháp chống trùng lặp thường được sử
dụng cho trường hợp có mức độ dữ liệu dư thừa cao
và muốn tiết kiệm không gian lưu trữ.
3. Phân cấp theo chính sách
Phân cấp dữ liệu theo chính sách (Policy-based
tiering) là quá trình di chuyển dữ liệu đến một
lớp lưu trữ khác dựa trên tiêu chí như thời gian,
mức độ thường xuyên truy cập hay tốc độ cần
phải có. Trừ khi chính sách yêu cầu xóa toàn bộ
dữ liệu không cần thiết, kỹ thuật này sẽ không
làm giảm nhu cầu lưu trữ chung của bạn, tuy
nhiên có thể giúp giảm chi phí bằng cách di
chuyển dữ liệu sang các hệ thống lưu trữ rẻ tiền
hơn và dĩ nhiên sẽ có tốc độ truy xuất chậm
hơn.
Thiết bị lưu trữ HP StorageWorks X900 tích hợp
chính sách quản lý và tự động di chuyển tập tin,
trong khi đó phần mềm quản lý thông tin và lưu
trữ hợp nhất của DataGlobal GmbH có thể giảm
dung lượng cần thiết xuống mức 60% -70% cho
email và khoảng 20% cho các máy chủ dữ liệu.
Các thiết bị lưu trữ có tính năng phân lớp khác
có thể kể ra là Storage Center 5 của Compellent
Technologies, HotZone và SafeCache của
FalconStor, Policy Advisor của 3Par, FAST của
EMC.
4. Lưu trữ ảo
Tương tự như máy chủ ảo hóa, lưu trữ ảo liên
quan đến "trừu tượng hóa" nhiều thiết bị lưu trữ
thành một khu lưu trữ duy nhất, cho phép các
nhà quản trị di chuyển dữ liệu giữa các lớp khi
cần thiết. Nhiều chuyên gia xem đây là một công
nghệ thay vì là một công cụ thu gọn dữ liệu.
Ví dụ, hệ thống quản lý dữ liệu của Actifio sử
dụng khả năng ảo hóa để loại bỏ nhu cầu của
nhiều ứng dụng và nhường sự ưu tiên cho các
tính năng như sao lưu và khôi phục sự cố. Với
giải pháp này, các chính sách quản lý phù hợp
sau đó sẽ được áp dụng cho 1 bản sao của dữ
liệu, xác định nơi chúng được lưu trữ và chúng
bị trùng lặp như thế nào trong suốt các quá trình
trình sao lưu và sao chép dữ liệu. Actifio cho
rằng, giải pháp của họ có thể giảm dung lượng
xuống 75% đến 90%.
5. Cung cấp khi cần thiết
Cung cấp khi cần thiết (Thin provisioning - TP)
nghĩa là thiết lập một máy chủ ứng dụng sử
dụng không gian trên một ổ đĩa chỉ khi thật cần
thiết. Như lưu trữ dựa trên chính sách, kỹ thuật
này không cắt toàn bộ dữ liệu hiện đang được
lưu rải rác nhưng sẽ hoãn việc phải mua nhiều ổ
đĩa mới cho đến khi thực sự cần thiết.
Nếu nhu cầu lưu trữ tăng lên nhanh chóng, bạn phải
hành động kịp thời để đảm bảo rằng bạn có đủ thiết
bị lưu trữ vật lý. Có nhiều tình huống bất ngờ, do đó,
tốt hơn hết, bạn cần có công cụ quản lý và đo lường
nếu áp dụng phương pháp TP. Bạn cần tìm kiếm các
sản phẩm xác định cả dữ liệu và các ứng dụng người
dùng cần phải quan sát và theo dõi không chỉ sử dụng
không gian mà còn cả các hoạt động đọc/ghi để
phòng ngừa hiện tượng tắc nghẽn.
Tóm lại, trước khi chọn chiến lược giảm dung lượng
dữ liệu, bạn cần thiết lập các chính sách để có sự lựa
chọn giữa hiệu quả công việc và chi phí tiết kiệm
được.