Tối ưu hóa hiệu suất máy chủ Apache
Việc tối ưu hóa hiệu suất của máy chủ Apache có thể tạo nên sự khác biệt
về website của bạn và ấn tượng mà nó tạo ra, đặc biệt trên các site động.
Trong bài này chúng tôi sẽ giới
thiệu cho các bạn những vấn đề cơ
bản trong cấu hình và cài đặt, hai
lĩnh vực mà bạn có thể kiểm soát để
tối ưu hóa hiệu suất của máy chủ
Apache.
Việc đánh giá và cải thiện hiệu
suất
Apache được thiết kế để có được tốc
độ nhanh ở mức có thể. Mặc dù vậy,
khi các site trở nên phức tạp và nhu
cầu băng thông của kiểu kết nối khác nhau tăng lên, khi đó việc có được
hiệu suất tốt nhất trong một cài đặt Apache và website trở thành một vấn
đề quan trọng.
Việc nâng cao hiệu suất không có nghĩa là thực hiện những thay đổi để
đạt được những thành quả không đáng kể. Việc tiêu tốn hàng giờ hoặc
thậm chí nhiều ngày vào việc điều chỉnh một máy chủ cho một vài phần
trăm là hành động lãng phí thời gian. Vì vậy, bước đầu tiên là bạn cần
phải xác định máy chủ đang hoạt động của mình nhanh đến cỡ nào và
mức hiệu suất nói chung của nó ra sao để có thể cải thiện hiệu suất và
đánh giá được những thay đổi của mình.
Đây không phải là lần đầu tiên chúng tôi giới thiệu về việc test Apache.
Như được lưu ý ở trên, việc xác định thành phần nào trong các ứng dụng
web đang gây ra vấn đề - đặc biệt việc phân biệt xem liệu Apache hoặc
môi trường ứng dụng mà bạn đang sử dụng với các site động là rất khó
khăn. Việc nhận ra các vấn đề trong các ứng dụng động vượt ra ngoài
phạm vi của bài này, tuy nhiên chúng tôi sẽ giới thiệu cho các bạn một số
cách để cải thiện nói chung tốc độ của Apache và cách nó tương tác với
các thành phần khác để hỗ trợ một website như thế nào.
Phần cứng máy chủ
Máy tính và môi trường hệ điều hành mà Apache đang chạy có ảnh
hưởng lớn nhất. Rõ ràng rằng, một máy tính 386 cũ sẽ không thể cho hiệu
suất tốt bằng một máy tính P4 hoặc dual-processor, tuy nhiên bạn có thể
thực hiện một số cải thiện cho nó. Để tránh thay đổi phần cứng, thứ lớn
nhất mà bạn có thể thực hiện là bảo đảm Apache đang chạy trên một máy
chủ chuyên dụng. Thêm vào đó sự tồn tại các ứng dụng khác cũng ảnh
hưởng đáng kể tới hiệu suất của máy chủ web.
Trong hầu hết các tình huống, đặc biệt là các website tĩnh, số lượng RAM
là một hệ số quan trọng vì nó sẽ ảnh hưởng đến lượng thông tin mà
Apache có thể nhớ (cache). Càng nhiều thông tin được cache thì hiệu suất
của Apache trong việc xử lý mở và đọc một file nào đó trên đĩa sẽ càng
thấp đi. Nếu site dựa trên hầu hết các file tĩnh, khi đó nên xem xét đến
việc sử dụng mod_cache; nếu có khá nhiều RAM, khi đó bạn có thể cân
nhắc đến mod_mem_cache.
Việc lưu thông tin vào đĩa trước đây tạo một khác biệt đáng kể nếu site
dựa trên mod_include để xây dựng lên một trang. Với mod_mem_cache,
các thông tin được lưu trong heap nhớ được chia sẻ bởi tất cả các quá
trình của Apache.
Sử dụng đĩa tốc độ cao sẽ tốt hơn, giải pháp Redundant Array of
Inexpensive Disks (RAID) là một trong những giải pháp được lựa chọn
(RAID 0, 0+1, 5, 10, hoặc 50) sẽ cải thiện được tốc độ truy cập đến các
file được phục vụ.
Mặc dù vậy cần lưu ý nếu bạn bị sự cố ở một truyến nào đó, thì một giải
pháp phần cứng thay thế cho phần mềm là lựa chọn tốt nhất.
Cuối cùng, về mặt phần cứng, hiệu suất CPU có thể có sự ảnh hưởng trên
các site động với các overhead phụ cho việc thực thi ứng dụng cho mỗi
trang được truy cập. Các trang động thường yêu cầu CPU cao hơn.
Môi trường host
Không quan tâm đến hệ điều hành, bạn hãy sử dụng nguyên lý tối ưu
dưới đây:
Giữ các ứng dụng background ở mức tối thiểu. Nếu bạn thực sự
quan tâm đến vấn đề hiệu suất thì trước tiên cần phải xem xét đó là
một số quá trình hoạt động ở chế độ background. Cho ví dụ, trong
Unix, bạn nên tắt NFS, các dịch vụ in ấn và thậm chí cả sendmail
nếu không cần thiết. Trong Windows, sử dụng System control
panel để tối ưu hóa hệ thống cho các ứng dụng và cache hệ thống,
tối ưu hệ thống về hiệu suất. Chỉ cần bảo đảm rằng các ứng dụng
và các dịch vụ yêu cầu như MySQL vẫn đang chạy.
Tránh sử dụng hệ thống. Nếu bắt đầu biên dịch các ứng dụng,
chỉnh sửa file hay sử dụng máy thì chắc chắn hiệu suất phục vụ
web của máy sẽ giảm. Do đó nếu bạn phải chỉnh sửa các thành
phần hoặc cài đặt phần mềm, hãy xây dựng hoặc chỉnh sửa các
thành phần trên máy tính khác sau đó copy chúng sau.
Cần cập nhật liên tục hệ thống. Dẫu ý tưởng xuất phát từ quan
điểm bảo mật nhưng việc nâng cấp phần mềm và cập nhật các bản
vá cũng cải thiện đáng kể hiệu suất vào ra và hiệu suất mạng.
Ứng dụng Apache
Rõ ràng Apache cũng là một ứng dụng. Do đó đầu tiên cần bảo đảm nó
được xây dựng đúng chỉ với các modul và các thành phần mở rộng cho
các website. Điều đó có nghĩa rằng, cho ví dụ, bạn có thể bỏ qua các
model ghi lại nếu không cần thiết. Lợi ích chủ yếu của việc đó là giảm
được tải bộ nhớ, nhưng một lợi ích tốt nữa là bạn không thể kích hoạt vô
tình các tùy chọn và do đó làm giảm hiệu suất máy chủ.
Tĩnh và động
Khả năng linh hoạt là vấn đề chủ yếu của hầu hết các quản trị viên
Apache, tuy nhiên khả năng linh hoạt có giá của nó. Việc sử dụng các
modul được load động bên trong Apache sẽ tạo sự thuận tiện nhưng
chúng cũng ảnh hưởng đến hiệu suất, vì mã sẽ được nạp khi modul yêu
cầu. Các modul động cũng có ưu điểm trong việc giữ cho các yêu cầu bộ
ở thấp.
Để xây dựng một chế độ tĩnh, sử dụng kịch bản cấu hình và chỉ định các
modul mà bạn muốn, tuy nhiên không chỉ định chia sẻ (chẳng hạn như sử
dụng enable-rewrite mà không sử dụng enable-rewrite=shared, hay
sử dụng tùy chọn chia sẻ enable-so).
Cấu hình modul
Nếu đang sử dụng cấu hình tĩnh của Apache, hãy chọn các modul mà bạn
muốn hợp nhất để chăm sóc. Sử dụng chế độ tĩnh cũng phải trả giá – càng
nhiều modul thì càng tốn nhiều bộ nhớ. Như vậy, một modul đa xử lý có
thể sẽ có hiệu quả đáng kể trên các yêu cầu bộ nhớ của máy.
Lưu ý rằng có một số mục được đưa vào tự động, vì vậy bạn cần kích
hoạt một cách rứt khoát và vô hiệu hóa các modul cần thiết. Cũng cần
nhớ gộp các modul của các hãng thứ ba (chẳng hạn như thẩm định, PHP
hoặc mod_perl), các yêu cầu dịch vụ web. Sử dụng cấu hình –help để có
được danh sách các tùy chọn có sẵn.
Cấu hình máy chủ
Khi môi trường của bạn được thiết lập và ứng dụng Apache của bạn được
tối ưu, đây chính là lúc bạn để ý đến file cấu hình để có những điều chỉnh
tối ưu mạnh mẽ hơn. Một cách tốt là bắt đầu bằng cách dọn dẹp file để
chỉ thị (directive) được giới hạn ở con số vài trăm bằng cách remove các
chú thích. Ngoài ra, nó sẽ trở thành việc remove các thành phần không
cần thiết hoặc các thành phần không cung cấp các lợi ích đích đáng.
Đơn giản hóa file cấu hình
Bước đầu tiên để tối ưu hóa là đơn giản hóa file cấu hình. Tuy sẽ không
có những tiến bộ rõ nét về hiệu suất nhưng nó sẽ làm cho file cấu hình trở
nên dễ dàng hơn trong sư dụng và vì vậy bạn sẽ tránh được trường hợp bỏ
sót chỉ thị hoặc thành phần cần thay đổi.
Nếu thực hiện bất kỳ kiểu tối ưu nào, hãy bắt đầu với một trong các file
cấu hình được cung cấp mặc định. Các file mày thường được lưu trong
thư mục cấu hình Apache dưới tên httpd.conf.orig hoặc httpd-std.conf.
Không nên sử dụng file high performance-std.conf; về lâu dài nó không
thực sự hữu ích như những gì bạn nghĩ khi bắt đầu thêm vào một số
lượng lớn các thông tin cấu hình bổ sung. Mặt khác, nếu mục tiêu của bạn
là một máy chủ web tĩnh, tốc độ thì đây chắc chắn là cách dễ dàng nhất
để bạn thực hiện được điều đó.
Nếu biết các chỉ thị cấu hình Apache, hoặc sẵn lòng nghiên cứu tài liệu,
bước hiệu quả nhất và nhanh nhất mà bạn nên làm là remove tất cả các
comment từ file cấu hình, vì chúng thường làm giảm uy tín các chỉ thị
thực. Bạn cũng có thể remove các tham chiếu đến các hệ thống MPM
hiện không sử dụng trên platform đã chọn.
Vô hiệu hóa các thành phần và hệ thống
Giờ đây chúng ta đã có một file cấu hình đơn giản, hãy bắt đầu remove
các thành phần cấu hình cho các hệ thống hiện không sử dụng. Cụ thể
như:
HostnameLookups, thành phần thường sẽ thêm overhead vào mỗi
yêu cầu bằng cách yêu cầu tra cứu DNS trên máy khách, đầu tiên
quan sát để tìm tên từ địa chỉ IP, sau đó tra cứu để chắc chắn thông
tin đó không bị nhầm. Trong hầu hết các trường hợp, bạn có thể
đơn giản vô hiệu hóa. Nếu thường xử lý với các file bản ghi của
mình, bạn hãy sử dụng post-processing để xác định thông tin. Để
vô hiệu hóa các tra cứu, nhóm chỉ thị dưới đây HostnameLookups
off.
Symbolic links, đây là thành phần khi kích hoạt, sẽ làm cho Apache
kiểm tra mọi yêu cầu để xác định xem liệu một liên kết tượng trưng
có liên quan trong yêu cầu hay không. Trừ khi bạn thực sự cần đến
các liên kết tượng trưng này, bằng không hãy tắt bỏ bằng cách sử
dụng: :<Directory /> Options -FollowSymLinks </Directory>
Server status and info, đây là một thành phần mặc dù rất hữu dụng
khi test và kiểm tra máy chủ, nhưng nó sẽ tạo thêm overhead cho
máy chủ web. Vô hiệu hóa bằng cách tìm kiếm các chỉ thị
SetHandler server-status, và nếu có thể, remove modul từ
Apache khi bạn cấu hình ứng dụng trong suốt quá trình xây dựng.
Wildcards và các tùy chọn linh hoạt cần được tránh nếu bạn có thể.
Cho ví dụ, chỉ thị DirectoryIndex, sẽ chỉ thị rõ ràng danh sách các
file được cấu hình, luôn liệt kê lựa chọn phù hợp nhất đầu tiên.
CGI execution cần có trừ khi bạn có một lý do tốt nào đó không
thực hiện như vậy. Đặt tất cả các file CGI vào một thư mục và cấu
hình nó cho thực thi CGI. Điều này sẽ tránh cho Apache có gắng
xác định xem yêu có phải quả thực cho thành phần CGI hay không
hay là một file tĩnh nào đó.
Vô hiệu hóa bản ghi
Việc ghi thông tin bản ghi là một quá trình tiêu tốn khá nhiều thời gian.
Mặc dù vậy Apache luôn để mở tính năng này, do đó nó sẽ ngốn nhiều
thời gian của máy chủ. Nếu việc lưu các thông tin bản ghi là không cần
thiết, bạn có thể tiết kiệm được một vài chu trình xử lý bằng cách vô hiệu
hóa nó. Để thực hiện điều này, hãy ghi chú các dòng bản ghi trong file
cấu hình.
Nếu bạn quyết định giữ các bản ghi của mình, vô hiệu hóa
HostnameLookups (xem bên trên) và bảo đảm copy các thông tin bản ghi
ra một máy khác để phân tích các file.
Đơn giản hóa cấu hình mức thư mục
Các file .htaccess là các file rất hữu dụng cho việc mở rộng các tham số
cấu hình máy chủ Apache mà không cần phải chỉnh sửa file cấu hình
chính mỗi khi bạn muốn thay đổi thứ gì đó. Tuy nhiên vấn đề ở đây là
việc sử dụng chúng sẽ làm chậm máy chủ của bạn.
Đầu tiên, máy chủ phải quan sát xem liệu file .htaccess có tồn tại hay
không, sau đó nó phải phân tích cú pháp và xử lý các thành phần này
trước khi sử dụng cấu hình cho thư mục đang được nói đến. Tồi tệ hơn,
Apache phải xác định thông tin này không chỉ cho thư mục hiện hành mà
còn cho cả các thư mục cha và sau đó phải tạo những thay đổi dựa trên
nội dung của tất cả các file này.
Mặc dù vậy, nếu muốn tối đa hóa hiệu suất, bạn nên vô hiệu hóa việc sử
dụng các file .htaccess. Bất cứ cấu hình thư mục cụ thể nào cũng đều có
thể đi vào file cấu hình chính, nơi nó có thể được phân tích cú pháp một
lần bởi Apache khi máy chủ bắt đầu.
Để vô hiệu hóa .htaccess thêm chỉ thị AllowOverride None và các phần
<Directory>.
Cấu hình MPM
Multi-Processing Module (MPM) cho phép một nền tảng cụ thể có thể
quản lý nhiều kết nối đồng thời. Các modul MPM cụ thể cho từng nền
tảng. Các giải pháp có sẵn làm việc một cách đặc trưng với Unix,
Windows, BeOS và NetWare. Với một số nền tảng thường có nhiều sự
lựa chọn. Đối với hầu hết người dùng, cấu hình mặc định cho môi trường
cụ thể nào đó làm việc khá tốt, đặc biệt khi việc có được các tham số
chính xác có thể là một nhiệm vụ tốn thời gian. Bằng cách so sánh, nhiều
kỹ thuật đã được mô tả có thể mang lại hiệu suất tốt hơn, tuy nhiên khi
muốn có được hiệu suất tối đa cho máy chủ của mình thì bạn vẫn phải
điều chỉnh cấu hình.
Dưới hầu hết các nền tảng chỉ có MPM, Unix có hai tùy chọn prefork và
worker. MPM prefork chia ra một số các quá trình Apache giống nhau,
còn worker tạo ra nhiều thread. Nói chung, prefork tốt hơn trên các hệ
thống với một hoặc hai bộ vi xử lý, nơi các hệ điều hành hỗ trợ tốt hơn
cho việc cắt nhỏ thời gian giữa các quá trình. Trên hệ thống có số lượng
CPU cao hơn, mô hình thread chắc chắn sẽ hiệu quả hơn.
Trong gần như tất cả các trường hợp, chỉ thị MaxClients là hiệu quả nhất
cho việc tăng hiệu suất máy chủ, vì nó kiểm soát số lượng tối đa các kết
nối đồng thời mà máy chủ Apache có thể quản lý.
Tối ưu hóa các thành phần tĩnh
Nếu website của bạn sử dụng rất nhiều thành phần tĩnh, hoặc nếu bạn tách
các thành phần động và tĩnh trên hai hoặc nhiều máy chủ web thì mục
tiêu chính của bạn sẽ là cải thiện thời gian đáp trả mà Apache gửi trả lại
các thông tin đã được yêu cầu. Cách đơn giản nhất để thực hiện điều này
là sử dụng modul mod_cache. Bạn có thể sử dụng modul này với
mod_disk_cache và mod_mem_cache để cung cấp cache bộ nhớ và đĩa
của các file tĩnh.
Kiểm tra tài liệu Apache trên modul mod_cache để có thêm thông tin chi
tiết hơn.
Tối ưu hóa các thành phần động
Các thành phần động chắc chắn sẽ là thành phần tiêu tốn thời gian nhất
cho bất cứ máy chủ web nào. Chúng, đặc biệt nếu bạn sử dụng CGI, sẽ
làm tăng thêm thời gian đáp trả để load và thực thi một ứng dụng đơn
giản. Có nhiều thông tin bổ sung để các bạn có thể tham khảo tại
mod_perl, PHP, và Python và Java.
Ưu điểm chính của các giải pháp dựa trên kịch bản là chúng được nhúng
một bộ thông dịch vào Apache, giúp remove vấn đề loading ban đầu cho
các kịch bản động. Một số thậm chí còn lưu kịch bản đã được phân tích
để dễ dàng được thực thi nếu có yêu cầu sau này.
Cấu hình có thể phức tạp và việc có được hệ thống chính xác có thể tốn
nhiều thời gian. Một số giải pháp cũng không làm việc tốt chẳng hạn như
giải pháp mong đợi với các host ảo, bạn sẽ cần phải thay đổi các kịch bản
nào đó để lợi dụng các cải tiến về tốc độ mà nó cung cấp.
Mặc dù vậy những cải tiến ở đây rất đáng kể, có thể giảm được 70% thời
gian thực thi đối với một kịch bản Perl bằng cách sử dụng mod_perl thay
cho CGI. Thậm chí khi có nhiều công việc hơn, các giải pháp này cũng
cho phép bạn giữ được các kết nối vững chắc với cơ sở dữ liệu hoặc có
thể lưu trữ các thông tin giữa các yêu cầu. Đây là một điều tuyệt vời cho
các site thương mại điện tử và cũng góp phần giảm overhead trong việc
load các thông tin giữa các yêu cầu.
Kết luận
Dù Apache là một ứng dụng có thể cấu hình và khá phức tạp nhưng thực
sự thú vị vì các cài đặt chuẩn của nó đạt được mức hiệu suất rất cao. Một
lĩnh vực mà ở đó bạn có thể dễ dàng cải thiện đáng kể hiệu suất bằng
cách điều chỉnh các tham số. Tuy nhiên không may thay, những tham số
mà bạn có ít kiểm soát bên trong Apache –ví dụ như các thành phần động
và các kịch bản CGI – lại là các tham số có ảnh hưởng lớn nhất về mặt
hiệu suất. Kiểm ta một máy chủ Apache điển hình, bạn sẽ thấy rằng thời
gian cho ứng dụng Apache để trả lời một kết nối và gửi dữ liệu trở lại chỉ
vài ms – tuy nhiên việc đợi cho nguồn dữ liệu đó có thể mất đến vài giây.
Tuy nhiên điều này không phải là việc chúng tôi nhấn mạnh hành động
tối ưu là vô nghĩa. Trong suốt quá trình làm việc một hàng thì số lượng
ms sẽ ngày một tăng lên. Quan trọng hơn nữa là bạn có thể làm sạch và
đơn giản hóa cấu hình Apache của mình từ đó giúp nó giảm được các
overhead quản trị hơn trong quá trình thực hiện.