Xét lại chuẩn hóa dữ liệu, Phần 1: Lịch sử của các hồ
sơ kinh doanh
Giới thiệu
Bài này mô tả sự thay đổi vai trò của việc chuẩn hóa dữ liệu [30] trong các hệ thống thương mại.
Từ những năm 1970, khi người ta đã định nghĩa chuẩn hóa hóa dữ liệu, các công nghệ và các hệ
thống máy tính và các ứng dụng của chúng đã phát triển đáng kể. Đặc biệt vào những năm 1970,
các cấu trúc dữ liệu đã ổn định, dung lượng đĩa còn bị hạn chế rất nhiều và thông tin kinh doanh
chỉ trên giấy tờ. Con người và các thiết bị vào-ra rất cần để chuyển dịch văn bản giấy tờ thành
một dạng mà máy tính có thể đọc, ví dụ, các bìa đục lỗ. Các máy tính lớn thuộc sở hữu của các tổ
chức lớn như các ngân hàng đã có 512K bộ nhớ và chi phí gần 2.000.000 Đô la Mỹ. Một tổ chức
lớn đã có dung lượng đĩa 10 MB cho tất cả các hệ thống máy tính và dữ liệu của mình. Trong
những năm 1970, cơ sở hạ tầng Internet chỉ mới bắt đầu được tạo ra còn Mạng toàn cầu (World
Wide Web) đã có cách đó hơn mười năm rồi.
Vì dung lượng đĩa còn bị hạn chế nhiều, nên người ta giả định rằng chỉ có thông tin thông dụng
nhất mới được lưu trữ và được tạo sẵn cho các ứng dụng. Việc chuẩn hóa đảm bảo rằng mỗi
mảnh dữ liệu, như tên, địa chỉ hoặc thông tin đặt hàng, xuất hiện đúng một lần trên đĩa để tránh
các dị thường dữ liệu và bảo tồn dung lượng. Thông thường, dữ liệu đã chuẩn hóa chỉ tồn tại
trong các hệ thống máy tính và không phù hợp với việc biểu diễn dữ liệu kinh doanh ban đầu.
Trong thế kỷ 21, các dữ liệu kinh doanh hầu như luôn luôn được tạo ra ở dạng số, như một thông
báo đơn đặt hàng dưới dạng một yêu cầu dịch vụ web. Do đó, việc chuẩn hóa dữ liệu ngụ ý rằng
việc biểu diễn một hồ sơ kinh doanh dưới dạng số hiện có được chia nhỏ để lưu trữ trong một cơ
sở dữ liệu và sau đó được khôi phục lại để trình bày và sử dụng các hồ sơ kinh doanh.
Trong bài này, thuật ngữ "hồ sơ kinh doanh" được sử dụng với nghĩa là thông tin có thể được
chia sẻ giữa hai hoặc nhiều bên hoặc nhiều thành phần, như một đơn đặt hàng, một phiếu thu,
một giấy báo nợ, một giao dịch tài chính, một chuyển khoản ngân hàng, một chính sách bảo
hiểm, một email, một hồ sơ bệnh nhân, một bản ghi nhật ký, một phép đo, một sự kiện được ghi
lại, một chính sách hoặc sắc lệnh bắt buộc và v.v
Các giả định mà mô hình quan hệ dựa vào đã thay đổi. Ngày nay, nhiều hệ thống và cấu trúc
thông tin không còn đơn giản và cố định nữa mà phức tạp và chúng thay đổi nhanh chóng. Trong
thế giới ngày nay, việc chuẩn hóa là một quá trình có thể hoạt động như một chất ức chế cho cả
việc phân phối của các hệ thống linh hoạt lẫn việc phân phối linh hoạt của các hệ thống.
Bài này giới thiệu về lưu giữ hồ sơ thông qua lịch sử trước và sau khi đưa các máy tính vào để sử
dụng thương mại. Một nhận xét quan trọng là trong suốt chiều dài lịch sử, các hồ sơ kinh doanh
đã được lưu trữ "như nó vốn có" và việc đưa các máy tính vào chỉ gây ra sự chia nhỏ các hồ sơ
thành nhiều mảnh (chuẩn hóa). Sau đó bài này xem xét động lực cho sự phát triển chuẩn hóa dữ
liệu trong những năm 1970. Rồi nó giải thích liệu một số mức độ không chuẩn hóa dữ liệu có trở
thành một sự thỏa hiệp được áp dụng phổ biến không. Cuối cùng, bài này thảo luận về ảnh
hưởng của web đối với các hồ sơ kinh doanh, cho phép chúng được tạo ra theo định dạng số. Kết
quả là, lần đầu tiên đã có thể lưu trữ và xử lý các hồ sơ kinh doanh trong các máy tính theo cấu
trúc ban đầu của chúng.
Lưu giữ hồ sơ qua lịch sử
Phần này mô tả các khía cạnh về lưu giữ hồ sơ trước khi giới thiệu các máy tính, giúp chúng ta
hiểu những thay đổi đáng kể do các máy tính đem lại. Các thay đổi này được mô tả sau trong bài
này.
Các bộ sưu tập về các phiếu thu đã được tìm thấy ở tận thiên niên kỷ thứ 3 trước Công nguyên
trong Sumeria cổ [ 1] dưới dạng các viên đất sét đã được trao đổi và sau đó được lưu trữ để lưu
giữ hồ sơ. Các hồ sơ cho vay của người Babylon đã được tìm thấy từ thế kỷ 18 trước Công
nguyên [ 2]. Các mã của Hammurabi [3] ở Babylon (năm 1792 trước Công nguyên) gồm có các
bản tuyên bố xử lý và lưu giữ hồ sơ (các viên đất sét). Ví dụ:
Nếu bất cứ ai nợ tiền vay và một cơn bão phá hỏng mùa màng, hoặc không thu hoạch
được, hoặc các hạt giống không nảy mầm vì thiếu nước; trong năm đó, người đó không
cần trả cho chủ nợ của mình bất kỳ hạt thóc nào, ông rửa sạch các thẻ nợ của mình bằng
nước và không trả tiền thuê trong năm đó.
Nếu bất cứ ai mua cánh đồng, sân vườn và ngôi nhà của tù trưởng, người đàn ông hoặc
một người phải chịu số tô nộp cho lãnh chúa, thì thẻ hợp đồng mua bán của ông ta sẽ bị
phá vỡ (được tuyên bố không hợp lệ) và ông ta bị mất tiền. Cánh đồng, sân vườn và ngôi
nhà trả lại cho chủ sở hữu chúng.
Qua lịch sử, các cơ chế khác nhau đã được giới thiệu để ghi lại thông tin kinh doanh, như các
gậy đếm kiểm [ 4][ 5], rẻ hơn và dễ dàng có sẵn hơn so với giấy tờ. Ở châu Âu thời trung cổ, một
cây gậy được đánh dấu bằng các vết khía hình V và sau đó được chia theo chiều dọc. Hai nửa
gậy phải có cùng các vết khía hình chữ V và mỗi bên giao dịch được nhận một nửa cây gậy đã
đánh dấu làm bằng chứng. Rồi các cây gậy này được lưu trữ và giữ nguyên. Gậy đếm kiểm đã
chia được chính phủ Anh sử dụng liên tục cho đến năm 1826 để quản lý thuế. Các kho gậy đếm
kiểm được lệnh tiêu huỷ bằng cách đốt vào năm 1834 khi các phương thức ghi âm hiện đại hơn
đã được giới thiệu [ 5].
Giấy và trong thời gian trước đó là giấy cói và giấy da [ 6], đã ngày càng được sử dụng qua nhiều
thế kỷ cho đến cuối thế kỷ 20 để ghi lại các thỏa thuận kinh doanh, các hóa đơn bán hàng, các
hợp đồng và các tài liệu quan trọng khác. Thông thường, các hồ sơ đã được ký kết và đôi khi
được đóng dấu bằng sáp ong với các nhãn hiệu của các nhà buôn liên quan. Các phương pháp
như kế toán kép đã được giới thiệu trong thế kỷ 15. Các thư ký và những người chép thuê đã hỗ
trợ các nhà buôn khi công việc giấy tờ tăng lên. Khi các máy tính được đưa vào sử dụng thương
mại trong thế kỷ 20, các doanh nghiệp bắt đầu tin học hóa các hệ thống của mình – với yêu cầu
chuyển đổi các hồ sơ giấy tờ của thế giới thực sang một cách biểu diễn để các máy tính có thể
hiểu được [ 7].
Trước khi đưa vào các máy tính, nguyên tắc chính của việc lưu giữ hồ sơ là chụp ảnh và duy trì
một bản sao thông tin chính xác đã được trao đổi giữa các bên liên quan trong một giao dịch.
Thường thì các hồ sơ đã được ký kết hoặc đánh dấu theo một cách nào đó và được lưu trữ "như
nó vốn có" cho các nhu cầu trong tương lai. Các quy tắc chi phối việc lưu trữ và xử lý các hồ sơ
và các hợp đồng kinh doanh đã tồn tại trong suốt lịch sử.
Lưu giữ hồ sơ trong các hệ thống máy tính
Phần này mô tả môi trường trong đó các hệ thống cơ sở dữ liệu đã được giới thiệu vào nửa sau
của thế kỷ hai mươi và mục đích chính của các hệ thống đó.
Khi các hệ thống máy tính số đã được đưa vào để hỗ trợ các doanh nghiệp thương mại trong
những năm 1950 và 1960, các hồ sơ đầu tiên được lưu trữ trên các bìa giấy đục lỗ [8], mà người
ta cũng đã thường sử dụng bìa này cho đầu vào và đầu ra. Những người sử dụng gõ nội dung của
các hồ sơ giấy, biểu thị các giao dịch kinh doanh, vào các bìa, sao cho máy tính có thể đọc và sử
dụng thông tin đó (Hình 1). Dữ liệu được lưu trữ và được xử lý bên trong hệ thống máy tính
không còn phù hợp với giao dịch kinh doanh thực sự trên giấy, mặc dù nó có thể phù hợp với
cách nhập dữ liệu vào máy tính trong thời đại bìa đục lỗ.
Hình 1. Nhân viên nhập dữ liệu vào những năm 1950
Các bìa đục lỗ tiếp tục được sử dụng với khối lượng đầu vào và đầu ra dữ liệu lớn trong các hệ
thống máy tính vào những năm 1980, nhưng băng từ [9] và sau đó lưu trữ trên đĩa [ 10] sớm đã
thay thế các bìa đục lỗ trong các hệ thống lớn vào những năm l960. Với sự ra đời của lưu trữ đĩa
(Hình 2), khả năng truy cập dữ liệu trực tiếp và nhanh chóng đã trở nên có triển vọng, khi các
phần riêng biệt của một đĩa có thể xử lý được bằng lập trình. Trước khi có các đĩa, hầu hết việc
xử lý diễn ra theo các lô [ 11] ở đây dữ liệu được xử lý theo thứ tự mà nó đã được lưu trữ trong
các tệp trên băng từ hay trên các bìa đục lỗ. Các đĩa đã cho phép truy cập dữ liệu một cách ngẫu
nhiên.
Hình 2. Vận chuyển một ổ đĩa cứng IBM 5MB vào năm 1956
Trong những năm 1960, một số hệ thống cơ sở dữ liệu [ 12] và hệ thống tệp truy cập trực tiếp
[13] đã được phát triển để quản lý dữ liệu đã lưu trên đĩa cho phép nhiều người có thể đồng thời
truy cập và cập nhật đĩa, lợi dụng dung lượng lưu trữ đĩa mới có sẵn. Hai trong số các cấu trúc cơ
sở dữ liệu phổ biến nhất được sử dụng là mô hình mạng (CODASYL) [14] và mô hình phân cấp
(IMS) [ 15]. Trước khi lưu trữ dữ liệu trong cơ sở dữ liệu và thực hiện một ứng dụng, nhóm
chuyên gia (các nhà phân tích dữ liệu hoặc quản trị cơ sở dữ liệu) đã chạy một thiết kế dữ liệu để
chia nhỏ dữ liệu kinh doanh, vẫn còn trên giấy trong thời đại đó, thành các hệ thống phân cấp
hoặc các mạng. Các nhà phân tích đã tạo ra hai mô hình thiết kế dữ liệu, một thiết kế logic ánh
xạ các hồ sơ kinh doanh vào các hệ thống phân cấp hoặc các mạng để các nhà lập trình truy cập
vào và xử lý và một mô hình vật lý để ánh xạ các hệ thống phân cấp hoặc các mạng tới các đĩa.
Các lập trình viên đã tìm hiểu mô hình logic và đã truy cập cơ sở dữ liệu thông qua các giao diện
lập trình dẫn hướng (ví dụ, lấy phần tử con tiếp theo trong phần tử cha mẹ) được cung cấp cùng
với hệ thống cơ sở dữ liệu cho các ngôn ngữ lập trình phổ biến lúc đó.
Trong những năm 1970 mô hình quan hệ thành công vang dội [ 30] đã được giới thiệu, tiếp tục
độc chiếm các hệ thống kinh doanh trong thế kỷ 21. Nó lưu trữ các dữ liệu kinh doanh trong các
bảng. Các mô hình quan hệ loại bỏ nhu cầu truy cập dẫn hướng, nhưng vẫn đòi hỏi các nhà phân
tích dữ liệu chia nhỏ dữ liệu kinh doanh thành các bảng để các nhà lập trình truy cập các bảng đó
thông qua một ngôn ngữ khai báo (SQL). Dữ liệu kinh doanh vẫn còn nằm trên giấy vào những
năm 1970 và 1980 và đã được chuyển đổi, thường là bằng các máy quét hoặc do những người sử
dụng gõ lại các biểu mẫu. Việc chia nhỏ dữ liệu kinh doanh điển hình theo các nguyên tắc chuẩn
hóa dữ liệu [ 16][ 17] tiếp tục được dạy và được sử dụng trong thế kỷ 21 để giảm thiểu việc sao
chép và các dị thường dữ liệu.
Vào lúc các khái niệm về các cơ sở dữ liệu quan hệ đã được xác định, một thiết bị lưu trữ đĩa phổ
biến là 3330 model 11 có dung lượng 200 MB và giá mua thiết bị này dao động từ $ 74.000 đến
$ 87.000 (giá Đô la năm 1970) [ 19]. Khi các cơ sở dữ liệu quan hệ bắt đầu giảm bớt vào những
năm 1980, một đĩa rất phổ biến là 3380. Nó có kích thước bằng một tủ quần áo và có dung lượng
lưu trữ 1,2 GB với chi phí trên $ 200.000 [ 20]. Vì thế, 1MB dung lượng lưu trữ đĩa có giá trên
$160 (giá Đô la năm 1970), tương đương với hàng ngàn đô la vào năm 2010 [ 21].
Thông thường, các hệ thống cơ sở dữ liệu quan hệ đã không giữ thông tin bảo mật liên quan đến
các chữ ký và thường chứa bất kỳ mảnh thông tin nào đúng một lần – chỉ phiên bản mới nhất,
khiến cho việc thực hiện kiểm tra trở nên khó khăn. Điều sớm đã trở nên rõ ràng là cần lưu trữ
các bản sao của các hồ sơ kinh doanh thế giới thực, ví dụ để có thể thực hiện kiểm tra các chính
sách bảo hiểm và các khiếu nại có liên quan trong trường hợp tranh chấp. Các hệ thống tài liệu
cũng cần tuân theo các quy tắc đòi hỏi các dữ liệu kinh doanh được lưu trữ với một số năm nhất
định. Một thể loại phần mềm mới, được gọi là Hệ thống quản lý tài liệu doanh nghiệp (Enterprise
Document Management Systems) [ 23], được phát triển vào cuối những năm 1980 để lưu trữ các
hình ảnh của các hồ sơ giấy tờ. Các hệ thống này đã được tách khỏi các cơ sở dữ liệu đã lưu trữ
dữ liệu giống như trong các bảng quan hệ. Trong thế kỷ 21, Quản lý tài liệu doanh nghiệp được
gọi là Quản lý nội dung doanh nghiệp [ 24].
Nguyên tắc chính về lưu giữ hồ sơ trong các máy tính trong thế kỷ XX đã giới thiệu một kiểu lưu
trữ phù hợp với cách mà các máy tính làm việc, để lưu trữ bất kỳ mục dữ liệu cụ thể nào đúng
một lần, giảm thiểu lưu trữ. Nếu cần một bản sao chính xác của hồ sơ giấy tờ thực thế giới, thì
người ta đã xây dựng các hệ thống riêng biệt để thực hiện chính xác điều đó, làm cho dữ liệu
giống nhau được lưu trữ nhiều lần. Các quy tắc để quản lý lưu trữ và xử lý các hồ sơ vẫn tiếp tục
tăng lên.
Quá trình chuẩn hóa dữ liệu
Phần này mô tả mục đích và các ảnh hưởng của quá trình chuẩn hóa dữ liệu lần đầu tiên được
giới thiệu vào năm 1970 với các dạng chuẩn tắc hơn được giới thiệu suốt những năm 1970.
Chuẩn hóa dữ liệu là một phương pháp luận để đưa ra một bộ sưu tập các bảng biểu diễn các hồ
sơ kinh doanh thế giới thực trong một cơ sở dữ liệu, tránh bất kỳ sự trùng lặp dữ liệu nào khi lưu
trữ vốn rất tốn kém. Tránh trùng lặp dữ liệu cũng có nghĩa là các dị thường cập nhật không thể
xảy ra. Chuẩn hóa dữ liệu rất tốt và được ghi lại rộng rãi [ 18]. INó bắt đầu với một bảng lớn duy
nhất để biểu diễn tất cả các thuộc tính của một hồ sơ kinh doanh thế giới thực cùng với mã định
danh chính (một khóa), sau đó sẽ gỡ bỏ hệ thống phân cấp (các nhóm lặp lại) để đơn giản hóa
truy vấn với một ngôn ngữ như SQL. Tiếp đến cũng phải gỡ bỏ bất kỳ dữ liệu trùng lặp và các
phụ thuộc chức năng nào trong các bảng kết quả.
Để đạt được chuẩn hóa, bảng duy nhất có tất cả các thuộc tính cần thiết được chia nhỏ thành các
bảng được liên kết thông qua các khóa chính và khóa ngoài. Kết quả của việc chuẩn hoá dữ liệu
là một hồ sơ kinh doanh duy nhất có thể được biểu diễn trong hàng chục hoặc hàng trăm bảng.
Nhiều khóa nhân tạo (và các chỉ mục có liên quan) được đưa vào, tuy không tồn tại trong thế giới
thực, nhưng lại rất cần để tạo lại hồ sơ kinh doanh thế giới thực. Việc lưu trữ nhiều phiên bản
của một hồ sơ kinh doanh, ví dụ, một đơn đặt hàng và sau đó thực hiện bất kỳ sửa đổi nào với
đơn đặt hàng đó, yêu cầu tạo phiên bản tất cả các bảng liên quan có thực hiện truy vấn và duy trì
tổ hợp các bảng. Một cách tiếp cận thay thế, để bảo toàn lưu trữ, là chỉ lưu trữ các khác biệt, thay
vì xếp tầng các phiên bản đầy đủ thông qua các bảng, làm phức tạp thêm cho các lập trình viên.
Năm 1980, chi phí của hai MB dung lượng lưu trữ đại khái tương đương với chi phí của một
tuần làm việc của một lập trình viên máy tính ở Mỹ [ 19][ 22]. Vào năm 2010, thậm chí một GB
dung lượng lưu trữ chỉ chiếm một phần rất nhỏ, không bằng vài phút làm việc của một lập trình
viên máy tính và giá lưu trữ tiếp tục giảm. Hơn nữa, bộ nhớ ngày càng trở nên phong phú và chi
phí (độ trễ) của các hoạt động Vào/Ra (I/O) tiếp tục giảm khi các loại lưu trữ mới – như các đĩa
thể rắn - đang được giới thiệu. Với ngoại lệ cần lưu ý của các cơ sở dữ liệu quan hệ, người ta
thường sử dụng phương tiện lưu trữ để lưu trữ các tạo phẩm chưa được chuẩn hóa, ví dụ trong
các máy chủ tệp, các máy chủ web, các kho lưu trữ nội dung, các máy chủ ứng dụng và v.v
Lưu trữ quan hệ trái ngược với các viên đá, các gậy đếm kiểm và các hồ sơ giấy được sử dụng để
lưu giữ hồ sơ trước khi đưa vào các hệ thống máy tính và luôn luôn được lưu trữ "như nó vốn
có". Vì một vài lý do mà chúng không được chia ra hoặc được chuyển đổi sang một định dạng
khác cho các mục đích lưu trữ. Đầu tiên, không gian lưu trữ luôn phong phú và đã không được
bảo toàn. Thứ hai, bất kỳ sự chuyển đổi (và tạo lại) các tạo phẩm thường rất tốn kém. Và thứ ba,
lưu trữ những hồ sơ này dưới dạng ban đầu của chúng làm cho việc sử dụng và hiểu chúng dễ
dàng khi lấy chúng ra khỏi nơi lưu trữ. Các lý do tương tự đang áp dụng hiện nay để lưu trữ các
hồ sơ kinh doanh số thế giới thực dưới dạng chưa chuẩn hóa sẽ được thảo luận sau trong bài này.
Khi việc sử dụng các hồ sơ giấy tăng lên nhanh chóng trong thế kỷ 19 và 20, không gian lưu trữ
đã trở thành một vấn đề đối với một số thư viện và các kho tư liệu. Điều này đã kích thích phát
minh ra vi phim và tấm vi phim để giảm không gian lưu trữ cần thiết xuống giữa 0,25% và 3%
so với vật liệu ban đầu [ 25]. Tuy nhiên, đây chỉ là một hình thức nén mà không biểu diễn thông
tin theo một cách khác dựa trên khái niệm. Tương tự như vậy, hiện nay có thể áp dụng việc nén
số để làm giảm tiêu dùng dung lượng lưu trữ của các hồ sơ kinh doanh không chuẩn hóa.
Do chi phí lưu trữ cao, nên chuẩn hóa dữ liệu biểu diễn các hồ sơ kinh doanh trong các máy tính
bằng cách chia nhỏ hồ sơ thành nhiều phần, đôi khi hàng trăm phần và tái tạo lại chúng khi cần
thiết. Cần có các khóa nhân tạo và các chỉ mục liên quan để liên kết các phần của một hồ sơ duy
nhất với nhau. Điều này trái ngược hẳn với các hệ thống lưu giữ hồ sơ trước đó (các viên đá, các
gậy đếm kiểm, giấy v.v ) đã lưu giữ hồ sơ kinh doanh như nó vốn có. Các cách biểu diễn chuẩn
hóa làm cho việc hiểu các hồ sơ kinh doanh trở nên khó khăn hơn nhiều và tăng thêm các chi phí
để chia nhỏ và ghép chúng lại.
Quá trình không chuẩn hóa
Phần này mô tả các tình huống mà ở đó việc không chuẩn hóa đã trở thành cách thực hiện phổ
biến. Các lược đồ cơ sở dữ liệu cho các kho dữ liệu là một ví dụ và các kho lưu trữ dữ liệu có
khả năng mở rộng mới như Google BigTable [ 47] và HBase [ 49] là các ví dụ khác.
Chuẩn hóa có hai nhược điểm cố hữu. Đầu tiên, các hồ sơ kinh doanh phức tạp thường dẫn đến
một số lượng lớn các bảng quan hệ trong một lược đồ cơ sở dữ liệu đã chuẩn hóa, làm cho việc
biểu diễn dữ liệu khó hiểu. Kết quả là, việc viết các truy vấn có thể yêu cầu nhiều liên kết và trở
nên ngày càng phức tạp [ 46]. Thứ hai, số lượng lớn các liên kết có tiềm năng gây bất lợi cho hoạt
động phục hồi dữ liệu. Việc không chuẩn hóa các bảng đã chuẩn hóa hoặc việc sử dụng một thiết
kế không chuẩn hóa có thể trực tiếp giải quyết những vấn đề này.
Không chuẩn hóa trong các kho dữ liệu
Do dung lượng của các thiết bị điện toán và lưu trữ đã tăng lên trong những năm 1980 và 1990,
trong khi chi phí đã giảm xuống, các công ty đã có thể có đủ khả năng tích lũy và phân tích khối
lượng dữ liệu kinh doanh lịch sử lớn hơn, như các hồ sơ bán hàng, trong các kho dữ liệu. Để có
được cái nhìn sâu vào hoạt động kinh doanh của một công ty, các kho này được các nhân viên
kinh doanh sử dụng, những người cần chạy các truy vấn phức tạp dựa vào một cách biểu diễn dữ
liệu trực quan. Người ta đã nhanh chóng phát hiện ra rằng "việc sử dụng mô hình hóa đã chuẩn
hóa trong kho dữ liệu gây khó khăn cho toàn bộ mục đích của kho dữ liệu, cụ thể là, việc phục
hồi các dữ liệu trực quan và hiệu năng cao" [ 26].
Kết quả là, các lược đồ hình sao không chuẩn hóa đã trở thành lược đồ cơ sở dữ liệu phổ biến
nhất cho các kho dữ liệu. Do các kho dữ liệu thường thêm dữ liệu mới theo định kỳ thay vì thực
hiện các cập nhật giao dịch, việc không chuẩn hóa làm đơn giản hoá lược đồ và cải thiện hiệu
năng truy vấn với ít nguy cơ về các dị thường cập nhật.
Một lược đồ hình sao gồm có ít nhất một bảng sự kiện, như "doanh thu hàng ngày" có các bản
ghi doanh thu và một số bảng chiều như "kho", "sản phẩm", "ngày" và "khách hàng". Có một
mối quan hệ một-nhiều giữa mỗi chiều và bảng sự kiện. Mỗi hàng của bảng sự kiện có một vài
số đo, có nghĩa là, các cột số như "số lượng" hay "giá", cũng như các khóa ngoài cho tất cả các
bảng chiều để cho biết sản phẩm nào đã được bán trong kho nào cho khách hàng nào vào ngày
nào. Đây là một khung nhìn dữ liệu kinh doanh trực quan và làm cho việc phân tích (doanh thu)
các sự kiện theo các chiều kinh doanh liên quan dễ dàng.
Các bảng chiều thường không được chuẩn hóa. Ví dụ, bảng "sản phẩm" có thể có các cột như
"loại hàng hóa" và "thể loại", ở đây các giá trị chuỗi giống nhau có thể xuất hiện dư ra cho nhiều
sản phẩm. Chuẩn hóa sẽ sử dụng các giá trị INTEGER (số nguyên) làm các khóa cho các loại
hàng hóa và các thể loại, cộng với các bảng riêng biệt có tên của từng thể loại hàng hóa chỉ xảy
ra một lần. Cần tránh chuẩn hóa các bảng chiều này, vì nó sẽ dẫn đến một lược đồ dạng bông
tuyết thường gây khó hiểu hơn và đưa vào nhiều liên kết bổ sung.
Sự thành công của các lược đồ hình sao trong kho dữ liệu dẫn đến hiểu biết chung rằng không
chuẩn hóa có lợi cho OLAP và các cơ sở dữ liệu hỗ trợ ra quyết định. Ví dụ, các khuyến cáo cho
các kho dữ liệu và các cơ sở dữ liệu OLAP trong Oracle bao gồm "không chuẩn hóa ồ ạt" và "dự
phòng rộng rãi" [ 27]. Các thử nghiệm trong Oracle 11g đã chỉ ra rằng các truy vấn nhiều chiều
có thể chạy trên một lược đồ cơ sở dữ liệu không chuẩn hóa nhanh hơn từ 10x đến 1000x so với
một lược đồ cơ sở dữ liệu chuẩn hóa [ 28]. Các nghiên cứu khác đã giải thích lợi ích hiệu năng
của việc không chuẩn hóa về mặt lý thuyết, khi sử dụng đại số quan hệ và các cây truy vấn [ 29].
Bất chấp thành công của việc không chuẩn hóa cho các cơ sở dữ liệu hỗ trợ ra quyết định, chuẩn
hóa vẫn thường thích hợp cho các ứng dụng OLTP chuyên sâu về cập nhật. Tuy nhiên, nhu cầu
chuẩn hóa các lược đồ cơ sở dữ liệu cho các ứng dụng OLTP đang thay đổi trong thế kỷ 21 khi
càng ngày càng có nhiều ứng dụng hơn cần lưu giữ một lịch sử đầy đủ của tất cả các hàng cơ sở
dữ liệu. Do đó, nhiều ứng dụng chỉ thực hiện chèn các phiên bản mới của một hàng chứ không
thực hiện cập nhật hàng hiện có [45] – giảm nguy cơ về các dị thường cập nhật trong một lược
đồ đã chuẩn hóa và làm giảm nhu cầu đối với việc chuẩn hóa.
Không chuẩn hóa trong BigTable của Google, HBase và các hệ thống khác
BigTable của Google là hệ thống cơ sở dữ liệu không chia sẻ thứ gì song song được thực hiện
như một bản đồ phân loại, nhiều chiều, phân tán, thưa thớt [ 47]. Nó được thiết kế với khả năng
mở rộng tới các khối dữ liệu rất lớn (petabyte – một triệu GB) và để phân phối qua hàng trăm
hoặc hàng ngàn máy tính. Trong mỗi mục của bản đồ, BigTable sắp đặt ba phần gồm có một
khóa hàng, một khóa cột và một dấu thời gian theo một giá trị. Ngoài ra, các khóa cột được
nhóm lại thành các họ cột, hình thành đơn vị cơ bản về nén và kiểm soát truy cập.
Một trong những nguyên lý nổi bật trong việc thiết kế các cơ sở dữ liệu và các ứng dụng cho
BigTable là không chuẩn hóa và trùng lặp dữ liệu [ 48]– một sự khởi đầu có gốc từ lý thuyết cơ
sở dữ liệu quan hệ truyền thống. Mục đích là tối ưu hóa cơ sở dữ liệu để truy cập đọc hiệu quả và
có khả năng mở rộng. Không chuẩn hóa thường được sử dụng sao cho một hoạt động đọc đơn lẻ
có thể lấy ra tất cả các trường thuộc về một hồ sơ kinh doanh lô-gic.
Không chuẩn hóa trong BigTable đi kèm với các phí tổn về các bản cập nhật phức tạp hơn và ít
hiệu quả hơn, khi nhiều bản sao tiềm năng có cùng một giá trị phải được cập nhật theo chương
trình. Chấp nhận sự hy sinh này để đạt được khả năng mở rộng cao cho các ứng dụng có tỷ lệ
đọc/cập nhật cao. Ngoài ra, trường dấu thời gian trong BigTable được sử dụng giúp cho việc tạo
phiên bản dễ dàng hơn, có nghĩa là, nhiều bản sao về một địa chỉ khách hàng hoặc nhiều bản sao
về một mô tả sản phẩm phản ánh tình trạng của thế giới tại một điểm nào đó đúng lúc.
Hãy tưởng tượng một cơ sở dữ liệu lưu trữ các khách hàng và các đơn đặt hàng, với một mối
quan hệ logic một-nhiều giữa chúng. Trong khi việc chuẩn hóa cơ sở dữ liệu quan hệ thường yêu
cầu ít nhất là 2 bảng, một bảng cho khách hàng và một bảng cho các đơn đặt hàng, thì một thiết
kế BigTable điển hình thường lặp lại thông tin khách hàng cho mỗi lần đặt hàng. Điều này biểu
diễn trạng thái thông tin khách hàng cho mỗi đơn hàng cụ thể. Ví dụ, một khách hàng có thể
hoặc không thể sử dụng cùng một địa chỉ cho mỗi đơn đặt hàng. Với nghĩa này, cách biểu diễn
không chuẩn hóa này giống với một mẫu đơn mua hàng thực tế, đó là, hồ sơ kinh doanh ban đầu.
Các cách thực hiện tương tự khác so với BigTable gồm có HBase và Cassandra và cũng dựa trên
một cách tiếp cận thiết kế cơ sở dữ liệu không chuẩn hóa [ 49]. Tương tự như vậy, các nghiên cứu
khác đã chỉ ra rằng không chuẩn hóa là một kỹ thuật thành công để xây dựng các ứng dụng web
có khả năng mở rộng [ 50].
Do những người dùng doanh nghiệp truy cập vào các kho lưu trữ dữ liệu, nên dữ liệu đã lưu theo
trực quan cần giống như cấu trúc ban đầu của các hồ sơ kinh doanh, đạt được bằng cách không
chuẩn hóa. Không chuẩn hóa cũng cải thiện hiệu năng bằng cách giảm số lượng các phép nối
quan hệ cần thiết để đánh giá các hồ sơ kinh doanh. Tương tự, không chuẩn hóa được sử dụng
trong các kho dữ liệu mới như BigTable và HBase để cung cấp truy cập dữ liệu đơn giản và có
khả năng mở rộng.
Ảnh hưởng của web
Bắt đầu vào giữa những năm 1990, việc số hóa các hồ sơ kinh doanh đã xảy ra đồng thời với sự
thành công thương mại của web. Phần này mô tả các công nghệ chủ chốt của Web, đã gây ra một
sự thay đổi lớn trong cách biểu diễn các hồ sơ kinh doanh trong những năm đầu thế kỷ 21.
Vào năm 1989, nhiều dự án dựa trên Internet đã phát triển khi có nhiều tổ chức khoa học, đại
học, chính phủ và thương mại có quyền truy cập vào cơ sở hạ tầng Internet. Một trong những dự
án đó đã bao gồm cả việc phát minh ra HTML (Hypertext Markup language - Ngôn ngữ đánh
dấu siêu văn bản) [ 31], HTTP (Hypertext Transfer Protocol - Giao thức truyền siêu văn bản) [ 32]
và các URL (Universal Resource Locators - Các trình định vị tài nguyên thống nhất) [ 33] đã dẫn
đến việc tạo ra WWW (World Wide Web - Mạng toàn cầu) [ 34]. HTTP đã định nghĩa một giao
thức để lấy ra và sửa đổi các tài liệu HTML trên Internet bằng cách xử lý chúng thông qua một
lược đồ xử lý phổ quát (URL). Nhiều trình xem đa năng (các trình duyệt [ 35]) đã được xây dựng
để truy cập và chuyển hướng các tài liệu và được sử dụng trên nhiều thiết bị trong thế kỷ 21.
Các tổ chức khoa học đã là những người sử dụng Web non trẻ đầu tiên để chia sẻ các tài liệu
khoa học. Vào khoảng năm 1995, cộng đồng thương mại đã khám phá ra web. Do nhiều người
dùng đã bắt đầu có quyền truy cập vào Internet từ nơi làm việc và nhà của họ, nên đã có một
cuộc chạy đua để cho phép đưa các hệ thống thương mại hiện có lên web - để tạo ra sự có mặt
của web nhằm cung cấp truy cập vào dữ liệu đã có trong các cơ sở dữ liệu quan hệ, sao cho
người dùng có thể theo dõi các gói hoặc gọi các dịch vụ và hàng hóa. Trong quá khứ, các hoạt
động này thường do con người thực hiện, qua điện thoại hoặc thư. Các cơ sở hạ tầng được phát
triển để cung cấp truy cập web vào cơ sở dữ liệu quan hệ và chuyển đổi nội dung của chúng
thành HTML có ở mọi nơi và các ứng dụng được tạo ra đã sử dụng HTML cho giao diện người
dùng của chúng [ 36].
HTML đã trở nên thành công lớn. Nó đã được mô tả trong một định nghĩa tài liệu Standard
Generalized Markup Language (SGML - Ngôn ngữ đánh dấu chuẩn tổng quát) [ 38] đã có phiên
bản 4.0 vào năm 1997. SGML, có nguồn gốc từ Generalized Markup Language (Ngôn ngữ đánh
dấu tổng quát) của IBM vào những năm 1960, là một tiêu chuẩn ISO để xác định cách đánh dấu.
Một trường hợp đơn giản hóa của SGML, được gọi là eXtensible Markup Language (XML-
Ngôn ngữ đánh dấu mở rộng) [ 37], đã được giới thiệu vào năm 1998 để nới lỏng việc triển khai
thực hiện trình phân tích cú pháp so với các trình phân tích cú pháp SGML đầy đủ mà HTML
cần. Một ví dụ về các trường hợp đơn giản hóa trong XML là tất cả các thẻ bắt đầu phải có các
thẻ kết thúc, còn trong SGML không dùng các thẻ như vậy.
Việc giới thiệu XML đã khuyến khích tạo ra nhiều bảng từ vựng vượt xa HTML để biểu diễn các
cấu trúc dữ liệu tùy ý. Khi các hồ sơ kinh doanh trong thế giới thực được tạo ra dưới dạng số vào
cuối những năm 1990, được Web cấp tư liệu làm phương tiện đầu ra đầu vào, XML đã trở thành
sự lựa chọn tự nhiên để biểu diễn các hồ sơ kinh doanh theo một định dạng không chuẩn hóa,
giống như các hình thức giấy hoặc các viên đá là những hồ sơ kinh doanh không chuẩn hóa.
Phần mềm XML mã nguồn mở miễn phí đã được bắt nguồn từ bộ vi xử lý SGML hoặc bộ vi xử
lý loại mới có thể phân tích cú pháp XML đúng định dạng đã được tạo ra, loại bỏ nhu cầu sử
dụng các trình phân tích cú pháp tùy chỉnh.
Người ta đã giới thiệu nhiều đặc tả hơn để hỗ trợ XML, ví dụ các lược đồ XML đã cho phép các
tổ chức và các tập đoàn quy định chính xác những gì cấu thành nội dung có thể chấp nhận được
trong một hồ sơ kinh doanh cụ thể. Việc xác nhận hợp lệ trình phân tích cú pháp đã trở nên phổ
biến rộng rãi. Các vùng tên cho phép một hồ sơ kinh doanh chứa dữ liệu có các định nghĩa do
các nhóm khác nhau sở hữu. Các vùng tên cho phép các tổ chức tái sử dụng, phân vùng hoặc mở
rộng các cấu trúc hồ sơ kinh doanh. Có thể áp dụng các chữ ký số cho XML, để đảm bảo rằng nó
đã không bị làm giả, theo một cách tương tự như các chữ ký và các dấu đã được sử dụng trên
giấy da và giấy.
Các đặc tả đã được giới thiệu mô tả cách nên truyền dẫn các hồ sơ XML, bao gồm WSDL,
SOAP, RSS và Atom. Các đặc tả này làm cho có khả năng xây dựng các khung công tác đa năng
xung quanh việc trao đổi hồ sơ kinh doanh, như các công nghệ cung cấp và các Kiến trúc hướng
dịch vụ (SOA).
Số lượng các tập đoàn, xác định các tiêu chuẩn hồ sơ kinh doanh theo XML cho ngành kinh
doanh của họ, đã phát triển. Các công ty đang bắt đầu sử dụng các cấu trúc XML tiêu chuẩn hóa
thay cho việc xác định các hồ sơ kinh doanh XML riêng của họ. Các ví dụ gồm Financial
Products Markup Language (FpML- Ngôn ngữ đánh dấu các sản phẩm tài chính) [ 52], Financial
Information eXchange Protocol (FIXML - Giao thức trao đổi thông tin tài chính) [ 54], EML
(Election Markup Language - Ngôn ngữ đánh dấu cho bầu cử) [ 55], HL7 (Health Level 7) [ 56],
HR-XML (XML Human Resources - Các nguồn nhân lực XML) [ 57], OTA (Open Travel
Alliance - Liên minh du lịch mở) [ 58] và Open Applications Group Integration Specification
(OAGIS - Đặc tả tích hợp nhóm các ứng dụng mở) [ 53]. Các định dạng như lược đồ thông báo
của ngành kinh doanh tài chính phổ biến IS20022 [ 59] được sử dụng trong ngân hàng và UBL
(Universal Business Language - Ngôn ngữ kinh doanh phổ biến) [ 60] được uỷ quyền và tùy
thuộc vào quy tắc, trong các vùng của thế giới. Trong nhiều ngành công nghiệp, lần đầu tiên,
XML đã trở nên có khả năng lưu trữ và xử lý trực tiếp các hồ sơ kinh doanh, như trong các kỷ
nguyên trước khi có các máy tính với các viên đá và giấy. Tuy nhiên, việc thực hành chuẩn hóa
các hồ sơ kinh doanh (XML) để lưu trữ vẫn được tiếp tục.
Trong những năm đầu thế kỷ 21, nhiều hồ sơ kinh doanh được tạo ra và được biểu diễn bằng
XML. Các hồ sơ kinh doanh theo XML được trao đổi giữa và trong các tổ chức thông qua việc
truyền tệp, HTTP, Web 2.0 và các dịch vụ web. Chúng đại diện cho các đối tượng hoặc các thỏa
thuận kinh doanh giữa hai bên hoặc nhiều bên. Một giả định phổ biến là việc xử lý XML không
hiệu quả. Do đó, nhiều kiến trúc sư vẫn tiếp tục thiết kế các hệ thống nhằm chuyển đổi các hồ sơ
kinh doanh thành các bảng quan hệ đã chuẩn hóa và ngược lại, giống như họ đã làm trong năm
1995 chuyển đổi giữa HTML và các dữ liệu quan hệ và năm 1980 chuyển đổi giữa các hồ sơ
giấy và các dữ liệu quan hệ thông qua các máy quét và những người sử dụng.
Tóm tắt
Cho đến khi điện toán thương mại ra đời vào giữa thế kỷ 20, các hồ sơ kinh doanh đã được lưu
trữ và được xử lý theo các hình thức tương tự như chúng đã được tạo ra. Các ví dụ bao gồm các
viên đá, các gậy đếm kiểm và các hình thức giấy. Với sự ra đời của hệ thống điện toán, người ta
đã phát minh ra chuẩn hóa dữ liệu để tổ chức các hồ sơ kinh doanh sao cho mỗi mục dữ liệu
được lưu trữ đúng một lần để bảo tồn lưu trữ và tránh các dị thường cập nhật. Chuẩn hóa đã được
phát triển vào những năm 1970 với các lý do thuyết phục vào thời điểm đó. Dung lượng đĩa khan
hiếm và đắt tiền, các hồ sơ kinh doanh không phức tạp như hiện nay và chỉ dự định lưu trữ phiên
bản mới nhất của từng thông tin. Do đó, nỗ lực chuyển đổi các hồ sơ kinh doanh sang và từ cách
biểu diễn chuẩn hóa trong các máy tính nói chung được chấp nhận.
Với sự xuất hiện của kho dữ liệu và kinh doanh thông minh vào đầu những năm 1990, những hạn
chế của chuẩn hóa đã nhận được nhiều sự quan tâm. Một lược đồ cơ sở dữ liệu chuẩn hóa là một
sự biểu diễn trái tự nhiên của các hồ sơ kinh doanh, rất khó hiểu cho những người dùng doanh
nghiệp và không hiệu quả cho việc trình bày và xử lý các truy vấn phân tích kinh doanh. Kết quả
là, không chuẩn hóa đã được giới thiệu để tháo gỡ những thiếu sót ở một mức độ nào đó.
Và thế giới Công nghệ thông tin tiếp tục thay đổi trong thế kỷ 21. Chi phí cho mỗi MB dung
lượng lưu trữ số đã giảm rất nhiều. Do những tiến bộ về mật độ lưu trữ và nén, chuẩn hóa không
còn cần thiết để tiết kiệm dung lượng nữa. Tương tự như vậy, các quy tắc kiểm tra và tuân thủ
đòi hỏi nhiều ứng dụng hiện nay cần giữ lại một lịch sử về các đối tượng dữ liệu của chúng. Kết
quả là, các việc chèn phiên bản mới và không thay đổi của các đối tượng dữ liệu thường phổ biến
hơn so với các cập nhật dữ liệu hiện có, làm giảm nguy cơ về các dị thường cập nhật. Do đó, nhu
cầu chuẩn hóa dữ liệu không còn có thể được áp dụng phổ biến nữa như trong những năm 1970.
Ngoài ra, sự thành công của Web, các dịch vụ Web và các công nghệ Web 2.0 đã đảm bảo rằng
các hồ sơ kinh doanh được tạo ra dưới dạng số, chủ yếu là XML. Trong khi phần mềm phía máy
khách đã chấp nhận XML và các dẫn xuất của nó, thì phần mềm phía máy chủ liên quan đến các
cơ sở dữ liệu vẫn tiếp tục yêu cầu tuỳ chỉnh đáng kể để thiết kế, xây dựng và phát triển, do các
phép chuyển đổi dữ liệu mà chuẩn hóa đòi hỏi. Một trong những lý do là chuẩn hóa dữ liệu đã
được giảng dạy như một phương pháp luận thiết kế cơ sở dữ liệu trong suốt 30 năm và tiếp tục
được giảng dạy như một phần thiết kế hệ thống. Tuy nhiên, do các hồ sơ kinh doanh hiện nay là
số, phức tạp hơn và đang phát triển, nên cần có thời gian để xem xét lại việc sử dụng chuẩn hóa
một cách cẩn thận.
Phần thứ hai của loạt bài này thảo luận về XML và cách biểu diễn dữ liệu thay thế khác và xem
xét khi nào và làm thế nào mà chúng có thể làm giảm bớt các vấn đề phổ biến với chuẩn hóa.
Tài liệu tham khảo
1. Sumeria:
2. Lịch sử ngân hàng:
3. Mã Hammurabi:
4. Giao dịch thương mại và buôn bán trong thời Trung Cổ:
5. Các gậy đếm kiểm:
6. Lịch sử của giấy:
7. ERMA - Phương pháp ghi điện tử của hệ thống xử lý máy tính kế toán:
8. Bìa đục lỗ:
9. Băng từ:
10. Lưu trữ trên đĩa:
11. Xử lý bó:
12. Các hệ thống cơ sở dữ liệu:
13. Hướng dẫn ISAM:
14. Olle T.W.: "Cách tiếp cận Codasyl để Quản lý cơ sở dữ liệu". Wiley, 1978. ISBN 0-471-
99579-7.
15. Mô hình phân cấp:
16. Codd, E.F. "Chuẩn hóa hơn nữa của Mô hình quan hệ cơ sở dữ liệu." Báo cáo nghiên cứu của
IBM RJ909, năm 1971. Cũng có trong Các hệ thống Cơ sở dữ liệu: Loạt bài 6 của các Hội nghị
chuyên đề về Khoa học máy tính Courant, Prentice-Hall, 1972.
17. Kent, W.:"Hướng dẫn đơn giản về Năm hình thức chuẩn tắc trong Lý thuyết cơ sở dữ liệu
quan hệ", Communications of the ACM, Vol. 26, pp. 120–125, 1983
18. Date, C. J.: "Giới thiệu về các Hệ thống Cơ sở dữ liệu", Phát hành lần thứ 8. Addison-Wesley
Longman, ISBN 0-321-19784-4, 1999.
19. Các thiết bị lưu trữ đĩa IBM 3380:
20. Các đĩa 3380:
21. Giá trị đo lường:
22. Cơ sở dữ liệu về nguồn thu nhập tiền lương trung bình quốc tế:
23. Các hệ thống quản lý tài liệu điện tử:
24. Quản lý nội dung doanh nghiệp:
25. Tấm vi phim:
26. Kimball, Ralph: Bộ dụng cụ của kho lưu trữ dữ liệu Toolkit, Phát hành lần thứ 2. Wiley
Computer Publishing (2002).
27. Burleson, Donald: "Phát triển Kho lưu trữ dữ liệu hiệu quả Oracle và các ứng dụng OLAP",
1996
28. Zaker, M. et al.: "Cấu trúc Không chuẩn hóa: Một Triển vọng để Tối ưu hóa thiết kế Kho lưu
trữ dữ liệu", Tạp chí Các máy tính quốc tế, Số 1, Tập 3, trang 143-150, 2009.
29. Sanders, G. and Shin, S.: "Các ảnh hưởng của việc không chuẩn hóa lên hiệu năng của các
RDBM", Hội nghị quốc tế về Khoa học hệ thống Hawaii lần thứ 34, HICSS 2001.
30. Codd, E.F. "Một mô hình quan hệ của dữ liệu cho Các ngân hàng dữ liệu chia sẻ lớn",
Communications of the ACM 13 (6): 377–387, 1970.
31. Ngôn ngữ đánh dấu siêu văn bản:
32. Giao thức truyền siêu văn bản:
33. Trình định vị tài nguyên thống nhất:
34. Mạng toàn cầu:
35. Các trình duyệt Web:
36. Bảng thời gian về Mạng toàn cầu:
37. Ngôn ngữ đánh dấu mở rộng:
38. Các sự khác biệt giữa SGML và XML:
39. Murthy, R. et al.: "Hướng tới một kiến trúc XML doanh nghiệp", SIGMOD 2005.
40. Nicola, M., Gonzalez, A.: "Phân đoạn một Terabyte trong dữ liệu XML", Tạp chí quản lý dữ
liệu của IBM, tập 14, Số 1, 2009.
41. Nicola, M., van-der-Linden, B.: "Hỗ trợ nguyên gốc XML trong cơ sở dữ liệu phổ quát của
DB2", Hội nghị quốc tế lần thứ 31 về các Cơ sở dữ liệu rất lớn, VLDB 2005.
42. Nicola, M.: "Các bài học thu được từ các ứng dụng DB2 pureXML: Một góc nhìn của học
viên thực hành", Hội nghị chuyên đề về cơ sở dữ liệu XML quốc tế lần thứ 7, XSYM 2010.
43. Rys, M.: "Các hệ thống quản lý cơ sở dữ liệu quan hệ và XML: Bên trong Máy chủ SQL của
Microsoft", SIGMOD 2005.
44. Holstege, M.: "Xquery, To lớn, Nhanh: Cho phép các ứng dụng nội dung", Tập san Kỹ thuật
dữ liệu IEEE, tập 31 Số 4, 2008
45. Helland, Pat: "Kế toán Không dùng Tẩy", 06.2007
46. Helland, Pat: "Chuẩn hóa dành cho những kẻ yếu đuối", 07.2007
47. Chang et al.: "Bigtable: Một hệ thống lưu trữ phân tán cho dữ liệu có cấu trúc", Hội nghị
chuyên đề về thiết kế và triển khai thực hiện các hệ điều hành, OSDI 2006.
48. "Tôi đã tìm hiểu để không lo lắng nữa và yêu thích Sử dụng nhiều dung lượng đĩa để Mở
rộng như thế nào"
49. Liu, Qingyan: "Các nghiên cứu sâu về Thiết kế lược đồ HBase",
2009
50. Wei, Z. et al.: "Không chuẩn hóa dữ liệu hướng dịch vụ cho các ứng dụng Web có khả năng
mở rộng", Hội nghị mạng toàn cầu Quốc tế, WWW 2008.
51. Carey, M. J. et al.: "EXRT: Hướng tới một điểm chuẩn đơn giản để kiểm tra tính sẵn sàng
XML", Hội nghị của Hội đồng xử lý giao dịch lần thứ 2, TPCTC 2010.
52. FpML (Ngôn ngữ đánh dấu các sản phẩm tài chính):
53. Đặc tả tích hợp nhóm ứng dụng mở (OAGIS):
54. Giao thức trao đổi thông tin tài chính, Đặc tả lược đồ FIXML 4.4 20040109, Hiệu đính 1
2006-10-06,
55. Các đặc tả EML (Ngôn ngữ đánh dấu cho bầu cử) từ OASIS: is-
open.org/committees/tc_home.php?wg_abbrev=ubl
56. Các đặc tả HL7 (Health Level 7):
57. Các đặc tả XML của nguồn nhân lực (HR-XML):
58. Các đặc tả Liên minh Du lịch mở:
59. Lược đồ thông báo của ngành công nghiệp tài chính phổ biến ISO 20022:
60. UBL (Ngôn ngữ kinh doanh phổ biến) từ OASIS: is-
open.org/committees/tc_home.php?wg_abbrev=ubl
61. Tham khảo dữ liệu liên kết - Dữ liệu liên kết:
62. Tham khảo RDF – Sách vỡ lòng về RDF:
63. Cách Best Buy đang sử dụng Semantic Web:
64. JSON: