Tải bản đầy đủ (.doc) (96 trang)

luận văn thạc sĩ xây dựng cơ sở dữ liệu về tần số allele 22 locus đa hình STR trên nhiễm sắc thể thường ở quần thể người mông tại hà giang, việt nam

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.02 MB, 96 trang )

BỘ GIÁO DỤC
VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------

Trần Huyền Linh

XÂY DỰNG CƠ SỞ DỮ LIỆU VỀ TẦN SỐ ALLELE 22
LOCUS ĐA HÌNH STR TRÊN NHIỄM SẮC THỂ
THƯỜNG Ở QUẦN THỂ NGƯỜI MÔNG TẠI HÀ GIANG,
VIỆT NAM

LUẬN VĂN THẠC SĨ
CÔNG NGHỆ SINH HỌC

Hà Nội - 2020


BỘ GIÁO DỤC
VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------


Trần Huyền Linh

XÂY DỰNG CƠ SỞ DỮ LIỆU VỀ TẦN SỐ ALLELE 22
LOCUS ĐA HÌNH STR TRÊN NHIỄM SẮC THỂ
THƯỜNG Ở QUẦN THỂ NGƯỜI MÔNG TẠI HÀ GIANG,
VIỆT NAM
Chuyên ngành: Sinh học thực nghiệm
Mã số: BIO2018

LUẬN VĂN THẠC SĨ
Công nghệ sinh học

NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS. TS. Chu Hoàng Hà

Hà Nội - 2020


Lời cam đoan

Tôi xin cam đoan những nội dung viết trong luận văn là do sự tìm tòi,
học hỏi và nghiên cứu của bản thân với sự hướng dẫn tận tình của PGS. TS.
Chu Hoàng Hà và các đồng nghiệp tại Viện Công nghệ sinh học, Viện Hàn
lâm Khoa học và Công nghệ Việt Nam.
Mọi kết quả nghiên cứu cũng như ý tưởng của các tác giả khác (nếu có)
đều được trích dẫn cụ thể. Đề tài luận văn này cho đến nay chưa được bảo vệ
tại bất kỳ một hội đồng bảo vệ luận văn thạc sĩ nào và cũng chưa được công
bố trên bất kỳ phương tiện nào. Tôi xin chịu trách nhiệm về những lời cam
đoan trên.


Hà Nội, ngày 28 tháng 5 năm 2020
Người cam đoan

Trần Huyền Linh


Lời cảm ơn
Để hoàn thành được Luận văn cao học này, tôi xin bày tỏ lời cảm ơn đến
PGS. TS. Chu Hoàng Hà đã trực tiếp định hướng, hướng dẫn tôi một cách tận
tình và giúp đỡ tôi xây dựng ý tưởng để hoàn thiện luận văn.
Tôi xin cảm ơn tập thể lãnh đạo Viện Công nghệ sinh học, lãnh đạo và cán
bộ Phòng thí nghiệm Trọng điểm Công nghệ Gen – Viện Công nghệ sinh học
đã tạo điều kiện thuận lợi cho tôi trong suốt quá trình học tập và thực hiện
nghiên cứu đề tài.
Tôi xin trân trọng cảm ơn ban lãnh đạo cùng các thầy cô giáo Khoa Sinh
học, Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công
nghệ Việt Nam đã truyền đạt kiến thức và giúp đỡ tôi trong quá trình học tập
và thực hiện luận văn.
Cuối cùng, tôi xin bày tỏ lòng biết ơn đến gia đình, người thân, bạn bè và
đồng nghiệp, những người đã luôn động viên, tạo điều kiện cho thôi hoàn
thành luận văn này./.

Học viên

Trần Huyền Linh


Danh mục các ký hiệu và chữ viết tắt

Chữ viết tắt


Nội dung

ADN

Deoxyribonucleic acid

nt

nucleotide

FTA

Tên riêng của một loại giấy thu mẫu máu

NST

nhiễm sắc thể

STR

Short tandem repeat

PCR

Polymerase chain reaction

MP

Match probability


DC

Discrimination capacity

PE

Power of Exclusion

PIC

Polymorphic information content

PI

Paternity Index

RFLP

Restriction Fragment Length Polymorphism

ESS

European Standard Set

FBI

Federal Bureau of Investigation

VNTR


Variable number of tandem repeat

EH

Expected Heterozygosity

OH

Observed Heterozygosity

NJ

Neighbor Joining

SWGDAM

Scientific Working Group on DNA Analysis Methods

LD

Linkage - Disequilibrium


Danh mục các bảng
Bảng 1.1. Thông tin về vị trí và tốc độ đột biến của một số locus thường dùng
theo cơ sở dữ liệu STRbase................................................................................................ . 15
Bảng 1.2. Thông tin về vị trí và trình tự của một đơn vị lặp của các locus có
trong bộ kit PowerPlex Fusion System theo thông tin của nhà sản xuất..........19
Bảng 2. Bảng thành phần phản ứng khuếch đại............................................................. 29

Bảng 3.1. Số lượng allele mỗi locus.................................................................................... 33
Bảng 3.2. Bảng tần số allele 22 locus STR trên NST thường của Mông, tại Hà
Giang - Việt Nam........................................................................................................................... 35
Bảng 3.3. Các allele có tần số thấp phát hiện được trong quần thể.....................41
Bảng 3.4. Kết quả kiểm định cân bằng HWE bằng phần mềm Arlequin v3.5
.42
Bảng 3.5. Kết quả tính các chỉ số EH và OH của từng locus................................. 44
Bảng 3.6. Bảng ma trận đánh giá linkage disequilibrium của các locus...........46
Bảng 3.7. Các chỉ số MP, PE, DC và PIC của các locus........................................... 51


Danh mục các hình vẽ, đồ thị
Hình 1.1 Các locus thuộc bộ CODIS của FBI và vị trí trên NST người...........5
Hình 1.2. Kết quả các băng thu được sau phân giải bằng enzyme giới hạn và lai

Southern của một đại gia đình........................................................................12
Hình 1.3. Kết quả thu được so sánh giữa hai phương pháp sử dụng nhiều locus
và các đơn locus dựa trên phương pháp RFLP............................................................... 13
Hình 1.4. Hình ảnh kết quả điện di mao quản của một số locus sử dựng phương

pháp PCR và gắn huỳnh quang trên mỗi locus.............................................................. 13
Hình 1.5. Cơ chế sinh đột biến STR do gấp đoạn trong quá trình nhân bản 16
Hình 1.6. Quá trình xác định kích thước của một allele dựa trên ô thang chuẩn
19
Hình 1.7. Sự phân bố các nhánh ngôn ngữ thuộc hệ Mông - Dao tại Việt Nam.
24
Hình 1.8. Cây phát sinh chủng loại miêu tả mối quan hệ di truyền gần gũi giữa

quần thể người Kinh và một số quần thể khác............................................................... 25
Hình 2.1. Bản đồ hành chính tỉnh Hà Giang..................................................26

Hình 2.2. Độ dài và loại dye được sử dụng cho mỗi locus trong bộ kit............28
Hình 2.3. Chu trình nhiệt của phản ứng khuếch đại với 28 chu kỳ................29
Hình 3.1. Biểu đồ màu theo giá trị chỉ số MP của từng locus................................47
Hình 3.2. Biều đồ màu theo giá trị chỉ só PE của từng locus................................. 48
Hình 3.3. Biều đồ màu theo giá trị DC của từng locus.............................................. 49
Hình 3.4. Biểu đồ màu theo giá trị của chỉ số PI của các locus............................. 50
Hình 3.5. Hình ảnh giao diện phần mềm STR-VN version 1.0.....................52
Hình 3.6. Cây phát sinh chủng loại về mối tương quan di truyền giữa người
Mông và các quần thể khác.........................54


1

MỤC LỤC
MỞ ĐẦU ............................................ 3
CHƯƠNG 1. TỔNG QUAN TÀI LIỆU ....................... 5
Tổng quan về đoạn lặp ngắn ngẫu nhiên – STR ........... 5

1.1.

1.1.1. Short tandem repeat – STR ....................... 5
1.1.2. Bộ kit Powerplex Fusion system được sử dụng trong giám định
.........................................18
1.1.3. Cơ sở dữ liệu tần số STR ........................21
1.1.4. Di truyền quần thể và dân tộc .....................21
Tình hình nghiên cứu trong và ngoài nước .............24

1.2.

CHƯƠNG 2. NGUYÊN VẬT LIỆU VÀ PHƯƠNG PHÁP NGHIÊN

CỨU .............................................. 26
Nguyên vật liệu ................................26

2.1.

2.1.1. Địa điểm thu mẫu .............................26
2.1.2. Thu thập và bảo quản ..........................27
Phương pháp nghiên cứu .........................27

2.2.

2.2.1. Khuếch đại đoạn gen ..........................27
2.2.2. Tính toán tần số và các chỉ số pháp y ................30
2.2.3. Xác định mối liên hệ giữa quần thể người Mông tại Hà Giang và
các quần thể khác .................................. 31
CHƯƠNG 3. KẾT QUẢ VÀ THẢO LUẬN ...................32
3.1.

Kết quả thu mẫu và khuếch đại ADN .................32

3.2.
thấp

Kết quả tính tần số các locus và xác định các allele có tần số
...........................................34

3.3.

Kết quả phân tích thống kê ........................42
3.3.1. Kiểm định cân bằng Hardy-Weinberg ...............42

3.3.2. Gía trị dị hợp tử mong đợi và quan sát được ...........44
3.3.3. Kiểm tra tính di truyền liên kết của các locus STR .......45

3.4.

Kết quả phân tích các chỉ số pháp y ..................47


2
3.4.1.

Chỉ số khả năng trùng hợp ngẫu nhiên - Match probability (MP)
.........................................47

3.4.2. Chỉ số khả năng loại trừ - Power of Exclusion ..........47
3.4.3. Chỉ số khả năng phân biệt – Discrimination capacity......48
3.4.4. Chỉ số đa hình - Polymorphic information content .......49
3.4.5. Chỉ số Parternity index – PI ......................49
3.5.

Các chỉ số pháp y đánh giá tần số các allele của một quần thể 50

3.6.
khác

Kết quả phân tích mối tương quan di truyền với các quần thể
...........................................52

CHƯƠNG 4. KẾT LUẬN VÀ KIẾN NGHỊ ...................55
4.1.


Kết luận .....................................55

4.2.

Kiến nghị ....................................56

TÀI LIỆU THAM KHẢO ...............................57
PHỤ LỤC ..........................................62
Phụ lục 1: Kết quả khuếch đại các locus STR của mẫu đối chứng
dương ...........................................62
Phụ lục 2: Kết quả khuếch đại các locus STR của mẫu đối chứng âm63
Phụ lục 3: Kết quả kiểm định Chi-square các cặp locus về lingkage
disequilirium ...................................... 64
Phụ lục 4: Thông tin các mẫu tham gia đề tài ................ 85


3
MỞ ĐẦU
Short tandem repeat - STR là các đoạn trình tự ngắn, được cấu thành bằng
sự lặp lại của khoảng 2 – 7 nucleotide. Trong hệ gen của người, các STR nằm rải
rác khắp nơi, chúng nằm trong vùng không mã hóa, giữa các gen và chiếm
khoảng 3% hệ gen người. Do vị trí đặc thù của STR, chúng có độ đa dạng cao về
độ dài và trình tự lặp lại mà không ảnh hưởng đến hoạt động sống của con người.
STR có tính bảo thủ cao, được truyền từ bố mẹ sang con cái, vì vậy mà các STR
khác nhau giữa các cá thể khác nhau không có quan hệ huyết thống trực hệ. STR
là các chỉ thị phân tử được ứng dụng rộng rãi trong các phân tích khoa học hình
sự, cụ thể là công tác xác định danh tính, là công cụ đắc lực trong các vụ án hình
sự phức tạp như cưỡng hiếp tập thể hoặc khi các dấu vết còn sót tại hiện trường
không đủ cung cấp thông tin cho công tác điều tra [1],


[2]. STR cũng được sử dụng trong nghiên cứu di truyền quần thể hay cho mục
đích khảo cổ học. Mỗi một quần thể người đều có những đặc trưng sinh học
riêng biệt hình thành trong quá trình sống qua nhiều thế hệ, trong đó ở cấp độ
ADN, được thể hiện bằng sự phân bố khác nhau về tần suất allele trong mỗi
nhóm dân tộc [3]. Việc thu thập dữ liệu STR các dân tộc sinh sống tại Việt
Nam đã và đang được triển khai rộng khắp kể từ những năm 2000. Ngoài ứng
dụng trong phân tích gen hình sự, các kết quả khảo sát còn được sử dụng
trong nghiên cứu độ đa dạng về mặt nhân chủng học và xây dựng cơ sở dữ
liệu về tần số phân bố allele trong quần thể người Việt Nam [4]–[6]. Tuy
nhiên, việc thu thập dữ liệu nhiều dân tộc thiểu số vùng cao còn gặp nhiều
khó khăn do địa bàn cư trú cách biệt và dân số thấp. Không chỉ vậy, Việt Nam
cũng nằm trong vùng địa lý có lịch sử nhân chủng học rất phức tạp, đang còn
nhiều tranh cãi về nguồn gốc, con đường hình thành các chủng người hiện đại
đang sinh sống đó là khu vực Đông Nam Á [7]–[10]. Do đó nghiên cứu về các
quần thể người sinh sống tại Việt Nam nói chung, về người Mông nói riêng
còn rất hạn chế và chưa có một nghiên cứu chính thức nào được tiến hành.
Thực trạng đặt ra yêu cầu cấp thiết là phải xây dựng bộ cơ sở dữ liệu
STR cho nhóm dân tộc Mông sinh sống tại Việt Nam nhằm lưu trữ và phục vụ
cho truy xuất nguồn gốc, xác định danh tính trong công tác giám định pháp y,


4

cũng như cho công tác nghiên cứu di truyền học, nhân chủng học và bảo tồn tại
Việt Nam. Do đó, chúng tôi tiến hành thực hiện đề tài: “Xây dựng cơ sở dữ liệu
về tần số allele 22 locus đa hình STR trên nhiễm sắc thể thường ở quần thể
người Mông tại Hà Giang, Việt Nam”, nhằm : i) Xây dựng bộ số liệu tần số
allele của 22 locus đa hình STR trên nhiễm sắc thể thường của người Mông;


ii) Đánh giá các chỉ số thống kê đặc trưng của tần số allele, chỉ số đa dạng di
truyền của quần thể; iii) Xác định mối quan hệ di truyền của người Mông với
các quần thể gần gũi khác.
Ý nghĩa của nghiên cứu : Nghiên cứu cung cấp cơ sở dữ liệu tần số
STR nhiễm sắc thể thường phục vụ cho công tác giám định gen, xác định
huyết thống và nghiên cứu đa dạng di truyền quần thể.


5
CHƯƠNG 1. TỔNG QUAN TÀI LIỆU

1.1. Tổng quan về đoạn lặp ngắn ngẫu nhiên – STR
1.1.1. Short tandem repeat – STR
1.1.1.1. STR là gì
ADN đã được ứng dụng trong thực tế nghiên cứu pháp y từ thế kỉ XX, đi
cùng với sự phát triển của công nghệ giải mã hệ gen người. Trong công tác giám
định pháp y, dấu hiệu sinh học dựa trên ADN cung cấp rất nhiều thông tin đặc
biệt quan trọng và cũng là một bước nhảy của khoa học hình sự. ADN mang
những đặc điểm hóa sinh ưu thế khi mà các dấu vết sinh học khác còn có thể thu
thập được ở hiện trường thường rất ít, bị phân hủy nhanh chóng và tiêu tốn thời
gian. Hàng nghìn vụ án đã được đưa ra ánh sáng với sự hỗ trợ đắc lực của công
nghệ giám định ADN. Hiện nay, đối với giám định ADN trong khoa học hình sự
cả trong và ngoài nước thì các chỉ thị short tandem repeats (STR) được sử dụng
rất phổ biến do dựa trên phản ứng khuếch đại gen – polymerase chain reaction
(PCR), có độ đặc hiệu cao cũng như cho phép thực hiện đối với

Hình 1.1 Các locus thuộc bộ CODIS của FBI và vị trí trên NST người


6


các loại mẫu phức tạp. Điển hình các tổ chức lớn như FBI (Federal Bureau of
Investigation) đã công bố quy trình thường quy cho sử dụng 13 locus STR
(CODIS) (Hình 1.1) hay Interpol cũng xác định bộ 10 locus STR chuẩn cho
nước Anh và các nước Châu Âu cho công tác giám định xác định danh tính.
Tại Việt Nam, việc sử dụng STR trong công tác giám định xác định danh tính
cũng được sử dụng thường quy tại các viện Pháp y trong cả nước.
STR là đoạn trình tự đa hình nằm trong vùng không mã hóa, có cấu trúc
gồm các đoạn lặp lại của một trình tự nt có độ dài khoảng 2 – 7 bp, chiếm
khoảng 3% hệ gen người. Do nằm ngoài vùng mã hóa, các STR rất đa dạng giữa
người với người về độ dài (có thể lên đến hàng nghìn base), trình tự đoạn lặp mà
không ảnh hưởng đến hoạt động sinh học của tế bào. Các đoạn lặp lại này nằm
rải rác ở khắp nơi trong hệ gen của người. Từ những năm 1990 đến nay đã có
hàng chục nghìn STR trên các nhiễm sắc thể (NST) được phát hiện. Trong quá
trình phân bào, các đoạn STR này không bị phân cắt, chúng có tính bảo thủ cao.
Ngoại trừ trường hợp song sinh cùng trứng, số lượng lặp lại của các STR là độc
nhất cho từng cá thể, được di truyền từ bố mẹ sang con cái và phân biệt các cá
thể không có quan hệ huyết thống trực hệ. Do đó các cá thể này sẽ mang bộ số
lượng đoạn lặp lại khác nhau của các STR [1], [2]. Bộ chỉ thị gồm nhiều các STR
nằm trên các nhiễm sắc thể khác nhau cho phép phân biệt các cá thể riêng biệt,
ngay cả với những cá thể có quan hệ họ hàng gần gũi. Đối với nghiên cứu di
truyền quần thể, cơ sở di truyền của nghiên cứu dựa trên hai định luật căn bản
của di truyền học Mendel đó là định luật di truyền phân ly độc lập và định luật di
truyền phân ly. Do đó, các chỉ số về di truyền liên kết cân bằng và cân bằng
Hardy-Weinberg được kiểm định đồng thời các phép tính thống kê được sử dụng
nhằm tăng tính chính xác, giảm sai số trong phân tích

[11]. Trong giám định hình sự, xác định danh tính có thể được hiểu là sự so
sánh hồ sơ ADN của một người nào đó, lấy từ mẫu sinh học vương lại hoặc từ



7

các dấu vết như vết máu tại hiện trường của một vụ án với một người khác có
mối liên quan nhằm xác định danh tính hoặc loại trừ khả năng.
1.1.1.2. Phân loại và danh pháp
STR được phân loại dựa trên số lượng nucleotide được lặp lại, ví dụ
dinucleotide cho 2 nucleotide, trinucleotide cho 3 nucleotide…
Tuy nhiên, STR cũng có thể phân loại bằng một vài cách khác dựa trên tính
phức tạp của trình tự lặp lại. Các STR đơn giản là các STR cấu thành bởi sự
lặp lại của một trình tự nucleotide (ví dụ (GATA)n) hay STR phức là các đoạn
được cấu thành bởi sự lặp lại của 2 hoặc nhiều hơn trình tự nucleotide (ví dụ
(CG)m– (CA)n).
Danh pháp hay tên của từng đoạn STR được đặt theo tên của gen nếu
locus này nằm một phần hoặc nằm toàn bộ trong gen. Ví dụ chỉ thị STR TH01
có nguồn gốc từ tên gen tổng hợp enzym tyrosine hydroxylase của người, nằm
trên NST số 11. Chữ "TH" xuất phát từ chữ cái đầu tyrosine hydroxylase.
Phần "01" của ký hiệu "TH01" xuất phát từ vùng intron 1 của gen tổng hợp
enzym tyrosine hydroxylase. Các trình tự ADN nằm ngoài vùng gen thì được
xác định tên bằng vị trí của chúng trên NST. Ví dụ như locus D5S818 hay
DYS19 là các locus nằm ngoài vùng gen mã hóa, chữ “D” kí hiệu cho ADN,
các kí hiệu tiếp theo lần lượt là NST số 5/ Y cho NST Y; “S” có nghĩa là trình
tự chỉ có một bản copy trên genome; con số cuối tên là thứ tự chỉ thị này được
phát hiện và sắp xếp theo từng NST cụ thể.
1.1.1.3. Các chỉ thị STR thiết yếu
Đối với công tác giám định, việc sử dụng một bộ các chỉ thị theo một tiêu
chuẩn là cần thiết vì sự chính xác và đồng nhất của các kết quả giám định. Bộ
các chỉ thị được sử dụng rộng rãi ngày nay đã được nghiên cứu và phát triển ở
phòng thí nghiệm của tiến sĩ Thomas Caskey tại Trường đại học Y khoa



8

Baylor cùng với viện Forensic Science Service tại Anh thực hiện vào đầu
những năm 1990. Những chỉ thị này được sử dụng nhiều hơn trong các kit xét
nghiệm của hãng Promega (Mỹ) so với kit của hãng Applied Biosystems
(Mỹ). Bộ kit thương mại được đưa ra thị trường đầu tiên được giới thiệu bởi
hãng Promega năm 1994. Đây là bước nhảy lớn cho ứng dụng rộng rãi của
STR trong công tác giám định pháp y. Bộ kit bao gồm các locus CSF1PO,
TPOX và TH01, là các chỉ thị dạng “CTT”. Các chỉ thị triplex thường có chỉ
số xác xuất trùng hợp ngẫu nhiên chỉ khoảng 1/500 nhưng lại được sử dụng
rộng rãi tại Mỹ do đây là bộ kit thương mại đầu tiên cho phép khuếch đại
cùng lúc nhiều chỉ thị với chi phí thấp [11].
Vào năm 1990, Cục điều tra liên bang Mỹ - FBI đã khởi động một sự
án thăm dò trên tổng cộng 14 bang và phòng thí nghiệm liên quan tại địa
phương. Dự án được biết với tên “The DNA Identification Act” nhằm mục
đích xây dựng hệ thống dữ liệu quốc gia cho công tác điều tra án
( />
Năm

1997, một bộ gồm 13 chỉ thị STR đã được chọn cho dự án xây dựng cơ sở dữ
liệu của hệ thống Combined DNA Index System - CODIS. Các chỉ thị bao
gồm các locus CSF1PO, FGA, TH01, TPOX, vWA, D3S1358, D5S818,
D7S820, D8S1179, D13S317, D16S539, D18S51, và D21S11 (Hình 1.1). Với
bộ chỉ thị này, chỉ số trùng hợp ngẫu nhiên đã được nâng lên đến 1/1000000
trên các cá thể không có mối quan hệ huyết thống. Trong 13 locus thì các
locus FGA, D18S51 và D21S11 có tính đa hình cao nhất. Một locus được sử
dụng phổ biến thì có đặc tính riêng, trên cả số lượng allele, dạng trình tự lặp
hay ngay cả các điểm đa dạng phổ biến quan sát được.
1.1.1.4. Lịch sử nghiên cứu và phát triển của phương pháp giám định

gen trong khoa học hình sự


9

Thuật ngữ “DNA fingerprinting” được miêu tả lần đầu tiên vào năm
1985 bởi nhà di truyền học người Anh Alec Jeffreys. Tiến sĩ Jeffreys đã tìm
thấy các vùng gen nhất định chứa các đoạn trình tự lặp lại tuần tự, nối tiếp
nhau khi nghiên cứu các đoạn phát huỳnh quang gắn đa locus. Ông cũng phát
hiện ra rằng số đoạn lặp lại của các đoạn trình tự đặc biệt kia có tính cá thể
cao, khác nhau giữa các cá thể khác nhau. Bằng cách phát triển một công
nghệ giúp kiểm tra sự đa dạng của các đoạn lặp trên, tiến sĩ Jeffeys đã tạo ra
phương thức định danh người [12]. Phát hiện đó đã mở ra một kỷ nguyên mới
trong khoa học. Công nghệ này không chỉ nâng tầm khả năng ứng dụng trong
nhiều lĩnh vực như sinh học hệ thống, đa dạng sinh học, y học lâm sàng và cả
trong khảo cổ học. Những ứng dụng của công nghệ này đã vượt ra khỏi phạm
vi nghiên cứu khoa học thuần túy khi mà lần đầu tiên ứng dụng thành công
trong điều tra án và chiến tranh bắt đầu từ năm 1987.
Phương pháp xác định dấu vân tay ADN – DNA fingerprinting cổ điển
sử dụng phương pháp cắt enzyme giới hạn (RFLP) và Southern blot. Các đoạn
vi vệ tinh hoặc các đoạn lặp lại được gắn với probe phóng xạ. Liên kết này sẽ bị
phân giải bởi enzyme giới hạn, phân tách thành các đoạn riêng rẽ khi điện di
gel agarose và cố định lên màng bằng lai Southern blot. Do chứa các trình tự
nhận biết bởi enzyme giới hạn ở các vị trí khác nhau trên genome, các đoạn
ADN đích (vi vệ tinh hoặc các đoạn lặp) sẽ bị cắt khỏi genome thành các đoạn
có kích thước khác nhau theo số đơn vị đoạn lặp. Các đoạn này sẽ được rửa và
hiển thị trên phim X-Quang và được dùng để so sánh giữa các cá thể. Các đoạn
vi

vệ tinh được gọi là 33,6 và 33,15 được dùng phổ biến ở Anh, phần lớn các


nước khối EU và Hoa Kỳ. Mặt khác, đoạn lặp năm – pentameric (CAC)/(GTG) 5

lại được dùng phổ biến tại Đức. Những chỉ thị này cũng được gọi là các probe
đa locus có thể hiện thị được dải 15 - 20 trình tự có kích thước từ 3,5 đến 20
kb. Hình 1.2 là hình ảnh ví dụ một kết quả một bộ hồ sơ ADN của các cá thể


10

trong một gia đình. Tuy nhiên phương pháp này cho thấy một số hạn chế khi ứng
dụng trong điều tra án hoặc các xét nghiệm xác định huyết thống khi mà điều
kiện chạy hoặc chất lượng ADN quyết định rất lớn đến tính chính xác của các
băng ADN hiển thị được. Cho đến giữa những năm 1990, các phòng thí nghiệm
hình sự đã kết hợp với nhau để quy định cách tính các băng ADN dựa trên các ô
thang cố định nhằm khắc phục khó khăn trên. Các ô thang này quy định tương
đối vị trí các đoạn ADN quan sát được trên một ảnh điện di tiêu chuẩn theo kích
thước, từ đó làm tăng khả năng phân biệt của hệ thống. Hạn chế thứ hai đến từ
việc khi hồ sơ ADN không rõ danh tính, có nghĩa là không rõ nguồn, thì dẫn đến
các sai số thống kê do có thể có khả năng các locus di truyền liên kết với nhau.
Thêm nữa, để thu được một bộ hồ sơ ADN hoàn chỉnh thì cần phải dùng một
khối lượng phân tử ADN lớn, dẫn đến làm giảm khả năng ứng dụng của phương
pháp khi mà trên thực tế vụ án thì các mẫu sinh học lưu lại tại hiện trường
thường không lớn hoặc có thể phải xâm hại nhiều vào các bằng chứng. Phương
pháp sử dụng các locus đơn đã ra đời ngay trong năm 1987 nhằm khắc phục các
hạn chế của phương pháp ban đầu [13]. Phương pháp này có cùng nguyên lý
hoạt động nhưng sử dụng một bộ gồm bốn locus đơn, mỗi locus có hai allele.
Phương pháp này chỉ cần 10 ng ADN và đã được kiểm định bởi các thí nghiệm
mở rộng và thực tế điều tra án (Hình 1.3). Tuy nhiên, nhìn chung các phương
pháp sử dụng RFLP vẫn mang nhiều hạn chế về độ nhạy và độ đặc hiệu, cũng

như khó có thể so sánh các kết quả từ các phòng thí nghiệm khác nhau. Sau đó,
phương pháp dựa trên PCR đã dần thay thế phương pháp cũ bởi tính nhạy, tốc
độ, và đặc hiệu của nó. Microsatelites – các vi vệ tinh, được biết tới rộng rãi
trong cộng đồng pháp y là các STR, được phát hiện và trở thành chỉ thị lý tưởng
cho các ứng dụng trong pháp y. Hồ sơ STR có độ nhạy cao hơn so với các
phương pháp RFLP đơn locus cũ, ít bị mất allele – hiện tượng allele dropout như
đối với hệ thống sử dụng các tiểu vệ tinh VNTR và có khả năng phân biệt tốt hơn
các phương pháp sử dụng HLA-DQA1. Do


11

đó, số lượng các công bố khoa học về các công nghệ này đã lên tới hàng
nghìn, thực hiện trên hàng trăm quần thể khác nhau, với nhiều công nghệ mới
đã được giới thiệu. Ngày nay, các bộ sinh phẩm được sử dụng đều dùng một
panel nhiều các chỉ thị STR đa allele. Các chỉ thị này có cấu trúc tương tự như
các vi vệ tinh đã được sử dụng nhưng có kích thước ngắn hơn, dễ dàng
khuếch đại hơn bằng PCR. Trong một lần chạy điện di mao quản có thể cùng
lúc điện di lên đến 30 chỉ thị STR khác nhau cho một cá thể [14].


12

Hình 1.2. Kết quả các băng thu được sau phân giải bằng enzyme giới hạn và lai
Southern của một đại gia đình


13

Hình 1.3. Kết quả thu được so sánh giữa hai phương pháp sử dụng nhiều locus và các đơn

locus dựa trên phương pháp RFLP

Hình 1.4 là hình ảnh điển hình cho một kết quả điện di mao quản các
locus STR gắn hình quang và được đo đếm bằng số đoạn lặp.

Hình 1.4. Hình ảnh kết quả điện di mao quản của một số locus sử dựng phương pháp PCR và
gắn huỳnh quang trên mỗi locus


14
1.1.1.5.

Đột biến ở STR

Các chỉ thị STR được dùng cho định danh cá thể một phần bởi đặc tính có
tốc độ đột biến nhanh. Trong khi một trình tự ADN điển hình trên genome
thường có tốc độ đột biến rất thấp, khoảng 10

-9

-6

nt trong một thế hệ, thì STR
-2

thường có tốc độ đột biến trong khoảng 10 đến 10 trong một thế hệ [15], [16].
Đối với mỗi loại sinh vật thì có tốc độ đột biến của STR là khác nhau trong môi
trường phòng thí nghiệm. Ví dụ, tốc độ đột biến STR của 1 tế bào nấm men là
-5


10 , còn ở người thì trong khoảng 10

-5

đến 10

-3

trên mỗi chu kỳ phân bào.

Nghiên cứu của Chakraborty et al. (1997) [17] chỉ ra rằng, tốc độ đột biến khác
nhau ở các locus khác nhau trên cùng một genome. Nghiên cứu trên các bộ STR
khác nhau là di-, tri- và tetranucleotide STR trên một số quần thể người cho thấy,
các locus STR có tốc độ đột biến tỉ lệ nghịch với loại motif. Các locus dạng dicó tốc độ đột biến cao gấp từ 1.5 đến 2 lần so với các tetra-STR. Tuy nhiên, điều
này lại ngược lại ở các STR liên quan đến một tình trạng bệnh lý nào đó [17]. Đã
có nhiều nghiên cứu được tiến hành để ước lượng tốc độ đột biến của các STR
trên các mô hình khác nhau: mô hình gia đình, mô hình sinh học, mô hình quần
thể và các dòng tế bào sinh dục [18]. Trong đó, mô hình gia đình là dễ dàng ước
lượng trực tiếp tốc độ đột biến các STR giữa các cá thể qua thế hệ, cũng như
dạng đột biến xuất hiện có thể có mà được di truyền từ bố mẹ sang con cái. Tốc
độ đột biến của một số chỉ thị STR thường dùng hiện hay được cho trong Bảng
1.1 ( Có ba cơ chế chính giải thích cho quá
trình xảy ra đột biến của STR. Cơ chế thứ nhất đó là sự phân li không cân bằng
trong quá trình giảm phân. Đây là cơ chế được biết đến rộng rãi là nguyên nhân
dẫn đến các đoạn ADN vệ tinh lớn, xảy ra trong quá trình trao đổi chéo giữa hai
vùng tương đồng của các sợi NST. Cơ chế thứ hai được cho là do sự phiên mã
ngược xảy ra chủ yếu ở các STR giàu adenin, xảy ra dưới cơ chế phiên mã ngược
kéo dài đầu 3’ của sợi ADN,



15

tương tự như sự tạo thành của đuôi polyA trong quá trình phiên mã gen.
Nghiên cứu cũng cho thấy có bằng chứng chỉ ra rằng có mối liên hệ giữa STR
giàu A với các gen nhảy [18].

Bảng 1.1.. Thông tin về vị trí và tốc độ đột biến của một số locus thường dùng theo cơ sở dữ liệu
STRbase ( />Phần trăm giảm
STR locus

phân theo dòng mẹ
(%)

CSF1PO

95/304,307 (0.03)

Phần trăm giảm phân
theo dòng cha (%)

Tổng số đột
biến theo mỗi

Tốc độ đột biến

dòng

982/643,118 (0.15)

1,487/947,425


0.16%

FGA

205/408,230 (0.05) 2,210/692,776 (0.32)

3,125/1,101,006

0.28%

TH01

31/327,172 (0.009)

41/452,382 (0.009)

100/779,554

0.01%

TPOX

18/400,061 (0.004)

54/457,420 (0.012)

100/857,481

0.01%


VWA

184/564,398 (0.03)

1,482/873,547 (0.17)

2,480/1,437,945

0.17%

D3S1358

60/405,452 (0.015)

713/558,836 (0.13)

1,152/964,288

0.12%

D5S818

111/451,736 (0.025)

763/655,603 (0.12)

1,259/1,107,339

0.11%


D7S820

59/440,562 (0.013)

745/644,743 (0.12)

1,089/1,085,305

0.10%

D8S1179

96/409,869 (0.02)

779/489,968 (0.16)

1,239/899,837

0.14%

D13S317

192/482,136 (0.04)

881/621,146 (0.14)

1,558/1,103,282

0.14%


D16S539

129/467,774 (0.03)

540/494,465 (0.11)

1,041/962,239

0.11%

D18S51

186/296,244 (0.06) 1,094/494,098 (0.22)

1,746/790,342

0.22%

D21S11

464/435,388 (0.11)

772/526,708 (0.15)

1,816/962,096

0.19%

Penta D


12/18,701 (0.06)

21/22,501 (0.09)

57/41,202

0.14%


16

Penta E

29/44,311 (0.065)

75/55,719 (0.135)

163/100,030

0.16%

D2S1338

15/72,830 (0.021)

157/152,310 (0.10)

262/225,140


0.12%

D19S433

38/70,001 (0.05)

78/103,489 (0.075)

187/173,490

0.11%

SE33 (ACTBP2)

0/330 (<0.30)

330/51,610 (0.64)

330/51,940

0.64%

Cơ chế thứ ba là cơ chế gấp đoạn khi tái bản – strand-slippage replication.
Đây là cơ chế chính được cho là gây ra đột biến STR. Quá trình tạo ra đột
biến được miêu tả qua Hình 1.5 khi tái bản sợi ADN, một đoạn khuôn tái bản
bị gấp khúc do nguyên nhân lý hóa nào đó, dẫn đến khung đọc mở bị thay đổi
là dài hơn hoặc ngắn đi, và bị ADN polymerase tổng hợp thêm hoặc bớt nt từ
đó sinh ra sự thay đổi số đoạn lặp của một locus STR [18].

Hình 1.5. Cơ chế

sinh
đột
biến
STR
do
gấp
đoạn
trong
quá
trình
nhân
bản.

một lí
do
nào
đó
dẫn
đến
khung
đọc
mở bị
gấp
khúc,
tạo
thành
nếp
gấp




polym
erase
không
tổng
hợp
hoặc
tổng
hợp
nhiều
hơn
so với
trình
tự
trên
khung
, từ
đó
sinh
ra đột
biến
thay
đổi số
đoạn
lặp
trên
sợi
ADN
mới
tổng

hợp.

Mô hình đột biến STR bao gồm: mô hình Infinite allele model (IAM) và
Stepwise mutation model (SMM), các mô hình này được sử dụng trong quá


17

trình nghiên cứu di truyền các chỉ thị STR và trong tính toán thống kê. Mô hình
IAM được đề xuất năm 1964 bởi hai nhà khoa học Kimura và Crow. Mô hình
dựa trên việc coi rằng mỗi đột biến sản sinh ra một allele mới và các đột biến xảy
ra với tỉ lệ như nhau. Từ đó, số đoạn lặp có thể là bất cứ một con số nào mà trước
đó không tồn tại trong quần thể ban đầu. Tuy nhiên, đã có nhiều nghiên cứu chỉ
ra rằng mô hình này không phù hợp với quá trình phát sinh đột biến trong thực tế
[18]. Chính vì vậy mà mô hình này ít được sử dụng trong các phần mềm phân
tích di truyền quần thể. Mô hình SMM được hai nhà khoa học Kimura và Ota
giới thiệu năm 1973, 9 năm sau mô hình thứ nhất. Ban đầu, mô hình này được
xây dựng để mô phỏng sự thay đổi điện tích của các phân tử protein trong quá
trình điện di phân tách, tuy nhiên lại không cho thấy hiệu quả. Mặc dù vậy, mô
hình này lại hoàn toàn phù hợp cho miêu tả sự đột biến của các STR và được sử
dụng rộng rãi trong các phân tích di truyền. Mô hình SMM chấp nhận cơ chế đột
biến gấp đoạn trong quá trình tái bản, và coi rằng:

- Đột biến làm thay đổi nhỏ trên số đoạn lặp
- Sự tăng hay giảm số đoạn lặp có khả năng xảy ra như nhau
- Không bị giới hạn ở kích thước allele
- Tốc độ và kích thước của đột biến không phụ thuộc vào số đoạn lặp
Có rất nhiều yếu tố ảnh hưởng đến quá trình phát sinh đột biến ở STR. Một
trong những yếu tố quan trọng đó là số đoạn lặp lại của một locus STR. Như có
đề cập ở phần trước, từ các nghiên cứu dựa trên các mô hình tiếp cận khác nhau

từ mô hình gia đình hay quần thể, đều cho thấy tốc độ đột biến tăng tỉ lệ thuận
với số lượng đoạn lặp ở các loài động vật có vú, bao gồm con người. Có nghĩa
là, khi số lượng đoạn lặp càng lớn thì tốc độ đột biến của locus đó càng lớn. Một
yếu tố khác đó là số nt của một đơn vị lặp, các dinucleotide có tốc độc đột biến
cao hơn só với các tetranucleotide. Kết quả này cũng có thể được giải thích bằng
cơ chế gấp đoạn tái bản sinh đột biến. Cấu trúc của các


×