Xử lý ngôn ngữ tự nhiên
Đề tài: nhận diện tên người trong văn bản tiếng việt
Giáo viên hướng dẫn :
PGS TS Lê Thanh Hương
Sinh viên thực hiện:
Nguyễn Hoàng Long - 20081590
Bùi Hữu Linh -20081512
Nguyễn Công Chiến-20080255
Vũ Minh Duẩn-20080433
1. Giới thiệu đề tài
2. Bài toán trích chọn thực thể
3. Các cách giải quyết bài toán trích chọn thực thể
4. Chương trình
Mục lục
Công nghệ thông tin phát triển, trợ giúp con người ở nhiều lĩnh
vực , do đó máy tính phải hiêu được con người , điều đó đưa
đến việc xử lý ngôn ngữ tự nhiên trong máy tính.
Một bài toán cơ sở của việc xử lý ngôn ngữ tự nhiên đó là nhận
diện loại thực thể để trích chọn ra các thông tin có ý nghĩa .
Đề tài này em đề cập đến vấn đề chú thích tên người trong văn
bản tiếng việt sử dụng bài toán nhận diện thực thể qua đó hỗ
trợ xây dựng một Web ngữ nghĩa.
1. giới thiệu đề tài
Các thông tin trong văn bản là rất lớn , việc hiểu nội dung thông
tin trong văn bản đòi hỏi phải biết được trong văn bản đó có
những loại thực thể nào. Một ví dụ
2. Bài toán trích chọn thực thể
Bài toán nhận diện thực thể để chú thích thông tin là bươc cơ
sở trong số các bài toán trích chọn thông tin, cho phép chúng
ta lấy ra được các thuộc tính của thực thể ( tên , tuổi, ngày
sinh….)
Việc xác định tên người trong văn bản tiếng việt là khó khăn
nhất, rất dễ nhập nhằng.
Chúng ta sẽ xét một số bài toán giải quyết các vấn đề này
trong phần sau
2. Bài toán trích chọn thực thể
3.1 Hướng thủ công
3.2 Mô hình Markov ẩn (HMM)
3.3 Mô hình Markov cực đại hóa entropy (MEMM)
3.4 Mô hình Condinional Random Fields(CRF)
3. Các cách giải quyết bài toán nhận
dạng thực thể
Phương pháp thủ công hay được dùng nhất đó là dùng luật , rất
nhiều nhiệm vụ trích chọn được thực hiện thông qua các luật
Luật thường được dùng với việc trích chọn các thông tin đặc
trưng( ví dụ: số điện thoai, email,…)
Cấu trúc một luật
Giả thiết kết luận
Giả thiết chứa các mẫu hay ngữ cảnh chúng xuất hiện , đó là các
đặc trưng trong văn bản( ví dụ : huyện Yên Dũng, tỉnh bắc Giang)
Phần kết luận là loại nhãn gán cho thực thể.
Tuy nhiên việc xây dựng nó tốn rất nhiều công sức.
3.1 Hướng thủ công
HMM là mô hình máy trạng thái hữu hạn với các tham số biểu
diễn xác suất chuyển trạng thái và xác suất sinh dữ liệu trại mỗi
một trạng thái.
Các trạng thái được xem là ẩn đi bên dưới dữ liệu quan sát sinh
ra trong mô hình . Ở đây thành phần quan sát được sẽ được
sinh ra trước khi chuyển trạng thái tiếp theo
Trong bài toán gán nhán thực thể các nhãn là các trạng thái bị
ẩn đi còn dữ liệu quan sát được là các từ trong câu.
Vấn đề trong mô hình này là việc liệt kê các trạng thái quan sát
được là không thể, để giải quyết vấn đề này đưa ra một giả thiết
về sự đọc lập giữa cá dữ liệu quan sát.
3.2 Mô hình Markov ẩn(HMM)
Ta có công thức
P(O) có thể tính nhờ thuật toán forward-backward, việc tìm
chuỗi S* làm cực đại hóa xác suất P(S|O) tương đương với
việc tìm S* làm cực đại P(S,O).
3.2 Mô hình Markov ẩn (HMM)
Ta có thể tính xác suất P(S,O) theo công thức sau:
Ví dụ : Alice và Bod
3.2 Mô hình Markov ẩn
Năm 2000, McCallum đề ra mô hình Markov ẩn với entropy lớn
nhất để khắc phục nhược điểm trên.
MEMM thay thế các xác suất trong HMM bởi hàm xác suất duy
nhất P(|,) có nghĩa quan sát hiện tại không chỉ phụ thuộc vào
trạng thái hiện tại mà còn phụ thuộc vào trạng thái trước nó.
∗
3.3 Mô hình Markov cực đại hóa
Entropy(MEMM)
Ta có công thưc Markov thứ nhất
Để gán nhãn cho dữ liệu , MEMM xác định chuỗi trạng thái S làm
cực đại hóa P(S,O) trong công thưc trên
Tuy nhiên điều này nảy sinh vấn đề đó là “label bias”
3.3 Mô hình Markov cực đại hóa
Entropy(MEMM)
CRF được giới thiệu vào năm 2001 bởi Laferty, cũng giống như MEMM,
CRF cũng dựa trên xác suất có điều kiện, nhưng CRF là độ thị vô hướng.
CRF cho phép tính xác suất của toàn bộ chuỗi trạng thái , nó tránh khỏi
vấn đề “label bias”.
Đặt X là biến ngẫu nhiên của chuỗi dữ liệu cần gán nhãn và Y là biến ngẫu
nhiên của chuỗi tương ứng. Định nghĩa của CRF như sau:
Cho G=(V,E) là một đồ thị trong đó Y=(, do đó Y được xác định dựa trên
các đỉnh của G. Khi đó (X,Y) là một CRF trong trường hợp , khi với điều
kiện trên X, các biến ngẫu nhiên tuân theo thuộc tính Markov đối với đồ
thị G như sau:
P(|X, ,w≠v) = P(|X, ,w~v)
∗
3.4 Mô hình Condinional Random
Fields( CRF)
Nếu X có các thông tin có quan hệ lẫn nhau thì X có cấu trúc dạng cây , thể
hiện dưới dạng X=(,,….) và Y=(,,….).
Theo lý thuyết trường ngẫu nhiên của Hammersley& Clifford
x là chuỗi dữ liệu , y là chuỗi nhãn
y|s là tập các thành phần y có mối quan hệ với các đỉnh trong s
, là các hệ số tỉ lệ đối với các đặc điểm tương ứng.
là điểm cạnh trên chuỗi quan sát x và hai nhãn ,
là đặc điểm trạng thái trên chuỗi quan sát x,và nhãn
∗
3.4 Mô hình Condinional Random
Fields( CRF)
Trước hết CRF cho phép mô tả đa dạng các đặc điểm câu đầu vào ,
từ đó tăng khả năng gán nhãn chuỗi dữ liệu thông qua đặc điểm
của nó , thay vì qua từ cụ thể .
Thứ hai , CRF không chỉ xét quan hẹ giữa từ và nhãn ( thông qua
đặc điểm ) mà còn xác định mối quan hệ của nhãn tiếp theo dựa
vào nhãn hiện tại và chuỗi từ ( thông qua đặc điểm ).
Thứ ba, các hệ số và cho phép tăng giảm mức độ quan trọng của
đặc điểm vì có những đặc điểm có vai trò quan trọng hơn, ảnh
hưởng hơn đến xác suất gán nhãn. Điều này đã cho phép CRF giải
quyết vấn đề label bias nơi mà tổng xác suất dich chuyển từ một
trạng thái được bảo toàn.
∗
3.4 Mô hình Condinional Random
Fields( CRF)
Bài toán đặt ra là xác định các tham số θ=(,…) từ tập dữ liệu
D=(,), với xác suất thực nghiệm (x|y) để tối đa hóa hàm mục tiêu
giống nhau(log-likelohood)
Một số hàm ước lượng tham số được sử dụng là : IIS,GIS, L-BFGs…
∗
3.4 Mô hình Condinional Random
Fields( CRF)
Là công cụ gán nhãn dữ liệu dựa trên mô hình CRF do hai tác giả Phan
Xuân Hiếu, Nguyễn Lê Minh xây dựng để xử lý văn bản tiếng việt
FlexCRF được huấn luyện để tìm kiếm tham số cho phép tối ưu độ tương
tự (likehood)
Độ lệch Gausian được sử dụng để làm mịn khi dữ liệu huấn luyện rời rạc.
Khi các nhãn được tạo ra không có nhập nhằng thì hàm độ tương tự
trong CRF là hàm lồi.
3.4.1 công cụ FlexCRF
L-BFGs là một phương pháp quasi-Newton với bộ nhớ có giới hạn để tối ưu
hóa hàm lồi . Giả sử là chuỗi trạng thái của chuỗi huấn luyện trong tập D. khí
đó thành phần gradient của hệ số là:
Trong đó (y|x) là số lượng đặc trưng đặc điểm tương ứng với từ y và x( đặc
điểm hay trong công thức (3). Hai thành phần đầu tiên tương ứng với sự
khác nhau giữa hai giá trị thực tế và giá trị mong muốn tù mô hình đối với
đặc điểm này . Thành phần cuối cùng là độ lệch Gauss đạo hàm bậc nhất.
∗
3.4.1 công cụ FlexCRF
Các chức năng hệ thống
•
Tạo file model
•
Nguồn dữ liệu đầu vào có thể là file văn bản hoặc một link web
•
Xử lý văn bản đầu vào ra file đặc trưng chưa được gán nhãn sau đó
xử lý qua CRF để thu được một file đã gán nhãn.
Các chức năng sẽ được minh họa trong chương trình dưới đây.
4 . Chương trình
Quesion