XÂY DỰNG hệ THỐNG TRÍCH rút THÔNG TIN NHÀ đất

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.93 MB, 55 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
──────── * ───────

ĐỒ ÁN

TỐT NGHIỆP ĐẠI HỌC
NGÀNH CÔNG NGHỆ THÔNG TIN

XÂY DỰNG HỆ THỐNG TRÍCH RÚT
THÔNG TIN NHÀ ĐẤT

Sinh viên thực hiện : Nguyễn Thành Duy
Lớp: VN – IS1 – K55
Giáo viên hướng dẫn: PGS.TS. Lê Thanh Hương

HÀ NỘI 7-2015

PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP
1. Thông tin về sinh viên
Họ và tên sinh viên: Nguyễn Thành Duy
Điện thoại liên lạc: 0961084066
Email:
Lớp: Việt Nhật IS1
Hệ đào tạo: Đại Học
Đồ án tốt nghiệp được thực hiện tại: Đại Học Bách Khoa Hà Nội
Thời gian làm ĐATN: Từ ngày 21 / 2 /2015 đến 24 / 07 /2015
2. Mục đích nội dung của ĐATN
Xây dựng hệ thống rút trích thông tin từ các website quảng cáo nhà đất. Hệ thống
bao gồm việc lấy thu thập các tin quảng cáo nhà đất từ các website quảng cáo và

tách lấy những thông tin cần thiết từ quảng cáo giúp người xem có thể nhanh chóng
tìm được những thông tin cần thiết từ các quảng cáo mà không cần thiết phải đọc cả
một đoạn văn bản quảng cáo dài.
3. Các nhiệm vụ cụ thể của ĐATN
- Tổng hợp các quảng cáo nhà đất từ các website quảng cáo nhà đất để thu được tập
dữ liệu cần thiết.
- Thiết lập hệ thống phân tích từ để lấy được các trường thông tin hữu ích .
- Xây dựng chương trình demo đơn giản.
- Xây dựng website quảng cáo nhà đất với những trường thông tin thu thập được
4. Lời cam đoan của sinh viên:
Tôi –Nguyễn Thành Duy- cam kết ĐATN là công trình nghiên cứu của bản thân tôi
dưới sự hướng dẫn của PGS.TS.Lê Thanh Hương.
Các kết quả nêu trong ĐATN là trung thực, không phải là sao chép toàn văn của bất
kỳ công trình nào khác.
Hà Nội, ngày tháng năm
Nguyễn Thành Duy
5. Xác nhận của giáo viên hướng dẫn về mức độ hoàn thành của ĐATN và cho phép
bảo vệ:

Hà Nội, ngày tháng năm
Giáo viên hướng dẫn

Học hàm học vị+điền tên giáo viên
hướng dẫn

TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP
Hiện nay, hầu hết mọi người đều dựa vào internet để tìm kiếm nhu cầu của
mình. Vì thế, quảng cáo trực tuyến sẽ làm tăng đáng kể khả năng tiếp cận của bất
động sản đến với khách hàng. Một ưu điểm tuyệt vời nhất của quảng cáo online là

sự tiện dụng và nhanh chóng.
Tuy nhiên không phải ai cũng có nhiều thời gian để tìm kiếm, đọc một văn
bản quảng cáo nhà đất khá dài để cân nhắc với nhu cầu của mình. Nắm bắt các xu
hướng đó, trong đồ án của em, em cũng đề xuất phát triển một hệ thống tổng hợp và
trích rút các thông tin trong các văn bản quảng cáo nhà đất trực tuyến thành các
trường mà người đọc cần quan tâm, giúp người đọc giảm thiểu được tối đa thời gian
đọc các bản tin quảng cáo nhà đất mà vẫn hiểu được toàn bộ nội dung quảng cáo.
Cấu trúc đồ án của em gồm có các chương sau :
Chương 1 : Định hướng vấn đề và giải pháp
Chương 2 : Cơ sở lí thuyết
Chương 3 : Quá trình thu thập tập dữ liệu
Chương 4 : Quá trình xử lý dữ liệu
Chương 5 : Kết quả đạt được

MỞ ĐẦU
Sự phong phú và tăng trưởng không ngừng của các nguồn dữ liệu trên mạng
Internet mang lại cho con người lượng thông tin khổng lồ, nhưng cũng đặt ra các
vấn đề về tìm kiếm và chọn lọc thông tin. Đối với mọi cá nhân, tổ chức, việc cập
nhật thường xuyên các nguồn thông tin trên mạng Internet là rất quan trọng, quyết
định đến hiệu quả, thành công trong lĩnh vực hoạt động của mình. Tuy nhiên, việc
tìm kiếm được các thông tin phù hợp và có giá trị đối với người truy cập mạng
Internet sẽ tốn kém thời gian do dữ liệu nằm phân tán trên mạng và không được sắp
xếp, phân loại như mong muốn. Do đó, việc tìm kiếm, rút trích các thông tin có ý
nghĩa từ Internet là một bài toán cần được giải quyết.
Vấn đề rút trích tự động các thông tin phù hợp và có giá trị đối với người
truy cập mạng Internet cũng nhận được nhiều sự quan tâm của các nhà công nghệ
thông tin trên thế giới.
Bài toán nhận dạng thực thể trong văn bản là bài toán khá cơ bản và quan
trọng trong nhóm các bài toán rút trích thông tin. Nó có nhiệm vụ tìm kiếm và phân

loại các thực thể như: thực thể chỉ người, thực thể chỉ địa điểm v.v… Trong đồ án
này, em giới thiệu một hệ thống nhận dạng thực thể trong văn bản tiếng Việt được
phát triển trên nguồn mở GATE (General Architecture for Text Engineering).
Vậy nên, trong đồ án ra trường của em. Em đã đưa ra ý tưởng đó là xây dựng
một hệ thống rút trích thông tin từ các website quảng cáo nhà đất dựa trên hệ thống
nhận dạng thực thể trong văn bản tiếng Việt được phát triển trên nguồn mở GATE.
Hệ thống bao gồm việc lấy thu thập các tin quảng cáo nhà đất từ các website quảng
cáo và tách lấy những thông tin cần thiết từ quảng cáo giúp người xem có thể nhanh
chóng tìm được những thông tin cần thiết từ các quảng cáo mà không cần thiết phải
đọc cả một đoạn văn bản quảng cáo dài.

LỜI CÁM ƠN
Trước hết, em xin gửi lời cảm ơn chân thành tới PGS.TS. Lê Thanh Hương, người
đã tận tình dạy dỗ và hướng dẫn em trong quá trình hoàn thành đồ án cũng như
trong học tập. Đồng thời, em xin bày tỏ lòng biết ơn đến các thầy cô giáo trong Viện
Công nghệ thông tin và Truyền thông – trường Đại học Bách Khoa Hà Nội, những
người đã tận tâm giảng dạy, truyền đạt cho chúng em những kiến thức cơ bản làm
nền tảng cho việc thực hiện đồ án cũng như trong quá trình công tác sau này.
Em cũng xin gửi lời cảm ơn tới các anh chị tại trường Đại học Bách Khoa Hà Nội,
các bạn, các em trong nhóm sinh viên nghiên cứu, những người luôn ở bên cạnh
giúp đỡ, động viên em trong quá trình hoàn thành đồ án.
Cuối cùng, với tất cả sự kính trọng, con xin bày tỏ lòng biết ơn sâu sắc tới bố mẹ và
anh chị em trong gia đình đã luôn là chỗ dựa tinh thần vững chắc và tạo mọi điều
kiện cho con ăn học nên người.

Hà Nội, ngày 24 tháng 7 năm 2015

Nguyễn Thành Duy

Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1

5

Mục lục

Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1

6

DANH MỤC HÌNH
Hình 1 : Kiến trúc hệ thống ………………………………………….……..12
Hình 2 : ANNIE - kiến trúc hệ thống rút trích thông tin của GATE……….13
Hình 3: Kiến trúc hệ thống (bộ trích rút thông tin GATE-ANNIE Hình 2)
……………………………………………………...…………………….....30
Hình 4 : Kiến trúc xử lý dữ liệu XML…………….…………………….…..37
Hình 5 : Cơ sở dữ liệu………………………………..…………….………..40
Hình 6: Sơ đồ phân cấp chức năng website…………..…………..…………41
Hình 7: Cài đặt wp-pipes trên wordpress……………………………...……42
Hình 8 : Các bước lấy thông tin trên web bằng wp-pipes…………………..43
Hình 9: Nội dung lưu trong cơ sở dữ liệu…………………………………...44
Hình 10: Nội dung bài viết đã được tách ra……………………………..…..45
Hình 11 : file lưu source nguồn Html của tập dữ liệu………………..……..46
Hình 12: Giao diện làm việc với GATE…………………………..……..….46
Hình 13 :Chọn folder chứa các tập tin HTML trong tập dữ liệu.……….….48
Hình 14 :Load các tập tin HTML………………………….………………..48
Hình 15 :Bắt đầu chạy các luật đễác định các thực thể cần thiết trong các tập tin
HTML ……………………………………………….………………......….49

Hình 16 : Các thực thể đã được xác định………….……………………...…49
Hình 17 : Lưu kết quả sang các file XML………….………………………..50
Hình 18 :Các tập tin XML được lưu lại trong folder data…….…………….50
Hình 19 :Đọc các file XML và lưu lại trong CSDL và hiển thị kết quả lên
Web……………………………………………………………………….…51
Hình 20 :Giao diện bản tin ………………………………...……...….……..52
Hình 21 : Nội dung bản tin gốc……………………………..…….…………53

Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1

7

DANH MỤC BẢNG
Bảng 1: Phương pháp tiếp cận đề tài…………………………………..…………..15
Bảng 2: các file JAPE và chức năng xử lý………………………………...……….47
Bảng 3 : kết quả thực nghiệm ……………………………………………………..54

Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1

8

DANH MỤC CÁC TỪ VIẾT TẮT
Chữ viết tắt

Viết đầy đủ

GATE

General Architecture for Text Engineering

ANNIE

A Nearly-New Information Extraction System

IE

Information Extraction

JAPE

Java Annotation Patterns Engine

Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1

9

PHẦN 1: ĐẶT VẤN ĐỀ VÀ ĐỊNH HƯỚNG GIẢI PHÁP
1. Chương 1 : Định hướng vấn đề và giải pháp
1. Định hướng vấn đề
Nhà đất luôn là vấn đề quan trọng hàng đầu trong các thành phố lớn, với nhu
cầu về nhà ở rất cao của sinh viên và những người đi làm cần được đáp ứng . Với sự
phát triển mạnh mẽ của CNTT hiện nay ta có thể dễ dàng tìm kiếm thông tin nhà đất
trên internet và các phương tiện truyền thông nhưng chúng vẫn chưa thực sự đáp
ứng nhu cầu của người dùng. Thường những bản tin quảng cáo nhà đất được viết
dưới dạng text khá dài, không định rõ ra các trường thông tin quan trọng như giá
nhà, địa chỉ, đường, Quận, Huyện … Vì vậy mà những website như vậy không có
khả năng tìm kiếm theo giá, theo Quận Huyện, theo diện tích …

Hơn nữa không phải ai cũng biết đến và đăng bài quảng cáo ở tất cả các
website cũng như tìm kiếm bất động sản ở nhiều website. Điều đó gây khá nhiều bất
tiện cho những khách hàng có nhu cầu tìm kiếm bất động sản.
Vì vậy trong đồ án của em, em đã xây dựng một hệ thống tổng hợp và xử lý
các bản tin quảng cáo từ các website khác để trích rút những trường thông tin hữu
ích cho website của em. Website sẽ khắc phục được những nhược điểm còn thiếu từ
các website quảng cáo bất động sản khác.
Hệ thống sẽ lấy dữ liệu từ các trang mạng rao vặt như rongbay.com (Hình 1),
lamchame.com/forum/ (Hình 2), enbac.com , batdongsan.com.vn, …
Đầu vào là những bản tin phi cấu trúc (unstructured) , tức là văn bản không
có thẻ HTML cũng như những manh mối để nhận dạng thực thể. Và những bản tin
bán cấu trúc (semistructrured data), tức là chúng không hoàn toàn phi cấu trúc
nhưng cũng không hoàn toàn có cấu trúc. Ví dụ, một tài liệu có thể chứa một vài
trường có cấu trúc chẳng hạn như tiêu đề, họ tên, địa chỉ , số điện thoại…nhưng
cũng có thể chứa một lượng lớn những thành phần văn bản phi cấu trúc chẳng hạn
như phần miêu tả , tóm tắt…
Website :

Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1

10

Hình 1 : bản tin quảng cáo trên trang rongbay.com
Đoạn source nguồn của bản tin trong trang như sau :

<a style="color:inherit !important;font-size:inherit !important;" href=" title="Cho thuê căn hộ">Cho thuê căn hộ</a> độc lập 3 tr-50m2 nằm trong toà nhà style="color:inherit !important;font-size:inherit !important;" href=" title="chung cư">chung cư</a> mới xây gần ngã tư sở dành riêng
cho viên chức cao cấp ( không cho sinh viên thuê), có chỗ để xe rộng, có công tơ điện lực giá mua điện trực
tiếp giá nhà nước cho hộ gia đình (đơn giá 1400đ/số), nguồn nước sạch Sông đà cấp ổn định, có phòng phơi
đồ riêng không bị mưa ướt, có phòng đa năng có thể đọc sách, vào mạng, thư giãn.

1 phòng bếp đã trang bị đầy đủ tủ bếp, máy hút mùi, chậu rửa vòi nóng lạnh

1 phòng vệ sinh nóng lạnh khép kín, vòi tắm sen, thiết bị dồng bộ, cao cấp

1 phòng ngủ đẹp, đã trang bị nội thất, nhiều cửa sổ, thoáng mát. Căn
hộ</a> đã có sẵn đầu chờ lắp điều hoà và máy giặt. Có kho đựng đồ.

Toà nhà phục vụ miễn phí nhiều tiện ích như: Lau vệ sinh và đổ rác, bơm nước và chiếu sáng
chung, bảo dưỡng thiết bị, bảo vệ và gửi xe, Internet VNPT Cab Quang tốc độ cao (Wifi). Truyền hình Trung
ương VTVCab.

Với mục tiêu AN TOÀN, SẠCH SẼ, YÊN TĨNH , CHẤT LƯỢNG, THUẬN TIỆN, THOẢI MÁI . Toà
chung cư toàn viên chức cao cấp, không cho sinh viên thuê, phục vụ tốt, sạch sẽ tạo nên sự khác biệt hơn hẳn
các chung cư khác, môi trường yên tĩnh, văn minh, không gian riêng biệt như sống trong ngôi nhà biệt lập,
không bị nhìn bởi các gia đình xung quanh, Căn hộ cực kỳ lý tưởng cho các bạn trẻ viên chức chuẩn bị kết
hôn. liên hệ chính chủ anh Tùng 0966555839 địa chỉ nhà chung cư số 64 ngõ 358/55/20 ( vào ngõ 358, nghách 55, hẻm 20, nhà 64) bùi xương trạch</span>, thanh
xuân, hà nội ( gần ngã tư sở-ô tô chở đồ vào tận nhà ). Hoặc đi vào từ địa chỉ 223 Khương hạ ( Đường bờ sông ) đi 150m rẽ phải vào ngh ách 55.</span>