ชื่อบทความที่เผยแพร่ |
Structured web information extraction using repetitive subject pattern |
วัน/เดือน/ปี ที่เผยแพร่ |
18 พฤษภาคม 2555 |
การประชุม |
ชื่อการประชุม |
9th International Conference on Electrical Engineering/Electronics, Computer, Telecommunications and Information Technology (ECTI-CON 2012) |
หน่วยงาน/องค์กรที่จัดประชุม |
Electrical Engineering/Electronics, Computer, Telecommunications and Information Technology (ECTI) Association, Thailand. |
สถานที่จัดประชุม |
Novotel Hua Hin - Cha Am Beach Resort & Spa |
จังหวัด/รัฐ |
Phetchaburi, Thailand |
ช่วงวันที่จัดประชุม |
16 พฤษภาคม 2555 |
ถึง |
18 พฤษภาคม 2555 |
Proceeding Paper |
Volume (ปีที่) |
2012 |
Issue (เล่มที่) |
1 |
หน้าที่พิมพ์ |
1-4 |
Editors/edition/publisher |
IEEE Xplore |
บทคัดย่อ |
Data records on a dynamic web page are often generated from databases with fixed templates or layouts by server-side scripts. Generally, each data record on the web page has a subject item that can be used to identify a data record. This paper reports a novel semi-supervised information extraction system that lets end-users give only one subject item of sample data record. The system then builds a wrapper and extracts the relevant data records automatically. The techniques for the proposed system are a repetitive subject pattern for discovery data records, a subject tree clustering algorithm for clustering target data records, and a subject tree alignment for aligning data items and create an extraction pattern. For performance evaluation purpose, the proposed system is empirically tested on twelve popular real world websites both Thai and English. It provides the outstanding result by reporting 100 percentage of accuracy for correct extracted records. In addition, the proposed system shows higher degree of being user friendly when compared with other similar systems. |
ผู้เขียน |
|
การประเมินบทความ (Peer Review) |
มีผู้ประเมินอิสระ |
มีการเผยแพร่ในระดับ |
นานาชาติ |
รูปแบบ Proceeding |
Full paper |
รูปแบบการนำเสนอ |
Oral |
เป็นส่วนหนึ่งของวิทยานิพนธ์ |
เป็น |
ผลงานที่นำเสนอได้รับรางวัล |
ไม่ได้รับรางวัล |
แนบไฟล์ |
|
Citation |
2
|
|