ชื่อบทความที่เผยแพร่ |
Bottom-up region extractor for semi-structured web pages |
วัน/เดือน/ปี ที่เผยแพร่ |
31 กรกฎาคม 2557 |
การประชุม |
ชื่อการประชุม |
18th Computer Science and Engineering Conference (ICSEC2014) |
หน่วยงาน/องค์กรที่จัดประชุม |
Computer Science, Faculty of Science, Khon Kaen University |
สถานที่จัดประชุม |
HOTEL PULLMAN KHON KAEN RAJA ORCHID |
จังหวัด/รัฐ |
Khon Kaen |
ช่วงวันที่จัดประชุม |
30 กรกฎาคม 2557 |
ถึง |
1 สิงหาคม 2557 |
Proceeding Paper |
Volume (ปีที่) |
2014 |
Issue (เล่มที่) |
1 |
หน้าที่พิมพ์ |
284 - 289 |
Editors/edition/publisher |
IEEE |
บทคัดย่อ |
Generally, the database websites have provided the interfaces for giving users access their structured data. These data are usually represented in a form of data records in a coherent region of a result page. However, the page usually contains not only the data region, but also other extraneous ones. Therefore, the important tasks for extracting data records from these semi-structured web pages are identifying the relevant data regions and ignoring the irrelevant regions. To figure out the stated problem, This paper proposes a region extractor to be a preprocessor tool for helping an information extractor to locate and extract the relevant data records from web pages. Most existing works analyze the DOM tree of an input page in a top-down manner. In another way, the proposed method traverses the DOM tree in the bottom-up direction that the similarity of the leaf nodes are analyzed prior to find a set of data items. After that, their parent nodes are recursively analyzed for identifying data records and data regions respectively. The proposed method is completely unsupervised and maintenance-free wrapper. For performance evaluation, it is empirically tested on 15 real-world websites. Experiments show that the proposed method achieves 94.37% accuracy of data record extraction and outperforms the well-known top-down method, DEPTA (55.39%). |
ผู้เขียน |
|
การประเมินบทความ (Peer Review) |
มีผู้ประเมินอิสระ |
มีการเผยแพร่ในระดับ |
นานาชาติ |
รูปแบบ Proceeding |
Full paper |
รูปแบบการนำเสนอ |
Oral |
เป็นส่วนหนึ่งของวิทยานิพนธ์ |
เป็น |
ผลงานที่นำเสนอได้รับรางวัล |
ไม่ได้รับรางวัล |
แนบไฟล์ |
|
Citation |
0
|
|