| ชื่อบทความที่เผยแพร่ |
Bottom-up region extractor for semi-structured web pages |
| วัน/เดือน/ปี ที่เผยแพร่ |
31 กรกฎาคม 2557 |
| การประชุม |
| ชื่อการประชุม |
18th Computer Science and Engineering Conference (ICSEC2014) |
| หน่วยงาน/องค์กรที่จัดประชุม |
Computer Science, Faculty of Science, Khon Kaen University |
| สถานที่จัดประชุม |
HOTEL PULLMAN KHON KAEN RAJA ORCHID |
| จังหวัด/รัฐ |
Khon Kaen |
| ช่วงวันที่จัดประชุม |
30 กรกฎาคม 2557 |
| ถึง |
1 สิงหาคม 2557 |
| Proceeding Paper |
| Volume (ปีที่) |
2014 |
| Issue (เล่มที่) |
1 |
| หน้าที่พิมพ์ |
284 - 289 |
| Editors/edition/publisher |
IEEE |
| บทคัดย่อ |
Generally, the database websites have provided the interfaces for giving users access their structured data. These data are usually represented in a form of data records in a coherent region of a result page. However, the page usually contains not only the data region, but also other extraneous ones. Therefore, the important tasks for extracting data records from these semi-structured web pages are identifying the relevant data regions and ignoring the irrelevant regions. To figure out the stated problem, This paper proposes a region extractor to be a preprocessor tool for helping an information extractor to locate and extract the relevant data records from web pages. Most existing works analyze the DOM tree of an input page in a top-down manner. In another way, the proposed method traverses the DOM tree in the bottom-up direction that the similarity of the leaf nodes are analyzed prior to find a set of data items. After that, their parent nodes are recursively analyzed for identifying data records and data regions respectively. The proposed method is completely unsupervised and maintenance-free wrapper. For performance evaluation, it is empirically tested on 15 real-world websites. Experiments show that the proposed method achieves 94.37% accuracy of data record extraction and outperforms the well-known top-down method, DEPTA (55.39%). |
| ผู้เขียน |
|
| การประเมินบทความ (Peer Review) |
มีผู้ประเมินอิสระ |
| มีการเผยแพร่ในระดับ |
นานาชาติ |
| รูปแบบ Proceeding |
Full paper |
| รูปแบบการนำเสนอ |
Oral |
| เป็นส่วนหนึ่งของวิทยานิพนธ์ |
เป็น |
| ใช้สำหรับสำเร็จการศึกษา |
ไม่เป็น |
| ผลงานที่นำเสนอได้รับรางวัล |
ไม่ได้รับรางวัล |
| แนบไฟล์ |
|
| Citation |
0
|
|
|