2009-2015 ©
             ข้อมูลการเผยแพร่ผลงาน
การเผยแพร่ในรูปของบทความวารสารทางวิชาการ
ชื่อบทความที่เผยแพร่ Bottom-up region extractor for semi-structured web pages  
วัน/เดือน/ปี ที่เผยแพร่ 31 กรกฎาคม 2557 
การประชุม
     ชื่อการประชุม 18th Computer Science and Engineering Conference (ICSEC2014)  
     หน่วยงาน/องค์กรที่จัดประชุม Computer Science, Faculty of Science, Khon Kaen University 
     สถานที่จัดประชุม HOTEL PULLMAN KHON KAEN RAJA ORCHID  
     จังหวัด/รัฐ Khon Kaen 
     ช่วงวันที่จัดประชุม 30 กรกฎาคม 2557 
     ถึง 1 สิงหาคม 2557 
Proceeding Paper
     Volume (ปีที่) 2014 
     Issue (เล่มที่)
     หน้าที่พิมพ์ 284 - 289 
     Editors/edition/publisher IEEE 
     บทคัดย่อ Generally, the database websites have provided the interfaces for giving users access their structured data. These data are usually represented in a form of data records in a coherent region of a result page. However, the page usually contains not only the data region, but also other extraneous ones. Therefore, the important tasks for extracting data records from these semi-structured web pages are identifying the relevant data regions and ignoring the irrelevant regions. To figure out the stated problem, This paper proposes a region extractor to be a preprocessor tool for helping an information extractor to locate and extract the relevant data records from web pages. Most existing works analyze the DOM tree of an input page in a top-down manner. In another way, the proposed method traverses the DOM tree in the bottom-up direction that the similarity of the leaf nodes are analyzed prior to find a set of data items. After that, their parent nodes are recursively analyzed for identifying data records and data regions respectively. The proposed method is completely unsupervised and maintenance-free wrapper. For performance evaluation, it is empirically tested on 15 real-world websites. Experiments show that the proposed method achieves 94.37% accuracy of data record extraction and outperforms the well-known top-down method, DEPTA (55.39%).  
ผู้เขียน
537020029-1 นาย วชิราวุธ ธรรมวิเศษ [ผู้เขียนหลัก]
คณะวิทยาศาสตร์ ปริญญาเอก ภาษาอังกฤษ

การประเมินบทความ (Peer Review) มีผู้ประเมินอิสระ 
มีการเผยแพร่ในระดับ นานาชาติ 
รูปแบบ Proceeding Full paper 
รูปแบบการนำเสนอ Oral 
เป็นส่วนหนึ่งของวิทยานิพนธ์ เป็น 
ผลงานที่นำเสนอได้รับรางวัล ไม่ได้รับรางวัล 
แนบไฟล์
Citation 0