|
การจำแนกข้อความขนาดใหญ่แบบหลายฉลากมีลำดับชั้นโดยใช้วิธีการแบบแฟลตด้วยยุทธศาสตร์ตัดเล็มแบบเอสวีเอ็ม |
|---|---|
| รหัสดีโอไอ | |
| Title | การจำแนกข้อความขนาดใหญ่แบบหลายฉลากมีลำดับชั้นโดยใช้วิธีการแบบแฟลตด้วยยุทธศาสตร์ตัดเล็มแบบเอสวีเอ็ม |
| Creator | ณัฐชนน ผจงกิจพิพัฒน์ |
| Contributor | พีรพล เวทีกูล |
| Publisher | จุฬาลงกรณ์มหาวิทยาลัย |
| Publication Year | 2559 |
| Keyword | การประมวลผลข้อความ, Text processing (Computer science) |
| Abstract | การจำแนกประเภทแบบหลายฉลากมีลำดับชั้น เป็นการจำแนกประเภทที่รวมลักษณะเฉพาะของปัญหาสองรูปแบบคือ ข้อมูลแต่ละตัวอาจจัดอยู่ได้ในหลายคลาส และคลาสเหล่านี้มีความสัมพันธ์เป็นโครงสร้างลำดับชั้น ซึ่งข้อมูลในชีวิตจริงมักจะมีลักษณะซับซ้อนเช่นนี้ การจำแนกประเภทข้อความแบบหลายฉลากมีลำดับชั้น เป็นหัวข้อการวิจัยที่ได้รับความสนใจอย่างมากในปัจจุบัน เพราะโครงสร้างลำดับชั้นใช้อธิบายความสัมพันธ์ของข้อมูลประเภทข้อความได้ดี ข้อมูลประเภทข้อความที่เราพบอยู่ทุกวันก็คือ ข้อมูลบนเว็บไซต์นั่นเอง เว็บไซต์ที่เพิ่มจำนวนขึ้นอย่างรวดเร็ว ทำให้เว็บอย่างเว็บไดเรกทอรีและวิกิพีเดียจำเป็นต้องมีระบบการจำแนกประเภทอย่างอัตโนมัติเมื่อมีหน้าเว็บใหม่เข้ามาในฐานข้อมูล ด้วยข้อมูลมหาศาลเช่นนี้ ปัญหานี้จึงถือเป็นการจำแนกประเภทขนาดใหญ่แบบหลายฉลากมีลำดับชั้น งานวิจัยหลายงานนำเสนอวิธีแก้ปัญหาการจำแนกประเภทแบบหลายฉลากมีลำดับชั้น แต่วิธีเหล่านั้นประมวลผลข้อมูลขนาดใหญ่ไม่ได้ เนื่องจากการประมวลผลอาจต้องใช้พื้นที่เก็บข้อมูลขนาดใหญ่มาก อาจใช้เวลาประมวลผลนานเกินไป หรือทำนายคลาสได้ไม่แม่นยำ บางวิธีการที่พอจะรองรับข้อมูลขนาดใหญ่ได้ก็ไม่ได้นำโครงสร้างลำดับชั้นมาใช้ให้เกิดประโยชน์ งานวิจัยนี้จึงได้นำเสนอการจำแนกข้อความขนาดใหญ่แบบหลายฉลากมีลำดับชั้นที่ปรับปรุงวิธีการ k-NN ซึ่งเป็นวิธีการแบบแฟลต และนำโครงสร้างลำดับชั้นมาใช้ด้วยการฝึกตัวจำแนกประเภท SVM ที่โหนดชั้นบนของโครงสร้างลำดับชั้น เพื่อช่วยกรองคำตอบให้มีความถูกต้องแม่นยำมากขึ้น นอกจากนี้ยังมีการตัดฟีเจอร์ที่ปรากฏน้อยครั้งออกไปเพื่อช่วยลดจำนวนฟีเจอร์ และการนำฟีเจอร์สำคัญของข้อมูลทดสอบมาช่วยเลือกข้อมูลเรียนรู้เพื่อลดข้อมูลที่จะต้องพิจารณาอีกด้วย ผลการประเมินประสิทธิภาพแสดงให้เห็นว่าวิธีที่นำเสนออยู่อันดับที่ 4 มีค่า LBMaF เท่ากับ 25.70% เมื่อทดสอบบนข้อมูลวิกิพีเดียขนาดกลาง และอยู่อันดับที่ 2 มีค่า LBMaF เท่ากับ 23.48% เมื่อทดสอบบนข้อมูลวิกิพีเดียขนาดใหญ่ |
| URL Website | cuir.car.chula.ac.th |