|
การศึกษาเปรียบเทียบแบบจำลองทางสถิติสำหรับการจำแนกประเภทข่าวในสภาพข้อมูลไม่สมดุล |
|---|---|
| รหัสดีโอไอ | |
| Creator | กุลจิรา กิ่งไพร |
| Title | การศึกษาเปรียบเทียบแบบจำลองทางสถิติสำหรับการจำแนกประเภทข่าวในสภาพข้อมูลไม่สมดุล |
| Contributor | พิมพิกา วังแก๋, กมล สนิทธรรม, กชกร ณ นครพนม |
| Publisher | คณะวิทยาศาสตร์ มหาวิทยาลัยขอนแก่น |
| Publication Year | 2569 |
| Journal Title | KKU Science Journal |
| Journal Vol. | 54 |
| Journal No. | 1 |
| Page no. | 215-231 |
| Keyword | การจำแนกประเภทข้อความ, การเรียนรู้ของเครื่อง, การประมวลผลภาษาธรรมชาติ, การจำแนกประเภทข่าว, ข้อมูลไม่สมดุล |
| URL Website | https://ph01.tci-thaijo.org/index.php/KKUSciJ |
| Website title | Thai Journal Online (ThaiJO) |
| ISSN | 3027-6667 |
| Abstract | การจำแนกประเภทข่าวโดยอัตโนมัติเป็นงานสำคัญในด้านการประมวลผลภาษาธรรมชาติ ซึ่งช่วยอำนวยความสะดวกในการจัดหมวดหมู่และค้นหาข้อมูลจากแหล่งข่าวขนาดใหญ่ งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพของเทคนิคการเรียนรู้ของเครื่อง โดยพิจารณาผลกระทบจากวิธีการสกัดฟีเจอร์และการจัดการข้อมูลไม่สมดุล ชุดข้อมูลที่ใช้ คือ huffpost news category dataset ขั้นตอนการเตรียมข้อมูลประกอบด้วยการทำความสะอาด การลบ stopwords และ การรวมพาดหัวข่าวกับคำอธิบายสั้น ฟีเจอร์ถูกสร้างด้วยเอ็นแกรมและแปลงเป็นเชิงตัวเลขด้วย bag-of-words (BoW) และ term frequency-inverse document frequency (tf-idf) จากนั้นได้ทดสอบอัลกอริทึม 4 แบบ ได้แก่ multinomial naive bayes complement naive bayes logistic regression และ linear support vector classification (linearsvc) โดยใช้ 5-fold cross-validation ผลการทดลองแสดงว่า linearsvc ร่วมกับ tf-idf ให้ประสิทธิภาพสูงสุด (accuracy 82.64% F1-score 81.87%) ขณะที่ multinomial naive bayes แสดงความเหมาะสมมากกว่ากับ BoW นอกจากนี้ การใช้ ไบแกรม ช่วยลดความคลุมเครือและเพิ่มบริบทของข้อความได้ดีกว่ายูนิแกรม สำหรับการจัดการข้อมูลไม่สมดุล smote ให้ผลลัพธ์ที่เหนือกว่า adasyn และ undersampling ด้วยค่า accuracy 81.67% และ F1-score 81.68% กล่าวโดยสรุป งานวิจัยนี้นำเสนอหลักฐานเชิงประจักษ์ว่าการใช้ tf-idf ร่วมกับ linearsvc และ smote สำหรับข้อมูลที่ไม่สมดุล เป็นแนวทางที่มีประสิทธิภาพสูงในการจำแนกประเภทข่าว ข้อค้นพบดังกล่าวสามารถนำไปประยุกต์ใช้กับระบบจำแนกข้อความประเภทอื่น ๆ และยังเป็นแนวทางสำหรับการวิจัยในอนาคต |