การศึกษาเปรียบเทียบแบบจำลองทางสถิติสำหรับการจำแนกประเภทข่าวในสภาพข้อมูลไม่สมดุล
รหัสดีโอไอ
Creator กุลจิรา กิ่งไพร
Title การศึกษาเปรียบเทียบแบบจำลองทางสถิติสำหรับการจำแนกประเภทข่าวในสภาพข้อมูลไม่สมดุล
Contributor พิมพิกา วังแก๋, กมล สนิทธรรม, กชกร ณ นครพนม
Publisher คณะวิทยาศาสตร์ มหาวิทยาลัยขอนแก่น
Publication Year 2569
Journal Title KKU Science Journal
Journal Vol. 54
Journal No. 1
Page no. 215-231
Keyword การจำแนกประเภทข้อความ, การเรียนรู้ของเครื่อง, การประมวลผลภาษาธรรมชาติ, การจำแนกประเภทข่าว, ข้อมูลไม่สมดุล
URL Website https://ph01.tci-thaijo.org/index.php/KKUSciJ
Website title Thai Journal Online (ThaiJO)
ISSN 3027-6667
Abstract การจำแนกประเภทข่าวโดยอัตโนมัติเป็นงานสำคัญในด้านการประมวลผลภาษาธรรมชาติ ซึ่งช่วยอำนวยความสะดวกในการจัดหมวดหมู่และค้นหาข้อมูลจากแหล่งข่าวขนาดใหญ่ งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพของเทคนิคการเรียนรู้ของเครื่อง โดยพิจารณาผลกระทบจากวิธีการสกัดฟีเจอร์และการจัดการข้อมูลไม่สมดุล ชุดข้อมูลที่ใช้ คือ huffpost news category dataset ขั้นตอนการเตรียมข้อมูลประกอบด้วยการทำความสะอาด การลบ stopwords และ การรวมพาดหัวข่าวกับคำอธิบายสั้น ฟีเจอร์ถูกสร้างด้วยเอ็นแกรมและแปลงเป็นเชิงตัวเลขด้วย bag-of-words (BoW) และ term frequency-inverse document frequency (tf-idf) จากนั้นได้ทดสอบอัลกอริทึม 4 แบบ ได้แก่ multinomial naive bayes complement naive bayes logistic regression และ linear support vector classification (linearsvc) โดยใช้ 5-fold cross-validation ผลการทดลองแสดงว่า linearsvc ร่วมกับ tf-idf ให้ประสิทธิภาพสูงสุด (accuracy 82.64% F1-score 81.87%) ขณะที่ multinomial naive bayes แสดงความเหมาะสมมากกว่ากับ BoW นอกจากนี้ การใช้ ไบแกรม ช่วยลดความคลุมเครือและเพิ่มบริบทของข้อความได้ดีกว่ายูนิแกรม สำหรับการจัดการข้อมูลไม่สมดุล smote ให้ผลลัพธ์ที่เหนือกว่า adasyn และ undersampling ด้วยค่า accuracy 81.67% และ F1-score 81.68% กล่าวโดยสรุป งานวิจัยนี้นำเสนอหลักฐานเชิงประจักษ์ว่าการใช้ tf-idf ร่วมกับ linearsvc และ smote สำหรับข้อมูลที่ไม่สมดุล เป็นแนวทางที่มีประสิทธิภาพสูงในการจำแนกประเภทข่าว ข้อค้นพบดังกล่าวสามารถนำไปประยุกต์ใช้กับระบบจำแนกข้อความประเภทอื่น ๆ และยังเป็นแนวทางสำหรับการวิจัยในอนาคต
คณะวิทยาศาสตร์ มหาวิทยาลัยขอนแก่น

บรรณานุกรม

EndNote

APA

Chicago

MLA

ดิจิตอลไฟล์

Digital File
DOI Smart-Search
สวัสดีค่ะ ยินดีให้บริการสอบถาม และสืบค้นข้อมูลตัวระบุวัตถุดิจิทัล (ดีโอไอ) สำนักการวิจัยแห่งชาติ (วช.) ค่ะ