Digital Object Identifier

	10.14456/kkuscij.2026.16 การศึกษาเปรียบเทียบแบบจำลองทางสถิติสำหรับการจำแนกประเภทข่าวในสภาพข้อมูลไม่สมดุล
รหัสดีโอไอ	10.14456/kkuscij.2026.16
Creator	กุลจิรา กิ่งไพร
Title	การศึกษาเปรียบเทียบแบบจำลองทางสถิติสำหรับการจำแนกประเภทข่าวในสภาพข้อมูลไม่สมดุล
Contributor	พิมพิกา วังแก๋, กมล สนิทธรรม, กชกร ณ นครพนม
Publisher	คณะวิทยาศาสตร์ มหาวิทยาลัยขอนแก่น
Publication Year	2569
Journal Title	KKU Science Journal
Journal Vol.	54
Journal No.	1
Page no.	215-231
Keyword	การจำแนกประเภทข้อความ, การเรียนรู้ของเครื่อง, การประมวลผลภาษาธรรมชาติ, การจำแนกประเภทข่าว, ข้อมูลไม่สมดุล
URL Website	https://ph01.tci-thaijo.org/index.php/KKUSciJ
Website title	Thai Journal Online (ThaiJO)
ISSN	3027-6667
Abstract	การจำแนกประเภทข่าวโดยอัตโนมัติเป็นงานสำคัญในด้านการประมวลผลภาษาธรรมชาติ ซึ่งช่วยอำนวยความสะดวกในการจัดหมวดหมู่และค้นหาข้อมูลจากแหล่งข่าวขนาดใหญ่ งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพของเทคนิคการเรียนรู้ของเครื่อง โดยพิจารณาผลกระทบจากวิธีการสกัดฟีเจอร์และการจัดการข้อมูลไม่สมดุล ชุดข้อมูลที่ใช้ คือ huffpost news category dataset ขั้นตอนการเตรียมข้อมูลประกอบด้วยการทำความสะอาด การลบ stopwords และ การรวมพาดหัวข่าวกับคำอธิบายสั้น ฟีเจอร์ถูกสร้างด้วยเอ็นแกรมและแปลงเป็นเชิงตัวเลขด้วย bag-of-words (BoW) และ term frequency-inverse document frequency (tf-idf) จากนั้นได้ทดสอบอัลกอริทึม 4 แบบ ได้แก่ multinomial naive bayes complement naive bayes logistic regression และ linear support vector classification (linearsvc) โดยใช้ 5-fold cross-validation ผลการทดลองแสดงว่า linearsvc ร่วมกับ tf-idf ให้ประสิทธิภาพสูงสุด (accuracy 82.64% F1-score 81.87%) ขณะที่ multinomial naive bayes แสดงความเหมาะสมมากกว่ากับ BoW นอกจากนี้ การใช้ ไบแกรม ช่วยลดความคลุมเครือและเพิ่มบริบทของข้อความได้ดีกว่ายูนิแกรม สำหรับการจัดการข้อมูลไม่สมดุล smote ให้ผลลัพธ์ที่เหนือกว่า adasyn และ undersampling ด้วยค่า accuracy 81.67% และ F1-score 81.68% กล่าวโดยสรุป งานวิจัยนี้นำเสนอหลักฐานเชิงประจักษ์ว่าการใช้ tf-idf ร่วมกับ linearsvc และ smote สำหรับข้อมูลที่ไม่สมดุล เป็นแนวทางที่มีประสิทธิภาพสูงในการจำแนกประเภทข่าว ข้อค้นพบดังกล่าวสามารถนำไปประยุกต์ใช้กับระบบจำแนกข้อความประเภทอื่น ๆ และยังเป็นแนวทางสำหรับการวิจัยในอนาคต

คณะวิทยาศาสตร์ มหาวิทยาลัยขอนแก่น

บรรณานุกรม

EndNote

APA

กุลจิรา กิ่งไพร และผู้แต่งคนอื่นๆ. (2026) การศึกษาเปรียบเทียบแบบจำลองทางสถิติสำหรับการจำแนกประเภทข่าวในสภาพข้อมูลไม่สมดุล. KKU Science Journal, 54(1), 215-231. 10.14456/kkuscij.2026.16

Chicago

กุลจิรา กิ่งไพร และผู้แต่งคนอื่นๆ. "การศึกษาเปรียบเทียบแบบจำลองทางสถิติสำหรับการจำแนกประเภทข่าวในสภาพข้อมูลไม่สมดุล". KKU Science Journal 54 (2026):215-231. 10.14456/kkuscij.2026.16

MLA

กุลจิรา กิ่งไพร และผู้แต่งคนอื่นๆ. การศึกษาเปรียบเทียบแบบจำลองทางสถิติสำหรับการจำแนกประเภทข่าวในสภาพข้อมูลไม่สมดุล. คณะวิทยาศาสตร์ มหาวิทยาลัยขอนแก่น:ม.ป.ท. 2026. 10.14456/kkuscij.2026.16

ดิจิตอลไฟล์

Digital File

บรรณานุกรม

APA

Chicago

MLA

ดิจิตอลไฟล์

ไม่สามารถแสดงตัวอย่างไฟล์ได้