|
การตรวจจับการเล่นคำด้วยวิธีซ้ำตัวอักษรในข้อความสื่อสังคมออนไลน์และแปลงให้เป็นบรรทัดฐาน |
|---|---|
| รหัสดีโอไอ | |
| Title | การตรวจจับการเล่นคำด้วยวิธีซ้ำตัวอักษรในข้อความสื่อสังคมออนไลน์และแปลงให้เป็นบรรทัดฐาน |
| Creator | ปวันรัตน์ หิรัญกาญจน์ |
| Contributor | อติวงศ์ สุชาโต, โปรดปราน บุณยพุกกณะ |
| Publisher | จุฬาลงกรณ์มหาวิทยาลัย |
| Publication Year | 2555 |
| Keyword | เครือข่ายสังคมออนไลน์, การเล่นคำ, ซอฟต์แวร์แปลงข้อความเป็นเสียง, ภาษาศาสตร์คอมพิวเตอร์, Online social networks, Plays on words, Text-to-speech software, Computational linguistics |
| Abstract | การเล่นคำด้วยวิธีซ้ำตัวอักษรจากคำเดิมเป็นวิธีการเล่นคำที่พบมากในเว็บไซต์เครือข่ายทางสังคม ซึ่งการเล่นคำโดยส่วนใหญ่จะสร้างความกำกวมให้กับระบบประมวลผลทางภาษามนุษย์ เช่น ระบบสังเคราะห์เสียง งานวิจัยนี้แสดงสถิติการเกิดของการเล่นคำด้วยวิธีซ้ำตัวอักษรจากข้อความในเว็บไซต์เครือข่ายทางสังคมจำนวน 102,586 ชิ้นข้อความ โดยเสนอลักษณะเด่นที่ใช้ในการจำแนกประเภท และกรอบงานสำหรับการจำแนกประเภทเพื่อตรวจจับโทเค็นที่เป็นการเล่นคำด้วยวิธีซ้ำตัวอักษรจากข้อความภาษาไทยในเว็บไซต์เครือข่ายทางสังคม ซึ่งถูกแบ่งเป็นโทเค็นย่อยในระดับคำด้วยเครื่องมือการตัดคำภาษาไทยที่เรียนรู้จากแบบจำลองคอนดิชันแนลแรนดอมฟิลด์ จากนั้นนำเสนอระบบในการแปลงข้อความให้เป็นบรรทัดฐานโดยคำนึงถึงการแปลงเป็นคำอ่าน โดยเสนอวิธีการที่ใช้ในการจัดการโทเค็นที่แตกต่างกัน กรอบงานสำหรับการจำแนกประเภทวิธีการจัดการแปลงให้เป็นบรรทัดฐานที่เหมาะสมกับลักษณะการซ้ำตัวอักษรของโทเค็น ซึ่งจากการวัดผลด้วยชิ้นข้อความจำนวน 48,949 ชิ้นข้อความ แล้วพบว่าระบบตรวจจับการเล่นคำมีความแม่นยำถึง 98.45% ซึ่งมีประสิทธิภาพสูงขึ้นจากการใช้กฎและวิธีเส้นแบ่งฐาน และระบบแปลงให้เป็นบรรทัดฐานสามารถแปลงข้อความที่ตรวจจับได้ได้ถูกต้อง 99.19 % เมื่อตรวจสอบโดยผู้เชี่ยวชาญ |
| URL Website | cuir.car.chula.ac.th |