|
การประมวลผลภาษาธรรมชาติ เพื่อปรับปรุงคำผิดที่เกิดจากวิธีการรู้จำอักขระ |
|---|---|
| รหัสดีโอไอ | |
| Creator | 1. สัจจาภรณ์ ไวจรรยา 2. ณัฐโชติ พรหมฤทธิ์ |
| Title | การประมวลผลภาษาธรรมชาติ เพื่อปรับปรุงคำผิดที่เกิดจากวิธีการรู้จำอักขระ |
| Contributor | ทวีศักดิ์ คุ้มภักดี |
| Publisher | คณะวิทยาศาสตร์ มหาวิทยาลัยขอนแก่น |
| Publication Year | 2566 |
| Journal Title | KKU Science Journal |
| Journal Vol. | 51 |
| Journal No. | 2 |
| Page no. | 126 - 141 |
| Keyword | การแก้ไขคำผิด, การรู้จำอักขระ, การออกเสียงพยางค์ภาษาไทย, การวัดความเหมือนกันของสายอักขระด้วยบลูสกอร์, ลายมือเขียนภาษาไทย |
| URL Website | https://ph01.tci-thaijo.org/index.php/KKUSciJ/article/view/252904 |
| Website title | Thai Journal Online (ThaiJO) |
| ISSN | 2586-9531 |
| Abstract | บทความนี้นำเสนอการแก้ไขคำผิดที่เกิดขึ้นจากการรู้จำอักขระลายมือเขียนภาษาไทย การรู้จำอักขระลายมือเขียนภาษาไทยนั้นเป็นสิ่งที่ท้าทายเนื่องจากลายมือของคนแต่ละคนเขียนออกมาได้แตกต่างกัน ดังนั้นผลลัพธ์ที่ได้จากการรู้จำอักขระอาจเกิดผลลัพธ์ที่ผิดขึ้นได้แก่ คำที่อ่านออกเสียงไม่ได้หรือได้คำผิดที่ต้องมีการปรับให้ถูกต้อง โดยนำงานด้านการประมวลผลธรรมชาติมาปรับปรุงผลลัพธ์ที่ได้จากการรู้จำอักขระให้ดียิ่งขึ้น มีข้อมูลนำเข้า คือ ข้อความที่ได้จากการรู้จำอักขระลายมือเขียนภาษาไทยไปกรอกที่หน้าเว็บแอปพลิเคชันส่งไปแก้ไขโดยอาศัยความรู้จากหลักการออกเสียงพยางค์ในภาษาไทยมาใช้แก้ไขผลลัพธ์การรู้จำอักขระที่ผิด เมื่อแก้ไขแล้วข้อความนั้นจะถูกนำมารวมกันและหาคำที่มีความเหมือนกัน เริ่มที่พยางค์สูงสุดของคำในภาษาไทยคือ 7 พยางค์ไล่ไปจนถึง 1 พยางค์ โดยต้องมีความเหมือนกันอย่างน้อย 66% ของคำที่มี 1 พยางค์ 80% ของคำที่มี 2 - 3 พยางค์ และ 90% ของคำที่มี 4 พยางค์ขึ้นไปจนถึง 7 พยางค์ โดยใช้ไลบรารีภาษาไพธอน คือ difflib และวัดผลการแก้ไขข้อความโดยใช้ Bleu Score แบบ unigram มาวัดผลการแก้ไขจากข้อความตัวอย่างได้คะแนน 0.66 หลังจากเสร็จสิ้นกระบวนการจะนำผลลัพธ์จากการแก้ไขไปแสดงผลบนหน้าเว็บแอปพลิเคชัน |