การประมวลผลภาษาธรรมชาติ เพื่อปรับปรุงคำผิดที่เกิดจากวิธีการรู้จำอักขระ
รหัสดีโอไอ
Creator 1. สัจจาภรณ์ ไวจรรยา
2. ณัฐโชติ พรหมฤทธิ์
Title การประมวลผลภาษาธรรมชาติ เพื่อปรับปรุงคำผิดที่เกิดจากวิธีการรู้จำอักขระ
Contributor ทวีศักดิ์ คุ้มภักดี
Publisher คณะวิทยาศาสตร์ มหาวิทยาลัยขอนแก่น
Publication Year 2566
Journal Title KKU Science Journal
Journal Vol. 51
Journal No. 2
Page no. 126 - 141
Keyword การแก้ไขคำผิด, การรู้จำอักขระ, การออกเสียงพยางค์ภาษาไทย, การวัดความเหมือนกันของสายอักขระด้วยบลูสกอร์, ลายมือเขียนภาษาไทย
URL Website https://ph01.tci-thaijo.org/index.php/KKUSciJ/article/view/252904
Website title Thai Journal Online (ThaiJO)
ISSN 2586-9531
Abstract บทความนี้นำเสนอการแก้ไขคำผิดที่เกิดขึ้นจากการรู้จำอักขระลายมือเขียนภาษาไทย การรู้จำอักขระลายมือเขียนภาษาไทยนั้นเป็นสิ่งที่ท้าทายเนื่องจากลายมือของคนแต่ละคนเขียนออกมาได้แตกต่างกัน ดังนั้นผลลัพธ์ที่ได้จากการรู้จำอักขระอาจเกิดผลลัพธ์ที่ผิดขึ้นได้แก่ คำที่อ่านออกเสียงไม่ได้หรือได้คำผิดที่ต้องมีการปรับให้ถูกต้อง โดยนำงานด้านการประมวลผลธรรมชาติมาปรับปรุงผลลัพธ์ที่ได้จากการรู้จำอักขระให้ดียิ่งขึ้น มีข้อมูลนำเข้า คือ ข้อความที่ได้จากการรู้จำอักขระลายมือเขียนภาษาไทยไปกรอกที่หน้าเว็บแอปพลิเคชันส่งไปแก้ไขโดยอาศัยความรู้จากหลักการออกเสียงพยางค์ในภาษาไทยมาใช้แก้ไขผลลัพธ์การรู้จำอักขระที่ผิด เมื่อแก้ไขแล้วข้อความนั้นจะถูกนำมารวมกันและหาคำที่มีความเหมือนกัน เริ่มที่พยางค์สูงสุดของคำในภาษาไทยคือ 7 พยางค์ไล่ไปจนถึง 1 พยางค์ โดยต้องมีความเหมือนกันอย่างน้อย 66% ของคำที่มี 1 พยางค์ 80% ของคำที่มี 2 - 3 พยางค์ และ 90% ของคำที่มี 4 พยางค์ขึ้นไปจนถึง 7 พยางค์ โดยใช้ไลบรารีภาษาไพธอน คือ difflib และวัดผลการแก้ไขข้อความโดยใช้ Bleu Score แบบ unigram มาวัดผลการแก้ไขจากข้อความตัวอย่างได้คะแนน 0.66 หลังจากเสร็จสิ้นกระบวนการจะนำผลลัพธ์จากการแก้ไขไปแสดงผลบนหน้าเว็บแอปพลิเคชัน
คณะวิทยาศาสตร์ มหาวิทยาลัยขอนแก่น

บรรณานุกรม

EndNote

APA

Chicago

MLA

ดิจิตอลไฟล์

Digital File
DOI Smart-Search
สวัสดีค่ะ ยินดีให้บริการสอบถาม และสืบค้นข้อมูลตัวระบุวัตถุดิจิทัล (ดีโอไอ) สำนักการวิจัยแห่งชาติ (วช.) ค่ะ