![]() |
การแบ่งประโยคภาษาไทยโดยแคททิกอเรียลแกรมม่าและหลักเกณฑ์ไวยากรณ์ |
---|---|
รหัสดีโอไอ | |
Title | การแบ่งประโยคภาษาไทยโดยแคททิกอเรียลแกรมม่าและหลักเกณฑ์ไวยากรณ์ |
Creator | ณัฐชา ตังศิริรัตน์ |
Contributor | อติวงศ์ สุชาโต, โปรดปราน บุณยพุกกณะ, ชัย วุฒิวิวัฒน์ชัย |
Publisher | จุฬาลงกรณ์มหาวิทยาลัย |
Publication Year | 2555 |
Keyword | ภาษาไทย -- ประโยค, ภาษาไทย -- แคทิกอเรียลแกรมมา, การประมวลผลภาษาธรรมชาติ (คอมพิวเตอร์), Thai language -- Sentences, Thai language -- Categorial grammar, Natural language processing (Computer science) |
Abstract | ประโยคจัดได้ว่าเป็นองค์ประกอบพื้นฐานที่สำคัญมากในงานด้านการประมวลผลข้อความ เช่น การแปลภาษาอัตโนมัติ (Machine translation) การค้นคืนสารสนเทศ (Information retrieval) และการสรุปข้อความ (Text summarization) ประสิทธิภาพของการประมวลผลดังกล่าวขึ้นอยู่กับความถูกต้องของประโยคที่ใช้เป็นสิ่งเข้า (Input) โดยเฉพาะอย่างยิ่งในภาษาไทยซึ่งไม่มีการแสดงการสิ้นสุดประโยคอย่างชัดเจน ดังนั้นวิทยานิพนธ์นี้จึงเสนอ การใช้แคททิกอเรียลแกรมม่า จำนวนคำระหว่างการเว้นวรรคที่พิจารณากับการเว้นวรรคใกล้เคียง และจำนวนคำระหว่างการเว้นวรรคที่กำลังพิจารณากับจุดสิ้นสุดของข้อความ เป็นลักษณะสำคัญในระเบียบวิธีทางสถิติและเสนอการประยุกต์ใช้กฎบางส่วนจากหลักเกณฑ์การใช้เครื่องหมายวรรคตอน และหลักเกณฑ์การเว้นวรรคที่กำหนดโดยราชบัณฑิตยสถาน เพื่อเพิ่มความถูกต้องให้กับผลลัพท์ที่ได้จากระเบียบวิธีเรียนรู้ทางสถิติ เพื่อแก้ปัญหาการแบ่งประโยคภาษาไทย โดยการทดลองได้ใช้ข้อความและการกำกับข้อความจากฐานข้อมูล Thai speech corpus for speech synthesis (TsynC) และได้ผลการทดลองดังนี้ ความถูกต้องของการแบ่งประโยค (sentence-break-recall) เท่ากับ 84.11% ความถูกต้องโดยรวม (space-correct) เท่ากับ 93.54% และความผิดพลาดของการแบ่งประโยค (false-break) เท่ากับ 2.99% |
URL Website | cuir.car.chula.ac.th |