เป็นที่รู้กันดีว่าข้อมูลทุกวันนี้มีจำนวนมหาศาล ทุกธุรกิจต่างมีข้อมูลอยู่ในมือ ซึ่งข้อมูลส่วนใหญ่ที่ทุกคนนึกถึงอยู่ตอนนี้คงนี้ไม่พ้นข้อมูลที่ถูกบันทึกในระบบของบริษัท เช่น ข้อมูลการซื้อขายสินค้า ราคา หรือ Transaction ต่างๆ แต่แท้จริงแล้วยังมีข้อมูลในรูปแบบอื่นๆอีกที่สามารถนำมาใช้ประโยชน์ได้ เช่น ข้อมูลในรูปแบบของตัวอักษรจากข้อความ คอมเมนต์ต่างๆบน Social Media หรือข้อมูลในรูปแบบของเสียงจากการบันทึกบทสนทนาผ่าน Call Center ซึ่งหากเรานำข้อมูลเหล่านี้มาใช้ก็จะช่วยให้เราสามารถวิเคราะห์ความต้องการของลูกค้า คาดการณ์พฤติกรรมลูกค้า หรือวางแผนกลยุทธ์การขายได้ดียิ่งขึ้น

แต่ก่อนที่เราจะนำข้อมูลเหล่านี้มาใช้ประโยชน์ เราจำเป็นจะต้องสอนให้คอมพิวเตอร์เข้าใจถึงภาษาของเราเสียก่อน ทั้งเรื่องของตัวอักษร พยัญชนะ สระ วรรณยุกต์ คำศัพท์ ความหมาย รูปแบบของประโยค รวมถึงบริบทต่างๆ เพื่อให้คอมพิวเตอร์เข้าใจเงื่อนไขของภาษา จึงจะสามารถทำการแยกแยะหรือตัดคำศัพท์ที่อยู่ในประโยค (Word Segmentation) เพื่อแปลงเป็นความหมายของคำศัพท์และประโยคนั้นๆ โดยปัจจุบันวิธีที่นิยมใช้สร้างโมเดลดังกล่าวคือการใช้ Artificial Neural Networks (ANN) และ Deep Learning ซึ่งหากข้อความนั้นเป็นภาษาอังกฤษจะง่ายต่อการตัดคำ เนื่องจากเป็นภาษาที่มีการเว้นวรรคระหว่างคำและมีสัญลักษณ์คั่นระหว่างประโยคอย่างชัดเจน

แต่ภาษาส่วนใหญ่ในเอเชียตะวันออก เช่น จีน ญี่ปุ่น รวมทั้งไทย จะมีรูปแบบการเขียนที่ตัวอักษรทุกตัวติดกันหมด รวมถึงการตีความหมายจากประโยคในภาษาไทยยังขึ้นกับบริบท (Context) ด้วย เช่น “วันนี้อากาศร้อนเลยมานั่งตากลม” และ “ผู้หญิงคนนั้นสวยเพราะมีดวงตากลมโต” การวางตัวอักษรในรูปแบบเดียวกันแต่มีความหมายที่แตกต่าง ประโยคแรกคือ “ตาก-ลม” ส่วนประโยคที่สองคือ “ตา-กลม” ซึ่งเราจะรู้ได้ก็ต่อเมื่อสังเกตบริบทอื่นๆในประโยค แน่นอนว่าการตีความลักษณะนี้เป็นเรื่องง่ายสำหรับมนุษย์ (ชาวไทย) แต่ไม่ใช่สำหรับคอมพิวเตอร์เสียทีเดียว นี่จึงเป็นความท้าทายของผู้พัฒนาโมเดลสำหรับตัดคำภาษาไทยที่ใช้ ANN และ Deep Learning

ทีม Data Scientist ของ Sertis นำทีมโดย Jussi Jousimo, Team Lead Data Science ได้ทำการคิดค้นโมเดลสำหรับตัดคำในภาษาไทยขึ้น (อ่านรายละเอียดการทำงานของ bi-directional RNN โดย Jussi Jousimo) โดยการใช้ Recurrent Neural Networks (RNN) ซึ่งเป็นศาสตร์แขนงหนึ่งของ ANN หนึ่งในโมเดลประสิทธิภาพสูงสุดในบรรดา Natural Language Processing (NLP) ซึ่ง Data Scientist ของ Wongnai ก็ได้นำโมเดลการตัดคำของ Sertis ไปใช้ช่วยตัดคำภาษาไทยเพื่อพัฒนาระบบ Search Engine บนแอพพลิเคชั่น Wongnai อีกด้วย (อ่านบทความ พัฒนาระบบ Search ของ Wongnai ด้วยตัวตัดคำจาก Machine learning)

นอกจากนี้ ทีม Data Science ของ Sertis ยังมีแผนพัฒนาโมเดลตัดคำนี้ให้สามารถตัดประโยคได้ด้วย ในกรณีที่ข้อมูลเป็นรูปแบบบทความ หรือมีหลายย่อหน้า เพื่อสร้างระบบการทำงานของโมเดลที่มีประสิทธิภาพและแม่นยำมากยิ่งขึ้น

Written by Sertis Team