September 25, 2018 Articles, Big Data No Comments

บทความโดย จรัล งามวิโรจน์เจริญ Chief Data Scientist & VP of Data Innovation Lab Sertis

 

ในปัจจุบัน องค์กรส่วนใหญ่ทั้งภาครัฐและเอกชนต่างก็ให้ความสำคัญกับการนำ Big Data เข้ามาประยุกต์ใช้เพื่อเพิ่มประสิทธิภาพการดำเนินงานและเสริมศักยภาพการดำเนินธุรกิจกันอย่างแพร่หลาย แต่ก็ปฏิเสธไม่ได้ว่าเทรนด์การนำ Big Data มาใช้ยังคงเป็นเรื่องใหม่สำหรับประเทศไทย จากประสบการณ์ของผม พบว่าบางองค์กรยังมองไม่เห็นแนวทางในการตั้งโจทย์เพื่อนำข้อมูลไปใช้ รวมไปถึงยังไม่แน่ใจว่าสิ่งที่ต้องการคืออะไร ส่งผลให้การวัดผลต่างๆ ไม่สามารถสะท้อนผลลัพธ์ที่ต้องการได้ ซึ่งเกิดจากสิ่งที่ผมเรียกว่า “Data Gap” หรือ “ความไม่พร้อมของข้อมูล” โดยสามารถเกิดได้จากความบกพร่องในหลายๆ ปัจจัย ดังนี้

1.การขาดความเป็นหนึ่งเดียวของข้อมูล (Data Consolidation) ปัญหานี้มักจะเกิดขึ้นจากการที่องค์กรทำการซื้อหรือสร้างระบบต่างๆ ในการเก็บข้อมูลแยกกัน โดยไม่ได้คำนึงถึงความเป็นหนึ่งเดียวของข้อมูล ทำให้เกิดการเก็บข้อมูลซ้ำซ้อนกัน เช่น ฝ่ายขายกับฝ่ายการตลาดต่างเก็บชื่อลูกค้าของตัวเองด้วยรูปแบบการเก็บข้อมูล (format) ที่แตกต่างกัน ส่งผลให้เมื่อองค์กรต้องการจะดูเส้นทางหรือขั้นตอนการตัดสินใจซื้อของผู้บริโภค (customer journey) ของลูกค้าคนใดคนหนึ่ง ก็จะไม่สามารถเชื่อมโยงข้อมูลกันได้ เนื่องจากมีการกรอกรายละเอียดของลูกค้าเอาไว้ไม่ตรงกัน ทำให้แบรนด์เสียโอกาสในการส่งมอบประสบการณ์ที่ดีขึ้นให้แก่ลูกค้า (customer experience) รายนั้นนั่นเอง ซึ่งแนวทางการแก้ไขคือต้องรวมชื่อและข้อมูลของลูกค้าให้อยู่ที่เดียวกัน และมีการตกลงกันว่าจะเก็บข้อมูลไว้ที่ส่วนใดเป็นหลัก

2.ความไม่สมบูรณ์ของข้อมูล (Data Incompleteness) เกิดจากลูกค้ากรอกข้อมูลไม่ครบถ้วน (missing data) หรือกรอกข้อมูลแบบไม่เป็นระบบและขาดความสอดคล้อง (inconsistency) เช่น การกรอกที่อยู่ไม่เหมือนเดิม การมีเบอร์โทรศัพท์หลายเบอร์ การกรอกเบอร์โทรศัพท์แบบมีขีดหรือวงเล็บระหว่างตัวเลข การกรอกวันที่ในรูปแบบที่แตกต่างกัน หรือชื่อชาวต่างชาติที่ถูกแปลงเป็นภาษาไทย ซึ่งสิ่งเหล่านี้ล้วนส่งผลกระทบต่อการนำข้อมูลมาใช้งาน วิธีแก้ไขปัญหาดังกล่าวทำได้โดยการกำหนดชุดคำตอบเป็นเมนูให้ลูกค้าเลือกแทนการกรอกข้อมูลหรือคำตอบต่างๆ ด้วยตัวเอง รวมถึงระบุรายการข้อมูลที่จำเป็นต้องกรอก (required field) เพื่อให้ได้ข้อมูลสำคัญจากลูกค้าทุกคนนั่นเอง

นอกจากนี้ การกรอกข้อมูลผิด เช่น ประเภทลูกค้า กิจกรรมและความความพึงพอใจของลูกค้า ก็เป็นอีกหนึ่งปัญหาสำคัญที่เกิดขึ้นบ่อยครั้ง ส่งผลให้เกิดข้อผิดพลาดในการนำข้อมูลไปวิเคราะห์ ซึ่งความผิดพลาดในลักษณะนี้เป็นสิ่งที่สังเกตเห็นได้ยาก หรืออาจไม่สามารถสังเกตเห็นเลย นอกเสียจากผลการวิเคราะห์ข้อมูลดูมีความผิดปกติเกิดขึ้น

3.ขาดการเก็บและดูแลคุณภาพของข้อมูล (Data Collection, Data Governance & Data Quality) ผมเชื่อว่าหลายคนคงเคยได้ยินคำว่า “garbage in, garbage out” หรืออีกนัยหนึ่งก็คือ หากสิ่งที่เอามาใช้งานนั้นด้อยคุณภาพหรือไม่ดีมาตั้งแต่แรก ผลลัพธ์ที่ออกมาก็อาจจะด้อยคุณภาพไปด้วยเช่นกัน

ดังนั้น ทุกแบรนด์ควรมีการวางแผนการเก็บข้อมูล ตลอดจนการแยกแยะและกำหนดความสำคัญของข้อมูล รวมทั้งกำหนดบทบาทเจ้าของข้อมูลและการจัดการข้อมูลอย่างเหมาะสม (data governance) ซึ่งถือเป็นเรื่องสำคัญมาก เพราะบ่อยครั้งที่เราไม่สามารถตอบโจทย์ความต้องการอันหลากหลายของลูกค้าได้เพราะเรามีข้อมูลไม่เพียงพอต่อความต้องการนั่นเอง เช่น อยากรู้ว่าโปรโมชั่นหรือสินค้าแนะนำตัวไหนถูกใจลูกค้ามากที่สุด แต่หากไม่มีการเก็บข้อมูลผลตอบรับ (response) ของลูกค้า ก็จะไม่สามารถนำข้อมูลที่มีอยู่ไปใช้เพื่อคาดการณ์พฤติกรรมการซื้อของลูกค้าในอนาคตได้

และที่สำคัญ การเก็บข้อมูลต้องเก็บให้ดีตั้งแต่ต้นทาง โดยควรมีการกำหนดมาตรฐานในการเก็บข้อมูลให้อยู่ในรูปแบบเดียวกัน เช่น กำหนดให้มีการแยก field ข้อมูลชื่อกับนามสกุลเป็นคนละส่วน และที่อยู่ก็ต้องแบ่ง field การกรอกเป็นบ้านเลขที่ ถนน ตำบล อำเภอ จังหวัด เป็นต้น รวมถึงมีกระบวนการให้พนักงานช่วยตรวจสอบและดูแลระหว่างการกรอกข้อมูลว่าครบถ้วนและถูกต้องหรือไม่

4.ความไม่เป็นกลางของข้อมูล (Bias in Data) ในขั้นตอนการวิเคราะห์ข้อมูลนั้น machine learning model จะเรียนรู้จากสิ่งที่ถูกป้อนเข้าไป ดังนั้นเราควรมีความเป็นกลางต่อการเลือกข้อมูลที่นำมาใช้ในการวิเคราะห์ เช่น หากเราสอนให้ machine learning ตรวจจับภาพมะเร็งผิวหนังเพียงแค่กับคนผิวขาว เมื่อนำไปใช้กับคนที่มีสีผิวอื่น ก็อาจเกิดผลลัพธ์ที่คาดเคลื่อนได้ เพราะฉะนั้น ข้อมูลที่จะนำไปสอนให้ machine learning เรียนรู้ต้องมีความหลากหลายและต้องไม่อคติเฉพาะเจาะจงกับคนประเภทใดประเภทหนึ่งมากเกินไป

5.การบูรณาการใช้ unstructured data โลกของข้อมูลไม่ได้จำกัดแค่ข้อมูลที่อยู่ใน Excel หรือ database เท่านั้น แต่ยังรวมถึงข้อมูลชนิดอื่นๆ เช่น รูปภาพ วิดีโอ เสียง และข้อความบนโซเชียลมีเดีย ที่ถูกนำมาแปลงให้เป็นข้อมูล เพื่อให้ machine learning หรือ AI นำไปวิเคราะห์ได้ ตัวอย่างเช่น ในธุรกิจค้าปลีก (retail industry) อาจนำข้อมูลจากวิดีโอที่บันทึกภาพพฤติกรรมการซื้อสินค้าของลูกค้าภายในร้านมาวิเคราะห์ว่าลูกค้ามีความสนใจสินค้าอะไรบ้าง หรือนำไปใช้ในการจดจำใบหน้าของลูกค้าที่เคยมาที่ร้าน (return customer) เพื่อสร้างการต้อนรับและบริการที่ประทับใจให้แก่ลูกค้าประจำให้ดียิ่งขึ้นนั่นเอง นอกจากนี้ อาจนำเสียงจากบทสนทนาใน call center มาใช้หาว่าลูกค้ามักจะโทรมาสอบถามข้อมูลอะไรบ้าง ซึ่งการนำ unstructured data มาใช้จะทำให้งานวิเคราะห์ข้อมูลมีความหลากหลายและได้ข้อมูลในเชิงลึก (insight) ใหม่ๆ มากขึ้น

6.การดูแลข้อมูลที่ถูกเก็บแต่ไม่ถูกนำมาใช้งาน (Dark Data) เช่น ข้อมูลลูกค้า ข้อมูลจราจรคอมพิวเตอร์ (log file) เสียงบันทึกการสนทนาทางโทรศัพท์ (call record) ข้อมูลจากผลสำรวจ (survey) ข้อมูลโต้ตอบทางอีเมล งานนำเสนอ (presentation) ข้อมูลที่ส่งต่อผ่านเครื่องมืออัตโนมัติ (machine-to-machine) ซึ่งความเป็นจริงแล้ว ข้อมูลเหล่านี้ยังสามารถนำไปใช้ประโยชน์ได้ เช่น server log ที่สามารถนำไปใช้วิเคราะห์พฤติกรรมของคนที่มาดูเว็บไซต์ขององค์กร หรือตำแหน่งการใช้โทรศัพท์มือถืออาจบ่งบอกลักษณะกิจกรรมของลูกค้าได้

นอกจากนี้ ข้อมูลเก่าที่ถูกเก็บไว้ก็เป็นอีกส่วนหนึ่งที่เราสามารถนำไปใช้ประโยชน์ได้เช่นกัน แต่อาจจะต้องเพิ่มความระมัดระวังในการนำข้อมูลลูกค้าฝั่งยุโรปมาใช้ เนื่องจากเมื่อเร็วๆ นี้ EU ได้ออกกฎหมายคุ้มครองข้อมูลที่เรียกว่า GDPR ซึ่งส่งผลกระทบต่อผู้ที่ถือครองข้อมูลของ EU user ในการนำข้อมูลมาใช้งาน เพราะฉะนั้น จะต้องทำการตรวจสอบในกรณีเป็นข้อมูลที่เกี่ยวข้องกับสิทธิคุ้มครองข้อมูลด้วย

7. ความกว้าง ความหลากหลาย และความละเอียดของข้อมูล แม้ว่าหลายๆ องค์กรจะมีข้อมูลเยอะ แต่ส่วนใหญ่กลับเป็นข้อมูลเชิงสถิติ หรือข้อมูลระดับภาพรวม (aggregate data) ซึ่งมีข้อจำกัดในการนำไปใช้งาน เพราะงานวิเคราะห์ หรือทำโมเดลต่างๆ ต้องใช้ข้อมูลที่ลงลึกไปถึงรายละเอียดในระดับกิจกรรมที่เกิดขึ้น (activity or transaction) หรือรายละเอียดข้อมูลรายบุคคล

เพราะฉะนั้น การเก็บข้อมูลต้องเก็บให้ได้ในหลายมิติและมีความละเอียด เช่น ถ้าอยากทำนายว่าลูกค้ามีโอกาสที่จะเลิกใช้บริการมากแค่ไหน ก็ต้องมีข้อมูลของกิจกรรมต่างๆ ที่ลูกค้าใช้บริการเป็นรายชั่วโมง หรือข้อมูลที่ลูกค้าติดต่อเข้ามาแล้วได้รับประสบการณ์หรือการตอบสนองอย่างไรจากองค์กร รวมถึงต้องมีการเก็บข้อมูลในแต่ละหัวข้อให้สามารถนำไปแยกแยะความแตกต่างได้อย่างชัดเจน (variation) เช่น การสำรวจความพึงพอใจของลูกค้าควรแบ่งเป็นหลายระดับ เช่น พอใจมาก ปานกลาง น้อย เพื่อให้สามารถวัดผลได้อย่างชัดเจนและแม่นยำมากยิ่งขึ้น

แม้ว่าการนำ Big Data มาใช้จะยังคงเป็นสิ่งใหม่ในบริบทสังคมไทย แต่หากทุกภาคส่วนมีการเตรียมพร้อมที่ดี สร้างองค์ความรู้ สนับสนุนให้คนในองค์กรเกิดความเข้าใจและปรับตัว นำไปสู่การพัฒนาทักษะ วิธีการทำงานอย่างถูกต้องเหมาะสมแล้ว ผมมองว่านี่เป็นโอกาสสำคัญที่พวกเราจะยกระดับขีดความสามารถของภาคธุรกิจร่วมกัน ผ่านการดึงประสิทธิภาพของ big data มาใช้ให้เกิดประโยชน์สูงสุด เพื่อส่งมอบสินค้า บริการและประสบการณ์ที่สมบูรณ์แบบสู่ลูกค้า รวมไปถึงเป็นอีกก้าวสำคัญสู่การพัฒนาความเป็นอยู่ของคนในสังคมต่อไปได้อย่างยั่งยืนในอนาคต

Written by Sertis Team