หากมีอุปกรณ์ที่สามารถจับการเคลื่อนไหวของท่าทาง ใบหน้า และมือได้แบบเรียลไทม์ เราก็จะสามารถนำอุปกรณ์นั้นไปต่อยอดไปเป็นนวัตกรรมใหม่ได้มากมาย เช่น การวิเคราะห์การออกกำลังกายและการเล่นกีฬา การสั่งการด้วยท่าทาง การตรวจจับภาษากาย การสร้างเอฟเฟคในแอปพลิเคชัน เช่น Instagram Strory ด้วยเทคโนโลยี AR (Augmented Reality) ซึ่งเดิมทีอุปกรณ์รูปแบบนี้พัฒนาได้ยากมาก เพราะจำเป็นต้องใช้ระบบการอนุมานแบบพร้อมกัน (Simultaneous inference) จากโครงข่ายประสาทเทียมแบบหลายชั้นที่ทำงานโดยใช้ตัวแปรตาม (Multiple, dependent neural networks)
ก่อนหน้านี้ Google ได้ออกแบบ MediaPipe แพลตฟอร์ม AI แบบ Open source ที่สามารถใช้เป็น Pipeline ตรวจจับและรับรู้ใบหน้า มือ และท่าทางที่มีความซ้บซ้อน โดยใช้การเร่งความเร็วในการระบุและประมวลผล จึงออกมาเป็นโซลูชันที่แม่นยำและรวดเร็ว ตอนนี้ Google AI ได้พัฒนาไปอีกขั้น และพร้อมแนะนำให้ทุกคนรู้จักกับ “MediaPipe Holistic” โซลูชันที่จะทำให้อุปกรณ์ที่ตรวจจับร่างกายได้หลายส่วนพร้อมกันสามารถพัฒนาขึ้นได้จริง
MediaPipe Holistic คือโทโปโลยีล้ำสมัยที่สามารถตรวจจับท่าทาง มือ และใบหน้าของมนุษย์ในเวลาเดียวกัน และรองรับการใช้งานในแบบที่ไม่เคยมีแพลตฟอร์มไหนทำได้มาก่อน โซลูชันนี้จะใช้ Pipeline แบบใหม่ที่ประกอบด้วยการตรวจจับท่าทาง หน้า และมือที่ปรับแต่งให้ดีที่สุดเพื่อให้ทำงานได้เรียลไทม์ โดยใช้การโอนถ่ายหน่วยความจำระหว่าง Inteference Backend ซึ่ง Pipeline จะรวมรูปแบบการปฏิบัติการและการประมวลผลที่แตกต่างกันตามการตรวจจับภาพแต่ละส่วนเข้าด้วยกัน และจะได้เป็นโซลูชันแบบครบวงจรที่ใช้งานได้แบบเรียลไทม์และสม่ำเสมอ
MediaPipe Holistic ใช้การทำงานแลกเปลี่ยนกันระหว่างการตรวจจับทั้งสามจุด โดยประสิทธิภาพของการทำงานจะขึ้นอยู่กับความรวดเร็วและคุณภาพของการแลกเปลี่ยนข้อมูล เมื่อรวมการตรวจจับทั้งสามเข้าด้วยกัน จะได้เป็นโทโปโลยีที่ทำงานร่วมกันเป็นหนึ่งเดียว โดยสามารถจับ Keypoints ของภาพเคลื่อนไหวได้ถึง 540+ จุด (ส่วนของท่าทาง 33 จุด มือข้างละ 21 จุด และส่วนใบหน้า 468 จุด) ซึ่งเป็นระดับที่ไม่เคยทำได้มาก่อน และสามารถประมวลผลได้เกือบจะเรียลไทม์ในการแสดงผลทางโทรศัพท์มือถือ
MediaPipe Holistic เปิดตัวเป็นหนึ่งในซอฟต์แวร์ของแพลตฟอร์ม MediaPipe และรองรับการใช้งานทั้งในโทรศัพท์มือถือ (ทั้งระบบ Android และ iOS) และบนคอมพิวเตอร์ นอกจากนี้ Google ยังเปิดให้ใช้ MediaPipe APIs แบบพร้อมใช้งาน สำหรับการใช้งานกับ Python และ JavaScript เพื่อทำให้เทคโนโลยีนี้เข้าถึงได้ง่ายมากขึ้น
การทำงานของ MediaPipe Holistic
MediaPipe Holistic ประมวลโดยการนำโมเดลของท่าทาง ใบหน้า และมือมารวมกัน ซึ่งทั้งสามส่วนได้รับการปรับคุณภาพให้เข้ากับโดเมนของตนเองที่สุด แต่เนื่องจากลักษณะการทำงานเฉพาะของสามส่วนที่ต่างกัน ทำให้ข้อมูลที่ใช้ได้ดีกับส่วนหนึ่งอาจไม่เข้ากับส่วนอื่น ยกตัวอย่างเช่น โมเดลการระบุท่าทาง อาจจะต้องการเฟรมวิดีโอที่มีความละเอียดที่ต่ำ แต่เมื่อต้องตัดส่วนของมือและหน้าจากภาพเพื่อส่งต่อไปยังโมเดลต่อไป ความละเอียดของภาพก็อาจจะต่ำเกินไปจนไม่สามารถประมวลผลได้แม่นยำ ด้วยเหตุนี้ MediaPipe Holistic จึงออกแบบมาในรูปแบบของ Pipeline ที่มีหลายขั้นตอน ซึ่งประมวลในแต่ละส่วนโดยใช้ความละเอียดภาพที่แตกต่างกัน อันดับแรก MediaPipe Holistic จะระบุท่าทางของมนุษย์โดยใช้โมเดลตรวจจับท่าทางและโมเดลระบุ Keypoint หลังจากนั้นจึงนำ Keypoint ที่ระบุได้มาแบ่งออกเป็น 3 จุดสนใจ (Region of Interest: ROI) ครอปตัดส่วนที่เป็นแขน 2 ข้าง และส่วนหน้า แล้วจึงใช้ส่วนที่ครอปออกมาแทนเพื่อเพิ่มความละเอียดของจุดนั้น จากนั้น Pipeline จะทำการครอปเฟรมที่มีความละเอียดสูงสุดของจุด ROI ทั้งสองจุด แล้วจึงใช้กับโมเดลที่ตรวจจับส่วนของใบหน้าและมือเพื่อระบุตำแหน่ง Keypoints ตามส่วนต่าง ๆ และขั้นตอนสุดท้ายจะเป็นการนำ Keypoint ที่ได้มารวมกับ Keypoint ของโมเดลท่าทางในตอนต้น รวมกันเป็น 540 keypoint+ การจะทำให้การระบุ ROI มีประสิทธิภาพขึ้นนั้น ต้องใช้ระบบตรวจจับแบบเดียวกับระบบที่ใช้ในอุปกรณ์ที่ตรวจจับใบหน้าหรือแขนเพียงอย่างเดียว ซึ่งจะใช้การอนุมานว่าวัตถุที่ตรวจจับไม่ได้มีการขยับมากนัก โดยจะใช้เฟรมก่อนหน้าเพื่อคาดการณ์การระบุตำแหน่งของวัตถุในเฟรมต่อไป อย่างไรก็ตาม ถ้าวัตถุขยับเร็วเกินไป ตัวติดตามตำแหน่งอาจผิดพลาด ซึ่งทำให้ตัวตรวจจับอาจต้องตรวจจับตำแหน่งในภาพใหม่อีกครั้ง MediaPipe Holistic จะใช้การคาดการณ์ท่าทางในทุก ๆ เฟรมล่วงหน้าไว้เป็นเสมือนจุด ROI เสริมไว้ก่อนตั้งแต่แรกเพื่อลดระยะเวลาในการตอบสนองของ Pipeline เวลาที่พบการเคลื่อนไหวที่รวดเร็วเกินไป นอกจากนี้วิธีนี้ยังช่วยให้โมเดลสามารถรักษาความสอดคล้องกันได้ทั่วทั้งรูปร่างและป้องกันไม่ให้เกิดความสับสนระหว่างมือซ้ายและมือขวา หรือส่วนที่ต่างกันของร่างกายในแต่ละเฟรม นอกจากนี้โดยปกติแล้วความละเอียดของเฟรมตรวจจับท่าทางนั้นจะต่ำเกินไปทำให้จุด ROI ของหน้าและมือนั้นมีความแม่นยำน้อยไป จนไม่สามารถให้แนวทางในการครอปตัดส่วนนั้นได้ ทำให้ต้องใช้โมเดลในการครอปตัดส่วนหน้าและมือที่มีขนาดเล็กแต่แม่นยำ เพื่อที่จะลดช่องว่างในเรื่องความแม่นยำระหว่างส่วนตัวและส่วนของมือกับใบหน้า โมเดลที่มีขนาดเล็กจะทำหน้าที่เป็นตัวแปลงพื้นที่ (Spatial Transformer) และยังใช้เวลาในการประมวลผลโมเดลน้อยลง 10 เปอร์เซ็นต์ ประสิทธิภาพการทำงาน MediaPipe Holistic จำเป็นต้องใช้การทำงานร่วมกันระหว่าง 8 โมเดลต่อเฟรม แบ่งเป็น โมเดลตรวจจับท่าทาง 1 โมเดล โมเดลตรวจจับ Landmark ของท่าทาง 1 โมเดล โมเดล re-crop เพื่อครอปรูปใหม่ 3 โมเดล และโมเดลในการระบุ Keypoint สำหรับมือและใบหน้าอีก 3 โมเดล ซึ่งในระหว่างที่ Google พัฒนาโซลูชันนี้ พวกเขาได้ใช้ทั้ง Machine Learning และ Algorithm ในการคำนวณทั้งก่อนและหลังการประมวลผล ซึ่งโดยปกติแล้วการประมวลผลจะใช้เวลาค่อนข้างมากเนื่องจากความซับซ้อนของ Pipeline แต่ในกรณีของ MediaPipe Holistic พวกเขาได้ย้ายกระบวนการการคำนวณช่วงก่อนเริ่มดำเนินงานทั้งหมดไปไว้ที่ GPU ทำให้ Pipeline สามารถทำงานได้เร็วขึ้นโดยเฉลี่ย 1.5 เท่า แต่อาจจะแตกต่างกันไปบ้างในแต่ละอุปกรณ์ ดังนั้น MediaPipe Holistic จึงสามารถทำงานได้เกือบจะเรียลไทม์ แม้กระทั่งในอุปกรณ์ระดับกลางและในเบราว์เซอร์ คุณสมบัติของ Pipeline ที่ประกอบด้วยการทำงานหลายขั้นตอนนั้นช่วยเพิ่มประสิทธิภาพในการได้ใน 2 ส่วน หนึ่งคือเนื่องจากโมเดลส่วนมากเป็นโมเดลที่ทำงานแบบอิสระ จึงสามารถใช้โมเดลเวอร์ชันที่เล็กลงหรือใหญ่ขึ้นก็ได้ ขึ้นอยู่กับความแม่นยำและประสิทธิภาพที่ต้องการ หรือจะปิดโมเดลนั้นไปเลยก็ได้ และสองคือเมื่ออุปกรณ์สามารถตรวจจับท่าทางได้ ก็จะสามารถคาดเดาได้ว่ามือกับหน้าอยู่ในพื้นที่เฟรมที่เชื่อมต่อกันด้วยหรือไม่ ทำให้ Pipeline สามารถข้ามขั้นตอนการระบุส่วนเหล่านั้นไปได้ การนำ MediaPipe Holistic ไปต่อยอด
Google มุ่งหวังให้ MediaPipe Holistic ช่วยให้การตรวจจับภาษากาย ท่าทาง และการแสดงออกทางสีหน้าในเวลาเดียวกันนั้นเป็นไปได้ ซึ่งจะช่วยให้การสั่งการด้วยท่าทาง ระบบ AR แบบเต็มตัว การวิเคราะห์ทางกีฬา และการตรวจจับภาษามือเกิดขึ้นได้จริง
Google ได้จำลอง Interface ที่ใช้การสั่งการแบบควบคุมระยะไกลขึ้นเพื่อแสดงประสิทธิภาพของ MediaPipe Holistic โดย Interface นี้จะทำงานในเบราว์เซอร์ของผู้ใช้ ผู้ใช้สามารถควบคุมวัตถุบนหน้าจอ และพิมพ์ลงบนคีย์บอร์ดเสมือนจริงได้ในขณะที่นั่งอยู่บนโซฟา โดยไม่ต้องใช้คีย์บอร์ดและเมาส์จริง และสามารถแตะส่วนที่กำหนดเพื่อปิดกล้องหรือปิดเสียงได้ นอกจากนี้ยังมีระบบตรวจจับมือที่ใช้แทน Trackpad โดยจะตรวจจับไปที่ไหล่ของผู้ใช้งาน ทำให้ควบคุมการสั่งการทางไกลได้ถึง 4 เมตร
เทคนิคการควบคุมและสั่งการด้วยท่าทางนี้จะช่วยให้เราก้าวข้ามไปอีกระดับ และเปิดโอกาสให้เราได้ใช้นวัตกรรมใหม่ ๆ ที่อุปกรณ์อื่นทำไม่ได้
สามารถทดลองใช้ได้ที่ MediaPipe Holistic Interface จาก Google ได้ที่: https://mediapipe.dev/demo/holistic_remote/
MediaPipe สำหรับการวิจัยและการใช้ในเว็บไซต์
MediaPipe ได้เปิดตัว Machine Learning เวอร์ชันที่พร้อมใช้งานและปรับแต่งได้ในรูปแบบ Python และ JavaScript เพื่อให้นักวิจัยด้าน Machine Learning และนักพัฒนาเว็บใช้ประโยชน์ได้เต็มที่ โดยนอกจากตัว MediaPipe Holistic แล้วยังมีซอฟต์แวร์ที่ใช้เฉพาะกับใบหน้า ท่าทาง และมืออีกด้วย และยังมีซอฟต์แวร์อื่น ๆ อีกมากที่เตรียมพร้อมจะเปิดตัวตามมาให้รอชม
โดย Google มุ่งหวังให้การเปิดตัว MediaPipe Holistic ครั้งนี้เป็นแรงบันดาลใจให้นักพัฒนาได้สร้างแอปพลิเคชันใหม่ ๆ สร้างพื้นที่ให้งานวิจัยในอนาคต และเปิดโอกาสให้สามารถสร้างนวัตกรรมใหม่ เช่น การตรวจจับภาษากาย การสั่งการโดยไม่ต้องสัมผัส หรือนวัตกรรมที่ซับซ้อนขึ้นได้ต่อไป
Comentários