เบื้องหลัง AI แต่งรูปสุดล้ำ ทำงานอย่างไร?

Anantaya Pornwichianwong

25 ก.ค. 2566

ในช่วงที่ผ่านมาเกิดกระแสที่มาแรงเป็นอย่างยิ่งเกี่ยวกับเอไอที่ใช้สร้างและปรับแต่งรูปภาพประเภทต่าง ๆ มากมาย ไม่ว่าจะเป็น Midjourney หรือ DALL·E ที่สามารถสร้างสรรค์ภาพใหม่จากคำบรรยายได้ หรือ Photoshop Beta ที่สามารถเติมวัตถุและขยายพื้นหลังได้อย่างแนบเนียนจนน่าตกใจ และที่เพิ่งเป็นปรากฏการณ์บนโลกโซเชียลในช่วงที่ผ่านมา คือเอไอจากแอปพลิเคชัน Snow ที่เปลี่ยนภาพของเราให้กลายเป็นไอดอลเกาหลี ที่ดูเหมือนถ่ายมาจากสตูดิโอมืออาชีพ ซึ่งออกมาสวยจนหลาย ๆ คนนำไปใช้เป็นภาพโปรไฟล์เลยทีเดียว

ในฐานะของบริษัทเทคโนโลยีที่ให้ความสำคัญกับการรู้เท่าทันและใช้เทคโนโลยีให้เกิดประโยชน์อย่างเหมาะสม เซอร์ทิสสนับสนุนให้ทุกคนได้สนุกกับเทคโนโลยีใหม่ ๆ ไปพร้อมกับทำความเข้าใจเบื้องหลังการทำงานและข้อควรระวังของเทคโนโลยีเหล่านั้น

ในบทความนี้เซอร์ทิสจึงขอพาทุกคนไปทำความเข้าใจการทำงานของเอไอเบื้องหลังแอปพลิเคชันเหล่านี้ ไม่ว่าจะเป็น AI Image Generator, Generative Fill AI, และ Face Transformation AI เพื่อให้เราก้าวทันโลกได้มากกว่าเดิม

เอไอสร้างและปรับแต่งรูปภาพได้อย่างไร?

เอไอที่ใช้สร้างและปรับแต่งรูปภาพ แท้จริงแล้วแบ่งออกเป็นหลากหลายรูปแบบ ไม่ว่าจะเป็น การสร้างภาพใหม่จากคำบรรยายที่เราป้อนเข้าไป การต่อเติมเพิ่มจากภาพเดิม และการปรับแต่งภาพเดิม เช่น การปรับใบหน้าคนให้ดูแก่ลง

โดยในบทความนี้เราจะแบ่งเอไอที่ทำงานกับรูปภาพเหล่านี้ออกเป็น 3 ประเภทใหญ่ ๆ ได้แก่ เอไอที่สร้างรูปภาพขึ้นมาใหม่ (AI Image Generator) เอไอที่ปรับแต่งและเพิ่มเติมจากภาพเดิม (Generative Fill AI) และเอไอที่ปรับแต่งใบหน้าเรา (Face Transformation AI)

ไปดูพร้อม ๆ กันเลยว่าเอไอในแต่ละรูปแบบทำงานอย่างไรกันบ้าง?

AI Image Generator

เอไอที่สร้างรูปขึ้นมาใหม่จากคำบรรยายอย่าง Midjourney หรือ DALL·E นั้น จัดอยู่ในเอไอประเภทนี้ โดยโมเดลจะได้รับการเทรนให้เรียนรู้รูปภาพและคำบรรยายหรือคำบอกชื่อ (Label) ของรูปต่าง ๆ จำนวนมหาศาล เช่น ภาพโต๊ะ พร้อมคำบรรยาย ‘โต๊ะ’

เอไอประเภทนี้จะรู้ว่าสิ่งของต่าง ๆ หน้าตาเป็นอย่างไร เช่น หากเจอคำว่า ‘แอปเปิล’ ก็จะรู้ว่าหมายถึงผลไม้สีแดงกลม ๆ ไปจนถึงขั้นที่รู้ว่าภาพของแวนโก๊ะ (Van Gogh) มีลักษณะเด่นอย่างไร รวมถึงยังได้เรียนรู้รูปแบบองค์ประกอบภาพต่าง ๆ ว่าต้องจัดเรียงกันอย่างไรให้ดูสมจริงอีกด้วย เมื่อเราป้อนคำบรรยายลงไป เอไอก็จะวิเคราะห์คำบรรยายของเราว่ามีองค์ประกอบอะไรบ้าง และสร้างภาพใหม่ขึ้นมาตามความเข้าใจ โดยยึดจากข้อมูลที่เรียนรู้มา

จุดเด่นที่สำคัญคือเอไอไม่ได้นำภาพเก่า ๆ ที่เคยเรียนรู้มาตัดแปะกัน แต่เป็นการสร้างสรรค์ภาพใหม่ขึ้นมาเลยจากความเข้าใจที่เคยเรียนรู้มา แบบเดียวกับที่มนุษย์เราวาดภาพขึ้นมาจากจินตนาการและความเข้าใจในบริบทรอบตัว เช่น ‘ภาพคนเดินกางร่มสีเหลืองในคืนที่ฝนตก’ เอไอก็จะเรียนรู้ว่าในภาพต้องมีคน ร่มสีเหลือง และอยู่ในฉากกลางคืนที่ฝนตก จากนั้นเอไอก็จะสร้างวัตถุต่าง ๆ ในภาพตามที่เข้าใจ โดยออกแบบวัตถุเหล่านั้นให้เป็นรูปแบบเฉพาะที่เหมาะกับภาพ โทนสี และบรรยากาศ ทำให้ได้ภาพใหม่ที่ไม่เหมือนใครขึ้นมา

Generative Fill AI

เอไอที่กำลังเป็นที่พูดถึงเป็นอย่างมากในฐานะฟีเจอร์ใหม่ของ Photoshop Beta คือเอไอที่เรียกว่า Generative Fill ซึ่งมีความสามารถในการเติมวัตถุ ลบวัตถุ สร้างพื้นหลัง และขยายพื้นหลังของรูปได้อย่างชาญฉลาด โดยโมเดลจะได้รับการเทรนให้เรียนรู้จากภาพจำนวนมหาศาลเพื่อให้รู้จักวัตถุต่าง ๆ และเข้าใจความแตกต่างของภาพแต่ละภาพ

ในขั้นตอนการปรับแต่งภาพ เอไอจะเริ่มต้นด้วยการวิเคราะห์ภาพ ระบุพื้นที่ที่ได้รับคำสั่งให้แก้ไข จากนั้นทำการสร้างวัตถุใหม่ที่กลมกลืนและสอดคล้องกับภาพดั้งเดิมขึ้นมา

โดยถ้าเราสั่งให้เอไอเติมวัตถุเข้าไป เอไอก็จะวิเคราะห์ภาพดั้งเดิมก่อน และสร้างวัตถุตามที่เราบอกขึ้น โดยออกแบบวัตถุให้มีรูปร่าง โทนสี ลักษณะ หรือแม้แต่เงา ที่เหมาะกับภาพดั้งเดิม เพื่อให้เติมเข้าไปในพื้นที่ที่เราเลือกได้เนียนที่สุด

หรือถ้าหากจะลบวัตถุในภาพออก เช่น หากเราต้องการลบคนจากถนน เราก็สามารถเลือกส่วนที่ต้องการลบ จากนั้นเอไอก็จะวิเคราะห์ลักษณะของพื้นหลัง ดูว่าถนนมีสีอะไร ลักษณะเป็นอย่างไร แสงเป็นอย่างไร สีตึกและท้องฟ้าส่วนอื่น ๆ เป็นอย่างไร เพื่อทำการเชื่อมโยง และสร้างภาพขึ้นมาเติมเต็มส่วนที่หายไปให้แนบเนียนที่สุด

ในกรณีของการขยายพื้นหลังก็เช่นกัน เอไอไม่อาจรู้ได้ว่าสถานที่จริงในภาพเป็นอย่างไร แต่เอไอจะใช้การคาดเดาบนพื้นฐานของข้อมูลที่เรียนรู้ และจากภาพดั้งเดิมว่าพื้นหลังควรจะขยายต่อไปอย่างไร เช่น ต้นไม้ในภาพน่าจะขยายก้านออกไปเป็นรูปแบบไหน ถนนจะทอดต่อออกไปอย่างไร เพื่อสร้างภาพต่อขยายที่สมบูรณ์แบบให้เรา

Face Transformation AI

สำหรับเอไอที่อยู่เบื้องหลังฟีเจอร์ยอดฮิตที่สามารถปรับแต่งหน้าคน เราเรียกเอไอประเภทนี้ว่า Face Transformation เช่น เอไอที่เปลี่ยนภาพของเราให้กลายเป็นสาวเกาหลีอย่างในแอปพลิเคชัน Snow หรือปรับแต่งใบหน้าของเราให้แก่ลงไปหลายสิบปีอย่างในแอปพลิเคชัน FaceApp ซึ่งเป็นแอปพลิเคชันยอดฮิตในหลายปีที่ผ่านมา เอไอประเภทนี้ทำงานด้วยการใช้โมเดล Deep Learning และ Computer Vision ร่วมกัน โดยการจะปรับแต่งใบหน้าคนให้เปลี่ยนแปลงไปตามเป้าหมายนั้น มีขั้นตอนดังต่อไปนี้

ในขั้นตอนแรก เอไอจะต้องได้รับการเทรนและเรียนรู้จากข้อมูลของภาพปลายทางจำนวนมหาศาล เช่น หากจะเปลี่ยนใบหน้าเราเป็นภาพอนิเมะ เอไอก็จะต้องเรียนรู้ภาพอนิเมะจำนวนมหาศาลก่อนเพื่อให้จดจำลักษณะเด่นของภาพชนิดนี้ได้ หลังจากนั้น เมื่อเราอัปโหลดภาพใบหน้าของเราลงไปในระบบ เอไอจะทำการตรวจจับใบหน้าด้วย Face Recognition และทำการ Feature Extraction หรือดึงข้อมูลของจุดเด่นและเอกลักษณ์ของใบหน้าเรา เช่น ดวงตา จมูก ปาก ซึ่งจะเป็นส่วนสำคัญที่จะต้องคงความโดดเด่นไว้ในรูปภาพปลายทาง เพื่อให้ได้ภาพที่ดูออกได้ทันทีว่าเป็นตัวเรา

จากนั้น เอไอจะทำการ Mapping และ Manipulation คือการเรียนรู้ความเชื่อมโยงระหว่างส่วนต่าง ๆ ของใบหน้า และสร้างแผนที่ของใบหน้าเรา เพื่อนำมาปรับใช้บนภาพปลายทาง เมื่อวางแผนที่ของใบหน้าเราบนภาพปลายทางแล้ว เอไอจะทำการปรับลักษณะต่าง ๆ บนใบหน้าให้สอดคล้องกับลักษณะที่ต้องการให้เป็น เช่น ปรับรูปตา ขนาด และตำแหน่งให้เป็นสไตล์ที่ดูเป็นภาพอนิเมะ หรือเพิ่มริ้วรอยที่ดวงตาให้ดูมีอายุ แต่ยังคงเอกลักษณ์และลักษณะเด่นตามแผนที่ของใบหน้าเราไว้

จากนั้นจึงใช้เทคนิค Style Transfer ในการทำให้ภาพตรงตามเป้าหมายมากขึ้น เช่น เพิ่มลักษณะบางอย่าง หรือองค์ประกอบภาพ เช่น พื้นหลัง หรือวัตถุในภาพ ที่ทำให้ภาพออกมาตรงตามเป้าหมายและดูสวยงามมากขึ้น เมื่อปรับลักษณะทั้งหมดได้ตรงตามต้องการแล้ว เอไอก็จะสร้างภาพปลายทาง เช่น ภาพใบหน้าของเราในแบบคาแรคเตอร์อนิเมะ ไอดอลเกาหลี หรือภาพที่ดูแก่ลงไปสี่สิบปี ออกมาให้เราตามต้องการ

เอไอเหล่านี้นอกจากจะแปลงภาพที่เราอัปโหลดลงไปให้ออกมาตามเป้าหมายแล้ว ในขณะเดียวกัน เอไอก็ยังคงเรียนรู้จากรูปภาพของเรา การอัปโหลดภาพและใช้งานแอปพลิเคชันเหล่านั้น เป็นเสมือนการสอนเอไอให้แปลงรูปภาพได้แม่นยำสมจริงมากขึ้นภายในตัว ยิ่งมีผู้ใช้มากเท่าไหร่ โมเดลก็จะยิ่งเก่งขึ้นเท่านั้นนั่นเอง

อย่างไรก็ตาม ข้อควรระวังในการใช้แอปพลิเคชันเหล่านี้ คือการทำความเข้าใจก่อนว่า เบื้องหลังแอปพลิเคชันเหล่านี้คือโมเดลที่กำลังเรียนรู้ไปพร้อม ๆ กับเรา ดังนั้นจึงอาจมีข้อจำกัด หรือทำงานได้ไม่สมบูรณ์แบบบ้าง รวมถึงแอปพลิเคชันที่ให้เราต้องอัปโหลดภาพส่วนบุคคลลงไปแบบนี้อาจทำให้เกิดความกังวลในเรื่องของความเป็นส่วนตัว (Privacy) ข้อมูลส่วนบุคคล การยินยอม และการนำภาพไปใช้ในทางที่ผิด ซึ่งเป็นเรื่องที่ทั้งตัวเราและสังคมต้องแสดงความรับผิดชอบร่วมกัน

เราควรใช้เทคโนโลยีอย่างมีสติ และตระหนักถึงข้อควรระวังอยู่เสมอ เพียงเท่านี้เทคโนโลยีก็จะสามารถทำหน้าที่เป็นเครื่องมือในการสร้างสรรค์สิ่งใหม่ ๆ ได้อย่างปลอดภัย และจุดประกายแรงบันดาลใจใหม่ ๆ ให้เราได้

ก้าวทันโลกเทคโนโลยีไปกับเซอร์ทิส พาร์ทเนอร์ที่จะช่วยให้คุณปลดล็อกศักยภาพใหม่ ๆ ในโลกของเอไอและดาต้าไปด้วยกัน

เรียนรู้เพิ่มเติมเกี่ยวกับเซอร์ทิสและโซลูชันจากเซอร์ทิสได้ที่: https://www.sertiscorp.com/solutions

เบื้องหลัง AI แต่งรูปสุดล้ำ ทำงานอย่างไร?

โพสต์ล่าสุด

Comments