ดู Squid Game แล้วไม่สนุกเหรอ? สร้างตอนจบเองเลยดีกว่า


รอชม “Dune Part Three” ไม่ไหวแล้วใช่ไหม สร้างเวอร์ชันของคุณเองสิ

ก่อนหน้านี้ การรักษารูปลักษณ์ตัวละครให้สม่ำเสมอต้องใช้เวลาพอสมควร แต่ตอนนี้ AI สามารถสร้างภาพยนตร์ได้ด้วยภาพหน้าจอเพียงภาพเดียว
ต้องขอบคุณฟีเจอร์ "การอ้างอิงหัวเรื่อง" ของ Conch AI ที่ขับเคลื่อนโดยโมเดล S2V-01 ใหม่ ฟีเจอร์นี้สามารถระบุหัวเรื่องในรูปภาพที่อัปโหลดได้อย่างแม่นยำ และกำหนดให้เป็นตัวละครในวิดีโอที่สร้างขึ้น ที่เหลือก็ง่ายมาก เพียงแค่สร้างมันขึ้นมาอย่างอิสระด้วยคำแนะนำพื้นฐาน


ข้อดีของฟีเจอร์ “การอ้างอิงเรื่อง”
บริษัทต่างๆ จำนวนมากกำลังพัฒนาฟีเจอร์ "การอ้างอิงหัวเรื่อง" แต่ไม่ใช่ทั้งหมดที่สามารถรับมือกับความท้าทายด้านเสถียรภาพและความสอดคล้อง โดยเฉพาะการรักษาความสม่ำเสมอในการเคลื่อนไหว
ในขณะที่คนอื่นอาจประสบปัญหา Conch AI ทำได้เหนือกว่า ด้วยภาพเพียงภาพเดียว ก็สามารถเข้าใจลักษณะนิสัยของตัวละครได้อย่างแม่นยำ ระบุตัวตนของตัวละครเหล่านั้นว่าเป็นเป้าหมาย และวางไว้ในฉากต่างๆ
วินาทีหนึ่ง สไปเดอร์แมนกำลังช่วยโลก แต่วินาทีถัดมาเขาก็กำลังขี่มอเตอร์ไซค์


แม่แห่งมังกรที่ควรจะเป็นผู้ฝึกมังกรในเรื่อง “Game of Thrones” ตอนนี้กลับกำลังเล่นกับหมาป่าตัวน้อย


ความก้าวหน้าใน “การอ้างอิงประเด็น” อยู่ที่การบรรลุความสมดุลระหว่างอิสระในการสร้างสรรค์และความซื่อสัตย์ เปรียบเสมือนการให้ผู้สร้างมี “นักแสดงสากล” ที่รูปลักษณ์ภายนอกไม่บิดเบือนแต่เปลี่ยนแปลงไปตามการกระทำและท่าทางอย่างเป็นธรรมชาติ โดยแสดงการกระทำใดๆ ก็ได้ในทุกฉากตามที่ผู้กำกับต้องการ
ไม่ใช่แค่คุณลักษณะใหม่เท่านั้น แต่ยังเป็นโซลูชันทางเทคนิคที่ไม่ซ้ำใคร
ประสบการณ์การทดสอบจริงแสดงให้เห็นว่าการอ้างอิงหัวเรื่องเป็นฟังก์ชันที่แตกต่างกัน โดยมีความท้าทายและข้อกำหนดทางเทคนิคที่แตกต่างกันเมื่อเปรียบเทียบกับการสร้างข้อความเป็นรูปภาพหรือภาพเป็นรูปภาพ
การสร้างภาพเป็นวิดีโอแบบดั้งเดิมนั้นทำได้เพียงสร้างภาพนิ่งเท่านั้น โดยส่วนใหญ่มีการปรับเปลี่ยนบางส่วน ตัวอย่างเช่น ในภาพนิ่งของซองเฮเคียวนี้ การสร้างภาพเป็นวิดีโอนั้นทำได้เพียงเปลี่ยนภาพนิ่งให้เป็นภาพเคลื่อนไหวที่มีช่วงจำกัดและไม่มีการเคลื่อนไหวที่สำคัญ


ด้วยภาพเดียวกัน “ข้อมูลอ้างอิงบุคคล” สามารถสร้างกลุ่มภาพที่สมบูรณ์โดยอิงจากข้อความบอกสถานะ ช่วยให้เคลื่อนไหวได้อย่างอิสระในขณะที่ยังคงคุณลักษณะใบหน้าที่มั่นคงไว้

ปัจจุบันมีเส้นทางทางเทคนิคสองเส้นทางสำหรับการสร้างวิดีโอที่มีเนื้อหาหนึ่งเรื่อง เส้นทางหนึ่งคือเทคโนโลยี LoRA ซึ่งปรับแต่งโมเดลการสร้างขนาดใหญ่ที่ได้รับการฝึกอบรมไว้ล่วงหน้าให้เหมาะสม LoRA ต้องใช้การคำนวณที่สำคัญเมื่อสร้างวิดีโอใหม่ ซึ่งจำเป็นต้องให้ผู้ใช้อัปโหลดเนื้อหาเดียวกันจากมุมต่างๆ กัน รวมถึงต้องระบุองค์ประกอบที่แตกต่างกันสำหรับแต่ละส่วนเพื่อให้แน่ใจว่ามีคุณภาพ นอกจากนี้ ยังต้องใช้โทเค็นจำนวนมากและต้องรอเป็นเวลานาน
หลังจากสำรวจเทคนิคอย่างละเอียดแล้ว MiniMax เลือกเส้นทางโดยอิงจากภาพอ้างอิง: ภาพประกอบด้วยข้อมูลภาพที่แม่นยำที่สุด ซึ่งสอดคล้องกับตรรกะสร้างสรรค์ของการถ่ายภาพจริง ในเส้นทางนี้ ตัวเอกในภาพคือสิ่งสำคัญที่สุดในการจดจำนางแบบ ไม่ว่าฉากหรือเนื้อเรื่องจะเป็นอย่างไร นางแบบจะต้องมีความสอดคล้องกัน
ข้อมูลภาพอื่นๆ จะเปิดกว้างและควบคุมได้โดยใช้ข้อความแนะนำ วิธีนี้ช่วยให้บรรลุเป้าหมายของ “การสร้างซ้ำที่แม่นยำ + อิสระสูง”


ในวิดีโอนี้ นางแบบได้รับรูปราชินีมังกรเพียงรูปเดียวเท่านั้น วิดีโอที่สร้างขึ้นขั้นสุดท้ายแสดงภาษาของกล้องและองค์ประกอบภาพที่กล่าวถึงในคำสั่งได้อย่างแม่นยำ แสดงให้เห็นถึงความเข้าใจที่ชัดเจน
เมื่อเปรียบเทียบกับโซลูชัน LoRA แนวทางทางเทคนิคนี้จะช่วยลดปริมาณเนื้อหาที่ผู้ใช้ต้องอัปโหลดได้อย่างมาก โดยแปลงวิดีโอหลายสิบส่วนเป็นภาพเดียว เวลาในการรอวัดเป็นวินาที ซึ่งให้ความรู้สึกคล้ายกับเวลาที่ใช้ในการสร้างข้อความหรือรูปภาพ ซึ่งเป็นการผสมผสานความแม่นยำของการแปลงภาพเป็นวิดีโอเข้ากับอิสระของการแปลงข้อความเป็นวิดีโอ
ไฮไลท์การผลิตของจีน ตอบสนองความต้องการที่หลากหลายของคุณ
ความต้องการที่หลากหลายไม่ใช่ความต้องการที่มากเกินไป การสร้างภาพตัวละครที่แม่นยำและสม่ำเสมอพร้อมๆ กันและการเคลื่อนไหวที่อิสระเท่านั้นที่จะทำให้โมเดลนี้เหนือกว่าการใช้งานเพื่อความบันเทิงทั่วไปและมีคุณค่าที่กว้างขวางยิ่งขึ้นในการใช้งานในอุตสาหกรรม
ตัวอย่างเช่น ในโฆษณาผลิตภัณฑ์ ภาพนางแบบเพียงภาพเดียวสามารถสร้างวิดีโอผลิตภัณฑ์ต่างๆ ได้โดยตรงโดยเพียงเปลี่ยนคำแนะนำ


หากใช้วิธีแปลงภาพเป็นวิดีโอ วิธีแก้ปัญหาหลักในปัจจุบันคือการกำหนดเฟรมแรกและเฟรมสุดท้าย โดยจำกัดเอฟเฟกต์ด้วยภาพที่มีอยู่ นอกจากนี้ ยังต้องพยายามรวบรวมมุมต่างๆ ซ้ำแล้วซ้ำเล่า จากนั้นจึงเย็บวัสดุเข้าด้วยกันเพื่อสร้างลำดับภาพให้เสร็จสมบูรณ์
การผสมผสานคุณลักษณะของเทคโนโลยีต่างๆ เพื่อให้เหมาะสมกับเวิร์กโฟลว์การสร้างวิดีโอถือเป็นข้อได้เปรียบของ “การอ้างอิงเนื้อหา” ในอนาคต มืออาชีพด้านการตลาดมากกว่า 80% จะใช้เครื่องมือสร้างสรรค์ในขั้นตอนต่างๆ โดยมุ่งเน้นเฉพาะการคิดโครงเรื่องและเรื่องราวเท่านั้น ทำให้มือของพวกเขาเป็นอิสระ
ตามข้อมูลของ Statista ขนาดตลาดของผลิตภัณฑ์ AI เชิงสร้างสรรค์ในการโฆษณาและการตลาดมีมูลค่าเกิน 15 พันล้านดอลลาร์ในปี 2021 และภายในปี 2028 ตัวเลขดังกล่าวจะสูงถึง 107.5 พันล้านดอลลาร์ ในเวิร์กโฟลว์ก่อนหน้านี้ การแปลงข้อความเป็นวิดีโอล้วนๆ มีปัจจัยที่ควบคุมไม่ได้มากเกินไป ซึ่งเหมาะสำหรับขั้นตอนเริ่มต้นของการสร้างสรรค์ ในอุตสาหกรรมการโฆษณาและการตลาดของยุโรปและอเมริกา AI เชิงสร้างสรรค์นั้นพบเห็นได้ทั่วไปแล้ว โดยมีกรณีการใช้งาน 52% สำหรับการร่างและการวางแผน และ 48% สำหรับการระดมความคิด
ปัจจุบัน Hailuo AI เปิดให้ใช้งานความสามารถในการอ้างอิงสำหรับตัวละครตัวเดียวเป็นอันดับแรก ในอนาคตจะขยายความสามารถไปยังตัวละคร วัตถุ ฉาก และอื่นๆ อีกมากมาย เพื่อปลดปล่อยความคิดสร้างสรรค์มากขึ้น ดังที่ Hailuo ได้เสนอสโลแกนไว้ว่า “ทุกไอเดียคือผลงานชิ้นเอก”
นับตั้งแต่ MiniMax เปิดตัวโมเดลวิดีโอในเดือนสิงหาคม 2023 ก็ได้รับการดึงดูดผู้ใช้จำนวนมากทั่วโลกอย่างต่อเนื่อง ไม่ว่าจะเป็นคุณภาพและความราบรื่นของภาพที่สร้างขึ้น ไปจนถึงความสม่ำเสมอและความเสถียร โดยได้รับผลตอบรับเชิงบวกและการยอมรับจากมืออาชีพมากมาย


ในช่วงปีที่ผ่านมาของการแข่งขันทางเทคโนโลยี ภูมิทัศน์การแข่งขันของสาขาการสร้างวิดีโอด้วย AI ได้ปรากฏขึ้นเป็นครั้งแรก การนำ Sora ไปใช้งานแสดงให้เห็นถึงศักยภาพของการสร้างวิดีโอ กระตุ้นให้บริษัทเทคโนโลยีรายใหญ่ลงทุนอย่างหนักในสาขานี้
เนื่องจากการเปิดตัวผลิตภัณฑ์ Sora ที่ล่าช้าในช่วงปลายปี 2024 และความคิดเห็นจากผู้ใช้ทั่วไป ทำให้ผลิตภัณฑ์ไม่สามารถตอบสนองความคาดหวังของตลาดได้ จึงทำให้ผู้เล่นรายอื่นมีโอกาสเข้ายึดตลาด
ในขณะนี้ ในขณะที่วิดีโอเชิงสร้างสรรค์กำลังเข้าสู่ครึ่งปีหลัง มีเพียงสามบริษัทเท่านั้นที่แสดงให้เห็นถึงความแข็งแกร่งทางเทคนิคและศักยภาพในการพัฒนาได้อย่างแท้จริง ได้แก่ Hailuo AI ของ MiniMax, Keling AI ของ Kuaishou และ Jimeng AI ของ ByteDance
MiniMax ซึ่งเป็นสตาร์ทอัพที่ก่อตั้งขึ้นเมื่อ 2 ปีที่แล้ว ได้นำเสนอผลิตภัณฑ์และเทคโนโลยีที่สามารถแข่งขันในระดับสูงสุดได้ด้วยขนาดสตาร์ทอัพที่เล็กกะทัดรัด ตั้งแต่โมเดลการแปลงภาพเป็นวิดีโอสด I01V-2023 ในเดือนธันวาคม 2 จนถึงโมเดล S01V-XNUMX ใหม่ พวกเขาได้แก้ไขความท้าทายของการสร้างวิดีโอรุ่นก่อนๆ
เนื่องจากเทคโนโลยีมีการพัฒนาอย่างต่อเนื่องและสถานการณ์การใช้งานมีการขยายตัวมากขึ้น AI ในการสร้างวิดีโอจึงจะจุดประกายให้เกิดการปฏิวัติครั้งใหม่ในด้านการสร้างเนื้อหา การผลิตภาพยนตร์ การตลาด และการสื่อสาร บริษัทเหล่านี้ซึ่งถือเป็นผู้นำด้าน AI ในการสร้างวิดีโอระดับสูงสุดของจีน ไม่เพียงแต่เป็นผู้นำตลาดจีนเท่านั้น แต่ยังคาดว่าจะสามารถแข่งขันกับบริษัทยักษ์ใหญ่ระดับนานาชาติในระดับโลกได้อีกด้วย ในขณะเดียวกัน การรับประกันความเสถียรและการควบคุมผลิตภัณฑ์ในขณะที่รักษานวัตกรรมทางเทคโนโลยีไว้จะเป็นความท้าทายอย่างต่อเนื่องสำหรับบริษัทเหล่านี้
ที่มาจาก อีฟาน
ข้อสงวนสิทธิ์: ข้อมูลที่ระบุไว้ข้างต้นจัดทำโดย ifanr.com ซึ่งเป็นอิสระจาก Chovm.com Chovm.com ไม่รับรองหรือรับประกันคุณภาพและความน่าเชื่อถือของผู้ขายและผลิตภัณฑ์ Chovm.com ขอปฏิเสธความรับผิดชอบใดๆ ต่อการละเมิดลิขสิทธิ์ของเนื้อหา