หน้าแรก » ข่าวล่าสุด » นวัตกรรมวิดีโอ AI: การปฏิวัติการวาดการ์ดแบบแฮนด์ฟรี
ภาพหน้าปกเทคโนโลยีวิดีโอ AI

นวัตกรรมวิดีโอ AI: การปฏิวัติการวาดการ์ดแบบแฮนด์ฟรี

ดู Squid Game แล้วไม่สนุกเหรอ? สร้างตอนจบเองเลยดีกว่า

ภาพจากเกม Squid
GIF ของตอนจบเกม Squid ที่กำหนดเอง

รอชม “Dune Part Three” ไม่ไหวแล้วใช่ไหม สร้างเวอร์ชันของคุณเองสิ

ภาพจาก Dune
GIF ของฉาก Dune ที่กำหนดเอง

ก่อนหน้านี้ การรักษารูปลักษณ์ตัวละครให้สม่ำเสมอต้องใช้เวลาพอสมควร แต่ตอนนี้ AI สามารถสร้างภาพยนตร์ได้ด้วยภาพหน้าจอเพียงภาพเดียว

ต้องขอบคุณฟีเจอร์ "การอ้างอิงหัวเรื่อง" ของ Conch AI ที่ขับเคลื่อนโดยโมเดล S2V-01 ใหม่ ฟีเจอร์นี้สามารถระบุหัวเรื่องในรูปภาพที่อัปโหลดได้อย่างแม่นยำ และกำหนดให้เป็นตัวละครในวิดีโอที่สร้างขึ้น ที่เหลือก็ง่ายมาก เพียงแค่สร้างมันขึ้นมาอย่างอิสระด้วยคำแนะนำพื้นฐาน

GIF ที่แสดงการเก็บข้อมูลใบหน้าที่แม่นยำ
สร้างสรรค์โดยผู้ใช้ X @KarolineGeorges ที่มีระบบจดจำข้อมูลใบหน้าที่แม่นยำ
GIF ที่แสดงเรื่องราวที่หลากหลาย
ผลงานสร้างสรรค์โดยผู้ใช้ X @Apple_Dog_Sol ที่นำเสนอเรื่องราวที่หลากหลาย

ข้อดีของฟีเจอร์ “การอ้างอิงเรื่อง”

บริษัทต่างๆ จำนวนมากกำลังพัฒนาฟีเจอร์ "การอ้างอิงหัวเรื่อง" แต่ไม่ใช่ทั้งหมดที่สามารถรับมือกับความท้าทายด้านเสถียรภาพและความสอดคล้อง โดยเฉพาะการรักษาความสม่ำเสมอในการเคลื่อนไหว

ในขณะที่คนอื่นอาจประสบปัญหา Conch AI ทำได้เหนือกว่า ด้วยภาพเพียงภาพเดียว ก็สามารถเข้าใจลักษณะนิสัยของตัวละครได้อย่างแม่นยำ ระบุตัวตนของตัวละครเหล่านั้นว่าเป็นเป้าหมาย และวางไว้ในฉากต่างๆ

วินาทีหนึ่ง สไปเดอร์แมนกำลังช่วยโลก แต่วินาทีถัดมาเขาก็กำลังขี่มอเตอร์ไซค์

แมงมุมบนเว็บ

แมงมุมเคลื่อนไหวบนใย

แม่แห่งมังกรที่ควรจะเป็นผู้ฝึกมังกรในเรื่อง “Game of Thrones” ตอนนี้กลับกำลังเล่นกับหมาป่าตัวน้อย

แม่มังกรกับหมาป่า
แม่มังกรกำลังเล่นกับหมาป่า

ความก้าวหน้าใน “การอ้างอิงประเด็น” อยู่ที่การบรรลุความสมดุลระหว่างอิสระในการสร้างสรรค์และความซื่อสัตย์ เปรียบเสมือนการให้ผู้สร้างมี “นักแสดงสากล” ที่รูปลักษณ์ภายนอกไม่บิดเบือนแต่เปลี่ยนแปลงไปตามการกระทำและท่าทางอย่างเป็นธรรมชาติ โดยแสดงการกระทำใดๆ ก็ได้ในทุกฉากตามที่ผู้กำกับต้องการ

ไม่ใช่แค่คุณลักษณะใหม่เท่านั้น แต่ยังเป็นโซลูชันทางเทคนิคที่ไม่ซ้ำใคร

ประสบการณ์การทดสอบจริงแสดงให้เห็นว่าการอ้างอิงหัวเรื่องเป็นฟังก์ชันที่แตกต่างกัน โดยมีความท้าทายและข้อกำหนดทางเทคนิคที่แตกต่างกันเมื่อเปรียบเทียบกับการสร้างข้อความเป็นรูปภาพหรือภาพเป็นรูปภาพ

การสร้างภาพเป็นวิดีโอแบบดั้งเดิมนั้นทำได้เพียงสร้างภาพนิ่งเท่านั้น โดยส่วนใหญ่มีการปรับเปลี่ยนบางส่วน ตัวอย่างเช่น ในภาพนิ่งของซองเฮเคียวนี้ การสร้างภาพเป็นวิดีโอนั้นทำได้เพียงเปลี่ยนภาพนิ่งให้เป็นภาพเคลื่อนไหวที่มีช่วงจำกัดและไม่มีการเคลื่อนไหวที่สำคัญ

ภาพนิ่งต้นฉบับของซองเฮเคียว
ภาพนิ่งต้นฉบับ
ภาพนิ่งเคลื่อนไหวของซองเฮเคียว
วิดีโอที่สร้างจากภาพเป็นวิดีโอ

ด้วยภาพเดียวกัน “ข้อมูลอ้างอิงบุคคล” สามารถสร้างกลุ่มภาพที่สมบูรณ์โดยอิงจากข้อความบอกสถานะ ช่วยให้เคลื่อนไหวได้อย่างอิสระในขณะที่ยังคงคุณลักษณะใบหน้าที่มั่นคงไว้

วิดีโอที่สร้างโดยซองเฮเคียว
แสงภายในที่อบอุ่น ท่ามกลางผู้ชมในโรงละคร ตัวเอกสวมสูทสีดำ นั่งอยู่แถวกลางด้านซ้าย ท่าทางของเธอจดจ่อ ยิ้มเบาๆ เป็นครั้งคราว ปรบมืออย่างเป็นธรรมชาติและเป็นจังหวะ กล้องเริ่มจากด้านข้างของเธอ จับภาพเงาของผู้ชมคนอื่นๆ และพื้นผิวที่นั่งที่มืด เพื่อเน้นความลึกของสภาพแวดล้อม ขณะที่กล้องเคลื่อนเข้าไป ตัวเอกยืนขึ้น

ปัจจุบันมีเส้นทางทางเทคนิคสองเส้นทางสำหรับการสร้างวิดีโอที่มีเนื้อหาหนึ่งเรื่อง เส้นทางหนึ่งคือเทคโนโลยี LoRA ซึ่งปรับแต่งโมเดลการสร้างขนาดใหญ่ที่ได้รับการฝึกอบรมไว้ล่วงหน้าให้เหมาะสม LoRA ต้องใช้การคำนวณที่สำคัญเมื่อสร้างวิดีโอใหม่ ซึ่งจำเป็นต้องให้ผู้ใช้อัปโหลดเนื้อหาเดียวกันจากมุมต่างๆ กัน รวมถึงต้องระบุองค์ประกอบที่แตกต่างกันสำหรับแต่ละส่วนเพื่อให้แน่ใจว่ามีคุณภาพ นอกจากนี้ ยังต้องใช้โทเค็นจำนวนมากและต้องรอเป็นเวลานาน

หลังจากสำรวจเทคนิคอย่างละเอียดแล้ว MiniMax เลือกเส้นทางโดยอิงจากภาพอ้างอิง: ภาพประกอบด้วยข้อมูลภาพที่แม่นยำที่สุด ซึ่งสอดคล้องกับตรรกะสร้างสรรค์ของการถ่ายภาพจริง ในเส้นทางนี้ ตัวเอกในภาพคือสิ่งสำคัญที่สุดในการจดจำนางแบบ ไม่ว่าฉากหรือเนื้อเรื่องจะเป็นอย่างไร นางแบบจะต้องมีความสอดคล้องกัน

ข้อมูลภาพอื่นๆ จะเปิดกว้างและควบคุมได้โดยใช้ข้อความแนะนำ วิธีนี้ช่วยให้บรรลุเป้าหมายของ “การสร้างซ้ำที่แม่นยำ + อิสระสูง”

แม่มังกรกับมังกร
ตัวละครยืนอยู่ต่อหน้ามังกร ผมและชุดพลิ้วไสวในสายลม
ในทุ่งโล่งในหุบเขา พระเอกยืนอยู่ตรงหน้ามังกร ผมยาวของมังกรพลิ้วไสวไปตามสายลม กล้องค่อยๆ ซูมออกเพื่อจับภาพพระเอกที่กำลังหันไปมองในระยะไกล ปีกของมังกรกางออก พัดผมและชุดของพระเอกปลิวว่อน และฉากนี้จบลงด้วยภาพมุมสูง

ในวิดีโอนี้ นางแบบได้รับรูปราชินีมังกรเพียงรูปเดียวเท่านั้น วิดีโอที่สร้างขึ้นขั้นสุดท้ายแสดงภาษาของกล้องและองค์ประกอบภาพที่กล่าวถึงในคำสั่งได้อย่างแม่นยำ แสดงให้เห็นถึงความเข้าใจที่ชัดเจน

เมื่อเปรียบเทียบกับโซลูชัน LoRA แนวทางทางเทคนิคนี้จะช่วยลดปริมาณเนื้อหาที่ผู้ใช้ต้องอัปโหลดได้อย่างมาก โดยแปลงวิดีโอหลายสิบส่วนเป็นภาพเดียว เวลาในการรอวัดเป็นวินาที ซึ่งให้ความรู้สึกคล้ายกับเวลาที่ใช้ในการสร้างข้อความหรือรูปภาพ ซึ่งเป็นการผสมผสานความแม่นยำของการแปลงภาพเป็นวิดีโอเข้ากับอิสระของการแปลงข้อความเป็นวิดีโอ

ไฮไลท์การผลิตของจีน ตอบสนองความต้องการที่หลากหลายของคุณ

ความต้องการที่หลากหลายไม่ใช่ความต้องการที่มากเกินไป การสร้างภาพตัวละครที่แม่นยำและสม่ำเสมอพร้อมๆ กันและการเคลื่อนไหวที่อิสระเท่านั้นที่จะทำให้โมเดลนี้เหนือกว่าการใช้งานเพื่อความบันเทิงทั่วไปและมีคุณค่าที่กว้างขวางยิ่งขึ้นในการใช้งานในอุตสาหกรรม

ตัวอย่างเช่น ในโฆษณาผลิตภัณฑ์ ภาพนางแบบเพียงภาพเดียวสามารถสร้างวิดีโอผลิตภัณฑ์ต่างๆ ได้โดยตรงโดยเพียงเปลี่ยนคำแนะนำ

นักวิ่งกำลังเคลื่อนไหว แสดงให้เห็นการสร้างวิดีโอแบบไดนามิก
วิดีโอผลิตภัณฑ์กระจกที่เน้นการสร้างภาพอย่างละเอียด

หากใช้วิธีแปลงภาพเป็นวิดีโอ วิธีแก้ปัญหาหลักในปัจจุบันคือการกำหนดเฟรมแรกและเฟรมสุดท้าย โดยจำกัดเอฟเฟกต์ด้วยภาพที่มีอยู่ นอกจากนี้ ยังต้องพยายามรวบรวมมุมต่างๆ ซ้ำแล้วซ้ำเล่า จากนั้นจึงเย็บวัสดุเข้าด้วยกันเพื่อสร้างลำดับภาพให้เสร็จสมบูรณ์

การผสมผสานคุณลักษณะของเทคโนโลยีต่างๆ เพื่อให้เหมาะสมกับเวิร์กโฟลว์การสร้างวิดีโอถือเป็นข้อได้เปรียบของ “การอ้างอิงเนื้อหา” ในอนาคต มืออาชีพด้านการตลาดมากกว่า 80% จะใช้เครื่องมือสร้างสรรค์ในขั้นตอนต่างๆ โดยมุ่งเน้นเฉพาะการคิดโครงเรื่องและเรื่องราวเท่านั้น ทำให้มือของพวกเขาเป็นอิสระ

ตามข้อมูลของ Statista ขนาดตลาดของผลิตภัณฑ์ AI เชิงสร้างสรรค์ในการโฆษณาและการตลาดมีมูลค่าเกิน 15 พันล้านดอลลาร์ในปี 2021 และภายในปี 2028 ตัวเลขดังกล่าวจะสูงถึง 107.5 พันล้านดอลลาร์ ในเวิร์กโฟลว์ก่อนหน้านี้ การแปลงข้อความเป็นวิดีโอล้วนๆ มีปัจจัยที่ควบคุมไม่ได้มากเกินไป ซึ่งเหมาะสำหรับขั้นตอนเริ่มต้นของการสร้างสรรค์ ในอุตสาหกรรมการโฆษณาและการตลาดของยุโรปและอเมริกา AI เชิงสร้างสรรค์นั้นพบเห็นได้ทั่วไปแล้ว โดยมีกรณีการใช้งาน 52% สำหรับการร่างและการวางแผน และ 48% สำหรับการระดมความคิด

ปัจจุบัน Hailuo AI เปิดให้ใช้งานความสามารถในการอ้างอิงสำหรับตัวละครตัวเดียวเป็นอันดับแรก ในอนาคตจะขยายความสามารถไปยังตัวละคร วัตถุ ฉาก และอื่นๆ อีกมากมาย เพื่อปลดปล่อยความคิดสร้างสรรค์มากขึ้น ดังที่ Hailuo ได้เสนอสโลแกนไว้ว่า “ทุกไอเดียคือผลงานชิ้นเอก”

นับตั้งแต่ MiniMax เปิดตัวโมเดลวิดีโอในเดือนสิงหาคม 2023 ก็ได้รับการดึงดูดผู้ใช้จำนวนมากทั่วโลกอย่างต่อเนื่อง ไม่ว่าจะเป็นคุณภาพและความราบรื่นของภาพที่สร้างขึ้น ไปจนถึงความสม่ำเสมอและความเสถียร โดยได้รับผลตอบรับเชิงบวกและการยอมรับจากมืออาชีพมากมาย

โลโก้ Hailuo AI
โลโก้ เทคฮัลลา

ในช่วงปีที่ผ่านมาของการแข่งขันทางเทคโนโลยี ภูมิทัศน์การแข่งขันของสาขาการสร้างวิดีโอด้วย AI ได้ปรากฏขึ้นเป็นครั้งแรก การนำ Sora ไปใช้งานแสดงให้เห็นถึงศักยภาพของการสร้างวิดีโอ กระตุ้นให้บริษัทเทคโนโลยีรายใหญ่ลงทุนอย่างหนักในสาขานี้

เนื่องจากการเปิดตัวผลิตภัณฑ์ Sora ที่ล่าช้าในช่วงปลายปี 2024 และความคิดเห็นจากผู้ใช้ทั่วไป ทำให้ผลิตภัณฑ์ไม่สามารถตอบสนองความคาดหวังของตลาดได้ จึงทำให้ผู้เล่นรายอื่นมีโอกาสเข้ายึดตลาด

ในขณะนี้ ในขณะที่วิดีโอเชิงสร้างสรรค์กำลังเข้าสู่ครึ่งปีหลัง มีเพียงสามบริษัทเท่านั้นที่แสดงให้เห็นถึงความแข็งแกร่งทางเทคนิคและศักยภาพในการพัฒนาได้อย่างแท้จริง ได้แก่ Hailuo AI ของ MiniMax, Keling AI ของ Kuaishou และ Jimeng AI ของ ByteDance

MiniMax ซึ่งเป็นสตาร์ทอัพที่ก่อตั้งขึ้นเมื่อ 2 ปีที่แล้ว ได้นำเสนอผลิตภัณฑ์และเทคโนโลยีที่สามารถแข่งขันในระดับสูงสุดได้ด้วยขนาดสตาร์ทอัพที่เล็กกะทัดรัด ตั้งแต่โมเดลการแปลงภาพเป็นวิดีโอสด I01V-2023 ในเดือนธันวาคม 2 จนถึงโมเดล S01V-XNUMX ใหม่ พวกเขาได้แก้ไขความท้าทายของการสร้างวิดีโอรุ่นก่อนๆ

เนื่องจากเทคโนโลยีมีการพัฒนาอย่างต่อเนื่องและสถานการณ์การใช้งานมีการขยายตัวมากขึ้น AI ในการสร้างวิดีโอจึงจะจุดประกายให้เกิดการปฏิวัติครั้งใหม่ในด้านการสร้างเนื้อหา การผลิตภาพยนตร์ การตลาด และการสื่อสาร บริษัทเหล่านี้ซึ่งถือเป็นผู้นำด้าน AI ในการสร้างวิดีโอระดับสูงสุดของจีน ไม่เพียงแต่เป็นผู้นำตลาดจีนเท่านั้น แต่ยังคาดว่าจะสามารถแข่งขันกับบริษัทยักษ์ใหญ่ระดับนานาชาติในระดับโลกได้อีกด้วย ในขณะเดียวกัน การรับประกันความเสถียรและการควบคุมผลิตภัณฑ์ในขณะที่รักษานวัตกรรมทางเทคโนโลยีไว้จะเป็นความท้าทายอย่างต่อเนื่องสำหรับบริษัทเหล่านี้

ที่มาจาก อีฟาน

ข้อสงวนสิทธิ์: ข้อมูลที่ระบุไว้ข้างต้นจัดทำโดย ifanr.com ซึ่งเป็นอิสระจาก Chovm.com Chovm.com ไม่รับรองหรือรับประกันคุณภาพและความน่าเชื่อถือของผู้ขายและผลิตภัณฑ์ Chovm.com ขอปฏิเสธความรับผิดชอบใดๆ ต่อการละเมิดลิขสิทธิ์ของเนื้อหา

แสดงความคิดเห็น

ที่อยู่อีเมลของคุณจะไม่ถูกเผยแพร่ ช่องที่ต้องการถูกทำเครื่องหมาย *