Hujaridhika baada ya kutazama "Mchezo wa Squid"? Unda mwisho wako mwenyewe.


Je, siwezi kusubiri "Dune Sehemu ya Tatu"? Tengeneza toleo lako mwenyewe.

Hapo awali, kudumisha mwonekano thabiti ulihitaji muda muhimu. Sasa, kwa picha ya skrini tu, AI inaweza kuanza kutengeneza filamu.
Hii ni kutokana na kipengele cha “Marejeleo ya Somo” cha Conch AI, kinachoendeshwa na modeli mpya ya S2V-01. Inabainisha mada kwa usahihi katika picha zilizopakiwa na kuiweka kama mhusika katika video zinazozalishwa. Wengine ni rahisi: unda kwa uhuru na maagizo ya msingi.


Manufaa ya Kipengele cha "Marejeleo ya Somo".
Makampuni mengi yanatengeneza vipengele vya "Marejeleo ya Somo", lakini si zote zinazoweza kukabiliana na changamoto za uthabiti na uwiano, hasa kudumisha uthabiti katika mwendo.
Wakati wengine wanaweza kuhangaika, Conch AI inafaulu. Kwa picha moja tu, inaelewa kwa usahihi sifa za wahusika, inazitambulisha kama mada, na kuziweka katika matukio mbalimbali.
Wakati mmoja Spider-Man anaokoa ulimwengu, kisha anaendesha pikipiki.


Mama wa Dragons, ambaye anapaswa kuwafunza mazimwi katika "Mchezo wa Viti vya Enzi," sasa anacheza na mbwa mwitu mdogo.


Mafanikio katika "rejeleo la somo" liko katika kufikia usawa kati ya uhuru wa ubunifu na uaminifu. Ni kama kuwapa watayarishi "mwigizaji wa ulimwengu wote" ambaye mwonekano wake haupotoshi lakini hubadilika kwa kawaida na vitendo na mkao, akifanya kitendo chochote katika tukio lolote kama inavyotakiwa na mkurugenzi.
Sio Kipengele Kipya Tu, Bali Suluhisho la Kipekee la Kiufundi
Uzoefu halisi wa jaribio unaonyesha kuwa marejeleo ya somo ni kazi tofauti, yenye changamoto na mahitaji tofauti ya kiufundi ikilinganishwa na maandishi kwa picha au utengenezaji wa picha kwa picha.
Uzalishaji wa picha-kwa-video wa kitamaduni huhuisha tu picha tuli, hasa kwa marekebisho kiasi. Kwa mfano, katika wimbo huu tulivu wa Song Hye-kyo, taswira-kwa-video hugeuza tu taswira tuli kuwa inayobadilika na isiyo na miondoko midogo.


Kwa picha sawa, "rejeleo la somo" linaweza kuunda sehemu kamili kulingana na vidokezo vya maandishi, ikiruhusu usomaji bila malipo huku ikidumisha vipengele thabiti vya uso.

Kwa sasa kuna njia mbili za kiufundi za kutengeneza video zenye mada. Moja inategemea teknolojia ya LoRA, ambayo huboresha miundo mikubwa ya uzalishaji iliyofunzwa mapema. LoRA inahitaji hesabu kubwa wakati wa kutengeneza video mpya, na hivyo kulazimisha watumiaji kupakia pembe nyingi za mada sawa, hata kubainisha vipengele tofauti kwa kila sehemu ili kuhakikisha ubora. Hii pia hutumia ishara nyingi na inahitaji muda mrefu wa kusubiri.
Baada ya uchunguzi wa kina wa kiufundi, MiniMax ilichagua njia kulingana na marejeleo ya picha: picha zina maelezo sahihi zaidi ya kuona, yanayolingana na mantiki ya ubunifu ya upigaji risasi halisi. Katika njia hii, mhusika mkuu katika picha ndiye kipaumbele cha juu cha mwanamitindo cha kutambuliwa—bila kujali matukio au njama zinazofuata, somo lazima lisalie sawa.
Taarifa zingine zinazoonekana ziko wazi zaidi na kudhibitiwa na vidokezo vya maandishi. Mbinu hii inafikia lengo la "uzazi sahihi + uhuru wa juu."


Katika video hii, picha moja tu ya Malkia wa Joka ilitolewa kwa mfano. Video ya mwisho iliyozalishwa iliwasilisha kwa usahihi lugha ya kamera na vipengele vya kuona vilivyotajwa kwenye kidokezo, ikionyesha uelewaji mkubwa.
Ikilinganishwa na suluhisho la LoRA, mbinu hii ya kiufundi inapunguza kwa kiasi kikubwa kiasi cha nyenzo zinazohitajika kupakiwa na watumiaji, na kubadilisha makumi ya sehemu za video kuwa picha moja. Muda wa kungoja hupimwa kwa sekunde, ikihisi sawa na muda unaochukua ili kutoa maandishi au picha—kuchanganya usahihi wa picha-hadi-video na uhuru wa maandishi-kwa-video.
Muhimu wa Utengenezaji wa Kichina, Kukidhi Mahitaji Yako Mengi
Mahitaji mengi sio mahitaji ya kupita kiasi. Ni kwa kupata tu picha sahihi na thabiti za wahusika na harakati za bila malipo ndipo kielelezo kinaweza kushinda matumizi rahisi ya burudani na kuwa na thamani pana katika matumizi ya sekta.
Kwa mfano, katika matangazo ya bidhaa, picha ya mfano mmoja inaweza kuzalisha video mbalimbali za bidhaa moja kwa moja kwa kubadilisha tu maneno ya papo hapo.


Iwapo unatumia mbinu za picha-kwa-video, suluhisho kuu la sasa ni kuweka fremu za kwanza na za mwisho, na athari itapunguzwa na picha zilizopo. Pia inahitaji majaribio ya mara kwa mara ili kukusanya pembe tofauti na kisha kuunganisha nyenzo pamoja ili kukamilisha msururu wa risasi.
Kuchanganya sifa za teknolojia tofauti ili kutoshea vyema mtiririko wa uundaji video ni faida ya "rejeleo la somo." Katika siku zijazo, zaidi ya 80% ya wataalamu wa masoko watatumia zana za kuzalisha katika hatua mbalimbali, wakizingatia tu hadithi na mimba ya njama, kufungia mikono yao.
Kulingana na Statista, ukubwa wa soko wa bidhaa za AI za uzalishaji katika utangazaji na uuzaji ulizidi dola bilioni 15 mwaka 2021. Kufikia 2028, idadi hii itafikia $ 107.5 bilioni. Katika mtiririko wa awali wa kazi, maandishi-kwa-video safi yalikuwa na mambo mengi sana yasiyoweza kudhibitiwa, yanafaa kwa hatua za awali za uundaji. Katika tasnia ya utangazaji na uuzaji ya Uropa na Amerika, AI ya uzalishaji tayari ni ya kawaida sana, na 52% ya kesi za utumiaji wa rasimu na upangaji, na 48% ya kutafakari.
Hivi sasa, Hailuo AI inafungua kwanza uwezo wa kumbukumbu kwa mhusika mmoja. Katika siku zijazo, itapanuka hadi kufikia herufi nyingi, vitu, matukio, na zaidi, ikiibua ubunifu zaidi, kama inavyopendekezwa na kauli mbiu ya Hailuo, "Kila wazo ni kizuizi."
Tangu MiniMax ilipotoa modeli ya video mnamo Agosti 2023, imeendelea kuvutia idadi kubwa ya watumiaji kimataifa, kutoka kwa ubora na ulaini wa picha zinazozalishwa hadi uthabiti na uthabiti, ikipokea maoni mengi chanya na utambuzi wa kitaalamu.


Katika mwaka uliopita wa ushindani wa kiteknolojia, mazingira ya ushindani ya uwanja wa uzalishaji wa video wa AI yameibuka. Utekelezaji wa Sora ulionyesha uwezo wa kutengeneza video, na hivyo kusababisha makampuni makubwa ya teknolojia kuwekeza kwa kiasi kikubwa katika nyanja hii.
Kwa kucheleweshwa kwa uzinduzi wa bidhaa ya Sora mwishoni mwa 2024 na hakiki za wastani za watumiaji, imeshindwa kufikia matarajio ya soko, na kuwapa wachezaji wengine nafasi ya kukamata soko.
Sasa, video za uzalishaji zinapoingia katika kipindi cha pili, ni kampuni tatu pekee zinazoonyesha nguvu za kiufundi na uwezo wa maendeleo: MiniMax's Hailuo AI, Keling AI ya Kuaishou, na Jimeng AI ya ByteDance.
Kama uanzishaji ulioanzishwa miaka mitatu tu iliyopita, MiniMax imeleta bidhaa na teknolojia ambazo zinaweza kushindana katika kiwango cha juu na saizi yake ndogo ya kuanza. Kuanzia mtindo wa picha hadi video wa I2V-01-Live mnamo Desemba 2023 hadi mtindo mpya wa S2V-01, wamekuwa wakisuluhisha changamoto za utengenezaji wa video uliopita.
Teknolojia inapoendelea kukomaa na hali za utumiaji kupanuka, AI ya kutengeneza video itaibua mapinduzi mapya katika uundaji wa maudhui, utengenezaji wa filamu, uuzaji na mawasiliano. Kampuni hizi, zinazowakilisha kiwango cha juu zaidi cha uga wa AI wa uzalishaji wa video wa China, sio tu kwamba zinaongoza katika soko la Uchina lakini pia zinatarajiwa kushindana kimataifa na makampuni makubwa ya kimataifa. Wakati huo huo, kuhakikisha uthabiti na udhibiti wa bidhaa huku ukidumisha uvumbuzi wa kiteknolojia itakuwa changamoto endelevu kwa biashara hizi.
Chanzo kutoka ifan
Kanusho: Maelezo yaliyoelezwa hapo juu yametolewa na ifanr.com, bila ya Chovm.com. Chovm.com haitoi uwakilishi na dhamana kuhusu ubora na uaminifu wa muuzaji na bidhaa. Chovm.com inakanusha dhima yoyote kwa ukiukaji unaohusiana na hakimiliki ya yaliyomo.