Đổi mới video AI: Cuộc cách mạng vẽ thẻ rảnh tay -

Không hài lòng sau khi xem “Squid Game”? Hãy tự tạo cái kết của riêng bạn.

GIF của phần kết thúc tùy chỉnh của trò chơi Squid

Bạn có muốn chờ đợi "Dune Phần Ba" không? Hãy tự tạo phiên bản của riêng bạn.

Trước đây, việc duy trì sự xuất hiện nhất quán của nhân vật đòi hỏi nhiều thời gian. Bây giờ, chỉ cần một ảnh chụp màn hình, AI có thể bắt đầu làm phim.

Điều này là nhờ tính năng “Tham chiếu chủ đề” của Conch AI, được hỗ trợ bởi mô hình S2V-01 mới. Nó xác định chính xác chủ đề trong hình ảnh đã tải lên và đặt chủ đề đó làm nhân vật trong video đã tạo. Phần còn lại rất đơn giản: tự do sáng tạo với các hướng dẫn cơ bản.

GIF hiển thị thông tin khuôn mặt chính xác — _{Được tạo bởi người dùng X @KarolineGeorges, với khả năng lưu giữ thông tin khuôn mặt chính xác”}

GIF hiển thị nhiều chủ đề khác nhau — _{Sáng tạo của người dùng X @Apple_Dog_Sol, giới thiệu các chủ đề đa dạng”}

Ưu điểm của tính năng “Tham chiếu chủ đề”

Nhiều công ty đang phát triển các tính năng “Tham chiếu chủ đề”, nhưng không phải tất cả đều có thể giải quyết được các thách thức về tính ổn định và tính mạch lạc, đặc biệt là duy trì tính nhất quán khi chuyển động.

Trong khi những người khác có thể gặp khó khăn, Conch AI lại vượt trội. Chỉ với một hình ảnh, nó hiểu chính xác các đặc điểm tính cách, xác định chúng là chủ thể và đặt chúng vào nhiều cảnh khác nhau.

Một lúc Người Nhện đang cứu thế giới, lúc sau anh ấy lại lái xe máy.

Mẹ của loài rồng, người huấn luyện rồng trong "Game of Thrones", giờ đây lại đang chơi với một chú sói nhỏ.

Sự đột phá trong “tham chiếu chủ đề” nằm ở việc đạt được sự cân bằng giữa sự tự do sáng tạo và tính trung thực. Nó giống như trao cho người sáng tạo một “diễn viên toàn năng” có ngoại hình không bị bóp méo mà thay đổi tự nhiên theo hành động và tư thế, thực hiện bất kỳ hành động nào trong bất kỳ cảnh nào theo yêu cầu của đạo diễn.

Không chỉ là một tính năng mới mà còn là một giải pháp kỹ thuật độc đáo

Trải nghiệm thử nghiệm thực tế cho thấy tham chiếu chủ đề là một chức năng khác, với những thách thức và yêu cầu kỹ thuật khác so với việc tạo văn bản thành hình ảnh hoặc hình ảnh thành hình ảnh.

Quá trình tạo ảnh thành video truyền thống chỉ làm hoạt hình hóa hình ảnh tĩnh, chủ yếu là với các sửa đổi một phần. Ví dụ, trong bức ảnh tĩnh này của Song Hye-kyo, quá trình tạo ảnh thành video chỉ biến hình ảnh tĩnh thành hình ảnh động với phạm vi hạn chế và không có chuyển động đáng kể.

Ảnh gốc của Song Hye-kyo — _{Bản gốc vẫn còn}

Hình ảnh động của Song Hye-kyo — _{Video được tạo từ hình ảnh thành video}

Với cùng một bức ảnh, “tham chiếu chủ thể” có thể tạo ra một phân đoạn hoàn chỉnh dựa trên lời nhắc văn bản, cho phép di chuyển tự do trong khi vẫn duy trì các đặc điểm khuôn mặt ổn định.

Video được tạo ra của Song Hye-kyo — _{Ánh sáng trong nhà ấm áp, trong khán phòng của rạp hát, nhân vật chính mặc bộ đồ đen, ngồi giữa hàng ghế bên trái. Biểu cảm của cô ấy tập trung, thỉnh thoảng mỉm cười nhẹ, vỗ tay một cách tự nhiên và nhịp nhàng. Máy quay bắt đầu từ phía cô ấy, chụp lại hình bóng của những khán giả khác và kết cấu ghế mờ, nhấn mạnh chiều sâu của môi trường. Khi máy quay di chuyển vào, nhân vật chính đứng dậy.}

Hiện tại có hai cách kỹ thuật để tạo video có chủ đề. Một là dựa trên công nghệ LoRA, tinh chỉnh các mô hình tạo lớn đã được đào tạo trước. LoRA yêu cầu tính toán đáng kể khi tạo video mới, bắt buộc người dùng phải tải lên nhiều góc của cùng một chủ đề, thậm chí chỉ định các thành phần khác nhau cho mỗi phân đoạn để đảm bảo chất lượng. Điều này cũng tiêu tốn nhiều mã thông báo và cần thời gian chờ lâu.

Sau khi khám phá kỹ thuật sâu rộng, MiniMax đã chọn một lộ trình dựa trên tham chiếu hình ảnh: hình ảnh chứa thông tin trực quan chính xác nhất, phù hợp với logic sáng tạo của việc chụp ảnh vật lý. Trong lộ trình này, nhân vật chính trong hình ảnh là ưu tiên hàng đầu của người mẫu để nhận dạng—bất kể cảnh hoặc cốt truyện tiếp theo, chủ thể phải luôn nhất quán.

Thông tin trực quan khác cởi mở hơn và được kiểm soát bằng lời nhắc văn bản. Cách tiếp cận này đạt được mục tiêu “tái tạo chính xác + tự do cao”.

Nhân vật đứng trước một con rồng, tóc và váy tung bay trong gió. — _{Trong một khoảng đất trống trong thung lũng, nhân vật chính đứng trước một con rồng, mái tóc dài tung bay trong gió. Máy quay dần thu nhỏ lại, bắt gặp cảnh nhân vật chính quay lại nhìn về phía xa. Đôi cánh của con rồng dang rộng, thổi tung mái tóc và váy của nhân vật chính, và cảnh quay kết thúc bằng một cảnh quay từ trên cao.}

Trong video này, chỉ có một bức ảnh về Nữ hoàng rồng được cung cấp cho mô hình. Video cuối cùng được tạo ra đã trình bày chính xác ngôn ngữ máy ảnh và các yếu tố hình ảnh được đề cập trong lời nhắc, thể hiện sự hiểu biết sâu sắc.

So với giải pháp LoRA, phương pháp kỹ thuật này làm giảm đáng kể lượng tài liệu mà người dùng cần tải lên, chuyển đổi hàng chục phân đoạn video thành một hình ảnh duy nhất. Thời gian chờ được đo bằng giây, tương tự như thời gian cần để tạo văn bản hoặc hình ảnh—kết hợp độ chính xác của hình ảnh thành video với sự tự do của văn bản thành video.

Điểm nổi bật của sản xuất Trung Quốc, đáp ứng nhiều nhu cầu của bạn

Nhiều nhu cầu không phải là nhu cầu quá mức. Chỉ bằng cách đạt được hình ảnh nhân vật chính xác và nhất quán cùng chuyển động tự do, mô hình mới có thể vượt qua các mục đích giải trí đơn giản và có giá trị rộng hơn trong các ứng dụng công nghiệp.

Ví dụ, trong quảng cáo sản phẩm, một hình ảnh người mẫu có thể trực tiếp tạo ra nhiều video sản phẩm khác nhau chỉ bằng cách thay đổi từ gợi ý.

Người chạy bộ đang chuyển động, giới thiệu công nghệ tạo video động.

Video sản phẩm thủy tinh, làm nổi bật hình ảnh chi tiết.

Nếu sử dụng phương pháp chuyển ảnh thành video, giải pháp chính hiện tại là thiết lập khung hình đầu tiên và cuối cùng, với hiệu ứng bị giới hạn bởi các hình ảnh hiện có. Nó cũng đòi hỏi phải thử nhiều lần để thu thập các góc khác nhau và sau đó ghép các vật liệu lại với nhau để hoàn thành một chuỗi cảnh quay.

Kết hợp các đặc điểm của các công nghệ khác nhau để phù hợp hơn với quy trình tạo video chính là lợi thế của “tham chiếu chủ đề”. Trong tương lai, hơn 80% chuyên gia tiếp thị sẽ sử dụng các công cụ tạo nội dung ở nhiều giai đoạn khác nhau, chỉ tập trung vào ý tưởng câu chuyện và cốt truyện, giúp họ rảnh tay hơn.

Theo Statista, quy mô thị trường của các sản phẩm AI tạo ra trong quảng cáo và tiếp thị đã vượt quá 15 tỷ đô la vào năm 2021. Đến năm 2028, con số này sẽ đạt 107.5 tỷ đô la. Trong các quy trình làm việc trước đây, văn bản thuần túy thành video có quá nhiều yếu tố không thể kiểm soát, phù hợp với giai đoạn đầu của quá trình sáng tạo. Trong ngành quảng cáo và tiếp thị của Châu Âu và Hoa Kỳ, AI tạo ra đã rất phổ biến, với 52% trường hợp sử dụng cho bản nháp và lập kế hoạch, và 48% cho quá trình động não.

Hiện tại, Hailuo AI đầu tiên mở khả năng tham chiếu cho một nhân vật duy nhất. Trong tương lai, nó sẽ mở rộng ra nhiều nhân vật, đối tượng, cảnh và nhiều hơn nữa, giải phóng sự sáng tạo hơn nữa, như khẩu hiệu của Hailuo đề xuất, "Mỗi ý tưởng đều là một bom tấn".

Kể từ khi MiniMax ra mắt mẫu video vào tháng 2023 năm XNUMX, nó liên tục thu hút được lượng lớn người dùng trên toàn thế giới, từ chất lượng và độ mượt mà của hình ảnh tạo ra cho đến tính nhất quán và ổn định, nhận được nhiều phản hồi tích cực và sự công nhận của giới chuyên môn.

Trong năm qua của cuộc cạnh tranh công nghệ, bối cảnh cạnh tranh của lĩnh vực tạo video AI đã bắt đầu xuất hiện. Việc triển khai Sora cho thấy tiềm năng của việc tạo video, thúc đẩy các công ty công nghệ lớn đầu tư mạnh vào lĩnh vực này.

Với việc trì hoãn ra mắt sản phẩm Sora vào cuối năm 2024 và đánh giá trung bình của người dùng, sản phẩm này đã không đáp ứng được kỳ vọng của thị trường, tạo cơ hội cho các đối thủ khác chiếm lĩnh thị trường.

Hiện nay, khi video tạo hình bước vào nửa sau, chỉ có ba công ty thực sự chứng minh được sức mạnh kỹ thuật và tiềm năng phát triển: Hailuo AI của MiniMax, Keling AI của Kuaishou và Jimeng AI của ByteDance.

Là một công ty khởi nghiệp được thành lập cách đây chỉ ba năm, MiniMax đã mang đến các sản phẩm và công nghệ có thể cạnh tranh ở cấp độ cao nhất với quy mô khởi nghiệp tinh gọn của mình. Từ mô hình hình ảnh-video I2V-01-Live vào tháng 2023 năm 2 đến mô hình S01V-XNUMX mới, họ đã giải quyết được những thách thức của thế hệ video trước đó.

Khi công nghệ tiếp tục phát triển và các kịch bản ứng dụng mở rộng, AI tạo video sẽ tạo ra một cuộc cách mạng mới trong sáng tạo nội dung, sản xuất phim, tiếp thị và truyền thông. Các công ty này, đại diện cho cấp độ cao nhất của lĩnh vực AI tạo video của Trung Quốc, không chỉ dẫn đầu thị trường Trung Quốc mà còn được kỳ vọng sẽ cạnh tranh trên toàn cầu với các gã khổng lồ quốc tế. Trong khi đó, đảm bảo tính ổn định và khả năng kiểm soát sản phẩm trong khi vẫn duy trì đổi mới công nghệ sẽ là một thách thức liên tục đối với các doanh nghiệp này.

Nguồn từ ifan

Tuyên bố miễn trừ trách nhiệm: Thông tin nêu trên được cung cấp bởi ifanr.com, độc lập với Chovm.com. Chovm.com không tuyên bố và bảo đảm về chất lượng và độ tin cậy của người bán và sản phẩm. Chovm.com từ chối mọi trách nhiệm pháp lý đối với các vi phạm liên quan đến bản quyền nội dung.

Tin mới nhất

Đổi mới video AI: Cuộc cách mạng vẽ thẻ rảnh tay

Ưu điểm của tính năng “Tham chiếu chủ đề”

Không chỉ là một tính năng mới mà còn là một giải pháp kỹ thuật độc đáo

Điểm nổi bật của sản xuất Trung Quốc, đáp ứng nhiều nhu cầu của bạn

Giới thiệu về Tác giả

ifan

Để lại một bình luận

Ưu điểm của tính năng “Tham chiếu chủ đề”

Không chỉ là một tính năng mới mà còn là một giải pháp kỹ thuật độc đáo

Điểm nổi bật của sản xuất Trung Quốc, đáp ứng nhiều nhu cầu của bạn

Giới thiệu về Tác giả

ifan

bài viết liên quan

Để lại một bình luận