(Dân trí) - Những đoạn video được tạo ra bởi 2 công cụ trí tuệ nhân tạo (AI) từ những văn bản mô tả đã khiến nhiều người phải kinh ngạc về chất lượng hình ảnh và cả nội dung.

So sánh khả năng của 2 công cụ AI tạo video từ văn bản hàng đầu hiện nay 第1张

Sora và Runway - 2 công cụ AI tạo video từ văn bản hàng đầu hiện nay

Kể từ thời điểm các phần mềm tích hợp trí tuệ nhân tạo (AI) ngày càng trở nên phổ biến, xuất hiện ngày càng nhiều những công cụ AI cho phép người dùng sáng tạo nội dung nghệ thuật chỉ bằng các đoạn văn bản mô tả.

Chẳng hạn các công cụ AI biến văn bản thành hình ảnh như Midjourney, DALL-E, Craiyon…; các công cụ AI soạn nhạc từ văn bản mô tả như MuseNet, Jukebox, Amper Music…

Giờ đây, xuất hiện thêm những công cụ AI cho phép người dùng dựng phim, tạo những đoạn video ngắn… chỉ từ văn bản mô tả. 2 công cụ nổi bật và được giới công nghệ đánh giá cao nhất về khả năng biến văn bản thành video đó là Sora, sản phẩm của OpenAI ("cha đẻ" của phần mềm ChatGPT nổi tiếng) và Runway, sản phẩm của công ty cùng tên có trụ sở tại New York (Mỹ).

So sánh khả năng của 2 công cụ AI tạo video từ văn bản hàng đầu hiện nay 第2张

Sora của OpenAI và Runway được đánh giá là 2 công cụ AI tạo video từ văn bản mô tả thông minh và tốt nhất hiện nay (Ảnh: Cloudbooklet).

Trong khi Sora mới chỉ được OpenAI giới thiệu cách đây một tuần và hiện chỉ là sản phẩm ở mức độ thử nghiệm, thì Runway đã được phát triển từ năm 2018 và đến nay đã được phát triển đến phiên bản thứ 3.

Runway đã được sử dụng bởi nhiều nhà sáng tạo nội dung khác nhau, bao gồm nghệ sĩ, nhà thiết kế, nhà làm phim.... Phần mềm này đã được sử dụng để tạo ra nhiều loại nội dung khác nhau, bao gồm video âm nhạc, hiệu ứng hình ảnh, chiến dịch quảng cáo, các đoạn phim ngắn…

Trong khi đó, OpenAI tự tin rằng Sora có thể hiểu rõ các vật thể tồn tại trong thế giới thực để có thể tạo ra những đoạn video với tính chân thật cao nhất, miễn là người dùng có những mô tả chi tiết và chính xác về nội dung đoạn video mà họ muốn tạo ra.

So sánh chi tiết trên video được tạo ra bởi Sora (trên) và Runway (dưới) khi cùng đưa ra một nội dung văn bản mô tả (Ảnh chụp màn hình).

Điểm chung của Sora và Runway đó là có thể tạo những video với nội dung thực tế, hình ảnh đồ họa và chuyển động mượt mà, giàu trí tưởng tượng dựa vào các văn bản hướng dẫn của người dùng. Các video do 2 công cụ này tạo ra có thể bao gồm những khung cảnh phức tạp với sự góp mặt của nhiều nhân vật hoặc những khung cảnh giàu chi tiết, chính xác về bối cảnh xung quanh…

Đặc biệt, văn bản mô tả của người dùng càng chi tiết bao nhiêu, các nội dung video do Sora và Runway tạo ra sẽ càng sát thực bấy nhiêu.

So sánh khả năng tạo video từ văn bản mô tả của Sora và Runway

Vậy Sora và Runway, công cụ nào có khả năng tạo ra những đoạn video từ văn bản mô tả với mức độ chuẩn xác và sắc nét hơn?

Dogan Ural, một nhà thiết kế đồ họa và sáng tạo nội dung người Thổ Nhĩ Kỳ, đã thử đi tìm câu trả lời bằng cách yêu cầu Sora và Runway tạo ra 2 đoạn video với cùng nội dung văn bản mô tả.

Đầu tiên, Ural đã yêu cầu Sora và Runway tạo ra video với nội dung như sau: "Hình ảnh quay từ máy bay không người lái về những con sóng vỗ vào vách đá gồ ghề dọc bãi biển Big Sur (bang California, Mỹ). Làn nước xanh và những con sóng vỗ trắng xóa, trong khi ánh sáng vàng của mặt trời lặn chiếu sáng bờ đá. Xa xa là một hòn đảo nhỏ có ngọn hải đăng và những bụi cây xanh bao phủ mép vách đá.

Đoạn dốc từ con đường xuống bãi biển là một khung cảnh ấn tượng, với các cạnh của một vách đá nhô ra biển. Đây là khung cảnh ghi lại vẻ đẹp nguyên sơ của bờ biển và phong cảnh gồ ghề của Thái Bình Dương".

Video tạo ra từ AI với yêu cầu về bãi biển, những con sóng lúc mặt trời lặn (Video: Dogan Ural).

Tiếp theo, Ural đã yêu cầu Sora và Runway tạo ra đoạn video về "màn múa rồng trong ngày Tết cổ truyền của Trung Quốc".

Video do AI tạo ra về màn múa rồng trong ngày Tết cổ truyền của Trung Quốc (Video: Dogan Ural).

Đoạn video tiếp theo mà nghệ sĩ đồ họa này yêu cầu Sora và Runway tạo ra đó là cận cảnh ánh mắt của một cô gái 24 tuổi, với độ sâu trường ảnh, màu sắc sống động và đậm chất điện ảnh.

Video do AI tạo ra mang tính điện ảnh về ánh mắt của cô gái trẻ (Video: Dogan Ural).

2 yêu cầu tiếp theo được Ural đưa ra đó là "video cận cảnh và chân thực về 2 con tàu cướp biển đang chiến đấu với nhau khi chúng di chuyển bên trong một tách cafe" và "hình ảnh phản chiếu qua cửa sổ một chuyến tàu đi qua vùng ngoại ô Tokyo".

Video AI tạo ra về cuộc chiến giữa 2 con tàu cướp biển trong tách cafe (Video: Dogan Ural).

Video về hình ảnh phản chiếu qua cửa sổ chuyến tàu qua ngoại ô Tokyo (Video: Dogan Ural).

Để tăng tính phức tạp cho nội dung, Ural đã yêu cầu Sora và Runway tạo ra 2 đoạn video với mô tả: "Camera quay xung quanh một chồng tivi cổ điển, tất cả đều chiếu các chương trình khác nhau như phim khoa học viễn tưởng, phim kinh dị, tin tức, cảnh tĩnh, phim sitcom những năm 1970… được đặt bên trong một phòng trưng bày bảo tàng lớn ở New York".

Video do AI tạo ra về một chồng tivi cổ điển, chiếu nhiều nội dung khác nhau (Video: Dogan Ural).

Những video kết quả do Sora và Runway tạo ra đều thực sự ấn tượng với người xem, khiến nhiều người phải kinh ngạc về khả năng sáng tạo của các phần mềm trí tuệ nhân tạo. Xem những video kể trên, liệu bạn có thể nhận ra đây đều là những video tạo ra một cách tự động bởi các phần mềm AI mà không cần có sự chỉnh sửa của con người?

Theo bạn, Sora và Runway, công cụ nào tạo ra những sản phẩm với hình ảnh sắc nét, chi tiết và sát với yêu cầu của Dogan Ural nhất? Hãy chia sẻ cảm nghĩ của mình ở phần bình luận bên dưới.

Sức mạnh số

So sánh khả năng của 2 công cụ AI tạo video từ văn bản hàng đầu hiện nay

(Dân trí) - Những đoạn video được tạo ra bởi 2 công cụ trí tuệ nhân tạo (AI) từ những văn bản mô tả đã khiến nhiều người phải kinh ngạc về chất lượng hình ảnh và cả nội dung.

Sora và Runway - 2 công cụ AI tạo video từ văn bản hàng đầu hiện nay

So sánh khả năng của 2 công cụ AI tạo video từ văn bản hàng đầu hiện nay 第5张

Sora của OpenAI và Runway được đánh giá là 2 công cụ AI tạo video từ văn bản mô tả thông minh và tốt nhất hiện nay (Ảnh: Cloudbooklet).

So sánh khả năng của 2 công cụ AI tạo video từ văn bản hàng đầu hiện nay 第6张