OpenAI Sora là gì và nó sẽ thay đổi video mãi mãi?

Tác giả Security+, T.Hai 24, 2024, 01:04:42 CHIỀU

« Chủ đề trước - Chủ đề tiếp »

0 Thành viên và 1 Khách đang xem chủ đề.

OpenAI Sora là gì và nó sẽ thay đổi video mãi mãi?


Video AI sẽ giết chết ngôi sao điện ảnh?

  • OpenAI Sora tạo ra các video clip có độ chân thực cao từ lời nhắc bằng văn bản, thể hiện sự tiến bộ lớn trong công nghệ AI.
  • Khả năng mô phỏng vật lý trong video một cách chính xác của Sora là một tính năng nổi bật, nhưng nó vẫn có một số vấn đề về tương tác và tạo đối tượng.
  • Khả năng ra mắt công chúng của Sora là không chắc chắn vì nó hiện đang được kiểm tra độ an toàn và chất lượng trước khi ấn định ngày phát hành chính thức.


Tốc độ phát triển AI đang hướng tới một điểm vượt quá tầm hiểu biết của con người và hệ thống chuyển văn bản thành video Sora của OpenAI chỉ là công nghệ AI mới nhất khiến thế giới sốc khi nhận ra mọi thứ đang diễn ra sớm hơn mọi người mong đợi.

1. OpenAI Sora là gì?

Giống như các công cụ AI tổng hợp khác như DALL-E và MidJourney, Sora nhận lời nhắc văn bản từ bạn và chuyển đổi chúng thành phương tiện trực quan. Tuy nhiên, không giống như những trình tạo hình ảnh AI đã nói ở trên, Sora tạo ra một video clip hoàn chỉnh với chuyển động, các góc camera, hướng khác nhau và mọi thứ khác mà bạn mong đợi từ một video được sản xuất theo cách truyền thống.

Nhìn vào các ví dụ trên trang web Sora, kết quả thường không thể phân biệt được với video thực, được sản xuất chuyên nghiệp. Mọi thứ từ cảnh quay bằng máy bay không người lái cao cấp cho đến các tác phẩm điện ảnh trị giá hàng triệu đô la. Hoàn thiện với các diễn viên do AI tạo ra, các hiệu ứng đặc biệt, các tác phẩm.


Sora tất nhiên không phải là công nghệ đầu tiên làm được điều này. Cho đến nay, người dẫn đầu dễ thấy nhất trong lĩnh vực này là RunwayML, công ty cung cấp dịch vụ của họ cho công chúng với một khoản phí. Tuy nhiên, ngay cả trong những hoàn cảnh tốt nhất, video của Runway vẫn giống với những hình ảnh tĩnh MidJourney thế hệ đầu hơn. Hình ảnh không có sự ổn định, vật lý không có ý nghĩa và khi tôi viết bài này, độ dài clip dài nhất là 16 giây.

Ngược lại, đầu ra tốt nhất mà Sora phải thể hiện là hoàn toàn ổn định, với vật lý trông phù hợp (ít nhất là đối với bộ não của chúng ta) và các clip có thể dài tới một phút. Các clip hoàn toàn không có âm thanh, nhưng đã có các hệ thống AI khác có thể tạo ra âm nhạc, hiệu ứng âm thanh và lời nói. Vì vậy, tôi không nghi ngờ gì rằng những công cụ đó có thể được tích hợp vào quy trình làm việc của Sora hoặc tệ nhất là công việc lồng tiếng và foley truyền thống.

Không thể nói quá về bước nhảy vọt to lớn mà Sora thể hiện từ đoạn phim video AI ác mộng chỉ một năm trước bản demo Sora. Chẳng hạn như AI Will Smith khá đáng lo ngại khi ăn mì spaghetti. Tôi nghĩ rằng đây là một cú sốc thậm chí còn lớn hơn đối với hệ thống so với khi các trình tạo hình ảnh AI từ một trò đùa đang diễn ra trở thành khiến các nghệ sĩ thị giác phải khiếp sợ.

Sora có khả năng tác động đến toàn bộ ngành công nghiệp video từ các nhà sản xuất cảnh quay một người cho đến cấp độ của các dự án kinh phí lớn của Disney và Marvel. Sẽ không có gì bị ảnh hưởng bởi điều này. Tôi nghĩ điều này đặc biệt đúng vì Sora không phải tạo ra mọi thứ hoàn chỉnh mà có thể làm việc trên vật liệu hiện có, chẳng hạn như tạo hoạt ảnh cho ảnh tĩnh mà bạn đã cung cấp. Đây có thể là sự khởi đầu thực sự của ngành công nghiệp phim tổng hợp.

2. Sora hoạt động như thế nào?


Chúng ta sẽ tìm hiểu sâu hơn một chút về Sora trong khả năng có thể, nhưng không thể đi sâu vào chi tiết đến thế. Đầu tiên, trớ trêu thay, OpenAI lại không công khai về hoạt động bên trong công nghệ của họ. Tất cả đều thuộc sở hữu độc quyền và do đó, nước sốt bí mật khiến Sora trở nên khác biệt so với đối thủ cạnh tranh vẫn chưa được chúng tôi biết đến từng chi tiết chính xác. Thứ hai, tôi không phải là nhà khoa học máy tính, bạn có thể không phải là nhà khoa học máy tính và vì vậy chúng ta chỉ có thể hiểu công nghệ này hoạt động như thế nào theo nghĩa rộng.

Tin vui là có một người giải thích Sora xuất sắc (có tường phí) của Mike Young trên Medium, dựa trên báo cáo kỹ thuật từ OpenAI mà anh ấy đã chia nhỏ để những người bình thường như chúng ta có thể hiểu được. Mặc dù cả hai tài liệu đều rất đáng đọc nhưng chúng ta có thể rút ra những thông tin quan trọng nhất ở đây.

Sora được xây dựng dựa trên những bài học mà các công ty như OpenAI đã học được khi tạo ra các công nghệ như ChatGPT hoặc DALL-E. Sora đổi mới cách đào tạo trên các video mẫu bằng cách chia các video đó thành các "bản vá" tương tự như "mã thông báo" được mô hình đào tạo của ChatGPT sử dụng. Vì các mã thông báo này đều có kích thước bằng nhau nên những thứ như độ dài clip, tỷ lệ khung hình và kích thước độ phân giải không quan trọng đối với Sora.

Sora sử dụng cách tiếp cận biến áp rộng tương tự như hỗ trợ GPT cùng với phương pháp khuếch tán mà trình tạo hình ảnh AI sử dụng. Trong quá trình đào tạo, nó xem xét các mã thông báo bản vá bị khuếch tán một phần ồn ào từ video và cố gắng dự đoán mã thông báo sạch, không có tiếng ồn sẽ trông như thế nào. Bằng cách so sánh điều đó với thực tế cơ bản, mô hình sẽ học được "ngôn ngữ" của video. Đó là lý do tại sao các ví dụ từ trang web Sora trông rất chân thực.

Ngoài khả năng vượt trội này, Sora còn có các chú thích rất chi tiết cho các khung hình video mà nó được đào tạo, đây là phần lớn lý do tại sao nó có thể sửa đổi các video mà nó tạo ra dựa trên lời nhắc bằng văn bản.

Khả năng mô phỏng chính xác vật lý trong video của Sora dường như là một tính năng mới nổi, kết quả đơn giản là được đào tạo trên hàng triệu video có chứa chuyển động dựa trên vật lý trong thế giới thực. Sora có tính lâu dài đối tượng tuyệt vời, ngay cả khi đối tượng rời khỏi khung hoặc bị che khuất bởi thứ khác trong khung, chúng vẫn hiện diện và quay trở lại mà không bị ảnh hưởng.

Tuy nhiên, đôi khi nó vẫn có vấn đề khi mọi thứ trong video tương tác với nhau, với quan hệ nhân quả và với việc tạo đối tượng tự phát. Ngoài ra, hơi buồn cười là Sora dường như thỉnh thoảng nhầm lẫn trái với phải. Tuy nhiên, những gì được trình bày cho đến nay không chỉ có thể sử dụng được mà còn hoàn toàn ở trạng thái hiện đại.

3. Khi nào bạn sẽ nhận được Sora?

Vì vậy, tất cả chúng tôi đều vô cùng hào hứng khi được bắt tay vào sử dụng Sora và bạn có thể đặt cược số tiền thấp nhất của mình là tôi sẽ thử nghiệm với nó và viết ra chính xác công nghệ này tốt như thế nào khi chúng tôi không được hiển thị các kết quả đầu ra được chọn lọc thủ công, nhưng bao lâu điều này có thể xảy ra?

Theo văn bản này, vẫn chưa rõ chính xác sẽ mất bao lâu trước khi Sora có sẵn cho công chúng hoặc nó sẽ có giá bao nhiêu. OpenAI đã tuyên bố rằng công nghệ này nằm trong tay "đội đỏ", đó là nhóm người có nhiệm vụ cố gắng bắt Sora làm tất cả những điều hư hỏng mà nó không được phép làm, sau đó giúp đặt các rào chắn chống lại loại đó. điều gì sẽ xảy ra khi khách hàng thực tế sử dụng nó. Điều này bao gồm khả năng tạo ra thông tin sai lệch, tạo ra các tài liệu xúc phạm hoặc xúc phạm và nhiều hành vi lạm dụng khác mà người ta có thể tưởng tượng.

Theo văn bản này, nó cũng nằm trong tay của những người sáng tạo được chọn, mà tôi nghi ngờ là vừa nhằm mục đích thử nghiệm vừa để nhận được một số đánh giá và chứng thực của bên thứ ba khi chúng tôi đưa ra bản phát hành cuối cùng.

Điểm mấu chốt là chúng tôi thực sự không biết khi nào nó sẽ có sẵn, giống như cách bạn chỉ cần trả tiền và sử dụng DALL-E 3, và trên thực tế, ngay cả OpenAI cũng chưa có ngày chắc chắn. Điều này đơn giản là vì nếu nó nằm trong tay những người kiểm tra an toàn, họ có thể phát hiện ra các vấn đề mất nhiều thời gian để khắc phục hơn dự kiến, điều này sẽ đẩy lùi việc phát hành rộng rãi.

Việc OpenAI cảm thấy sẵn sàng khoe Sora và thậm chí nhận một số lời nhắc công khai được tuyển chọn thông qua X (trước đây là Twitter) chỉ đơn giản có nghĩa là công ty cho rằng chất lượng của sản phẩm cuối cùng đã khá sẵn sàng, nhưng cho đến khi có một bức tranh tốt hơn về dư luận, vấn đề an toàn được nêu ra và cả vấn đề an toàn được phát hiện, không ai có thể nói chắc chắn. Tôi nghĩ chúng ta đang nói về tháng chứ không phải năm, nhưng đừng mong đợi điều đó xảy ra vào tuần tới.