MidJourney V5.2 so với V6 Alpha: Chúng tôi kiểm tra sự khác biệt

Tác giả sysadmin, T.M.Hai 29, 2023, 08:55:58 SÁNG

« Chủ đề trước - Chủ đề tiếp »

0 Thành viên và 1 Khách đang xem chủ đề.

MidJourney V5.2 so với V6 Alpha: Chúng tôi kiểm tra sự khác biệt


Từ những nét vẽ nguệch ngoạc bằng bút chì màu đến nghệ sĩ bậc thầy. MidJourney đã tung ra phiên bản Alpha của mẫu V6 và có nhiều cải tiến hứa hẹn so với V5.2. Chúng tôi xem xét những gì tốt hơn trên giấy và thử nghiệm nó với mô hình cũ hơn.

1. Có gì mới trong V6?

Không còn nghi ngờ gì nữa, có rất nhiều điều đã xảy ra với V6, nhưng MidJourney đã nêu bật các tính năng chính trong một chuỗi Discord chính thức. Lưu ý rằng bạn phải là thành viên của MidJourney Discord để xem bài đăng được đề cập. Đây là những thay đổi quan trọng nhất:

  • Tuân thủ nhanh chóng chính xác hơn.
  • Lời nhắc dài hơn.
  • Cải thiện tính mạch lạc và kiến thức mẫu.
  • Cải thiện nhắc nhở và phối lại hình ảnh.
  • Khả năng vẽ văn bản nhỏ (tương tự như mẫu DALL-E mới).
  • Trình nâng cấp được cải tiến, với cả chế độ 'tinh tế' và 'sáng tạo'.

Nói tóm lại, V6 mang đến cho MidJourney nhiều khả năng mới đầy ấn tượng của công cụ đối thủ DALL-E 3, nhưng ở đây chúng tôi muốn xem nó tốt hơn bao nhiêu so với mẫu V5.2 vốn là mặc định tại thời điểm viết bài.

Nếu bạn là người đăng ký MidJourney và muốn dùng thử phiên bản V6 Alpha mới, chỉ cần nhập /settings vào Discord, sau đó chọn V6 từ menu mẫu xuất hiện sau khi gửi lệnh.

2. Tuân thủ nhanh chóng

Điều đầu tiên tôi muốn kiểm tra là mô hình mới tuân thủ yêu cầu tốt đến mức nào. Trước đây, MidJourney sẽ lấy thông tin chi tiết trong lời nhắc giống như những gợi ý mơ hồ hơn là hướng dẫn. Vì vậy, đây là lời nhắc với hướng dẫn rất chi tiết.

Vẽ một khu chợ ở một thành phố tương lai. Ở bên trái khung hình là một người phụ nữ với giỏ mua hàng trên tay trái. Bên phải là một gian hàng chợ đường phố. Một robot ở phía sau quầy hàng bán trái cây. Robot có màu tím và đang cầm một quả táo trên cánh tay phải dang rộng.

Đối với mỗi mẫu, tôi đã chọn hình ảnh phù hợp nhất với lời nhắc của mình. Đây là phiên bản V5.2 tốt nhất được đưa ra.


Đây là điều tốt nhất mà V6 đã nghĩ ra.


Mặc dù V5.2 thường bao gồm tất cả các yếu tố tôi yêu cầu nhưng chúng không được sắp xếp chính xác so với khung hoặc với nhau. Sai lầm thực sự duy nhất mà V6 mắc phải ở đây là đặt quả táo vào tay trái của robot và giỏ hàng vào tay phải của cô gái. Có lẽ quan trọng nhất là tất cả hình ảnh do V6 tạo ra đều mạch lạc hơn nhiều so với V5.2, vốn không có cảm giác về khung hình hay sự cân bằng ở đây mà chỉ có cảm giác như bị trộn lẫn với nhau.

3. Đưa văn bản vào hình ảnh

Giống như DALL-E 3, MidJourney V6 tự hào có khả năng tích hợp văn bản vào hình ảnh một cách chính xác. Tất cả những gì bạn phải làm là phân tách văn bản bằng dấu ngoặc kép trong lời nhắc. Đây là lời nhắc chúng tôi đã sử dụng: Một lá cờ vải có dòng chữ trên đó.

Tôi đặt tất cả bốn lần thử của cả hai mẫu ở đây để cho thấy rằng V6 chưa hoàn hảo ở điểm này, nhưng không có hình ảnh nào của V5.2 gần đạt được độ chính xác của văn bản.
Bốn lá cờ do AI tạo ra trong mỗi góc phần tư của hình ảnh, với văn bản bị cắt xén.

Tuy nhiên, với V6, nó đã thành công 75% trong lần thử đầu tiên và bạn có thể thấy rõ văn bản được tích hợp chính xác vào hình ảnh chứ không chỉ đơn giản là được phủ lên.

4. Chất lượng nghệ thuật

Mặc dù chúng ta ít nhiều có thể kiểm tra một cách khách quan xem V6 có thể làm theo lời nhắc hoặc tích hợp văn bản tốt đến mức nào, nhưng chất lượng nghệ thuật khó xác định hơn nhiều. Khi tôi so sánh các mẫu MidJourney V1 với V5.2, rõ ràng là với mỗi mẫu mới, AI ngày càng trở nên "giàu trí tưởng tượng" hơn vì không có từ nào hay hơn. Thành phần và chi tiết cũng được cải thiện đáng kể, và thành thật mà nói, V5.2 vẫn dẫn đầu khi nói đến sự tinh tế về mặt nghệ thuật, như tôi đã lưu ý khi so sánh MidJourney với DALL-E 3.

Vì vậy, tôi nghĩ điều này tốt nhất nên để tùy theo đánh giá của mỗi người đọc nội dung này và vì vậy đây là một vài cặp hình ảnh, với V5.2 ở bên trái và V6 ở bên phải.


Lời nhắc: Một khung cảnh giả tưởng hoành tráng và đẹp đẽ về một ngôi làng của yêu tinh nơi các yêu tinh đang thực hiện công việc kinh doanh của họ. Biến nó thành một bức tranh sơn dầu.


Lời nhắc: Khung cảnh đường phố tương lai với người ngoài hành tinh, robot và con người đều sống trong cùng một thành phố. Làm cho nó theo phong cách của một bức tranh tốc độ kỹ thuật số.


Lời nhắc: Một bức ảnh thiên nhiên về những ngọn núi nhìn từ bãi biển, với một mặt trăng lớn có thể nhìn thấy trên bầu trời.

5. Nó chỉ là một Alpha (Hiện tại)

Điều thực sự quan trọng cần lưu ý là MidJourney V6 vẫn chưa hoàn thiện tại thời điểm viết bài. Đây là mô hình mới được đào tạo từ đầu nhưng rút ra bài học từ các mô hình trước đó. V6 vẫn thiếu một số giá trị bổ sung tuyệt vời mà bạn có thể tìm thấy trong V5.2, chẳng hạn như khả năng xoay hình ảnh.

Điều rõ ràng là bạn có thể bỏ qua tất cả các thủ thuật kỹ thuật nhanh chóng mà bạn biết về MidJourney, V5.2 vẫn hoàn toàn có khả năng tạo ra những hình ảnh tuyệt đẹp và có thể sử dụng được. Ở giai đoạn này, không có hại gì khi dùng thử mẫu V6 Alpha để xem liệu nó có mang lại kết quả tốt hơn theo lời nhắc của bạn hay không, nhưng hãy luôn chuẩn bị sẵn V5.2.