MidJourney vs. DALL-E 3: Trận chiến đối đầu nhanh chóng

Tác giả sysadmin, T.Mười 21, 2023, 09:11:02 SÁNG

« Chủ đề trước - Chủ đề tiếp »

0 Thành viên và 1 Khách đang xem chủ đề.

MidJourney vs. DALL-E 3: Trận chiến đối đầu nhanh chóng


Không còn những tai nạn nhỏ hạnh phúc nữa. Công nghệ tạo hình ảnh AI đang được cải thiện nhanh chóng đến mức chỉ trong vài tuần hoặc vài tháng, chất lượng và tính năng có thể có sẽ hoàn toàn khác. DALL-E 3 mang đến bước nhảy vọt về công nghệ, nhưng làm thế nào để nó có thể sánh ngang với MidJourney?


1. DALL-E 3 có gì đặc biệt?

Trước đây, chúng tôi đã trình bày chi tiết về quá trình phát triển và khả năng của MidJourney và cho đến nay, nó vẫn là công cụ tạo hình ảnh phù hợp để mang lại sản phẩm nghệ thuật tốt nhất phù hợp cho mục đích sử dụng thực tế. Tuy nhiên, việc tiến gần đến những gì bạn thực sự muốn trong hình ảnh được tạo ra trong MidJourney có thể là một việc cực kỳ khó khăn. Nếu bạn muốn kiểm soát chính xác, bạn phải sử dụng Ổn định Khuếch tán và một trong nhiều mod của nó, chẳng hạn như ControlNet. Tuy nhiên, Stable Diffusion khó sử dụng hơn đáng kể và cả MidJourney và DALL-E 3 đều vượt trội về tính dễ sử dụng.

DALL-E hứa hẹn sẽ tuân thủ chính xác hơn nhiều với cách diễn đạt lời nhắc của bạn. Nói cách khác, nếu bạn yêu cầu tư thế nhân vật cụ thể, chi tiết trong cảnh hoặc cách sắp xếp các đồ vật trong cảnh, về mặt lý thuyết, DALL-E 3 sẽ cung cấp cho bạn những gì bạn yêu cầu. Chúng tôi sẽ so sánh DALL-E 3 và MidJourney bằng một số gợi ý. Lời nhắc tương tự sẽ được đưa ra cho mỗi trình tạo AI.

2. Lời nhắc 1: Tinh tế nghệ thuật

Đầu tiên, tôi chỉ muốn có cảm nhận chung về những gì mỗi trình tạo sẽ thực hiện một cách nghệ thuật, vì vậy chúng ta sẽ bắt đầu với một lời nhắc khá chung chung:

Tạo hình ảnh về một khung cảnh giả tưởng hoành tráng với yêu tinh và rồng theo phong cách nghệ thuật giả tưởng của thập niên 90

Đây là hình ảnh MidJourney mà tôi nghĩ là đẹp nhất.


Và đây là hình ảnh DALL-E 3 mình thấy đẹp nhất.


Điều thú vị cần lưu ý ở đây là ChatGPT (giao diện người dùng cho DALL-E 3 trong trường hợp này) không chuyển lời nhắc chính xác của tôi tới trình tạo hình ảnh. Một phần điểm thu hút chính của DALL-E 3 là nó sử dụng ChatGPT (tức là GPT-4) để lấy ý tưởng của bạn và thực hiện phần " kỹ thuật nhanh chóng " trong công việc cho bạn. Vì vậy, nó sẽ tạo ra nhiều lời nhắc chi tiết hơn để thử và nhận được kết quả tốt hơn. Đây là lời nhắc mà ChatGPT đã tạo dựa trên yêu cầu của tôi:

Bức tranh sơn dầu gợi nhớ đến tác phẩm nghệ thuật giả tưởng của thập niên 90, thể hiện một nhóm yêu tinh, cả nam và nữ, đứng trên rìa vách đá. Ở hậu cảnh, những con rồng khổng lồ bay lên, đôi cánh của chúng đổ bóng xuống khu rừng tươi tốt bên dưới. Khung cảnh tràn ngập màu sắc rực rỡ và ánh sáng ấn tượng.

Điều này đặt ra một thách thức đặc biệt khi cố gắng so sánh hai trình tạo hình ảnh vì GPT đang tăng chất lượng của lời nhắc. Vì vậy, để công bằng, tôi đã đưa lời nhắc do GPT tạo vào MidJourney và đây là kết quả.


Bây giờ chúng ta có thứ gì đó có thể so sánh được hơn nhiều. Tuy nhiên, cái nào thắng? Trong trường hợp này, ý kiến của tôi là hình ảnh DALL-E 3 gần với những gì tôi yêu cầu hơn, trong khi hình ảnh MidJourney có phong cách khác biệt và tinh tế nghệ thuật hơn. Theo tôi, mẫu V5 hiện tại của MidJourney vượt trội về mặt nghệ thuật tổng thể, nhưng tất nhiên điều này mang tính chủ quan cao.

Đối với phần so sánh còn lại, tôi sẽ chỉ sử dụng lời nhắc do GPT tạo cho cả hai trình tạo hình ảnh để loại bỏ kỹ năng của tôi (hoặc thiếu kỹ năng đó) khi nói đến lời nhắc chế tạo. Vì vậy, nói cách khác, trước tiên tôi sẽ yêu cầu ChatGPT cung cấp hình ảnh, sau đó sao chép và dán hình ảnh đẹp nhất mà nó tạo ra theo lời nhắc của MidJourney.

3. Lời nhắc 2: Thành phần văn bản

Bạn có thể nhận thấy rằng MidJourney có xu hướng đưa ra gobbledygook bất cứ khi nào có văn bản trong hình ảnh được tạo. Đó là bởi vì nó tạo ra những thứ trông giống chữ cái nhưng thực chất không phải là chữ cái. Vì vậy, những chiếc áo phông có dòng chữ hoặc biển hiệu cửa hàng sẽ không có dòng chữ hợp lý nào. DALL-E 3 hứa hẹn sẽ tạo ra bất cứ văn bản nào bạn thích và đặt nó vào khung một cách chính xác, vậy hãy cùng thử nghiệm điều đó nhé. Đây là lời nhắc ChatGPT đưa ra.

Mặc dù đầu ra của MidJourmey rất vừa mắt nhưng nó hoàn toàn không phải những gì chúng tôi yêu cầu, vì vậy DALL-E 3 pip ở đây. Tuy nhiên, vẫn còn nhiều văn bản vô nghĩa trong hình ảnh. Trong thử nghiệm của tôi, DALL-E hoạt động tốt khi bạn chỉ định tất cả văn bản trong hình ảnh hoặc không có văn bản nào khác ngoài những gì bạn yêu cầu, nhưng nếu hình ảnh có văn bản không xác định thì điều đó thật vô nghĩa giống như với MidJourney,

3. Lời nhắc 3: Thiết lập cảnh

Thử nghiệm cuối cùng tôi muốn thực hiện là thiết lập một khung cảnh, trong đó tôi chỉ định vị trí của tất cả các thành phần chính.

Hình minh họa cảnh quan thành phố cyberpunk gợi nhớ đến tính thẩm mỹ của Blade Runner. Một người phụ nữ người máy với đôi mắt phát sáng và tứ chi điều khiển học đứng ở bên trái, tay cầm một quả táo sáng bóng. Đối diện cô, ở bên phải, một người bán hàng robot với vẻ ngoài cũ kỹ đang hút xì gà, xung quanh là một dãy trái cây lạ. Đường phố nhộn nhịp với hoạt động, với máy bay không người lái bay trên đầu và các bảng hiệu đèn neon chiếu sáng khung cảnh.

Đây là kết quả của DALL-E 3.


Và đây là tất cả bốn lần thử của MidJourney.


Một lần nữa, MidJourney lại vượt trội về khả năng nghệ thuật nhưng lại hoàn toàn không thực hiện được những gì tôi yêu cầu trong lời nhắc.

Mặc dù bạn có thể làm lại cùng một hình ảnh trong DALL-E 3 theo các phong cách khác nhau, nhưng không có sự dụ dỗ nào sẽ khiến MidJourney tái tạo một cách nhất quán các yếu tố và vị trí cụ thể mà bạn yêu cầu. Đây là hình ảnh tương tự, nhưng tôi đã yêu cầu phong cách siêu thực và mộng mơ hơn từ DALL-E 3.

4. DALL-E 3 không hoàn hảo

Trước khi bạn quyết định bỏ MidJourney để chuyển sang DALL-E 3, có một số hạn chế lớn mà tôi gặp phải khi thử nghiệm DALL-E 3 mà bạn nên biết:

  • ChatGPT sẽ từ chối tạo hình ảnh của các nhân vật có bản quyền, trong khi MidJourney sẽ vui vẻ tạo ra tác phẩm nghệ thuật dành cho người hâm mộ về các nhân vật hiện có.
  • ChatGPT cũng sẽ không cho phép bạn yêu cầu phong cách nghệ thuật của bất kỳ nghệ sĩ còn sống nào, trong khi bạn vẫn có thể làm điều này với MidJourney.
  • Cả hai nền tảng sẽ không tạo ra nghệ thuật vượt quá giới hạn nhất định khi nói đến nội dung người lớn có tính chất bạo lực hoặc tình dục. Tuy nhiên, MidJourney có quy trình kháng nghị đơn giản đối với các kết quả dương tính giả, trong khi ChatGPT có thể cần một chút thuyết phục vì nhìn bề ngoài thì nó phức tạp hơn nhiều.

Thời gian của tôi với công cụ này bị hạn chế và cả DALL-E 3 và MidJourney liên tục nhận được các cải tiến và tính năng mới, nhưng đây là những hạn chế rõ ràng nhất mà hầu hết mọi người có thể quan tâm.

Ở đây khá khó để tuyên bố người chiến thắng tuyệt đối, nhưng xét về tình hình hiện tại, MidJourney là công cụ phù hợp để sử dụng nếu bạn muốn sự biểu cảm và sự tinh tế nghệ thuật trong những gì bạn tạo ra. Ngược lại, DALL-E 3 cho đến nay là công cụ tốt hơn nếu bạn muốn tạo tác phẩm nghệ thuật nhất quán theo yêu cầu chính xác của mình về hình minh họa hoặc các trường hợp sử dụng chuyên nghiệp khác.