Cách chạy Khuếch tán ổn định trên PC của bạn để Tạo Hình ảnh AI

Tác giả Network Engineer, T.Mười 02, 2022, 09:29:50 SÁNG

« Chủ đề trước - Chủ đề tiếp »

0 Thành viên và 1 Khách đang xem chủ đề.

Cách chạy Khuếch tán ổn định trên PC của bạn để Tạo Hình ảnh AI


Nghệ thuật Trí tuệ nhân tạo (AI) hiện đang là xu hướng thịnh hành, nhưng hầu hết các trình tạo hình ảnh AI đều chạy trên đám mây. Diffusion ổn định thì khác - bạn có thể chạy nó trên chính PC của mình và tạo ra bao nhiêu hình ảnh tùy thích. Đây là cách bạn có thể cài đặt và sử dụng Stable Diffusion trên Windows.


1. Khuếch tán ổn định là gì?

Stable Diffusion là một mô hình máy học mã nguồn mở có thể tạo hình ảnh từ văn bản, sửa đổi hình ảnh dựa trên văn bản hoặc điền thông tin chi tiết trên hình ảnh có độ phân giải thấp hoặc độ chi tiết thấp. Nó đã được đào tạo trên hàng tỷ hình ảnh và có thể tạo ra kết quả tương đương với những kết quả bạn nhận được từ DALL-E 2 và MidJourney. Nó được phát triển bởi Stability AI và được phát hành công khai lần đầu tiên vào ngày 22 tháng 8 năm 2022.

Stable Diffusion không có giao diện người dùng gọn gàng (chưa) như một số trình tạo hình ảnh AI, nhưng nó có giấy phép cực kỳ dễ chịu và - trên hết - nó hoàn toàn miễn phí để sử dụng trên PC (hoặc Mac) của riêng bạn.

Cập nhật, 16/9/22: Thích giao diện đồ họa? Hãy thử hướng dẫn của chúng tôi để chạy Khuếch tán ổn định với GUI trên PC của bạn.

Đừng lo lắng bởi sự lan tỏa ổn định hiện đang chạy trong giao diện dòng lệnh (CLI). Bắt đầu và chạy nó là khá dễ dàng. Nếu bạn có thể nhấp đúp vào tệp thực thi và nhập vào một hộp, bạn có thể chạy tệp đó trong vài phút.

2. Bạn cần làm gì để chạy sự khuếch tán ổn định trên PC của mình?

Diffusion ổn định sẽ không chạy trên điện thoại của bạn hoặc hầu hết các máy tính xách tay, nhưng nó sẽ chạy trên PC chơi game trung bình vào năm 2022. Dưới đây là các yêu cầu:

  • GPU có ít nhất 6 gigabyte (GB) VRAM
  • Điều này bao gồm hầu hết các GPU NVIDIA hiện đại
  • 10GB (ish) dung lượng lưu trữ trên ổ cứng hoặc ổ thể rắn của bạn
  • Trình cài đặt Miniconda3
  • Tệp khuếch tán ổn định từ GitHub
  • Các điểm kiểm tra mới nhất (Phiên bản 1.4, tính đến thời điểm viết bài, nhưng phiên bản 1.5 sẽ sớm được phát hành)
  • Trình cài đặt Git
  • Windows 8, 10 hoặc 11
  • Diffusion ổn định cũng có thể chạy trên Linux và macOS

Nếu bạn không có phần cứng, hãy cân nhắc sử dụng trình tạo hình ảnh AI dựa trên web. Bạn thậm chí có thể chạy bản demo của Stable Diffusion trên web.

3. Cách cài đặt và chạy ổn định Diffusion trên Windows

Có hai phần mềm bạn cần: Git và Miniconda3.

Lưu ý: Git và Miniconda3 đều là những chương trình an toàn được sản xuất bởi các tổ chức có uy tín. Bạn không cần phải lo lắng về phần mềm độc hại với chúng miễn là bạn tải chúng xuống từ các nguồn chính thức được liên kết trong bài viết này. 

3.1. Cài đặt Git

Git  là một công cụ cho phép các nhà phát triển quản lý các phiên bản khác nhau của phần mềm mà họ đang phát triển. Họ có thể duy trì đồng thời nhiều phiên bản phần mềm mà họ đang làm việc trong một kho lưu trữ trung tâm và cho phép các nhà phát triển khác đóng góp vào dự án.

Nếu bạn không phải là nhà phát triển, Git cung cấp một cách thuận tiện để truy cập và tải xuống các dự án này và đó là cách chúng tôi sẽ sử dụng nó trong trường hợp này. Tải xuống trình cài đặt Windows x64 từ trang web Git, sau đó chạy trình cài đặt này để cài đặt Git.

Có một số tùy chọn bạn sẽ được nhắc chọn trong khi trình cài đặt chạy - hãy để chúng ở cài đặt mặc định. Một trang tùy chọn, "Điều chỉnh Môi trường PATH của bạn", đặc biệt quan trọng. Nó phải được đặt thành "Git From The Command Line And also From 3rd Party Software."


3.2. Cài đặt Miniconda3

Ổn định Diffusion dựa trên một vài thư viện Python khác nhau. Nếu bạn không biết nhiều về Python, đừng quá lo lắng về điều này - đủ để nói rằng, các thư viện chỉ là các gói phần mềm mà máy tính của bạn có thể sử dụng để thực hiện các chức năng cụ thể, như biến đổi một hình ảnh hoặc làm phép toán phức tạp.

Miniconda3 về cơ bản là một công cụ tiện lợi. Nó cho phép bạn tải xuống, cài đặt và quản lý tất cả các thư viện cần thiết để Ổn định khuếch tán hoạt động mà không cần can thiệp thủ công nhiều. Đó cũng sẽ là cách chúng tôi thực sự sử dụng Khuếch tán ổn định.

Truy cập trang tải xuống Miniconda3 và nhấp vào "Miniconda3 Windows 64-bit" để tải xuống trình cài đặt mới nhất.


Bấm đúp vào tệp thực thi khi nó đã được tải xuống để bắt đầu cài đặt. Cài đặt của Miniconda3 ít liên quan đến việc nhấp qua các trang hơn Git đã làm, nhưng bạn cần chú ý tùy chọn này:


Đảm bảo rằng bạn chọn "Tất cả người dùng" trước khi nhấp vào tiếp theo và hoàn tất quá trình cài đặt.

Bạn sẽ được nhắc khởi động lại máy tính của mình sau khi cài đặt Git và Miniconda3. Chúng tôi không thấy điều đó là cần thiết, nhưng nếu bạn làm vậy thì sẽ không có hại gì.

4. Tải xuống Kho lưu trữ GitHub Khuếch tán Ổn định và Trạm kiểm soát Mới nhất

Bây giờ chúng tôi đã cài đặt phần mềm tiên quyết, chúng tôi đã sẵn sàng tải xuống và cài đặt Ổn định khuếch tán.

Tải xuống trạm kiểm soát mới nhất trước tiên - phiên bản 1.4 có dung lượng gần 5GB, vì vậy có thể mất một lúc. Bạn cần tạo một tài khoản để tải xuống trạm kiểm soát, nhưng họ chỉ yêu cầu tên và địa chỉ email. Mọi thứ khác là tùy chọn.

Lưu ý: Tại thời điểm viết bài (ngày 2 tháng 9 năm 2022), trạm kiểm soát mới nhất là phiên bản 1.4. Nếu có phiên bản mới hơn, hãy tải xuống phiên bản đó để thay thế.


Nhấp vào "sd-v1-4.ckpt" để bắt đầu tải xuống.

Lưu ý: Tệp khác, "sd-v1-4-full-ema.ckpt",  có thể  cung cấp kết quả tốt hơn, nhưng nó có kích thước gấp đôi. Bạn có thể sử dụng một trong hai. 


Sau đó, bạn cần tải xuống Stable Diffusion từ GitHub. Nhấp vào nút "Mã" màu xanh lá cây, sau đó nhấp vào "Tải xuống tệp ZIP." Ngoài ra, bạn có thể sử dụng liên kết tải xuống trực tiếp này.


Bây giờ chúng ta cần chuẩn bị một vài thư mục để giải nén tất cả các tệp của Stable Diffusion. Nhấp vào nút Bắt đầu và nhập "miniconda3" vào thanh tìm kiếm của Menu Bắt đầu, sau đó nhấp vào "Mở" hoặc nhấn Enter.


Chúng ta sẽ tạo một thư mục có tên là "stable-diffusion" bằng cách sử dụng dòng lệnh. Sao chép và dán khối mã bên dưới vào cửa sổ Miniconda3, sau đó nhấn Enter.

Mã nguồn [Chọn]
CDC:/
mkdir stable-diffusion
cd stable-diffusion

Lưu ý: Hầu như bất kỳ khi nào bạn dán một khối mã vào một thiết bị đầu cuối, chẳng hạn như Miniconda3, bạn cần nhấn Enter ở cuối để chạy lệnh cuối cùng.

Nếu mọi thứ suôn sẻ, bạn sẽ thấy một cái gì đó như thế này:


Giữ cho cửa sổ Miniconda3 mở, chúng tôi sẽ cần lại sau một phút.

Mở tệp ZIP "stable-diffusion-main.zip" mà bạn đã tải xuống từ GitHub trong chương trình lưu trữ tệp yêu thích của mình. Ngoài ra, Windows cũng có thể tự mở các tệp ZIP nếu bạn không có. Giữ tệp ZIP mở trong một cửa sổ, sau đó mở một cửa sổ File Explorer khác và điều hướng đến thư mục "C: \ stable-diffusion" mà chúng tôi vừa tạo.

Kéo và thả thư mục trong tệp ZIP, "ổn định-khuếch tán-chính", vào thư mục "khuếch tán ổn định".


Quay lại Miniconda3, sau đó sao chép và dán các lệnh sau vào cửa sổ:

Mã nguồn [Chọn]
cd C:\stable-diffusion\stable-diffusion-main
conda env create -f environment.yaml
conda activate ldm
mkdir models\ldm\stable-diffusion-v1


Đừng làm gián đoạn quá trình này. Một số tệp lớn hơn gigabyte, vì vậy có thể mất một chút thời gian để tải xuống. Nếu bạn vô tình làm gián đoạn quá trình, bạn sẽ cần phải xóa thư mục môi trường và chạy conda env create -f environment.yaml lại. Nếu điều đó xảy ra, hãy điều hướng đến "C: \ Users \ (Tài khoản người dùng của bạn) \. Conda \ envs" và xóa thư mục "ldm", sau đó chạy lệnh trước đó.

Lưu ý: Vậy, chúng ta vừa làm gì? Python cho phép bạn sắp xếp các dự án mã hóa thành "Môi trường". Mỗi môi trường tách biệt với các môi trường khác, vì vậy bạn có thể tải các thư viện Python khác nhau vào các môi trường khác nhau mà không phải lo lắng về các phiên bản xung đột. Nó là vô giá nếu bạn đang làm việc trên nhiều dự án trên một PC.

Các dòng chúng tôi chạy đã tạo một môi trường mới có tên "ldm", tải xuống và cài đặt tất cả các thư viện Python cần thiết để Ổn định Diffusion hoạt động, kích hoạt môi trường ldm, sau đó thay đổi thư mục thành một thư mục mới.

Chúng tôi đang ở bước cuối cùng của quá trình cài đặt. Điều hướng đến "C: \ stable-diffusion \ stable-diffusion-main \ models \ ldm \ stable-diffusion-v1" trong File Explorer, sau đó sao chép và dán tệp điểm kiểm tra (sd-v1-4.ckpt) vào thư mục.


Đợi tệp hoàn tất quá trình chuyển, nhấp chuột phải vào "sd-v1-4.ckpt" và sau đó nhấp vào "Đổi tên". Nhập "model.ckpt" vào hộp được đánh dấu, sau đó nhấn Enter để thay đổi tên tệp.

Lưu ý: Nếu đang chạy Windows 11, bạn sẽ không thấy "đổi tên" trong menu ngữ cảnh khi nhấp chuột phải. Thay vào đó, có một biểu tượng trông giống như một trường văn bản thu nhỏ.


Và thế là xong - chúng ta đã hoàn thành. Chúng tôi đã sẵn sàng thực sự sử dụng Khuếch tán ổn định ngay bây giờ.

5. Cách sử dụng Khuếch tán ổn định

Môi trường ldm mà chúng tôi đã tạo là rất cần thiết và bạn cần kích hoạt nó bất cứ lúc nào bạn muốn sử dụng Ổn định khuếch tán. Vào conda activate ldmcửa sổ Miniconda3 và nhấn "Enter". (Ldm) ở phía bên trái cho biết rằng môi trường ldm đang hoạt động.

Lưu ý: Bạn chỉ cần nhập lệnh đó khi mở Miniconda3. Môi trường ldm sẽ vẫn hoạt động miễn là bạn không đóng cửa sổ.


Sau đó, chúng ta cần thay đổi thư mục (do đó là lệnh cd) thành "C: \ stable-diffusion \ stable-diffusion-main" trước khi chúng ta có thể tạo bất kỳ hình ảnh nào. Dán  cd C:\stable-diffusion\stable-diffusion-main vào dòng lệnh.

6. Cách tạo ảnh với sự khuếch tán ổn định

Chúng tôi sẽ gọi một tập lệnh,   Đăng nhập để xem liên kết, cho phép chúng tôi chuyển đổi lời nhắc văn bản thành hình ảnh 512 × 512. Đây là một ví dụ. Hãy thử điều này để đảm bảo mọi thứ hoạt động chính xác:

Mã nguồn [Chọn]
python scripts/txt2img.py --prompt "a close-up portrait of a cat by pablo picasso, vivid, abstract art, colorful, vibrant" --plms --n_iter 5 --n_samples 1
Bảng điều khiển của bạn sẽ cung cấp cho bạn một chỉ báo tiến trình khi nó tạo ra các hình ảnh.


Lệnh đó sẽ tạo ra năm hình ảnh con mèo, tất cả đều nằm ở "C: \ stable-diffusion \ stable-diffusion-main \ outputs \ txt2img-samples \ samples".


Nó không hoàn hảo, nhưng nó giống với phong cách của Pablo Picasso, giống như chúng tôi đã chỉ ra trong lời nhắc. Hình ảnh của bạn phải trông giống nhau nhưng không nhất thiết phải giống hệt nhau.

Bất kỳ lúc nào bạn muốn thay đổi hình ảnh được tạo, bạn chỉ cần thay đổi văn bản có trong dấu ngoặc kép sau --prompt.

Mẹo: Đừng viết lại toàn bộ dòng mỗi lần. Sử dụng các phím mũi tên để di chuyển con trỏ văn bản và chỉ cần thay thế lời nhắc.

Mã nguồn [Chọn]
python scripts/txt2img.py --prompt "YOUR, DESCRIPTIONS, GO, HERE" --plms --n_iter 5 --n_samples 1
Giả sử chúng tôi muốn tạo ra một con gopher trông thực tế trong một khu rừng ma thuật đội mũ phù thủy. Chúng tôi có thể thử lệnh:

Mã nguồn [Chọn]
python scripts/txt2img.py --prompt "a photograph of a gopher wearing a wizard hat in a forest, vivid, photorealistic, magical, fantasy, 8K UHD, photography" --plms --n_iter 5 --n_samples 1

Nó thực sự dễ dàng - chỉ cần mô tả những gì bạn muốn cụ thể nhất có thể. Nếu bạn muốn thứ gì đó chân thực, hãy đảm bảo bao gồm các thuật ngữ liên quan đến hình ảnh thực tế. Nếu bạn muốn thứ gì đó lấy cảm hứng từ phong cách của một nghệ sĩ cụ thể, hãy chỉ định nghệ sĩ đó.

Khuếch tán ổn định không chỉ giới hạn ở chân dung và động vật, nó cũng có thể tạo ra phong cảnh ấn tượng.


7. Các Lập Luận Trong Lệnh Có Ý Nghĩa Gì?

Diffusion ổn định có rất nhiều cài đặt và đối số mà bạn có thể cung cấp để tùy chỉnh kết quả của mình. Một số ít được bao gồm ở đây về cơ bản là cần thiết để đảm bảo Ổn định khuếch tán sẽ chạy trên một máy tính chơi game trung bình.

  • Plms - Chỉ định cách hình ảnh sẽ được lấy mẫu. Có một bài báo về nó, nếu bạn muốn kiểm tra toán học.
  • N_iter - chỉ định số lần lặp bạn muốn tạo cho mỗi lời nhắc. 5 là một con số phù hợp để xem bạn đang nhận được loại kết quả nào.
  • N_samples - chỉ định số lượng mẫu sẽ được tạo. Mặc định là 3, nhưng hầu hết các máy tính không có đủ VRAM để hỗ trợ điều đó. Gắn bó với 1 trừ khi bạn có lý do cụ thể để thay đổi nó.

Tất nhiên, Ổn định khuếch tán có rất nhiều đối số khác nhau mà bạn có thể triển khai để điều chỉnh kết quả của mình. Chạy python scripts/txt2img.py --help để có được danh sách đầy đủ các đối số mà bạn có thể sử dụng.

Có rất nhiều thử nghiệm và sai lầm liên quan đến việc đạt được kết quả tuyệt vời, nhưng đó ít nhất là một nửa của niềm vui. Đảm bảo rằng bạn viết ra hoặc lưu các đối số và mô tả trả về kết quả bạn thích. Nếu bạn không muốn tự mình thực hiện tất cả các thử nghiệm, ngày càng có nhiều cộng đồng trên Reddit (và những nơi khác) dành riêng cho việc trao đổi hình ảnh và lời nhắc đã tạo ra chúng.