Apr 22, 2026 · Đọc 9 phút

GPT-image-2 thực sự hoạt động ra sao (Hướng dẫn thực dụng cho người sáng tạo)

GPT-image-2 là model ảnh mới nhất của OpenAI. Đây là hướng dẫn thực dụng cho người sáng tạo — điều gì đã thay đổi so với DALL·E 3, có gì mới bên trong, và cách viết prompt thực sự hiệu quả.

OpenAI phát hành gpt-image-2 vào ngày 21 tháng 4 năm 2026, kế nhiệm dòng DALL·E. Khác với DALL·E 3 — vốn được tích hợp chặt với ChatGPT — gpt-image-2 ra mắt như một model API hạng nhất ngay trong cùng tuần với bản phát hành công khai. Điều đó kéo theo nhiều hệ quả — về chất lượng, về những gì Bạn có thể kiểm soát, và về những loại công việc mà nó làm tốt.

Có gì mới so với DALL·E 3

Độ phân giải gốc cao hơn: 1024² ngay từ đầu, kèm 2K HD tích hợp khi cần.
Bám prompt tốt hơn: prompt phức tạp (nhiều chủ thể, quan hệ không gian) thực sự hoạt động.
Hỗ trợ ảnh đầu vào với độ trung thực cao — ảnh tham chiếu tải lên không bị giảm mẫu trước khi đọc.
Tính giá theo token: $8/M ảnh đầu vào, $30/M ảnh đầu ra — dễ dự đoán và mở rộng.

Ba mức chất lượng, ba mức giá

GPT-image-2 mở ra ba thiết lập chất lượng 'low', 'medium' và 'high'. Mỗi mức ứng với chi phí mỗi ảnh khác nhau: $0.006 / $0.053 / $0.211 ở 1024². Bạn gần như luôn muốn chọn medium cho công việc thường ngày — high là khoảng cách giữa 'ảnh web sắc nét' và 'bìa tạp chí'. Low dành để phác ý tưởng: rẻ-và-nhanh, chấp nhận một chút thô.

Chỉnh sửa ảnh thực sự hoạt động

DALL·E 3 chỉ tạo ảnh. GPT-image-2 nhận một ảnh tải lên kèm prompt và trả về một bản chỉnh sửa nhất quán. Model tự xử lý mặt nạ, ánh sáng và sự nhất quán phối cảnh ở bên trong — Bạn không cần ControlNet hay quy trình inpainting. Vẽ mặt nạ vẫn giúp ích cho các chỉnh sửa chính xác, nhưng đó là tùy chọn.

Năm thói quen viết prompt đáng giá

Mở đầu bằng chủ thể. 'Một chú cáo phi hành gia trên Sao Hỏa.' Đừng viết 'Hãy tạo cho tôi một bức ảnh có một chú cáo…'
Tiếp đến nêu camera + ánh sáng: '35mm, ánh viền mềm, golden hour'.
Kết thúc bằng các neo phong cách: 'editorial photography', 'Studio Ghibli', 'flat illustration'.
Tránh prompt phủ định bằng tiếng Anh thông thường ('don't include…') — hãy nói rõ điều Bạn MUỐN có.
Với HD, hãy cụ thể hơn. Model có nhiều dư địa hơn và bám chỉ dẫn theo nghĩa đen hơn.

Khi nào KHÔNG nên dùng GPT-image-2

Nếu Bạn cần một bản fine-tune anime cụ thể, một Lora riêng, hay toàn quyền điều khiển cục bộ, Stable Diffusion vẫn là lựa chọn đúng. Nếu Bạn đã trả tiền cho Midjourney và yêu phong cách đặc trưng của nó, hãy tiếp tục ở đó. Điểm mạnh của GPT-image-2 là độ tin cậy — nó làm đúng những gì Bạn mô tả.

Hướng dẫn về chi phí

Một người sáng tạo điển hình tạo 100 ảnh chuẩn mỗi tháng tốn khoảng $5.30 chi phí thô của OpenAI. Trên dịch vụ vận hành sẵn như gptimage2.plus, con số đó thành ~$10/tháng — phần chênh lệch dùng để chi trả hạ tầng, hỗ trợ, kiểm duyệt nội dung, và (trong trường hợp của chúng tôi) lưu lịch sử tạo ảnh miễn phí.