[tt] Thử 10 tình huống sử dụng AI Gemini Flash 2.0 để tạo và chỉnh sửa ảnh

Thảo luận trong 'Thư Giãn Express - Bản Tin Cuối Ngày' bắt đầu bởi , 23/3/25 lúc 13:28.

  1. Nô

    Phantom, je t'aime pour toujours GVN CHAMPION ⚔️ Dragon Knight ⚔️ Lão Làng GVN

    Tham gia ngày:
    27/10/05
    Bài viết:
    17,330
    Nơi ở:
    Nhà Rael
    [​IMG]

    Không chỉ có khả năng text to text mà model Gemini 2.0 còn có thể text to image, nghĩa là tạo ra hình ảnh từ văn bản nhập vào. Hồi cuối năm ngoái họ đã phát hành Gemini 2.0 Flash nhưng chỉ cho một số người test. Bây giờ họ đã chính thức phát hành rộng rãi cho tất cả người dùng và chúng ta đã có thể xài thử tính năng này miễn phí tại Google AI Studio.

    https://aistudio.google.com/prompts/new_chat?model=gemini-2.0-flash-exp

    Các bạn chỉ cần vào đường dẫn bên trên để vào Google AI Studio, cột bên phải chọn vào Gemini 2.0 Flash (Image Generatuon) Experimental, nhớ chọn output đầu ra là Images and text là đã có thể bắt đầu tạo / chỉnh sửa hình ảnh



    Chi tiết một số điểm đáng chú ý của Gemini 2.0 Flash

    Gemini 2.0 cho phép người dùng nhập vào một đoạn mô tả và nó sẽ tạo ra hình ảnh. Google nói rằng người dùng thậm chí có thể dùng nó để kể một câu chuyện bằng text và Gemini 2.0 sẽ lo phần minh họa bằng hình ảnh bằng cách giữ cho các nhân vật, những chủ thể được nhất quán trong suốt cuộc trò chuyện với chatbot.

    Sau khi Gemini 2.0 tạo ra một hình ảnh, người dùng muốn chỉnh sửa hay thêm cái gì vào, chỉ cần nhập tiếp lệnh vào qua ô chat là model sẽ tự hiểu và trả về hình ảnh đã cập nhật. Nhờ ngữ cảnh của cả cuộc nói chuyện được giữ lại nên chatbot có thể hiểu được rõ hơn những mong muốn sửa đổi của người dùng để cập nhật chính bức ảnh đã tạo, không tạo ra ảnh mới hoàn toàn.

    [​IMG]

    Không chỉ tạo ra mà người dùng còn có thể tải hình ảnh lên và nhờ Gemini chỉnh sửa, bổ sung thêm các yếu tố khác trong ảnh chỉ bằng câu prompt nhập vào. Đây là điểm khá ăn tiền, cho phép mở ra nhiều tình huống sử dụng hơn rất nhiều.

    Google nói rằng khác với nhiều mô hình tạo hình ảnh khác, flash Gemini 2.0 tận dụng kiến thức được dạy về thế giới và khả năng lý luận nâng cao để tạo ra hình ảnh phù hợp. Khả năng này cho phép nó có thể tạo ra hình ảnh chi tiết và thực tế, bám sát vào những gì người dùng mô tả trong prompt bằng ngôn ngữ tự nhiên.

    Điểm hay khác của Gemini 2.0 Flash chính là có thể xử lý tốt chữ trên vật thể trong hình ảnh, thí dụ như dòng chữ in lên áo của nhân vật hoặc chữ trên bảng hiệu trong hình ảnh. Google nói rằng đây là điểm mạnh của Gemini 2.0 flash so với rất nhiều model khác nhờ vào khả năng xử lý chính xác các chuỗi text dài của nó.

    Thử một số tình huống sử dụng Gemini 2.0 flash để tạo hay chỉnh sửa ảnh

    Bên dưới đây, mình sẽ thử nhanh một số tình huống xài Gemini 2.0 flash để tạo hay chỉnh sửa ảnh tải lên

    Chỉnh sửa ảnh nội thất

    [​IMG]
    Đầu tiên là mình tải một hình ảnh không gian bếp trống lên, sau đó kêu nó tạo một bàn ăn ở giữa bếp.

    [​IMG]
    Sau đó thử kêu nó đặt một bình hoa lên đó. Tiếp theo là thử kêu nó chuyển sang phong cách ấm cúng hơn. Có thể thấy tới bức ảnh thứ 3 thì mọi thứ vẫn được giữ nguyên như ban đầu, model chỉ thay những gì mình yêu cầu, khá ưng ý.

    Thay quần áo

    [​IMG]
    Tiếp theo thử tải một hình lên và nhờ nó thay đổi áo. Rất nhanh sau đó, hình ảnh được trả về rất đúng ý và hợp lý.

    [​IMG]
    Thử kêu nó thêm vào mắt kính đen.


    Thay đổi khung ảnh

    [​IMG]
    Tình huống này, mình thử kêu model zoom out bức ảnh gốc ra để thấy đủ cả người. Kết quả tạo ra tương đối ổn, không bị lỗi tay chân người.

    [​IMG]
    Mình thử kêu Gemini chuyển góc chụp của bức ảnh từ nghiêng như ảnh gốc sang ảnh chụp trực diện.

    Có thể thấy ở hầu hết các tình huống mình thử, mặt người sẽ có thể bị thay đổi đôi chút ở ảnh do AI sinh ra so với mặt người trong ảnh gốc mình tải lên.

    [​IMG]
    Mình thử tiếp ở một ảnh selfie, kêu Gemini zoom out ảnh ra. Có thể thấy là nó tạo ra thêm các chi tiết khá hợp lý.

    Thay background của ảnh

    [​IMG]
    Với prompt nhập vào, bức ảnh tạo ra khá hợp lý, không thấy lỗi nhiều, dặc biệt là dòng chữ trên biển hiệu không bị lỗi.

    Thêm chữ vào ảnh

    3 tình huống bên dưới, mình thử thêm các dòng chữ vào chiếc áo của nhân vật trong ảnh, có chỉ ra rõ cách chữ được thêu lên áo.

    [​IMG]

    [​IMG]

    [​IMG]

    Thử thêm người vào ảnh

    [​IMG]

    Phục hồi ảnh cũ

    [​IMG]

    [​IMG]
    Đây là ảnh gốc

    [​IMG]
    và đây là ảnh do AI đã xử lý

    Thử các góc chụp khác nhau của cùng một mẫu

    [​IMG]

    Kết hợp 2 ảnh lại với nhau

    [​IMG]
    Tình huống này khó hơn, mình thử đăng 2 ảnh lên và bắt model nó hợp nhất 2 ảnh lại thành bức ảnh mong muốn. Thử đầu tiên với cô gái đang ôm con gấu.

    [​IMG]
    Thử tiếp hợp nhất logo lên một bao bì sản phẩm.

    Tạo câu chuyện kèm ảnh

    Một tính năng khá hay của Gemini 2.0 Flash chính là tự vẽ ra một câu chuyện với hình minh họa kèm theo. Mình thử tải một ảnh lên và bắt nó viết ra một câu chuyện dơn giản và bên dưới là kết quả.

    [​IMG]
    [​IMG]
    [​IMG]
    [​IMG]

    Mọi người có thể thử thay nội dung câu chuyện, thay phong cách ảnh để ra được các kết quả khác nhau.

    Một vài nhận xét chung

    • Hầu hết các tình huống tạo ảnh, thêm chi tiết vào ảnh đều được làm rất tốt.
    • Ngữ cảnh chung của cả cuộc nói chuyện đều được giữ lại ổn định, dẫn tới việc thay đổi các chi tiết mong muốn trong bức ảnh không làm thay đổi quá nhiều toàn bộ bức ảnh, rất thích hợp để chỉnh ảnh.
    • Các nhu cầu như thay đổi áo quần, màu sắc, background đều được làm tốt.
    • Xử lý chữ trong ảnh rất tốt.
    • Xử lý mặt người cần lưu ý điều chỉnh top K và Temperature của model ở panel bên phải để ra được ảnh mong muốn, không bị biến dạng quá nhiều.
    • Một lưu ý là chất lượng từ bức ảnh thứ 3 trong cùng một cuộc nói chuyện sẽ giảm đi đáng kể. Bởi thế nếu muốn chỉnh sửa một bức ảnh chưa đúng ý do AI tạo ra, chúng ta nên bấm vào edit prompt tạo ra bức ảnh đó và chạy lại thay vì tiếp tục kêu nó tạo thêm bức ảnh khác.
    • Các thí dụ trên đây mình đều sử dụng các lệnh rất ngắn để thử nhanh. Nếu bạn muốn hình ảnh ra chi tiết hơn, cần chi tiết ngay trong prompt, diễn đạt rõ để model hiểu được ý định và trả về kết quả đúng ý hơn.

    • https://tinhte.vn/thread/thu-10-tin...ni-flash-2-0-de-tao-va-chinh-sua-anh.3969733/
     
    viendu and thanhtungtnt like this.
  2. Ferreira

    Ferreira Donkey Kong Berserker Lão Làng GVN

    Tham gia ngày:
    12/9/04
    Bài viết:
    424
    Đm vote chém vì tuyên truyền hình ảnh thằng mứt Cuhiep peepo_ban

    Đùa, chắc dạo này con Apple Intelligence nó bô thấy rõ nên anh hiep ifan chả ho he gì frn0xvy-png
     
  3. baodien2412

    baodien2412 Mega Man Lão Làng GVN

    Tham gia ngày:
    14/10/08
    Bài viết:
    3,163
    Ngon vl ấy nhỉ.
     
    viendu thích bài này.
  4. namnh01283

    namnh01283 Samus Aran the Bounty Hunter ♞ Blade Knight ♞ Lão Làng GVN

    Tham gia ngày:
    17/11/08
    Bài viết:
    6,403
    giao hoan đất trời mẹ shit đơ cho thằng đặc sản gà hiệp à chém nó peepo_bonk1
     
  5. nhat399

    nhat399 For the Horde! GameOver Lão Làng GVN

    Tham gia ngày:
    4/8/11
    Bài viết:
    11,580
    Ủa sao kêu AI lột đồ thì nó báo lỗi vậy mấy ông
     
  6. haiduong87

    haiduong87 Knee before Eden Lord Lão Làng GVN

    Tham gia ngày:
    20/5/04
    Bài viết:
    24,896
    Nơi ở:
    TP HCM
    hàng của gg
    bài của tt


    dm sao có thể hội tụ 2 cái lol này dc nhỉ

    wá xá rác
     
  7. Nô

    Phantom, je t'aime pour toujours GVN CHAMPION ⚔️ Dragon Knight ⚔️ Lão Làng GVN

    Tham gia ngày:
    27/10/05
    Bài viết:
    17,330
    Nơi ở:
    Nhà Rael
    Rác cc :chichdien:
     
  8. lanhdiendiemla

    lanhdiendiemla Sonic the Hedgehog Lão Làng GVN

    Tham gia ngày:
    16/3/03
    Bài viết:
    4,966
    Nơi ở:
    Mineral Town
    Hồi xưa đem ảnh đen trắng các cụ đi phục hồi với tô màu đưa lên bàn thờ tốn đâu 3 triệu, giờ một cái click luôn.
     
    chupchupchip, MCGH, viendu and 3 others like this.
  9. Simp

    Simp Sonic the Hedgehog

    Tham gia ngày:
    17/4/22
    Bài viết:
    4,732
    thằng cu hiệp này lên clip click bait bảo Gemini đá PTS ra chuồng gà xong bị chửi như chó :)))) cái ng ta cần PTS là tinh chỉnh detail trong 1 tấm hình chứ đíu phải gen toàn bộ tấm ảnh ra 1 khung cảnh khác, chung là tích hợp để gen xóa này xóa kia thì ok chứ mà để sửa detail trong 1 tấm ảnh và giữ nguyên các chi tiết khác của chủ thể thì đến cả con SD còn phải ngồi bùa tụt lol với đống model chứ k nói đến con gemini
     
  10. Kinas

    Kinas GVN Hero GVN CHAMPION Moderator ♞ Blade Knight ♞

    Tham gia ngày:
    14/6/03
    Bài viết:
    54,136
    Nơi ở:
    WwW.GaMeVn.CoM
    Tt đăng bài nâng bi gg cơ à ebbuoyd-pngebbuoyd-png
     
  11. _Rain_

    _Rain_ Ame no Shinryū「高貴の」 CHAMPION ⚜ Duel Master ⚜ Lão Làng GVN

    Tham gia ngày:
    13/3/09
    Bài viết:
    14,362
    Nơi ở:
    Làng Vũ Đệ
    Có lột áo mẫu được khum pu_pepehappycry
     
  12. tronghieu906

    tronghieu906 Mayor of SimCity Lão Làng GVN

    Tham gia ngày:
    10/1/08
    Bài viết:
    4,115
    Nơi ở:
    Ho Chi Minh City
    Nói AI có cái này, mới hỏi bọn nó thoát dấu ' trong query excel thế nào vì thử / \ không dc. 4 con AI đều trả lời lung tung và rất tự tin là dùng hai dấu ' :))
    Hqua thử lại thì mới thấy con Claude đã trả lời đúng. Hài...
     
  13. arakababa

    arakababa Donkey Kong Lão Làng GVN

    Tham gia ngày:
    27/12/08
    Bài viết:
    468
    Ảnh ôm gấu vẫn lỗi ngón tay. Các bác am hiểu có thể giải thích giúp tại sao AI nó chưa sửa được vụ này không?
     
  14. Hani.Vispro

    Hani.Vispro Legend of Zelda Lão Làng GVN

    Tham gia ngày:
    1/4/09
    Bài viết:
    1,001
    Nơi ở:
    Ở đâu còn lâu mới nói -_-
    Các AI tạo ảnh thường gặp lỗi trong việc tạo hình tay và ngón tay do một số nguyên nhân chính sau:
    * Sự phức tạp của cấu trúc bàn tay: Bàn tay là một bộ phận phức tạp với nhiều khớp, xương, cơ và gân. Các ngón tay có khả năng cử động linh hoạt và có nhiều tư thế khác nhau. Việc tái tạo chính xác tất cả các chi tiết này, đặc biệt là trong các tư thế phức tạp, là một thách thức lớn đối với AI.
    * Dữ liệu huấn luyện không đầy đủ: Mặc dù các mô hình AI được huấn luyện trên một lượng lớn dữ liệu hình ảnh, nhưng có thể không có đủ hình ảnh chất lượng cao và đa dạng về các tư thế tay và ngón tay khác nhau. Điều này dẫn đến việc AI không học được đầy đủ các quy tắc và đặc điểm của bàn tay.
    * Thiếu hiểu biết về giải phẫu học: AI không có sự hiểu biết về giải phẫu học như con người. Chúng không hiểu được cách các xương, khớp và cơ hoạt động cùng nhau để tạo ra các cử động của bàn tay. Do đó, chúng có thể tạo ra những hình ảnh tay và ngón tay không tự nhiên hoặc sai lệch về mặt giải phẫu.
    * Khó khăn trong việc nắm bắt phối cảnh: Bàn tay thường xuất hiện trong nhiều phối cảnh khác nhau, đôi khi bị che khuất hoặc bị biến dạng do góc nhìn. AI có thể gặp khó khăn trong việc hiểu và tái tạo chính xác hình dạng của bàn tay trong những trường hợp này.
    * Ưu tiên các đặc điểm nổi bật khác: Trong quá trình tạo ảnh, AI có thể ưu tiên tái tạo chính xác các đặc điểm nổi bật khác của đối tượng (ví dụ: khuôn mặt, trang phục) hơn là các chi tiết nhỏ như bàn tay.
    Mặc dù vậy, các nhà nghiên cứu và phát triển AI đang không ngừng cải thiện các mô hình và kỹ thuật để giảm thiểu lỗi tạo hình tay và ngón tay. Trong tương lai, chúng ta có thể mong đợi các AI tạo ảnh sẽ tạo ra những hình ảnh bàn tay chân thực và chính xác hơn.
     
  15. Hani.Vispro

    Hani.Vispro Legend of Zelda Lão Làng GVN

    Tham gia ngày:
    1/4/09
    Bài viết:
    1,001
    Nơi ở:
    Ở đâu còn lâu mới nói -_-
    Đấy con AI nó bảo tại thế mà nó hay lỗi tay đấy
     
    arakababa thích bài này.
  16. ging1212

    ging1212 Trên thông thiên văn,dưới tường địa lý Lão Làng GVN

    Tham gia ngày:
    12/8/06
    Bài viết:
    12,704
    Nơi ở:
    TTVX City
    Ủa là bài này có thật do Ai làm hết ko hay thằng đó có chỉnh sửa rồi chém ra ???
     
  17. heoconbusua

    heoconbusua snake, snake, snaaaake Lão Làng GVN

    Tham gia ngày:
    18/5/06
    Bài viết:
    8,299
    Nơi ở:
    Ho Chi Minh City
    Vl ở GVN còn phải xem bài cuhiep nữa
     
  18. Hani.Vispro

    Hani.Vispro Legend of Zelda Lão Làng GVN

    Tham gia ngày:
    1/4/09
    Bài viết:
    1,001
    Nơi ở:
    Ở đâu còn lâu mới nói -_-
    Con Gemini Studio này ổn thật mà, với các tác vụ như bài thì đúng là trong khả năng của nó thôi, chỉ là độ phân giải ảnh chưa cao
     
    ging1212 thích bài này.
  19. Evil Spirits

    Evil Spirits Nam Vương Thư Giãn Lão Làng GVN

    Tham gia ngày:
    15/10/05
    Bài viết:
    19,167
    Nơi ở:
    Hải Phòng
    Gemini nó được tích hợp sẵn trong dòng máy xiaomi thì phải, mở phần tin nhắn ra mặc định có trong đó.
     
  20. rayan8x

    rayan8x Mr & Ms Pac-Man

    Tham gia ngày:
    10/3/22
    Bài viết:
    209
    Nghe hơi vô lí nhỉ, nếu phức tạp thì phải bị cả 2 bàn tay chứ. Đây chỉ bị 1 bên ...
    P/s : à mới nhìn lại, tay nào cũng bị :))
     
    Hani.Vispro thích bài này.

Chia sẻ trang này