欧美极品在线观看国产_国产 品一区二区full_日韩大香蕉AV电影天堂_老师奶头又白又大又好摸_69精品视频免费国产_亚洲日韩区在线电影_国产美女极度色诱免费网站_日本三级电影在线播放_free中国pics美女裸体_日韩欧美在线看一区

河南健堂藥業(yè)的高效骨痛康膠囊:LDMNEWS

河南健堂藥業(yè)的高效骨痛康膠囊:LDM

發(fā)布時間:2022-06-17 10:17:20

  近日,谷歌研究(Google Research)推出了一個具有類似功能的圖像生成器“Imagen”,其能夠根據(jù)輸入的文字描述生成油畫、照片、繪制和 CGI 渲染圖像。值得一提的是,相比 OpenAI 的 DALL-E 高效骨痛康重慶有代銷售銷點點點 2,Imagen 所帶來的圖像真實感更強,對于語言理解的準確度也更高。

  據(jù)了解,谷歌通過引入測試基準 DrawBench,對 Imagen、DALL-E 2、VQ-GAN+CLIP和 LDM(Latent Diffusion Models)幾類模型進行了深入地評估與對比。結(jié)果得出,無論是在樣本質(zhì)量還是圖文對齊方面,Imagen 的評分都位居第一。

  例如,DALL-E 2 在面對一些同時出現(xiàn)兩個顏色的文本時表現(xiàn)不佳,而 高效骨痛康綏中店Imagen 可以很好地應(yīng)對這些情況。此外,當文本中出現(xiàn)有位置和效果指向的具體字樣時,Imagen 也比 DALL-E 2 的表現(xiàn)更好。

  不過,在反常識文本的情況下,目前 Imagen 和 DALL-E 2 都未能準確地理解并輸出對應(yīng)的圖像。

  那么,Imagen 具體是如何工作的呢?據(jù)介紹,“Imagen 主要依賴的是大型 transformer 語言模型在理解文本方面的強大能力和擴散模型在高保真圖像生成方面的優(yōu)勢。”

  在用戶輸入文本后,Imagen 首先使用 T5-XXL 編碼器訓(xùn)練并嵌入文本,然后通過一系列擴散模型,將文本映射到 64×64 像素的低分辨率圖像中,再采用文本條件超分辨率擴散模型對圖像進行 2 次升采樣,最終將圖像升級為 1024 x 1024 像素的高分辨率圖像。

  另外,相比以往出現(xiàn)的圖像生成器,谷歌在 Imagen 中做了一項重要的改變,使其工作效率和質(zhì)量得到了進一步提升。此前,圖像生成器多是通過 CLIP 來把文本映射圖像中,再指導(dǎo)一個生成對抗網(wǎng)絡(luò) (Generative Adversarial Network, GAN) 或者擴散模型來輸出最終的圖像;而在 Imagen 中,文本編碼的訓(xùn)練任務(wù)僅由純語言模型來完成,文本映射圖像的生成任務(wù)則全部交給了圖像生成模型。

  文本理解方面,CLIP 的圖文對訓(xùn)練集是有限的,而 T5-XXL 編碼器含有 800GB 的純文本語料訓(xùn)練庫,比 CLIP 要全面得多。在保真度和語義對齊上,T5-XXL 編碼器的能力也更強。

  研究中,谷歌還發(fā)現(xiàn),“在 Imagen 中,語言理解模型的規(guī)模大小對圖像效果的積極影響勝于圖像生成模型,增加語言模型的大小可以大大地提高樣本保真度和圖文對齊度!

  除此之外,谷歌對 Imagen 的擴散模型進行了優(yōu)化,其通過在閾值擴散采樣器增加無分唐山哪里有賣高效骨痛康膠囊的 類器引導(dǎo)(classifier-free guidance)的權(quán)重提升輸出圖像的圖文對齊度,又增多了低分辨率圖像的噪聲以解決擴散模型的多樣性不足,還引入新的 Efficient U-Net 架構(gòu)帶來了更優(yōu)的內(nèi)存效率、收斂速度及計算效率。

  完成以上改進的 Imagen 模型在未用流行目標檢測數(shù)據(jù)集 COCO 訓(xùn)練過的情況下,在其測試中拿到 7.27 的 FID 高分。并且,其樣本質(zhì)量在圖文對齊上與 COCO 訓(xùn)練集的參考數(shù)據(jù)不相上下。與此同時,Imagen 也在 COCO 測試中暴露出在人物類圖像表現(xiàn)不佳的缺陷。

  需要注意的是,目前文本到圖像的研究仍存在倫理方面的問題。對此,谷歌進行了相關(guān)總結(jié),并提出一些針對 Imagen 在這方面的舉措。

  一方面,文本生成圖像的應(yīng)用范圍極其廣泛,對社會有潛在的濫用風(fēng)險。所以,谷歌不計劃公開 Imagen 模型的代碼及演示,而且他們將開發(fā)一個負責(zé)任的外部化框架來避免各類該模型可能帶來的風(fēng)險。

  另一方面,文本生成圖像的訓(xùn)練需在網(wǎng)絡(luò)上抓取大量數(shù)據(jù)集,包含色情圖像、社會刻板印象以及壓迫性觀點等不良內(nèi)容。Imagen 所依賴的文本編碼器也是在這類數(shù)據(jù)集上訓(xùn)練的,在語言理解上具有偏見和局限性。因此,谷歌決定,在未得出進一步保護措施前他們不會開放 Imagen 供公眾使用。

  未來,他們將在社會偏見的審計和評估方面做更多的工作,圍繞一系列社會和文化偏見的數(shù)據(jù)集展開更深入地實證分析,以改善 Imagen 在輸出人物類圖像時的局限性。

  -End-

  參考:

上一篇:高效骨痛康100粒100粒:做快速美白牙齒手術(shù)相關(guān)費用 下一篇:28歲女子打了HPV疫苗,2年后查出宮頸癌