哇靠,這個消息真的是在AI圈子裡丟下了一顆超級震撼彈!大家還記得Stable Diffusion吧?那個徹底改變我們對「在家就能畫圖」這件事認知的開源神器。好,現在重點來了,原本打造Stable Diffusion的那幾位核心大老——也就是傳說中的Robin Rombach、Patrick Esser還有Andreas Blattmann,這些名字聽起來可能有點陌生,但在技術圈他們根本就是「祖師爺」級別的存在——這幾位大神之前離開了原公司,大家還在猜他們要去哪裡閉關修煉,結果咧?他們現在帶著一家叫做「黑森林實驗室(Black Forest Labs)」的新創公司強勢回歸啦!

說真的,這幾個人聚在一起根本就是復仇者聯盟等級的陣容。你要知道,早期的潛在擴散模型(Latent Diffusion Models)就是他們搞出來的,這東西不只是Stable Diffusion的地基,甚至連後來OpenAI那邊嚇死人的DALL-E 2、DALL-E 3,還有前陣子那個讓人起雞皮疙瘩的影片生成模型Sora,裡面的核心架構很多靈感或者是技術路徑,都要追溯到這幾位大神的研究成果。所以說,他們這次出來創業,擺明了就是要告訴大家:「嘿,我們才是正宗的。」

這家新公司Black Forest Labs一出手就沒在客氣,直接端出了他們的第一道大菜——FLUX.1。這不是那種畫大餅的PPT產品喔,是直接可以用的AI影像生成器,而且一發佈就在社群媒體上炸開了鍋。為什麼?因為效果實在太誇張了,很多人測完都在說這品質簡直是在「降維打擊」。這家公司的總部設在德國(難怪叫黑森林,有種德國工藝的硬派感?),他們的目標也很明確,就是要用最頂尖的深度學習模型來重新定義未來的圖像和影片生成技術。你看這口氣多大,但人家是真的有實力。

當然啦,要搞這種吃算力像喝水一樣的AI模型,沒錢是萬萬不能的。這方面他們也是猛到不行,最近剛宣布種子輪融資就拿到了大約2800萬歐元,換算成美金大概是3100萬左右。這數字在種子輪來說簡直是天文數字好嗎!而且帶頭砸錢的還是那個大名鼎鼎的Andreessen Horowitz(a16z),這家風投公司在矽谷可是出了名的眼光毒辣,被他們看上的通常都會變成獨角獸。這筆錢進去,基本上就等於宣告Black Forest Labs擁有足夠的銀彈去跟其他巨頭火拼了。除了a16z,還有像Oculus的聯合創始人Brendan Iribe這些大咖天使投資人也在裡面,這背後的資源網絡有多深,光想就覺得可怕。

好啦,回來講講這個讓大家興奮到模糊的FLUX.1產品本身。這次他們很不講武德地一口氣推出了三個版本,直接覆蓋了從「我有錢我要最強」到「我是窮學生我想白嫖」的所有客群。這招真的很聰明,完全不給競爭對手留活路。

首先是大哥大版本——FLUX.1 [pro]。這個版本就是毫無保留的火力全開,專門給那些需要頂級畫質、細節要多變態有多變態的專業人士用的。不管是做商業廣告、電影概念圖還是什麼高端設計,用這個準沒錯。不過既然是Pro,當然就沒那麼容易讓你直接下載回家跑,目前主要是透過API的方式提供服務,這也很合理啦,畢竟要維持公司營運嘛,商業應用付點錢也是應該的。

再來是二哥——FLUX.1 [dev]。這個版本我自己覺得是最香的!為什麼?因為它是開放權重(Open Weights)的!雖然它是被定位在「非商業用途」,但對於我們這些喜歡拆解模型、搞研究、或者只是單純想在本地端測試極限的玩家來說,這简直是神恩浩蕩。它基本上保留了Pro版本的大部分能力,讓開發者可以在不用擔心錢包被API費用榨乾的情況下,盡情地去做實驗。這點真的要給原本SD團隊一個讚,他們還是沒有忘記開源社群的精神。

最後是小老弟——FLUX.1 [schnell]。順帶一提,「Schnell」在德文裡就是「快」的意思,名字取得真好。這個版本就是為了速度而生的,專門給那些需要快速迭代、或者是本地電腦顯卡不夠力的人用的。最佛心的是什麼你知道嗎?它是採用Apache 2.0許可證發布的!這意味著什麼?意味著你可以最大程度地自由使用,甚至拿去改、拿去整合都沒問題。這對於想要把AI生成功能整合到自己軟體裡的開發者來說,根本是天上掉下來的禮物。

至於技術規格嘛,這三個兄弟雖然定位不同,但底子都很厚,全部都擁有高達120億(12B)個參數。這在圖像生成模型裡已經是非常巨大的量級了。架構上他們也沒有在吃老本,用的是最新的「多模態平行擴散變壓器模塊」(Multimodal Parallel Diffusion Transformer blocks),聽不懂沒關係,反正你只要知道這是一種把變壓器(Transformer)和擴散模型(Diffusion)優點結合起來的黑科技,能讓模型在理解複雜指令和生成細節時,效率和品質都大幅提升。

老實說,現在市面上的AI繪圖模型已經多到讓人麻痺了,像是Midjourney已經很強了,DALL-E 3也整合得很好,但FLUX.1這次出來,光是那個手指頭不再畫成奇行種、還有那個這輩子我看過AI寫字寫得最準確的能力,就足以讓它在市場上殺出一條血路。這不是在吹牛,是真的去試一下就知道,那種細節的掌控力,真的會讓人覺得:「哇,這群人果然還是最懂AI繪圖的王者。」總之,AI生成的戰國時代又要進入一個新的篇章了,我們就搬板凳看戲,順便爽用這些新工具吧!

訂閱 YOLO LAB 更新

RSS 2.0 Atom 1.0 Feedly


探索更多來自 YOLO LAB|解構科技邊際與媒體娛樂的數據實驗室 的內容

訂閱即可透過電子郵件收到最新文章。