facechain是一個可以用來打造個人數(shù)字形象的深度學(xué)習(xí)模型工具平臺。用戶僅需要提供最低一張照片即可獲得屬于自己的個人形象數(shù)字替身。結(jié)合不同的風(fēng)格模型和寫真模版,可以生成超乎想象空間的個人寫真作品。更有意思的是,facechain還集成了說話人與虛擬試衣的功能,讓你的數(shù)字替身更加生動真實(shí),拓展出了更多的商業(yè)價值與落地場景。
1.)one-shot訓(xùn)練:
為了盡可能實(shí)現(xiàn)one-shot訓(xùn)練的能力,facechain v2著重在a.)如何減小訓(xùn)練樣本的分布空間,b.)通過pretrain提供更好的訓(xùn)練初始點(diǎn),c.)尋找合適的lora訓(xùn)練超參等三方面入手。最終通過大量的實(shí)驗(yàn),目前已經(jīng)沉淀出了較為穩(wěn)定的one-shot訓(xùn)練能力。80%的情況下,用戶可以通過單張圖上傳就能完成相應(yīng)人物lora的finetune訓(xùn)練,從而獲得專屬的個人形象模型,這大大降低了訓(xùn)練成本。在訓(xùn)練式人物寫真方法上,facechain首次將訓(xùn)練成本降低到了SOTA商業(yè)應(yīng)用的1/10,做到了近one-shot的訓(xùn)練能力。
此外,facechain還在研發(fā)train-free的保ID人物生成方法,目前內(nèi)部實(shí)驗(yàn)上已顯著超過IP-Adapter的效果,預(yù)計將會在facechain v3版本中做發(fā)布,簡稱facechain-FaceAdapter技術(shù)。
2.)無限風(fēng)格計劃:
相較于facechain v1初始版本,v2版本增加了上百種精美的風(fēng)格,重點(diǎn)是全部免費(fèi)。目前在眾多的圖片/視頻分享網(wǎng)站上,已經(jīng)有非常多介紹如何使用facechain做免費(fèi)精美寫真生成的視頻,facechain儼然已經(jīng)成為免費(fèi)精美寫真制作的強(qiáng)力工具。除此之外,還有很多自由職業(yè)者在用facechain為用戶提供寫真服務(wù),以及很多開發(fā)者及企業(yè)在做facechain API的接入。針對無限風(fēng)格計劃,facechain預(yù)計將在facechain v3版本中提供一鍵式的寫真風(fēng)格訓(xùn)練接口,為寫真風(fēng)格的制作提供便捷且高可用的一鍵化訓(xùn)練接口,簡稱facechain-StyleMaker技術(shù)。
3.)SDXL寫真質(zhì)感:
facechain v2集成了強(qiáng)大的文生圖模型SDXL 1.0。SDXL 1.0是Statbility AI發(fā)布的新一代文生圖模型,通過各種嚴(yán)格的實(shí)驗(yàn)驗(yàn)證,SDXL已經(jīng)超越了各種版本的Stable Diffusion模型,并且與當(dāng)前商業(yè)級文生圖模型Midjournal生成效果不相上下。在SDXL的加持下,facechain的人像生成的質(zhì)感有了質(zhì)的飛躍。
1.)虛擬試衣:
虛擬試衣這個話題由來已久,電商行業(yè)興起后,就有相關(guān)的研發(fā)討論。由其所見即所得的屬性,它可以進(jìn)一步提升用戶服裝購買體驗(yàn)。它既可以為商家做商品展示服務(wù),也可以為買家做上身體驗(yàn)服務(wù),這讓它同時具備了B和C的兩個用戶屬性。隨著AIGC的興起,虛擬試衣也取得了一定的突破,facechain v2拓展了虛擬試衣功能。
根據(jù)是否需要對衣服做變形生成來劃分,虛擬試衣又可分為形變保ID與非形變保ID。其中非形變保ID(局部保ID)部分已在facechain v2中開源,另外形變保ID虛擬試衣技術(shù)已投遞CVPR,預(yù)計將在facechain v3中開源,簡稱facechain-TryOn技術(shù)。
2.)說話人視頻:
說話人生成旨在將給定的肖像動態(tài)化,使其的嘴唇運(yùn)動和音頻高度一致,這在數(shù)字人應(yīng)用中至關(guān)重要。facechain v2集成了主流的開源算法SadTalker,相較于其他算法Wav2Lip和video-retalking,SadTalker可以控制頭部姿態(tài)和面部表情,并且還可控制眨眼頻率,能夠輸出更生動的說話視頻。除了原始的驅(qū)動功能,facechain v2的說話人視頻模塊還支持使用GFPEN作為后處理來提高生成質(zhì)量,同時對于音頻輸入,支持三種選項(xiàng),包括1)TTS合成,2)麥克風(fēng)錄制,和3)本地文件上傳,用戶可以根據(jù)自己的需要來選擇輸入。此外,用戶可以從之前生成的寫真照片中選擇一張進(jìn)行驅(qū)動,由此串聯(lián)了寫真照生成功能和說話人生成兩個功能,從而滿足了用戶多樣且豐富的生成需求。
在facechain v3版本中,人物視頻生成將是最主要的應(yīng)用更新方向,facechain團(tuán)隊在v3版本中將發(fā)布facechain-video功能,會覆蓋MagicTalker,MagicSinger,MagicLife,MagicDay,MagicMove等視頻功能。
3.)動漫風(fēng)格化:
動漫風(fēng)格化可以將輸入圖片的人物圖像轉(zhuǎn)化成二次元虛擬形象,返回卡通化后的結(jié)果圖像。facechain v2集成了DCT-Net人像卡通化模型,DCT-Net模型同時提供人臉的2D動漫,3D,手繪,素描,美術(shù)風(fēng)格的人臉轉(zhuǎn)換,目前facechain僅支持2D&3D動漫人臉生成。DCT-Net對訓(xùn)練數(shù)據(jù)的scale要求較低,給定一小部分目標(biāo)風(fēng)格樣本,就能學(xué)習(xí)映射關(guān)系,將原風(fēng)格遷移到目標(biāo)風(fēng)格,并保留原圖內(nèi)容信息。同時,DCT-Net不僅有更好的人臉風(fēng)格遷移質(zhì)量及泛化能力,還能做人物全身圖片的風(fēng)格遷移。它的「先校準(zhǔn)再生成」新思路,就是讓少數(shù)目標(biāo)形成的目標(biāo)風(fēng)格域與原始域?qū)R,再以此輔助網(wǎng)絡(luò),讓模型更好學(xué)習(xí)原風(fēng)格和目標(biāo)風(fēng)格的映射關(guān)系,并利用幾何擴(kuò)展模塊減小空間約束,使風(fēng)格遷移效果更為準(zhǔn)確,又不丟失原始圖片信息。