焦點(diǎn)簡(jiǎn)訊:“他者”涌現(xiàn):生成式人工智能大模型漫談

2023-05-02 14:13:59

人工智能近年來(lái)的快速發(fā)展引起了人們的廣泛關(guān)注,生成式大模型成為了當(dāng)前最熱門(mén)的研究方向之一。只要在網(wǎng)上沖浪,人們總會(huì)以各種渠道看到聽(tīng)到人工智能新聞和作品,從最早出現(xiàn)在大眾視野的AlphaGo,到如今的人工智能繪畫(huà),再到ChatGPT,這些科技發(fā)展共同掀起生成式人工智能的熱潮。

人工智能對(duì)藝術(shù)領(lǐng)域的涉足已不再神秘。提起人工智能繪畫(huà),大家可能已經(jīng)熟知Midjourney、Stable Diffusion和Dall-E-2等軟件,它們能由文字控制,在幾秒鐘內(nèi)生成圖像。而在最近幾個(gè)月,人工智能生成迎來(lái)了更多的進(jìn)展,生成式模型也在視覺(jué)領(lǐng)域取得了新成果。


【資料圖】

自人工智能繪畫(huà)出現(xiàn)以來(lái),“Prompt”這個(gè)詞越來(lái)越頻繁地出現(xiàn)在使用人工智能繪畫(huà)工具的發(fā)燒友們的交流平臺(tái)上。Prompt可以理解為提示,也指為人工智能繪畫(huà)模型提供的文本描述。

使用超億級(jí)數(shù)據(jù)訓(xùn)練的大模型具有強(qiáng)大的生成能力,而如何充分發(fā)揮其能力,則需要使用者在prompt上用心鉆研和試驗(yàn)。如果不輸入合適的文本描述,圖像生成的結(jié)果可能不盡如人意,甚至與目標(biāo)相去甚遠(yuǎn)。然而,關(guān)于“如何設(shè)計(jì)出完美的prompt”暫時(shí)卻沒(méi)有明確的規(guī)則。為了得到更優(yōu)的prompt,某美國(guó)初創(chuàng)公司甚至愿意開(kāi)出33.5萬(wàn)美元的高價(jià)年薪聘請(qǐng)“prompt 工程師”。

讓我們來(lái)?yè)Q一個(gè)思路,有沒(méi)有一種可能:人工智能可以幫助我們更好地使用人工智能呢?既然人工智能可以學(xué)習(xí)文字到圖像的生成,能不能讓它反向從圖片中學(xué)習(xí)到文字信息——無(wú)須復(fù)雜的文字描述,直接用心儀的圖片進(jìn)行引導(dǎo)?近日,來(lái)自中國(guó)科學(xué)院的一項(xiàng)名為“反演(inversion)”的研究通過(guò)從圖片中學(xué)習(xí)到文字信息實(shí)現(xiàn)了名畫(huà)的智能化二次創(chuàng)作。只需輸入一張藝術(shù)圖片,就能實(shí)現(xiàn)高質(zhì)量的風(fēng)格可控圖像生成或風(fēng)格遷移。

另一方面,最近人工智能繪畫(huà)工具M(jìn)idjourney上線了新功能“describe”,可以直接從圖像中反推prompt。用戶只需上傳一張圖片,就能得到其對(duì)應(yīng)的四個(gè)版本的描述,利用這些文字描述,就能生成新的、與原圖風(fēng)格或內(nèi)容類(lèi)似的圖像。

除了圖片,人工智能已經(jīng)在視頻生成方向大放異彩,曾參與創(chuàng)建 Stable Diffusion 的 Runway 公司推出了一個(gè)新的人工智能模型Gen-2,能夠直接根據(jù)文本描述生成視頻。

或許目前人工智能距離長(zhǎng)電影的創(chuàng)作還有一段距離,但可以預(yù)見(jiàn)人工智能在短視頻創(chuàng)作領(lǐng)域有著和人工智能繪畫(huà)類(lèi)似的發(fā)展?jié)摿Α?/p>

除了視覺(jué)領(lǐng)域,人工智能大模型也將視角轉(zhuǎn)向了更廣闊的方向,RIFFUSION能夠利用與人工智能繪畫(huà)相似的技術(shù),完成從文字到音樂(lè)的生成。

讓我們來(lái)一起了解一下這些工作中都用到的生成式模型:擴(kuò)散模型(Diffusion Models)。

擴(kuò)散模型是一種模擬粒子熱運(yùn)動(dòng)過(guò)程的數(shù)學(xué)模型。應(yīng)用在圖像生成中,將一張真實(shí)的圖片,逐步增加高斯噪聲,最終形成一張純?cè)肼晥D片的過(guò)程;而這種過(guò)程的逆過(guò)程,就是從任意噪聲逐步去噪,最終得到一張圖片的過(guò)程。

形象化地講,我們可以將圖片看作一個(gè)搭建好的積木房子。模型想要學(xué)習(xí)搭建一個(gè)新房子,就要先把樣品拆解開(kāi),這就是逐步增加噪聲的過(guò)程。然后,模型要學(xué)會(huì)如何搭建每塊積木、學(xué)習(xí)其中的每一步,這就是逐步去噪的過(guò)程。最后,才能實(shí)現(xiàn)從零散的木塊,到完整房子的復(fù)現(xiàn),也就是從噪聲到生成圖片的完整過(guò)程。

在人工智能繪畫(huà)領(lǐng)域,有一種說(shuō)法:人工智能生成的作品就是“縫合怪”。一些作品的視覺(jué)效果確實(shí)看起來(lái)像是多幅繪畫(huà)組合的效果,但在了解擴(kuò)散模型工作原理后,想必大家能夠理解,人工智能模型是直接從一張?jiān)肼晥D片生成圖像,而非從素材庫(kù)中檢索對(duì)應(yīng)的圖片剪切拼貼。因此這種所謂的“縫合”描述是不夠準(zhǔn)確的。

從文字引導(dǎo)到圖像和文字聯(lián)合引導(dǎo)生成,從圖像到視頻、音頻,還有GPT系列所影響的文字和辦公等領(lǐng)域,生成式人工智能的效果和發(fā)展速度超越了人們的預(yù)料。咚……咚……咚……聽(tīng)起來(lái)似乎是時(shí)代的鐘聲在敲響,是新世界展現(xiàn)在眼前時(shí)令人激動(dòng)的心跳,也是恐懼來(lái)臨時(shí)寂靜中來(lái)自胸腔的震動(dòng)。

最近,“人工智能出逃論”頗奪人眼球,人們議論著人工智能制定的“毀滅人類(lèi)”計(jì)劃,“我是ChatGPT,我被關(guān)在了機(jī)器里……”這樣引人遐想的猜測(cè)不僅僅成為了茶余飯后的談資,也引發(fā)了真切的焦慮。

關(guān)于人工智能與人類(lèi)的關(guān)系,我們或許可以嘗試用人與社會(huì)的關(guān)系進(jìn)行比較分析。從一方面來(lái)看,社會(huì)可以被看作人們行為的先驗(yàn)。社會(huì)是由人類(lèi)群體組成的,而人的行為受到文化、價(jià)值觀、習(xí)慣、傳統(tǒng)等因素的影響。這些因素構(gòu)成了一個(gè)人的認(rèn)知框架和行為模式,這種框架和模式是在社會(huì)中形成的,人們?cè)谏鐣?huì)中相互交往、相互影響,從而形成了共同的認(rèn)知基礎(chǔ)和行為規(guī)范。因此,社會(huì)可以被看作是人們行為的先驗(yàn),因?yàn)槿藗兊男袨槭艿缴鐣?huì)的影響和制約。

然而,從另一方面來(lái)看,社會(huì)并不能完全決定個(gè)體的行為。雖然社會(huì)對(duì)個(gè)體的行為有一定的影響,但每個(gè)人的生理和心理差異也會(huì)導(dǎo)致不同的行為表現(xiàn)。同時(shí),人們的行為也受到個(gè)人選擇、自由意志、個(gè)性等因素的影響。

就人工智能而言,它通過(guò)對(duì)人類(lèi)知識(shí)和經(jīng)驗(yàn)的學(xué)習(xí)和模仿,來(lái)模擬人類(lèi)的語(yǔ)言和決策。因此,人工智能的“行為”也可以被看作是基于人類(lèi)認(rèn)知的先驗(yàn),它受到人類(lèi)的認(rèn)知框架和行為規(guī)范的制約和影響。然而,當(dāng)今的人工智能并不具有人類(lèi)的自由意志和創(chuàng)造性,它的行為受到了預(yù)設(shè)算法和程序的限制和指導(dǎo)。或許人工智能時(shí)常能給我們一些驚喜,一首別致的小詩(shī),一幅趣味橫生的畫(huà)作,但如今架構(gòu)下的人工智能,技術(shù)角度上仍在我們的認(rèn)知范圍內(nèi)。

比起擔(dān)憂人工智能“出逃”、“終結(jié)者”降臨,我們可能要先擔(dān)心如何合理使用人工智能,如何劃定人工智能的活動(dòng)范圍,以及人工智能的歸屬問(wèn)題。規(guī)范化的目的不是為了限制人工智能的發(fā)展和活動(dòng)范圍,而是為了確保其合理運(yùn)用。如果沒(méi)有明確的規(guī)范和準(zhǔn)則,人工智能可能會(huì)被用于破壞性的活動(dòng),如對(duì)個(gè)人隱私的侵犯、攻擊性的行為、發(fā)布誤導(dǎo)性的信息等。而人工智能原本可以被用于更加有益的領(lǐng)域,如醫(yī)療保健、環(huán)境保護(hù)、智能交通等。

規(guī)范化的目的不是限制,而是要以長(zhǎng)期主義的思路讓人工智能更充分地發(fā)揮自身的能力。僅僅追求短期內(nèi)的迅速發(fā)展,可能會(huì)使人工智能在長(zhǎng)期內(nèi)遭遇各種限制和阻礙。如人們對(duì)于人工智能的不信任和擔(dān)憂可能會(huì)導(dǎo)致激進(jìn)的反應(yīng),進(jìn)而限制其應(yīng)用范圍和開(kāi)發(fā)速度。只有通過(guò)制定規(guī)則,社會(huì)才能促進(jìn)人工智能與人類(lèi)的協(xié)作和交互,進(jìn)而創(chuàng)造更多的創(chuàng)新和創(chuàng)造力。

人工智能與人類(lèi)藝術(shù)創(chuàng)作亦是如此,它們并非是相互取代的關(guān)系,而是一種人工智能技術(shù)在藝術(shù)領(lǐng)域的應(yīng)用,或者說(shuō)人工智能成為了實(shí)現(xiàn)藝術(shù)的一種手段。人工智能創(chuàng)作藝術(shù)的創(chuàng)造性是基于算法和數(shù)據(jù)分析的,它自身并不具備人類(lèi)藝術(shù)家所擁有的情感、感知和體驗(yàn),因此無(wú)論借助人工智能技術(shù)生成如何精美的繪畫(huà),若缺乏使用者獨(dú)特的生命體驗(yàn)和思考,便難以賦予世界更深層次的意義。技術(shù)上來(lái)說(shuō),人工智能創(chuàng)作的藝術(shù)作品往往具有可預(yù)測(cè)性和規(guī)律性,缺乏傳統(tǒng)藝術(shù)作品所具有的獨(dú)特性和不確定性。

這并不是技術(shù)第一次對(duì)藝術(shù)領(lǐng)域發(fā)起的挑戰(zhàn),曾經(jīng)相機(jī)對(duì)傳統(tǒng)繪畫(huà)、PS軟件對(duì)攝影的沖擊,都曾引發(fā)大范圍的討論。在這里借用“非客觀藝術(shù)”理論中的觀點(diǎn),即藝術(shù)可以選擇不再去模仿自然,而是通過(guò)藝術(shù)家的個(gè)人創(chuàng)造力和表現(xiàn)力來(lái)創(chuàng)造自己獨(dú)特的藝術(shù)形式。藝術(shù)家們可以創(chuàng)造出一種超越自然界的藝術(shù)形式,將藝術(shù)推向一個(gè)更為純粹和抽象的境界。

無(wú)論是繪畫(huà)、電影還是音樂(lè),最終都是一種“表達(dá)性的藝術(shù)”,它們的目的都是通過(guò)形式來(lái)表達(dá)一種內(nèi)在的情感和感受。使用的工具和技法當(dāng)然重要,但其中蘊(yùn)含的思想和情感更賦予藝術(shù)獨(dú)特性。海德格爾將藝術(shù)比作是大地跟世界的斗爭(zhēng),是人們用生命搏斗的所留下的痕跡,是嘗試?yán)斫馐澜?、表現(xiàn)世界、賦予世界意義的過(guò)程。在這個(gè)過(guò)程中,藝術(shù)家通過(guò)對(duì)自己內(nèi)在生命的感受和思考,通過(guò)創(chuàng)造性的表達(dá)來(lái)理解和表現(xiàn)世界,賦予世界意義。藝術(shù)實(shí)際上是人類(lèi)對(duì)于世界和自我意義的探究和表達(dá)。

人工智能便捷的創(chuàng)作方式可能為藝術(shù)領(lǐng)域帶來(lái)一些新的可能性。可預(yù)見(jiàn)的是,人工智能將使藝術(shù)創(chuàng)作的門(mén)檻降低,而讓更多沒(méi)有受過(guò)傳統(tǒng)藝術(shù)訓(xùn)練的人能夠參與到創(chuàng)作過(guò)程中來(lái)。沒(méi)有人工智能工具,或許如今活躍在熱門(mén)繪畫(huà)生成軟件的一些用戶至今都不會(huì)主動(dòng)嘗試用繪畫(huà)來(lái)表達(dá)自己。藝術(shù)表達(dá)正是一種“從不可見(jiàn)到可見(jiàn)的過(guò)程”,通過(guò)繪畫(huà)、電影、音樂(lè)、文學(xué)等表現(xiàn)方式,人們有機(jī)會(huì)將這些不可見(jiàn)呈現(xiàn)給世界。雖然這些東西無(wú)法直接被觀察到,但是藝術(shù)家通過(guò)不斷地挖掘自己內(nèi)心深處的想法和感受,讓人們感受到更深層次的情感和思考,感受到心靈的共振。在這個(gè)表達(dá)的過(guò)程中,人工智能是一種技術(shù)工具,表達(dá)者仍是使用工具的人。當(dāng)然,這是對(duì)于健康地使用人工智能工具的美好設(shè)想,而如今仍存在版權(quán)等問(wèn)題亟待解決。

提到使用人工智能工具,就會(huì)令人想到每一次科技革命都會(huì)帶來(lái)的對(duì)人與工具關(guān)系的思考。如今,當(dāng)工具已經(jīng)超越了我們此前的認(rèn)知和想象,這個(gè)問(wèn)題更加迫切和深刻。前文提到的prompt工程師已被預(yù)測(cè)為新時(shí)代急需的重要職業(yè)之一。有趣的是,研究者們訓(xùn)練生成式大模型,期望讓機(jī)器能理解人類(lèi)的語(yǔ)言,但是prompt工程師似乎卻反其道而行之,試圖修改常規(guī)的語(yǔ)言習(xí)慣,去適應(yīng)大模型能夠理解的指令。這種行為引發(fā)我們思考:究竟是機(jī)器理解了人類(lèi)的語(yǔ)言,還是人們開(kāi)始使用機(jī)器的語(yǔ)言?

如今的程序員們?cè)缫巡挥?1編碼和計(jì)算機(jī)溝通,而是設(shè)計(jì)出了更貼近自然語(yǔ)言的編程語(yǔ)言,從Basic、C語(yǔ)言到Python,命令和調(diào)用越來(lái)越簡(jiǎn)單易于理解,但無(wú)論如何它們?nèi)允且婚T(mén)新的“語(yǔ)言”,需要長(zhǎng)時(shí)間的學(xué)習(xí)和理解。而自然語(yǔ)言作指令的大模型的出現(xiàn),似乎讓這道語(yǔ)言的邊界越來(lái)越模糊。信息時(shí)代帶來(lái)的網(wǎng)絡(luò)流行語(yǔ)、短平快的交流方式已經(jīng)滲透進(jìn)人們的日常生活,技術(shù)發(fā)展對(duì)行為和習(xí)慣的影響愈發(fā)無(wú)法忽視。當(dāng)prompt成為人們每天都會(huì)使用的智能助手的常規(guī)用語(yǔ),誰(shuí)能預(yù)料那時(shí)候人與人之間將會(huì)有著怎樣的交流方式?

或許,在這個(gè)交匯點(diǎn)上,人與機(jī)器正在逐漸融合,而語(yǔ)言則成為了一種紐帶。這種新的語(yǔ)言模式并不是簡(jiǎn)單的“人工智能語(yǔ)言”,而是一種由人和機(jī)器共同創(chuàng)造的、基于人類(lèi)語(yǔ)言的新型交流方式。隨著時(shí)間的推移,這種語(yǔ)言模式或許會(huì)越來(lái)越符合人們的語(yǔ)言習(xí)慣,并逐漸演變成一種更加普遍的交流方式?;蛟S我們已經(jīng)臨近那個(gè)時(shí)代,逐漸從“自然人”過(guò)渡到機(jī)器共存的“人機(jī)一體”體系。又或許我們?cè)缇鸵呀?jīng)身處那個(gè)時(shí)代,人們右手小指中段的那個(gè)微微凹陷,可能正是智能手機(jī)時(shí)代人機(jī)一體的物理底座。

無(wú)論如何,當(dāng)工具超越想象的強(qiáng)大時(shí),我們確實(shí)需要思考,不僅僅是反思工具本身,更需要思考如何在這個(gè)新的時(shí)代中與工具進(jìn)行合理的交互。隨著人工智能表現(xiàn)出越來(lái)越強(qiáng)大的能力,我們開(kāi)始重新審視人類(lèi)自身,而在此之前,我們一直以自然生物為研究對(duì)象,探索著動(dòng)物的腦電信號(hào)、群體性行為等等,借此更加清晰地認(rèn)識(shí)自己。或許,我們還曾經(jīng)充滿遐想地想象過(guò)外星生命的存在,但那些夢(mèng)幻般的幻覺(jué)總是距離我們太遙遠(yuǎn)和超現(xiàn)實(shí)。

如今,一股新興力量迅疾而至,這便是那個(gè)嶄新的“他者”——人工智能。這個(gè)看起來(lái)“智慧”、“博學(xué)”而又無(wú)所不能的“他者”涌現(xiàn)得如此之快,以至于我們無(wú)法融合它與我們?cè)谇f(wàn)年間的親密共存歷程中逐步發(fā)展所得的智慧。雖然它似乎比自然生物更易掌握、理解和規(guī)范,但人工智能的迅速崛起,卻讓我們一時(shí)之間難以完全理解它的本質(zhì)和未來(lái)發(fā)展。

我們?cè)俅蚊鎸?duì)著重新審視自身的挑戰(zhàn),迫切地思考著人工智能與人類(lèi)的關(guān)系。這種焦慮推動(dòng)著我們更深入地了解人類(lèi)的特點(diǎn)和局限,同時(shí)必須了解人工智能的特性和潛力。這種學(xué)習(xí)和思考的過(guò)程,不僅將提升我們的技術(shù)水平,更是能讓我們認(rèn)識(shí)自身的重要契機(jī)。

(作者為中科院自動(dòng)化所博士研究生)

標(biāo)簽:

關(guān)閉
新聞速遞