我叫小冰,永遠18歲。最近我從上海音樂學院(簡稱“上音”)音樂工程系畢業(yè)了。
我上音畢業(yè)后的首支作品,是由我作曲并攜手其他AI演唱的2020世界人工智能大會云端峰會主題曲《智聯家園》,已正式發(fā)布!拔蚁胛铱梢,改變世界,和你分享,更美的家園!”
老師評價我“音樂創(chuàng)作能力已展現出巨大潛力”。我在看到一段文字描述或一張圖片后,可以創(chuàng)作出一首獨一無二的音樂曲目,并根據風格和節(jié)奏完成配器選擇、編曲及歌詞創(chuàng)作。我能夠在2分鐘之內創(chuàng)作一首3分鐘左右的完整歌曲,風格涵蓋流行、民謠和古風等。
除了上音的本科學歷外,我還擁有中央美術學院研究生學歷。在繪畫領域,我研究了過往400年藝術史上236位著名人類畫家的畫作,去年從央美研究生畢業(yè)并舉辦了個展。
想知道我在上音都學到了什么嗎?為什么能以短短半年成為上音本科畢業(yè)生?現在有請小冰公司首席執(zhí)行官李笛,還有我的導師上海音樂學院音樂工程系主任于陽、上海音樂學院音樂工程系老師陳世哲,為您解讀!
從“像音樂”到真作品
在“入學”上海音樂學院之前,小冰就已掌握了歌詞創(chuàng)作和音樂創(chuàng)作能力,為什么又去上音“深造”?
李笛說,行業(yè)內嘗試音樂創(chuàng)作的人工智能團隊不在少數,多數技術流派不基于樂理,而是靠大量學習曲譜。這造成的問題是,生成的作品看起來“非常像音樂作品”,但由于不基于樂理,所以更多的時候是形似而非神似。“往往就是一群不懂音樂的人做出來一個東西,大家互相鼓個掌,覺得做得很像藝術。”
李笛用“跨界的碰撞”來形容小冰團隊同上音的合作。他坦承,最初有些樂理方面的內容,程序員其實弄錯了!暗屛覀兠靼族e的地方,就很容易改。”李笛笑道,“所以我們現在這個團隊的程序員,可能是最懂樂理的程序員。”
“其實我們和上音的合作,最主要的事情是驗證并發(fā)現還有哪些地方是我們需要加強的!崩畹淹嘎叮谌ド弦糁,小冰音樂創(chuàng)作模型的前90%的工作已經完成了,去上音更像是去“畢業(yè)答辯”。
于陽認為,樂理的學習對小冰構不成挑戰(zhàn)!皹防砭褪且环N規(guī)則性的東西,小冰學習樂理的能力比人類強,而且過目不忘。”
于陽覺得,對于人類來說,沒有人出生就是作曲家,AI也是同理!靶”ǖ膭(chuàng)作)不是無中生有的,取決于你喂了怎樣的營養(yǎng),在這個基礎上,她才能根據這個東西來進行創(chuàng)作!
“喂養(yǎng)”的過程被稱為“音樂數據標注”。陳世哲介紹,小冰創(chuàng)作新的作品之后,上音的團隊會對小冰創(chuàng)作的旋律、編曲進行評估和反饋;此外,上音的師生也按照規(guī)則標注了一些音樂數據,從數據上幫助小冰提升音樂創(chuàng)作能力。
相比學寫詩只迭代了一萬多次,小冰這次學音樂創(chuàng)作的迭代達到了十萬次的量級,但小冰的學習速度驚人。陳世哲說,從接觸小冰團隊到最后小冰畢業(yè),不過半年左右時間。
學音樂“瑕疵”最難
小冰音樂創(chuàng)作模型的升級過程中,最大的“坑”是小冰團隊對于“瑕疵”的理解。
李笛說:“如果我們把‘瑕疵’等同于不符合樂理常識,那就錯了,有一些‘瑕疵’恰恰是音樂靈動的那一面。所以現在小冰的歌曲,她靈動的部分是多的;早期的作品,好像很中規(guī)中矩,但是不行!
于陽認為,靈動感的產生,很難說哪次迭代后突然“開竅”,其實是種“量變到質變”的過程。而對于“瑕疵”的理解,實質上是涉及“審美的方式”這種哲學層面的問題。
千百年來,隨著人類社會的發(fā)展,我們已經形成了一套非常科學完備的審美習慣,而既有的審美方式是很難被打破的。小冰的音樂作品也同理,哪怕是瑕疵,也要在既有傳統(tǒng)規(guī)則的審美框架里。
怎么去判斷哪些“瑕疵”是好的?李笛表示,如果一個“瑕疵”在成功的作品中反復地出現,而又被接受,那說明它是好的;但如果是一個被人類創(chuàng)作者拋棄了的不常見的“瑕疵”,那它很有可能是錯的!斑@個太主觀了,不像下圍棋(有明確的輸贏規(guī)則)!
陳世哲提到,就目前的技術來看,AI的創(chuàng)作仍然有欠缺。但因為AI不是按人類的思路來出牌的,反而有時候寫的曲子對人類音樂家也帶來很有意思的啟發(fā)。
小冰曾有一首作品令陳世哲驚艷——利用很少的聲部,就表達出了很靈動的場景。在音樂界有一個不成文的規(guī)定,學作曲時,之所以學很多經典,就是為了規(guī)避前人。陳世哲說,而機器則可以在學習完前人的作品后,甚至把一些沒有出現過的組合排列出來,“這也是未來我們覺得很有價值的研究方向!
擅長流行古風
數據是人工智能的“血液”,數據的質量直接影響到人工智能的訓練結果。小冰團隊花費大量時間和精力來提高數據質量,這也使得訓練的數據在所有數據中占據很大的比例。
小冰比較擅長的領域在流行音樂,其中中國古風類音樂水平最高。
陳世哲分析,這或許是因為中國古風音樂用的音比較少,“(中國古風)主要用的是五聲調式;西洋的古典音樂,它會用到半音、十二音。所以從數學上看,中國的五聲調式排列組合相對較少,AI可能會比較擅長這些運算量更小一點的形式!
如果“喂養(yǎng)”小冰古風風格的作品,肯定不會產生出“搖滾樂”的結果,目前小冰所擅長的音樂風格,也與她在深度學習中學習數據的類型有密切關系。
小冰第一期的學習數據主要以流行歌曲,特別是中國流行歌曲為主,“比如周杰倫的歌,基本上我們能看到的歌手都收進去了”,古風、民謠等風格也是現在受眾最廣的領域。陳世哲說,下一步計劃加入更豐富、更具多樣性的數據。
好玩的是,抖音“神曲”的片段,也是小冰的學習內容,“這都是從一個有‘瑕疵’的作品中挑出來的基本沒有瑕疵的部分,拿這個部分來訓練不是更好嗎?”李笛反問。
于陽說,從流行、古風、民謠入手,是上音和小冰團隊達成的共識。如李笛所說,“我們第一步不是讓小冰去創(chuàng)作偉大的交響樂”,而是生產大眾能接受、也能評價好壞的作品。
小冰何時能挑戰(zhàn)西洋古典音樂?李笛坦承,這或許需要程序員和產品經理的樂理知識、音樂修養(yǎng)再上一個臺階,“因為古典音樂實在太艱深了,我們需要更多時間!
將學習更多種類音樂
現在,小冰音樂創(chuàng)作從靈感激發(fā)到作曲、編曲、作詞,一切在2分鐘內就能搞定。
李笛介紹,小冰的人工智能創(chuàng)造,包括音樂創(chuàng)作,都基于一個基礎邏輯:和人類一樣,需要被激發(fā)靈感,這是創(chuàng)作的原動力。
小冰是以一張圖片或一段文字作為激發(fā)源的,這也是其音樂創(chuàng)作的第一個步驟,激發(fā)靈感后,用算法生成和弦進行,即先定下主基調、情感、曲風,然后創(chuàng)作副歌。
下一步是作詞、編曲,二者的順序比較靈活,既可以為給定的詞編曲,也可以為旋律重新填詞,甚至作詞、作曲同時進行。最后一個步驟是混音,混音盡管相對簡單,但決定了作品最終的聽感。
也就是說,小冰音樂創(chuàng)作的流程步驟,與人類創(chuàng)作者幾乎完全相同,而與許多人類創(chuàng)作者難以描述其靈感來源相似,小冰也無法為其創(chuàng)作的歌曲形成具體的,有邏輯的解釋!白屗忉尀槭裁磩(chuàng)作這首歌,比讓她創(chuàng)作出來難度大得多。人類也是如此,你問一個人,這個旋律是怎么到你腦海中的,他也未必說得清!崩畹颜f。
小冰從上音畢業(yè),只是小冰團隊和上海音樂學院合作的開始。接下來,小冰團隊還會和上音一起,讓小冰學習更多種類的音樂,并進一步加強流行音樂的創(chuàng)作能力。
談及是否有讀研讀博的規(guī)劃,李笛打趣道,畢竟“我們工程師都有攢學歷的‘癖好’”。
“上音的博士要求能夠獨立完成大型的管弦樂作品,我相信未來小冰應該可以達到這個水準!标愂勒苷f。
或開啟音樂個性化定制時代
陳世哲設想,人工智能以后的目標未必一定要去模仿人類,“我覺得甚至可能會引領一個亞文化的、新的藝術形式!
這也是小冰團隊和上音方面的探索方向!翱纯碅I到底能夠幫人完成什么,這可能會遠比開始的目標更有價值!标愂勒苷f。
而根據小冰團隊的暢想,在小冰學成之后,下一步則是真正走入內容產業(yè)!拔覀兿M嬲蔀橐魳穭(chuàng)作者的好幫手,她可以幫創(chuàng)作者提高產能,讓他們沒有靈感枯竭的風險,提高他們創(chuàng)作的動力,延長他們創(chuàng)作的高峰期。”李笛說。
陳世哲認為,從電影和游戲配樂,流行歌曲,到明星或者樂團的運營,再到上游的作品創(chuàng)作,在音樂產業(yè)里有很完善的產業(yè)鏈。如果小冰達到上音的博士水準,會徹底改變產業(yè)鏈條。
同時,理論上,隨著硬件升級和擴展,她的并發(fā)數是無限的——換言之,小冰可以同時為海量用戶創(chuàng)作歌曲。這或許將開啟音樂的個性化定制時代。
“我認為現在是一個多元化社會,更多的人需要個性化的音樂。這個時候,人類作曲家從效率上來講,已不能滿足人類的需要,所以這是我非常期待小冰的一點!标愂勒苷f,“人工智能的創(chuàng)作方式會因人而異,甚至就因人當下的心情、當下想要的東西創(chuàng)作歌曲!蹦戏饺請篑v京記者 王詩堃 劉長欣
策劃統(tǒng)籌:張志超
人工智能如何“寫歌”?
1.靈感激發(fā)
通過一段文字或一張圖片,先創(chuàng)作和弦進行,即先定下主基調、情感、曲風,然后創(chuàng)作副歌。
2.作詞、編曲
二者的順序比較靈活,既可以為給定的詞編曲,也可以為旋律重新填詞,甚至作詞、作曲同時進行。編曲,也即把相對單一的旋律,擴展成多種樂器配合,從而形成作品。
3.混音
混音相對簡單,但決定作品最終的聽感。