央廣網(wǎng)北京5月17日消息(記者 牛谷月)5月17日,由搜狐科技主辦、央廣網(wǎng)作為戰(zhàn)略支持媒體參與的“2021搜狐科技5G&AI峰會(huì)”在北京開(kāi)幕。峰會(huì)大咖齊聚,共同探討5G和AI技術(shù)的最前沿發(fā)展以及應(yīng)用落地情況。
上午,峰會(huì)上特別進(jìn)行了搜狐新聞24小時(shí)數(shù)字人發(fā)布(Powered By Sogou)。搜狗公司CEO王小川發(fā)表了主題演講,與大家分享數(shù)字機(jī)器人背后的黑科技。
王小川指出,早在2018年,搜狗推出了第一款“數(shù)字人”,這是以新華社的崔浩命名合作了“新小浩”的形象,這也是全球第一款A(yù)I合成主播的亮相。第一代“數(shù)字人”的表情和手勢(shì)還非常拘束。“之后我們?cè)诘缆飞弦恢币I(lǐng)著發(fā)展,現(xiàn)在已經(jīng)推出了七代‘?dāng)?shù)字人’產(chǎn)品。”
為什么會(huì)考慮推出“數(shù)字人”?王小川指出,源頭是搜狗基因里涵蓋著搜索,表達(dá)了知識(shí)獲取、和人對(duì)話的能力,輸入法更強(qiáng)調(diào)溝通,輸入法和搜索背后的原始核心都是強(qiáng)調(diào)的語(yǔ)言。
以下為王小川演講全文:
搜狗更讓人熟悉的產(chǎn)品是輸入法搜索,背后也有一套AI的理念和產(chǎn)品,這次和搜狐一塊推出柳巖主播形象,背后有更多的內(nèi)容跟大家分享。
早在2018年,搜狗推出了第一款“數(shù)字人”,這是以新華社的崔浩命名合作了“新小浩”的形象,這也是全球第一款A(yù)I合成主播的亮相。引起了國(guó)際上面的熱議,尤其是全球的頂尖媒體,包括像華盛頓郵報(bào)、Times,從主流到擴(kuò)展開(kāi)有500多家媒體報(bào)道事件,當(dāng)時(shí)新華社的人物成為了全球AI人物的亮點(diǎn)。
當(dāng)然,第一代“數(shù)字人”的整個(gè)表情和手勢(shì)還是非常拘束的。之后我們?cè)诘缆飞弦恢币I(lǐng)著發(fā)展,現(xiàn)在我們已經(jīng)推出了七代“數(shù)字人”產(chǎn)品,從第一代,之后2019年第一季度推出了表情更加豐富的“數(shù)字人”。
第一代還很僵硬,第二代的時(shí)候從坐立的形象走向站起來(lái),有肢體語(yǔ)言。三季度的時(shí)候發(fā)布了第四代技術(shù),開(kāi)始有多種語(yǔ)言,從中文走向英文、俄文,應(yīng)用也是在海淀知識(shí)產(chǎn)權(quán)法庭使用。
2019年“數(shù)字人”有完整的能力,一個(gè)感知的人的表情和語(yǔ)言能力,另一方面語(yǔ)言的問(wèn)答能力合并,客服的能力,這個(gè)產(chǎn)品在平安進(jìn)行了使用。2019年的時(shí)候有了第六代的大規(guī)模肢體語(yǔ)言,到了2020年的時(shí)候走向3D,這是更大的突破,從2D到3D使它的肢體和場(chǎng)景有無(wú)限的展開(kāi)。
在行業(yè)應(yīng)用中,新聞主播是第一代的原型,之后有了AI營(yíng)養(yǎng)師,在搜狗產(chǎn)品里面跟用戶交互,能夠使用戶的體驗(yàn)度有更多的好感。還有AI的法官,下面的客服和證券也是在使用的,包括平安有“數(shù)字人”,我們還有數(shù)字人分身。這是著名的氣象主播楊丹,我們也數(shù)字化了。
為什么會(huì)考慮推出“數(shù)字人”?源頭是搜狗基因里涵蓋著搜索,表達(dá)了知識(shí)獲取、和人對(duì)話的能力,輸入法更強(qiáng)調(diào)溝通,輸入法和搜索背后的原始核心都是強(qiáng)調(diào)的語(yǔ)言。
語(yǔ)言存在兩個(gè)能力。首先語(yǔ)言承載了溝通的能力,通過(guò)語(yǔ)言人和人進(jìn)行交流。其次語(yǔ)言承載了認(rèn)知能力,如果沒(méi)有語(yǔ)言人類是沒(méi)辦法進(jìn)行深層次思考的。以語(yǔ)言為核心以交互的技術(shù)進(jìn)行溝通,從文字走向語(yǔ)音、圖像、視覺(jué)。在認(rèn)知層面的知識(shí)計(jì)算,語(yǔ)言搜索的核心加進(jìn)去,里面有對(duì)話、翻譯的能力,把溝通能力和它的計(jì)算思考合在一塊。
我們認(rèn)為有機(jī)會(huì)給行業(yè)人士去制造他們的分身,讓他們的知識(shí)能力拓展到不止一個(gè)肉身去工作,同時(shí)讓他一天24小時(shí)無(wú)休地做更多的服務(wù)。在行業(yè)當(dāng)中今天有另一個(gè)走向是偶像,是打造一個(gè)虛擬的情感和崇拜能力,解決行業(yè)效率提升的問(wèn)題。
除了剛才講的以外,搜狗在語(yǔ)音識(shí)別合成里面做了非常多年的積累,今天可以秀一下口音里面背后有大量的技術(shù),包括語(yǔ)音音節(jié)的表征遷移技術(shù)。比如特朗普口音,下載素材并通過(guò)半個(gè)小時(shí)聲音皮膚技術(shù)處理,把他的音色提取出來(lái),他就可以說(shuō)中文了。
這是原始的工作,他的口音還帶有川普的音色,我們現(xiàn)在也有更多的技術(shù)對(duì)他的底層皮膚聲音的音節(jié)進(jìn)行更多的修正,一種情況是修正成普通話。同時(shí)也有能力修正為其它的各種方言,可以把口音修成普通話,也可以把普通話做成其它的口音,比如陜西口音的合成,有不同方言的合成,也有韻味帶進(jìn)來(lái),有非常多的工作可以讓這種口音播報(bào)更加自然和有趣。
除了合成里面蘊(yùn)含的黑科技,搜狗也是行業(yè)當(dāng)中最早實(shí)現(xiàn)唇語(yǔ)識(shí)別工作。深度學(xué)習(xí)可以做到的一項(xiàng)工作就是做到了唇語(yǔ)識(shí)別,還可以獨(dú)立工作,不需要語(yǔ)音提取,只看嘴型變化就可以到60%的識(shí)別。把語(yǔ)音和口型放在一塊,語(yǔ)音非常嘈雜的情況里面幾乎只用視覺(jué)也可以達(dá)到90%的高度,在電梯以及外部環(huán)境聽(tīng)不清的地方都可以使用。這不止是處理文字、語(yǔ)音或者簡(jiǎn)單圖像的合成,而是在語(yǔ)音圖像的合成里面找到核心的技術(shù)。
基于這樣的技術(shù),我們可以看到全面的能力,有圖像識(shí)別、人體識(shí)別、語(yǔ)音合成,嘴部語(yǔ)言合成,耳朵聽(tīng)聲音,大腦思考變化,面部的表情和嘴唇言語(yǔ)的合成,打造全方位互動(dòng)的形象,成為更多的分身。
比如銀行客服人員,她有真實(shí)的原型,但是一旦用自數(shù)字合成之后就有孿生的系統(tǒng)。國(guó)家在定的法規(guī)在保險(xiǎn)行業(yè)是必須要進(jìn)行面簽,網(wǎng)絡(luò)上的面簽希望節(jié)省客服人員的工作量,最后就有這樣的虛擬形象和面簽,對(duì)消費(fèi)者有一個(gè)告知和全程數(shù)據(jù)錄像,解決了金融行業(yè)出現(xiàn)的問(wèn)題。
還有什么工種更有社會(huì)意義呢?搜狗跟搜狐完成媒體的升級(jí)的同時(shí),我們考慮自己的社會(huì)責(zé)任。全球大概有4.6億的聽(tīng)障人士,中國(guó)有2700萬(wàn)人,他們直接看電視和網(wǎng)絡(luò)新聞的時(shí)候聲音的敏感度不夠。
國(guó)際公約要求媒體能夠提供有聽(tīng)障人士需要的節(jié)目,大家看到新聞能夠提供聽(tīng)障人士的版本供他們使用,中國(guó)08年參與這項(xiàng)公約。在聽(tīng)障人士的節(jié)目制作上,與歐美發(fā)達(dá)國(guó)家和港臺(tái)地區(qū)相比,我們相對(duì)都是落后的狀態(tài),這樣的情況并沒(méi)有引起學(xué)界高度重視和跟進(jìn),整個(gè)的研究水平和實(shí)驗(yàn)水平相對(duì)偏低。
這樣一個(gè)技術(shù)背后的原因也是有相當(dāng)大的挑戰(zhàn),國(guó)外在發(fā)達(dá)國(guó)家有更多的真實(shí)人士配置。我們提倡數(shù)字分身的技術(shù)是否能夠把更多手語(yǔ)主播的能力合成進(jìn)來(lái)變成分身。這是蠻難的,我們有非常多的技術(shù)難點(diǎn)。
第一件事情,手語(yǔ)語(yǔ)言并不是純正的漢語(yǔ),語(yǔ)法規(guī)則不一樣。普通話貓追老鼠,手語(yǔ)就是貓、老鼠追,還有開(kāi)車(chē)不準(zhǔn)喝酒,開(kāi)車(chē)喝酒不準(zhǔn),要進(jìn)行一層一層語(yǔ)義的翻譯工作。在這種情況下,我們今天看到在新聞電視主播的使用離殘疾人士和聽(tīng)障人士是有距離的,打手勢(shì)的優(yōu)化程度不足理解度只有60%。而翻譯技術(shù)上反而幫助我們把正常語(yǔ)序翻譯成聽(tīng)障人士需要的語(yǔ)序。
第二件事情,當(dāng)我們?cè)谧鍪终Z(yǔ)的時(shí)候,“數(shù)字人”的表達(dá)動(dòng)作需要非常豐富,尤其是有大的肢體動(dòng)作和細(xì)膩的手勢(shì)表達(dá),不簡(jiǎn)單是語(yǔ)言語(yǔ)音的問(wèn)題,肢體本身成為他們獲取信息最重要的場(chǎng)景。隨著我們從期待的“數(shù)字人”技術(shù)進(jìn)步到今天到大的肢體表演和小的肢體里面,有機(jī)會(huì)完全手語(yǔ)的表現(xiàn)能力。
第三件事情,不僅是手語(yǔ),我們發(fā)現(xiàn)聽(tīng)障人士表達(dá)的時(shí)候他們的表情在傳遞信息,表情參與了整個(gè)語(yǔ)義里面。比如他打的手勢(shì)——“他究竟什么意思”有不同的表情傳遞不同的意思。比如問(wèn)句、感嘆句、陳述句。在合成的時(shí)候不僅要有一個(gè)大范圍手勢(shì)和細(xì)膩手勢(shì),對(duì)于表情的聯(lián)合建模也非常關(guān)鍵,極大提高了他們對(duì)語(yǔ)義的理解。
在這樣一個(gè)大的情況里面把搜狗的語(yǔ)言和語(yǔ)音、圖像相關(guān)的很多能力用到了,在前期有文本的預(yù)處理之后開(kāi)始用了手語(yǔ)翻譯,里面借鑒了機(jī)器翻譯能力,把手語(yǔ)表征進(jìn)行合成,形成了自然語(yǔ)言到手語(yǔ)切分的表達(dá),所有的生成一方面是生成手勢(shì)能力,一方面是生成面部表情,最后合成得到一個(gè)新的“數(shù)字人”。最終就合成了全球首個(gè)AI合成手語(yǔ)主播。
我們今天正式做一個(gè)“手語(yǔ)AI合成主播”發(fā)布。希望在今年年底之前這樣的產(chǎn)品能正式上線,幫助中國(guó)人民和全體人民享受更好的數(shù)字生活。