五月开心婷婷六月丁香婷,最新免费av在线观看,一个人看的www片在线高清中文

「AI 文本理解」模型

更進一步，火山語音團隊在滿足發(fā)音清晰、韻律連貫、語調(diào)起伏的基礎(chǔ)上，自研半監(jiān)督學習的端到端風格控制聲學模型，使聲音遵循普魯契克情感色輪（Plutchik’s Wheel of Emotions）的情感類型，表現(xiàn)出開心、悲傷、驚訝、恐懼等多種情感色彩，以情感遷移的方式，讓原本沒有情感的發(fā)音獲得多情感合成的效果。更好表達“以聲傳情”，將人類語言中常會出現(xiàn)的「副語言」現(xiàn)象進行了精細化的建模還原，實現(xiàn)了在有聲書中常見的重音停頓、疑問反問、笑聲哭腔、以及各類嘆息、叫喊聲等，達成了文本內(nèi)容的精彩演繹。

“接近真人播講的效果，使最終的AI語音能夠體現(xiàn)出不同角色在不同上下文環(huán)境里的效果，是我們一直以來追求的目標。未來，我們更希望可以做到，通過文本-語音聯(lián)合訓練大模型，對不同上下文環(huán)境的文本提取表征，提升角色判別成功率；憑借多話者語音合成大模型，對情感、風格、音色和口音等屬性進行解耦并能夠自由遷移；同時根據(jù)文本描述生成匹配的背景音來提升有聲書聆聽時的代入感。”

提高內(nèi)容質(zhì)量和產(chǎn)生效率才是AIGC的核心價值

在更多實踐中我們發(fā)現(xiàn)，除了文字和圖像，人們對語音交互的應(yīng)用范圍更廣，例如，人們在家中經(jīng)常通過語音交互發(fā)出指令控制各種電器；出行時通過車載語音助手完成導航、預定餐廳等事項；以及在辦公場景中高頻率使用的會議助手等，都離不開智能語音方案來提高內(nèi)容質(zhì)量和生產(chǎn)效率。

對此火山語音團隊也隨之進行了更多相關(guān)的創(chuàng)新性嘗試，例如在短視頻成為全民時尚的今天，面對ugc群體視頻創(chuàng)作的隨性記錄以及音頻質(zhì)量不可控等現(xiàn)實因素，通過火山語音智能字幕解決方案為視頻創(chuàng)作自動添加字幕，不僅可以兼容識別中、英、粵等常用的語言和方言，還能對歌曲進行識別。

對此火山語音音頻理解方向產(chǎn)品經(jīng)理W補充道：“視頻內(nèi)容生產(chǎn)中，傳統(tǒng)加字幕的方式需要創(chuàng)作者對視頻進行數(shù)次聽寫并校對，還需要根據(jù)起始時間逐幀對齊，經(jīng)常10分鐘的視頻需要幾小時的后期制作時間才能完成。此外字幕組還要精通多語言并熟悉字幕文件的制作，整體下來視頻制作成本很高，這對于當今短視頻時代的個人創(chuàng)作者或是單純以記錄生活的用戶來說早已高不可及?！?/p>

為了降低創(chuàng)作門檻，讓所有創(chuàng)作者都能輕松制作高質(zhì)量的視頻內(nèi)容，記錄美好生活，火山語音自研推出了智能字幕解決方案。不僅能夠高效識別方言與歌曲，還可以對語種混合以及說話唱歌混合的場景有很好的識別效果；此外還可通過對用戶創(chuàng)作內(nèi)容的音頻特性以及領(lǐng)域分析，憑借算法優(yōu)化，大大提升語音識別對于噪聲場景、多人說話等復雜場景的表現(xiàn)。尤其面對移動端用戶針對功能響應(yīng)時間的較高要求，即希望字幕可以既快且準，對此火山語音做了大量的工程優(yōu)化和策略，1分鐘的視頻只需2-3秒即可完成。

眾所周知，面對相同的內(nèi)容，人類對于音頻信息的獲取效率遠低于文本信息的獲取效率，而將語音轉(zhuǎn)化成文本被記錄與使用的關(guān)鍵在于語音識別，例如火山語音推出的“千言轉(zhuǎn)文字，一字勝千言”的實時字幕解決方案就是通過“語音識別+語音翻譯”的AI鏈路，讓跨國家、跨語言交流變得更加流暢；通過自動生成會議記錄與紀要，做到大大提升與會者的工作效率，大幅減少會后整理和會中記錄的工作量。可以預見伴隨科技的迅速發(fā)展，AI語音會為人機交互增加信息輸出的渠道，為信息獲取提升效率。

同樣面對AIGC帶來質(zhì)量以及效率的提升問題，在火山語音語音交互產(chǎn)品經(jīng)理Y看來，AIGC確實有望在智能語音交互的輔助場景中落地，可以實現(xiàn)包括會話摘要、話術(shù)推薦、情緒安撫、工單摘要等方向的客服功能，輔助解決方案來提高生產(chǎn)效率。舉個例子，在人機對話觸發(fā)轉(zhuǎn)人工時，可自動生成人機對話的對話摘要，輔助人工更快了解用戶訴求，避免出現(xiàn)突然冷場去翻查聊天記錄的情況；在與人對話過程中，通過對用戶話術(shù)的理解，運用AIGC能力來生成答案供客服參考，提高了客服對話的效率。

“此外在異常情況處理方面也可發(fā)揮作用，比方說用戶出現(xiàn)煩躁、憤怒等情緒時，AICG或可自動生成安撫話術(shù)供客服參考，提升服務(wù)滿意度等。未來，伴隨多模態(tài)技術(shù)和AIGC技術(shù)的不斷成熟，或許通過虛擬數(shù)字人可取代部分人工，以人機共生的形態(tài)直接服務(wù)客戶，更顯著降低人力成本，提升服務(wù)效率?！钡裁鞔_表示，如今的AIGC還無法做到真正獨立生產(chǎn)內(nèi)容，尚處于輔助人類提升內(nèi)容生產(chǎn)效率的階段。

成本、版權(quán)、實用性仍是AIGC發(fā)展的瓶頸

不論是ChatGPT給出了驚人回答，還是番茄小說中AI演繹出了感人聲音，就連馬斯克也驚嘆：我們離強大到危險的人工智能不遠了。這似乎預示著AIGC的時代即將來臨。

然而在AI算法一線工作多年的火山語音音頻合成算法研究員Stephen卻有著更為清醒的判斷，他指出：“AIGC背后的技術(shù)，未來可能會進行多模態(tài)融合，不僅僅是單一模態(tài)的生成式任務(wù)，這就像人類在創(chuàng)造內(nèi)容的過程中也不僅僅是根據(jù)單一形態(tài)的知識而構(gòu)思出新內(nèi)容。舉個例子，就像生成交互式數(shù)字人的任務(wù)中，目前主要是人臉、表情、姿態(tài)和動作的單獨預測，未來或?qū)⒂靡粋€生成式模型預測這些特征，提升各特征之間的協(xié)同效果，降低分別錄制帶來的工作量；此外也會根據(jù)多模態(tài)理解任務(wù)得到的表征，基于正在對話的用戶的表情、語氣和肢體動作，在生成的形象和聲音上給予對應(yīng)的反饋?！?/p>

除了技術(shù)發(fā)展的預測，不容忽視的一點，目前AIGC在成本、版權(quán)和實用性上仍存在巨大挑戰(zhàn)。他認為目前AIGC成本居高不下，很顯著的表現(xiàn)是高質(zhì)量文本、圖片和視頻生成技術(shù)等，都對應(yīng)著大量訓練和推理階段硬件資源的消耗，這導致高校和研究機構(gòu)均很難參與其中，不利于行業(yè)發(fā)展的推動。

“此外在版權(quán)保護上，目前生成的內(nèi)容有些可能會被用來進行非法活動，因此在內(nèi)容中加入版權(quán)保護，例如圖像和音頻水印變得越來越重要，但是在加入過程中，還得考慮不要因為剪切、混合等后處理方式導致水印失效?！?/p>

過去的2022年，盡管在圖片和視頻生成方向的技術(shù)應(yīng)用效果顯著提升，但依然需要大量人工篩選后，內(nèi)容才能實際落地；而基于長篇章文本生成上下文相關(guān)的漫畫和視頻，既要保證場景的連續(xù)性，又要能體現(xiàn)人物的變化，還有大量的技術(shù)難題需要解決，避免人工智能變成“人工智障”是個挑戰(zhàn)，所以實用性還有更多的提升空間。

我們或許可以這樣認為，AIGC作為一種新型的內(nèi)容生產(chǎn)方式，之所以受到關(guān)注，充分說明了各行各業(yè)對于內(nèi)容的渴望，尤其是互聯(lián)網(wǎng)平臺，如何高效理解、創(chuàng)作、互動和分發(fā)內(nèi)容，確實給現(xiàn)今的AI 技術(shù)帶來了機遇和挑戰(zhàn)。

分享到

songjy

相關(guān)推薦

近期文章

熱門標簽