Plaud合伙人、中國區(qū)CEO莫子皓

然而,Plaud合伙人、中國區(qū)CEO莫子皓表示,沒有任何有價值的產(chǎn)品是通過簡單的方式就能做出來的。真正有用的產(chǎn)品,一定是洞察用戶需求,經(jīng)過產(chǎn)品經(jīng)理的深思熟慮,利用像亞馬遜云科技這樣專業(yè)、務實的云服務,做好工程建設才行的。

Plaud是一家成功的AI硬件品牌。截至今年6月,Plaud通過軟硬結(jié)合方式打造的AI紀要產(chǎn)品已經(jīng)在全球170多個國家賣出100萬臺,在亞馬遜電商平臺上這一品類的市場占有率高達95%,年收入大約為2.5億美元的規(guī)模。

Plaud成立之初從海外市場起步,莫子皓坦言是看到了很多成功先例才做出的選擇。作為一家定位于大模型應用設備的公司,依靠來自深圳作為硬件之都的優(yōu)勢,結(jié)合全球領先的云技術為全世界用戶打造AI硬件產(chǎn)品。

“我們的產(chǎn)品,用戶用一次能80分,用了很多次還能保持80分,這背后我們投入了大量努力。”莫子皓表示。憑借口口相傳的好口碑,Plaud先是在海外市場獲得成功。2025年9月,正式宣布進軍中國大陸市場。

在亞馬遜云科技軟件企業(yè)峰會上,莫子皓提到了大模型技術的局限性,并基于這樣的思考打造了Plaud。同時,也分享了他對于創(chuàng)業(yè)成功的解讀,希望能幫助更多希望在AI領域有更大作為的創(chuàng)業(yè)者提供參考。

活在對話框里的大模型,無法更好地理解現(xiàn)實世界

莫子皓認為,現(xiàn)在的大模型都活在“無語境的對話框”里,沒有辦法更好的理解現(xiàn)實世界。而Plaud想用軟硬件結(jié)合的方式讓AI理解現(xiàn)實世界中的語境與意圖,從而讓人與AI真正對齊。在他看來,現(xiàn)在的AI Agent有兩個比較大的問題。

首先,這些AI Demo所用的數(shù)據(jù)都是現(xiàn)成的數(shù)據(jù)和文件,而不是從現(xiàn)實中自然產(chǎn)生的信息,會缺少一些真實的語境。此外,這些Agent只會被動地回答問題,但從不主動提問、也不會提出新想法,這說明缺少理解用戶意圖的能力。

莫子皓認為,通往通用人工智能(AGI)有三條路,第一個是繼續(xù)訓練更大的模型,第二個是像Manus那樣抓取外部信息再加工,第三個則是從人類日常對話中挖掘智能,也就是offline context(離線語境)。

Plaud選擇了第三條路,從真實的對話中提取有用的信息。他認為,大模型現(xiàn)在都在沒有時間概念的聊天框里工作,而現(xiàn)實交流是有時間、有情境的。因此,大模型無法真正與人對齊。

莫子皓認為,要讓AI真正理解人類的語境,就必須捕捉offline context(離線語境)和intention(意圖)。所以,他們決定自己設計一個專門的硬件錄音設備,實時捕捉聲音、時間點等信息,把這些信息提供給AI模型,讓AI能更好地理解現(xiàn)實世界。

Plaud創(chuàng)始人許高有意借力深圳在硬件創(chuàng)新上的優(yōu)勢打造產(chǎn)品,結(jié)合大語言模型概念的硬件產(chǎn)品也有差異化定位。通過這一產(chǎn)品,Plaud不僅突破了單純的軟件創(chuàng)新局限,也在多個維度建立了競爭優(yōu)勢,配合產(chǎn)品的口碑優(yōu)勢,迅速開拓了海外市場。

作為一款基于大語言模型的AI硬件產(chǎn)品,它不僅有時髦的商業(yè)概念,還有酷炫的外形設計,相對友好的售價,無論是貼在手機背面還是放在桌子上用起來都很方便。這樣一款產(chǎn)品受到了高決策杠桿、高對話依賴、高知識密度人群的歡迎。

很多朋友可能都會問,在人人都有手機,手機都能錄音的時代,還有必要做一個Plaud這樣用來錄音的設備嗎?答案是肯定的。

用手機來錄音,如果需要正常用手機,則不僅會錄入噪音,而且會占用手機的續(xù)航和麥克風,如果錄音過程中收到來電,很可能就會中斷錄音。所以,在很多場景中,用一個單獨的AI硬件錄音設備在使用場景上是成立的。

Plaud能做的,遠不止錄音。

AI硬件錄音設備可以配備更強的錄音單元,除了更強的收音能力,這樣一臺錄音設備還能提供怎樣的額外功能呢?莫子皓用三個捕捉(Capture)、提?。‥xtract) 和 運用(Utilize)三個關鍵詞進行了概括。

首先,在“捕捉”層面,Plaud設備除了錄音,還支持搭配手機App同步拍照,把現(xiàn)場畫面和聲音一并記錄下來,為AI提供更豐富的語境信息。

此外,它還有一個獨特的,帶有時間感知概念設計的功能“一鍵標記”。在會議或交流中,用戶只需輕按一下Plaud設備的按鈕,就能為錄音打上時間標記。AI會把這些時間節(jié)點當做關鍵內(nèi)容進行重點提煉,這可以讓AI更好地理解人類意圖。

其次是“提取”。在擁有充足語境(context)之后,Plaud的AI會根據(jù)不同角色的需求,自動提煉出不同的信息維度,幫助用戶獲得更有價值的信息。

比如,警方在審訊時使用Plaud錄音,不僅是為了記錄內(nèi)容,更希望借助大模型的推理能力,從語氣、邏輯來分析嫌疑人的動機與心理狀態(tài),甚至給出量刑建議,其價值超越了單純進行會議內(nèi)容的記錄和總結(jié)。

最后,Plaud正在讓這些信息進一步“運用”起來。它與多個第三方智能平臺(如Zapier、n8n)集成,讓語音數(shù)據(jù)真正融入日常工作流程,從而提升效率。目前這部分能力還在持續(xù)完善中。

值得一提的是,Plaud在隱私保護上也投入了大量精力,已通過HIPAA、GDPR等多項國際認證,并與亞馬遜云科技深度合作,確保數(shù)據(jù)安全與合規(guī),這也是Plaud能贏得大量用戶信任的一個重要原因。

亞馬遜云科技伴隨著Plaud一路做大做強

2023年,作為初創(chuàng)公司的Plaud面臨著技術支持缺乏、GPU等資源難以獲取的難題,接觸到亞馬遜云科技之后,Plaud獲得了技術與資源支持,而亞馬遜云科技希望與有潛力的初創(chuàng)公司合作,雙方一拍即合。

亞馬遜云科技會接觸很多初創(chuàng)公司,非常清楚初創(chuàng)企業(yè)的需求,除了提供技術與資源支持,還會把很多有用的最佳實踐經(jīng)驗分享給Plaud。伴隨著Plaud業(yè)務規(guī)模逐步增長,亞馬遜云科技在其成本控制方面也發(fā)揮了重要作用。

Plaud捕捉到數(shù)據(jù)后,需要把這些數(shù)據(jù)傳到后端進行一系列處理,會使用類似Whisper這樣的ASR(自動語音識別)模型,也會用大語言模型來處理文本。對于產(chǎn)品已經(jīng)賣了超100萬臺的公司而言,這需要一筆不菲的開支。

Plaud每個月向所有用戶免費提供300分鐘的轉(zhuǎn)錄時長,如果用戶想要更多,則需要額外付費,這是在商業(yè)策略上管理成本。除此之外,為了控制成本,Plaud在底層技術架構(gòu)上做了很多考量和優(yōu)化。

首先,Plaud使用Amazon Bedrock來調(diào)用大語言模型,在國內(nèi)市場上選擇了來自國內(nèi)的AI模型。莫子皓表示,國內(nèi)中文ASR模型的效果表現(xiàn)更好,同時國內(nèi)模型價格比海外模型低,這使得其國內(nèi)軟件訂閱費用可以低于海外市場。

為了控制成本,Plaud使用了亞馬遜云科技的GPU競價實例來部署ASR模型,這將整體算力成本降低了大約50%。Plaud合伙人、后端研發(fā)負責人劉占坤表示,在降低成本的同時,還通過將整個任務進行拆解,用補位機制保障了用戶體驗。

在通用算力上,Plaud也使用了基于Amazon Graviton處理器的云主機,將運維負載的性價比提升了大約25%。不久前,亞馬遜云科技宣布在國內(nèi)上線基于Amazon Graviton4的云主機,國內(nèi)用戶也能享受到Arm主機帶來的成本優(yōu)勢。

在技術架構(gòu)上,Plaud使用了Amazon Elastic Kubernetes Service (Amazon EKS)來部署整個集群,因為它能承載這種除了模型推理之外的復雜業(yè)務邏輯,它在ASR流程中加入了很多處理和業(yè)務系統(tǒng)的邏輯,這可以提高轉(zhuǎn)寫的質(zhì)量和準確性,這也是Plaud用戶體驗好的重要原因之一。

此外,Plaud還用了大量無服務器架構(gòu)服務。劉占坤表示,因為我們整個業(yè)務增長非常陡峭,而團隊規(guī)模的發(fā)展跟不上業(yè)務發(fā)展步伐。無服務器架構(gòu)對業(yè)務落地有極大的加速作用,用了無服務器架構(gòu),就是把穩(wěn)定性、擴容等問題都轉(zhuǎn)給了亞馬遜云科技。

結(jié)束語

Plaud的故事清晰地表明,生成式AI看似降低了創(chuàng)業(yè)門檻,但真正成功的門檻——如何將一個好點子轉(zhuǎn)化為用戶持續(xù)滿意的產(chǎn)品卻從未消失。

Plaud的成功,正是將離線語境的洞察,通過軟硬件的深度融合,以及利用亞馬遜云科技在算力與成本上的支撐,構(gòu)筑成了真正的競爭壁壘。

分享到

zhupb

相關推薦