語音識別轉(zhuǎn)寫引擎 PM-54459GCY軟件(V3.017)
語音識別服務(wù)軟件是人工智能技術(shù)開發(fā),面向各行業(yè)客戶提供的一款語音轉(zhuǎn)寫產(chǎn)品。該產(chǎn)品為客戶提供整套語音轉(zhuǎn)寫方案,幫助客戶快速將音頻轉(zhuǎn)換為文本。產(chǎn)品針對長語音場景做了多項核心技術(shù)優(yōu)化,在遠場、噪音環(huán)境下的識別率大幅提升,技術(shù)業(yè)界領(lǐng)先。產(chǎn)品提供異步文件轉(zhuǎn)寫、實時語音轉(zhuǎn)寫兩個核心功能,滿足客戶的不同需求。錄音文件識別,支持客戶將音頻文件上傳識別成文字;實時語音識別,支持客戶上傳音頻流,獲得識別后的文字流結(jié)果。
產(chǎn)品特點
1.實時長語音識別:基于深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),通過 WebSocket 協(xié)議,建立應(yīng)用與語音識別引擎的長鏈接,對不限時長的音頻流作實時識別,可以做到“邊說話邊同步輸出文字”的效果,內(nèi)置智能斷句,可提供每句話開始結(jié)束時間,適用于實時直播字幕、實時會議記錄、實時法庭庭審等場景。
2.語音識別準確率:標準普通話轉(zhuǎn)寫準確率≥98.5%。(轉(zhuǎn)寫的準確率與普通話標準程度和發(fā)音清晰度有關(guān))
3.語音識別速度:依托語音轉(zhuǎn)寫技術(shù),實時語音轉(zhuǎn)寫速度≤200毫秒。
4.一句話識別:支持對時長較短(60 秒以內(nèi))的語音進行識別,非實時的返回識別結(jié)果,返回結(jié)果延遲小于5秒。
5.支持多種音頻編解碼格式:目前實時語音轉(zhuǎn)寫支持pcm格式音頻編解碼算法。非實時轉(zhuǎn)寫支持mp3、wav、wma、mp4、avi、pcm、m4a等格式音頻。目前音頻采樣率僅支持16K和8K。
6.文本后處理:語音轉(zhuǎn)寫私有云支持對識別結(jié)果語句智能預測其對話語境,提供智能斷句和標點符號的預測,同時也支持數(shù)字規(guī)整和替換列表能力。
7.錄音文件轉(zhuǎn)寫:錄音文件轉(zhuǎn)寫,通過 http[s]協(xié)議調(diào)用識別服務(wù),將長段音頻錄音(5小時以內(nèi))轉(zhuǎn)寫成文本數(shù)據(jù),可用于采訪錄音轉(zhuǎn)寫、庭審數(shù)據(jù)錄入、會議記錄總結(jié)、呼叫中心錄音質(zhì)檢等場景,支持錄音分片上傳、說話人角色分離、自定義熱詞和敏感詞配置等功能。
8.軟件識別語言僅支持中文普通話。
9.可懂度高:提供口語順滑、熱詞、敏感詞檢測、數(shù)字規(guī)整、智能標點預測、智能分段等功能,有效提升文稿可讀性和可懂度。
10.支持150路并發(fā)
網(wǎng)站內(nèi)容僅供參考,本公司保留最終解釋權(quán)!