WhisperDesktop影片字幕及逐字稿產生器【Win11示範教學】
WhisperDesktop是老黑製作影片經常服用的字幕產生器,是OpenAI Whisper自動語音識別模型(ASR)的 Windows移植版本,簡單說幫你在Windows電腦進行語音辨識,幫你字幕產生、轉逐字稿和即時錄音轉逐字稿的開源神器…
老黑實作環境:WhisperDesktop語音辨識軟體、Windows 11 專業版、msi NVIDIA GeForce RTX 3060 12GB、Intel Core i7-7700、辨識MP3及MP4檔
其他實作環境:Windows 10 專業版、Intel Core i7-7700
WhisperDesktop安裝,老黑YT技巧廢片解說,點擊這裡:https://youtu.be/_GYhYUf6TP0
WhisperDesktop字幕產生器,老黑YT AI生成式Podcast解說:https://youtu.be/DUznTheMsy4
WhisperDesktopI字幕神器,老黑YT AI生成式摘要:https://youtu.be/izCXd-93ysQ
軟體名稱:WhisperDesktop
WhisperDesktop下載網址:https://github.com/Const-me/Whisper/releases
HuggingFace辨識模型下載:https://huggingface.co/ggerganov/whisper.cpp/tree/main
GitHub辨識模型下載:https://github.com/ggml-org/whisper.cpp/tree/master/models
第一步:老黑上方提供WhisperDesktop字幕產生器網址可直接傳送到下載頁,建議選擇最新的版本進行下載「WhisperDesktop.zip」的壓縮檔

第二步:把剛才下載下來的「WhisperDesktop.zip」內所有的檔案,解壓縮到你平常放軟體工具的資料夾中

第三步:再來我們要到去下載「語音辨識模型」有兩個網站也整理在上方了,老黑通常都到Huggingface平台下載語音辨識模型,每個模型名稱後方都有下載按鈕,就可以進行下載
如何選擇適合的語音辨識模型?
只有CPU的電腦,老黑建議服用模型:ggml-small.bin
有獨立顯示卡的電腦,可下載模型:ggml-medium.bin、ggml-large-v1.bin、ggml-large-v2.bin
以上這幾個模型經過老黑實測都可以生成繁體中文

第四步:把剛才下載好的語音辨識模型也放到你指定的資料夾中,接著執行「WhisperDestop.exe」工具,點擊「Model Path」欄位後方「…」選擇你想要使用的模型
PS.老黑通常會將模型與Whisper工具放到同一個資料夾中方便一起維護。

第五步:如果你有獨立顯示卡,可以點擊「advanced…」可以進行硬體細節調整,
老黑這次示範的電腦有msi 3060 12GB顯示卡,
可在「Graphics adapter」欄位上選擇要使用的獨立顯卡,
並記得點擊「OK」
PS.當然只有CPU的電腦則不需要調整,WhisperDesktop工具預設會自動判斷幫你使用CPU。

第六步:如截圖視窗則會顯示你剛才選擇載入的「語音辨識模型」檔,
「Language」欄位,則選擇你待會要讀取檔案的語言
「Transcribe File」區塊中,可以點選後方「…」先選擇準備進行辨識的來源檔,
接著選擇「Output Format」選擇要輸出文字稿或字幕稿格式,對照表整理分為五種如下:
None:只進行語音辨識但不產生輸出檔案。
Text file:純文字檔,不包含時間戳記。
Text with timestamps:純文字檔,每段文字前標註開始時間。
SubRip subtitles:使用「.srt」廣泛使用的字幕格式。
WebVTT subtitles:「.vtt」網頁影片的字幕格式。
以上選項依照你的需求選擇要辨識生成的檔案格式並指定要存放字幕稿檔位置,
就可以點擊「Transcribe」開始進行辨識

接下來就是需要等待電腦進行辨識,需要使用多少時間才能完成,就需要看你的音檔時長及電腦效能覺得,如下圖測試WhisperDesktop使用GPU進行辨識,選擇「ggml-large-v3.bin」顯卡使用率達到73%

第七步:當WhisperDesktop幫你把音檔辨識完成,則會挑出如下圖提示訊息,對照意思如下:
Media duration:檔案時長。
Processing time:處理時間。
Relative processing speed:相對處理速度(1分鐘內可處理多少時常的音檔內容),這次示範案例使用ggml-large-v1模型搭配12GB GPU可以1分鐘處理約5.28分鐘音訊。

第八步:提供老黑測試3種語音辨識模型(ggml-large-v2、ggml-large-v1、ggml-small)的效果如下,
測試結果使用large模型辨識生成繁體中文的準度較高,要人工修改的內容相對少,
若硬體效能不夠的環境使用small模型生成也相當夠用,老黑一開始就是small玩起來,
後面的工作就是看你要怎麼使用這些文字稿或字幕檔了…

恭喜你又學到一個語音辨識AI生成逐字稿技巧,如果剛好幫助到你記得為這篇教學按一個讚,並分享給正在找工具的同學…
獲得最新資訊的方法↓
只要下載Telegram App後,再點擊網址,TG電報群【e黑馬寫不停資源庫】:https://t.me/eheima

老黑YouTube頻道在這裡這裡想收到最新影片及資訊,點擊這裡訂閱起來:https://www.youtube.com/@eheimacom
※我要贊助老黑持續創作經營網站,點擊這裡:https://eheima.com/donate
【免費】訂閱e黑馬限量名額速報,獲得讀者專屬禮,目前已訂閱854人,只有2000個免費訂閱名額↓
