我用免費開源工具,打造自動化工具
最後更新日期:2025年04月02日
我是個聽覺型學習者。
Podcast、影片、訪談,是我每天很重要的資訊來源。
我試過很多方法,想把這些「聽過的內容」整理成筆記,但過程一直不順利,結果也不如預期。
我試過的三種方法
最直覺的做法是邊聽邊寫,像在上課時筆記一樣,但這些時候我多半是在走路、做家事、或是通勤,手根本沒空寫。
後來我試著做「標記」,聽到有感的段落就記個時間戳,回頭再補筆記。
但這方法還是太耗時間,而且回去看時,常常會想不起當時為什麼覺得那句話有感。
後來,我開始嘗試把整段音訊丟進 NotebookLM。英文的內容處理得還行,只是需要你出好問題,才有辦法引導它說出重點。
而如果是中文內容,基本上NotebookLM 常會曲解意思,或丟給你摸不著頭緒的回應。你必須一步步反問、補細節,才能整理出還算可以的筆記。
這三種方法的準確性以及效率,對我來說都不及格。
後來,我也試了一些主打「語音轉筆記」的工具,例如 Memo AI、Tongyi AI。它們的確能整理出不錯的摘要,但當我想取得原始文字稿、加上時間戳,並更一步確認精準度時,往往就需要額外付費。對一個預算有限的學生來說,只能忍痛放棄。
嘗試自己做一個
透過反覆的嘗試,我發現我要的,不是一個幫我總結內容的 AI,而是一份乾淨的文字稿,讓我做為參考,整理屬於我的筆記。
我希望這個工具能夠:
準確將影音內容轉換成文字稿
輸出檔案必須為 Markdown 格式,方便導入筆記系統
整套流程的金錢成本為 0
既然現在沒有符合上述需求的產品,那就試著自己做一個吧!
我對程式的知識還停留在大一的必修課(那時候學的還是古老的Fortran),我將需求告訴ChatGPT,它建議我用 OpenAI 開源的 Whisper 模型,來進行語音轉文字。
Whisper 可以自動辨識語言,準確度也非常高,而且是免費的!我只需要安裝與導入Whisper。
第一次轉錄英文影片的成果還不錯,內容都正確。只不過輸出的檔案類類型是.txt,且每行文字都黏在一起,沒有分段。之後嘗試轉錄中文影片時,輸出同樣沒有分段,而 Whisper 針對中文則是預設簡體。
於是我做出了一些優化,包括:
→ 自動分段,讓整份文字稿更適合閱讀和標記
→ 輸出成 Markdown 格式,讓我能匯入 Heptabase、Notion等筆記軟體
→ 將簡體的內容,轉換成繁體

總結與收穫
這是我第一次有這麼具體地,把「自己的需求」轉化成「實際可利用的工具」。雖然大多數的技術架構還是來自現成的資源,但能動手整合、微調客製化出符合我需求的版本,意外的很有成就感!
接下來我還想打造更多讓個人知識整理更順手的工作流,希望透過這些工具,能讓我把吸收過的東西留下來。