講者將分享他在Mozilla Common Voice 廣東話數據庫中自肥的經過與發現。
講者對影像分析向來有研究,但對於語音識別及語言學一竅不通,只是對暴龍哥口音及譚仔口音略有研究。作為一個語音識別初學者,講者嘗試利用 Mozilla Common Voice 廣東話語音數據庫及 Python,訓練 AI model 去做語音識別。過程中發現各種問題,講者會試從數據使用者/程式開發員的角度,去分析廣東話語音數據庫的現狀,挑戰及機遇。最後,希望探討在有限資源下,如何「補完」香港廣東話語音數據。
計劃仍在努力中,暫時估計有以下內容:
- 廣東話發音的基本原理
- Mozilla Common Voice Project 的基本原理
- 廣東話語數據庫的挑戰:英語 VS 廣東話大不同,版權,男女比例,口音,粗口, 發音覆蓋率,中英夾雜,有音無字,etc.
- 試用 python 訓練 AI model 做語音識別
- 如何「補完」數據庫?
Slides:https://github.com/scottykwok/cantonese-selfish-project
Speaker: Mr. Scotty Kwok / Hong Kong / Sebit Company Limited - Website, GitHub, Twitter, LinkedIn, Facebook
Language: Cantonese
Date and Time : October 9, 2021 / 10:30-11:00 (UTC+8)
Speaker Introduction
講者是土生土長的香港IT人,有多年軟件開發經驗,對人工智能及機器學習特別感興趣。 作為一個IT毒L,講者鍾意得閑無事,有自唔在,攞苦嚟辛,研究各種課題,攪攪震冇幫襯。 講者曾主講 2018 年 PyConHK Keynote (Python 深度學習乳癌分類)。 現職於初創公司 Sebit 。