在今年的 PyCon HK ,我們從超過 80 個提案中精選了 30 多個精彩講題,組成了豐富的議程。這些講題涵蓋多個領域,講者來自 11 個不同國家 ,28 家不同企業,包括業界知名的 AWS、RedHat、Oracle/MySQL、Nvidia、Bloomberg 、Databricks 、Canonical 和 HKT 等等。以下是部分講題的簡介。
香港人:自己 LLM 要靠自己
近年來,LLM(大型語言模型)已成為科技界的重要話題。然而,隨著高端 GPU 在香港被禁運,OpenAI 封鎖中港澳地區,大模型的算力需求不斷上升,而且基礎模型大多以英文和簡體中文內容為主。如果香港人想擁有一套安全且符合自身語言文化的 LLM,或許只能依靠自己!
在今年的 PyCon Keynote,我們邀請到 AWS 的講者 Haowen Huang ,他將會為大家展示各種訓練 LLM 的策略,及如何利用 Python 和 AWS 雲端服務來應對算力不足的挑戰,幫助廣大開發者動手打造自己的 LLM。
緊接,我們邀請了來自國立臺灣大學的講者 Yen-Ting Lin 分享他們在開發「台灣 LLM」過程中的心得,探討在繁體中文數據量不足和兩岸三地文化差異的背景下,台灣 LLM 是如何煉成的。香港 LLM 又能否從中有借鑒呢?(講者身在外地,將以線上方式分享)
然後 Winnie Yeung 和 Marcus Lau 將介紹他們如何利用廣東話知識庫來評測市面上的大型語言模型,評測結果是否會帶來驚喜發現呢?(講者身在外地,將以線上方式分享)
此外,大家熟悉的 Dr. Chung Ng 和 Cyrus Wong 團隊的講題也與 LLM 有關,還有 Ryan Kuan 介紹如何用 MySQL 實現 RAG,Tarun Jain 會為大家解構 AI Agent。不用我多說,他們的分享絕對不容錯過!
Python 世界的不同視角
每年在 PyCon,我們不僅期待技術分享,更希望講座能為觀眾帶來新的視野和啟發。今年適逢十週年,我們特別邀請了香港 PyCon 的創始人 Sammy Fung 和元老級人物 Calvin Tsang,與我們分享這十年來的故事。由於 Sammy 身在外地,他將以錄影的方式為我們致開幕詞。
Calvin Tsang 將回顧超過十年的 PyCon HK 和 OSHK 經驗,分享如何經營本地社群。如果錯過了這場分享,「錦鯉可能要等多十年」!
此外,來自日本的 Chan Sau Yee 將探討 Web Developer 與 Data Scientist 這兩個角色如何一體兩面,相輔相成。
還有,香港中文大學計算機科學與工程學系講師 Chuck-Jee Chau 將同大家探索如何利用 Python 創作音樂,從聲音合成到算法音樂創作等等,一同走進「編程音樂家」與「音樂程式員」的世界。
DevOps:工欲善其事,必先利其器
與其說 DevOps 是開發者的工具,不如說 DevOps 是用餐時候不可或缺的餐具。若沒有餐具,吃飯就會食到「捩咁𠾍」,而且有欠衛生;反之,使用合適的餐具不僅能提升效率,還能保持整潔,符合餐桌禮儀。DevOps 也是同理。
今年在 DevOps 領域,我們請來 Red Hat 戰略業務發展總監 Timothy Lam 為大家展示如何利用 Python 和 Ansible 自動化設置網絡,有效提高效率、減少錯誤並加快部署,讓網路管理員能專注於構建更可靠和安全的網絡環境。
此外,Canonical 的平台開發員 YangSoo Yoon 將介紹 Kubernetes (K8s)、Helm、Pulumi 等工具,以及 Canonical 最新推出的 Juju。
來自意大利的講者 Cristiano Pierandrei 將分享如何使用 Docker 和 Docker Compose 設置 Python 應用程式,非常適合初學者。
本地創客空間 Dim Sum Labs 成員 Nigel Choi,會講解他們自家開發的設施管理系統 Hackman,並展示如何利用 Django、Redis 和 Nix OS,通過 DevOps/GitOps 進行部署。
利用 GPU 和 C/C++ 加速運算
要讓程式運行得更快,基本上離不開 GPU 和 C/C++ 程式語言。今年,Nvidia 兩位來自 RAPIDS 團隊的軟件工程師將為大家介紹在深度學習以外,如何利用 GPU 加速數據科學的計算。
Nvidia 的 Jiaming Yuan 將展示如何使用 GPU 加速 scikit-learn 和 XGBoost 的運算,並介紹 RAPIDS 項目的未來發展方向。
Nvidia 的 Michael Wang 將闡述如何利用 Numbast 生成點對點綁定,以便更便捷地結合 CUDA C++ 和 Python,並深入解釋 Numba-CUDA,還會帶領大家實際操作 CUDA kernels,挑戰性十足!
此外,Bloomberg 的 Leo Chen 會分享如何運用 C 和 Cython 快速提升 Python 處理數據的速度,並提供實際工作中的應用案例。
各種 Libraries and tools 技術分享
Hyukjin Kwon 與 Allison Wang 來自 Databricks,將介紹有效的 PySpark 調試和監控方法,幫助開發者提高工作效率。
Nok Lam Chan,Kedro 的數據科學家,將探討 Spark 以外的數據處理技術,如 SQLFrame 和 SQLGlot,並分析這些技術在不同場景中的應用。
Yang Cen,來自 LanceDB 的軟件開發工程師,將分享如何在訓練 PyTorch 模型時有效利用 Lance 整合多模態數據。
Frankie Ng,RedHat 的助理首席解決方案架構師,將介紹 Sigstore 的數位簽署及驗證 Python package 的過程,增強軟件安全性。
Henry Wong 會探討 PyTorch Lightning 如何簡化和抽象化模型訓練代碼,使得實現複雜模型時,比起僅使用 PyTorch 更為輕鬆。
可觀察性 ( Observability ) 在複雜系統中愈發重要。今年有兩位講者將分享相關內容:Alex Au 介紹 OpenTelemetry 如何提升 Python 程式的可觀察性,而 Hemangi Karchalkar 則將展示 Pydantic Logfire 的強大功能,提升程式的可觀察性。
敬請期待這些精彩的分享!
Lightning Talk:這些機會是屬於你的!
今年我們安排了緊張刺激的 Lightning Talks 時段,每位講者將有 5 分鐘的時間分享他們的主題。你將聽到各種講題的精華濃縮在這短短的 5 分鐘內,保證精彩絕倫!
此外,我們還預留了一些即場報名的 5 分鐘 Lightning Talk 時段,參加者可於當日即場遞交講題,分享你自己的 5 分鐘演講!
Development Sprint:學而時習之,不亦說乎
緊接第二天的活動,我們將不再只是坐著聽書,而是一起參加 Sprint「衝刺開發」。顧名思義,這是一個集體「落手寫 code」的活動。當天,Sprint lead 會介紹他們的開源項目概況及目標,隨後,參與者可以根據自己的興趣組隊,例如做一些 bugfix、撰寫測試案例、提升功能,或協助數據收集和文本翻譯等等。這個過程的樂趣在於,大家可以一邊動手實踐,一邊學習新知識,同時結識新朋友,並共同解決問題。