PyCon 香港 2024 議程介紹

PyCon HK 2024

在今年的 PyCon HK ,我們從超過 80 個提案中精選了 30 多個精彩講題,組成了豐富的議程。這些講題涵蓋多個領域,講者來自 11 個不同國家 ,28 家不同企業,包括業界知名的 AWS、RedHat、Oracle/MySQL、Nvidia、Bloomberg 、Databricks 和 Canonical 等等。以下是部分講題的簡介。

香港人:自己 LLM 要靠自己

近年來,LLM(大型語言模型)已成為科技界的重要話題。然而,隨著高端 GPU 在香港被禁運,OpenAI 封鎖中港澳地區,大模型的算力需求不斷上升,而且基礎模型大多以英文和簡體中文內容為主。如果香港人想擁有一套安全且符合自身語言文化的 LLM,或許只能依靠自己!

在今年的 PyCon Keynote,我們邀請到 AWS 的講者 Haowen Huang ,他將會為大家展示各種訓練 LLM 的策略,及如何利用 Python 和 AWS 雲端服務來應對算力不足的挑戰,幫助廣大開發者動手打造自己的 LLM。

緊接,我們邀請了來自國立臺灣大學的講者 Yen-Ting Lin 分享他們在開發「台灣 LLM」過程中的心得,探討在繁體中文數據量不足和兩岸三地文化差異的背景下,台灣 LLM 是如何煉成的。香港 LLM 又能否從中有借鑒呢?(講者身在外地,將以線上方式分享)

然後 Winnie Yeung 和 Marcus Lau 將介紹他們如何利用廣東話知識庫來評測市面上的大型語言模型,評測結果是否會帶來驚喜發現呢?(講者身在外地,將以線上方式分享)

此外,大家熟悉的 Dr. Chung NgCyrus Wong 團隊的講題也與 LLM 有關,還有 Ryan Kuan 介紹如何用 MySQL 實現 RAG,Tarun Jain 會為大家解構 AI Agent。不用我多說,他們的分享絕對不容錯過!

Python 世界的不同視角

每年在 PyCon,我們不僅期待技術分享,更希望講座能為觀眾帶來新的視野和啟發。今年適逢十週年,我們特別邀請了香港 PyCon 的創始人 Sammy Fung 和元老級人物 Calvin Tsang,與我們分享這十年來的故事。由於 Sammy 身在外地,他將以錄影的方式為我們致開幕詞。

Calvin Tsang 將回顧超過十年的 PyCon HK 和 OSHK 經驗,分享如何經營本地社群。如果錯過了這場分享,「錦鯉可能要等多十年」!

此外,來自日本的 Chan Sau Yee 將探討 Web Developer 與 Data Scientist 這兩個角色如何一體兩面,相輔相成。

還有,香港中文大學計算機科學與工程學系講師 Chuck-Jee Chau 將同大家探索如何利用 Python 創作音樂,從聲音合成到算法音樂創作等等,一同走進「編程音樂家」與「音樂程式員」的世界。

DevOps:工欲善其事,必先利其器

與其說 DevOps 是開發者的工具,不如說 DevOps 是用餐時候不可或缺的餐具。若沒有餐具,吃飯就會食到「捩咁𠾍」,而且有欠衛生;反之,使用合適的餐具不僅能提升效率,還能保持整潔,符合餐桌禮儀。DevOps 也是同理。

今年在 DevOps 領域,我們請來 Red Hat 戰略業務發展總監 Timothy Lam 為大家展示如何利用 Python 和 Ansible 自動化設置網絡,有效提高效率、減少錯誤並加快部署,讓網路管理員能專注於構建更可靠和安全的網絡環境。

此外,Canonical 的平台開發員 YangSoo Yoon 將介紹 Kubernetes (K8s)、Helm、Pulumi 等工具,以及 Canonical 最新推出的 Juju。

來自意大利的講者 Cristiano Pierandrei 將分享如何使用 Docker 和 Docker Compose 設置 Python 應用程式,非常適合初學者。

本地創客空間 Dim Sum Labs 成員 Nigel Choi,會講解他們自家開發的設施管理系統 Hackman,並展示如何利用 Django、Redis 和 Nix OS,通過 DevOps/GitOps 進行部署。

利用 GPU 和 C/C++ 加速運算

要讓程式運行得更快,基本上離不開 GPU 和 C/C++ 程式語言。今年,Nvidia 兩位來自 RAPIDS 團隊的軟件工程師將為大家介紹在深度學習以外,如何利用 GPU 加速數據科學的計算。

Nvidia 的 Jiaming Yuan 將展示如何使用 GPU 加速 scikit-learn 和 XGBoost 的運算,並介紹 RAPIDS 項目的未來發展方向。

Nvidia 的 Michael Wang 將闡述如何利用 Numbast 生成點對點綁定,以便更便捷地結合 CUDA C++ 和 Python,並深入解釋 Numba-CUDA,還會帶領大家實際操作 CUDA kernels,挑戰性十足!

此外,Bloomberg 的 Leo Chen 會分享如何運用 C 和 Cython 快速提升 Python 處理數據的速度,並提供實際工作中的應用案例。

各種 Libraries and tools 技術分享

Hyukjin Kwon 與 Allison Wang 來自 Databricks,將介紹有效的 PySpark 調試和監控方法,幫助開發者提高工作效率。

Nok Lam Chan,Kedro 的數據科學家,將探討 Spark 以外的數據處理技術,如 SQLFrame 和 SQLGlot,並分析這些技術在不同場景中的應用。

Yang Cen,來自 LanceDB 的軟件開發工程師,將分享如何在訓練 PyTorch 模型時有效利用 Lance 整合多模態數據。

Frankie Ng,RedHat 的助理首席解決方案架構師,將介紹 Sigstore 的數位簽署及驗證 Python package 的過程,增強軟件安全性。

Henry Wong 會探討 PyTorch Lightning 如何簡化和抽象化模型訓練代碼,使得實現複雜模型時,比起僅使用 PyTorch 更為輕鬆。

來自印度的 Gautam Jajoo 將講解聯邦學習(Federated Learning)及模型壓縮,並展示如何使用 MPI 實現聯邦學習。

可觀察性 ( Observability ) 在複雜系統中愈發重要。今年有兩位講者將分享相關內容:Alex Au 介紹 OpenTelemetry 如何提升 Python 程式的可觀察性,而 Hemangi Karchalkar 則將展示 Pydantic Logfire 的強大功能,提升程式的可觀察性。

敬請期待這些精彩的分享!

Lightning Talk:這些機會是屬於你的!

今年我們安排了緊張刺激的 Lightning Talks 時段,每位講者將有 5 分鐘的時間分享他們的主題。你將聽到各種講題的精華濃縮在這短短的 5 分鐘內,保證精彩絕倫!

此外,我們還預留了一些即場報名的 5 分鐘 Lightning Talk 時段,參加者可於當日即場遞交講題,分享你自己的 5 分鐘演講!

Development Sprint:學而時習之,不亦說乎

緊接第二天的活動,我們將不再只是坐著聽書,而是一起參加 Sprint「衝刺開發」。顧名思義,這是一個集體「落手寫 code」的活動。當天,Sprint lead 會介紹他們的開源項目概況及目標,隨後,參與者可以根據自己的興趣組隊,例如做一些 bugfix、撰寫測試案例、提升功能,或協助數據收集和文本翻譯等等。這個過程的樂趣在於,大家可以一邊動手實踐,一邊學習新知識,同時結識新朋友,並共同解決問題。