活動報導

【雲協技術專家專欄】人工智慧與精準運動

字級:
小字級
中字級
大字級
友善列印


雲協技術專家、陽明交大資訊工程學系終身講座教授曾煜棋
陽明交通大學AI學院吳昆儒研究員、李明翰研究生、張宇辰研究生

隨著科技進步,人工智慧(AI)已成為精準運動領域中的一股革命性力量,無論是在職業運動還是業餘運動愛好者,AI都為運動員、教練和科學家,以更深入、更智慧地探索運動的奧秘。本文將介紹AI在精準運動如何改變運動訓練,並深入探討在高爾夫運動的實際應用。

健康是運動員最基本、最重要的資本,透過穿戴式裝置進行即時生理監測,包括心率、血氧、運動強度、睡眠品質等生理資訊,結合AI分析進一步辨識壓力、疲勞程度或受傷風險等指標,有助於評估每位運動員的身心狀態,制定客製化訓練計畫,以提升運動表現並預防運動傷害發生風險。運動科技除了左右個人表現亦會影響團隊戰略,藉由慣性感測器(IMU)、電腦視覺等AI技術,進行人體感知與追蹤,可以評估個別選手表現,分析每位選手的優劣勢,以制定相應的訓練計劃;而教練也可發現戰術執行的弱點,分析策略模式並調整比賽策略。

標準的運動姿態是影響運動表現的關鍵,若運動姿態不標準可能導致運動傷害、學習效率降低…等問題,選手一般都是根據教練的觀察與指導來改善運動姿態。然而,這種方式會面臨精確性、主觀性、效率低落⋯等問題。首先,受限於人類的視覺能力,難以捕捉細微的姿態變化,影響觀察的精確度;此外,觀察結果為教練的主觀判斷,缺乏一致性和客觀性;再者,這項任務須由他人參與,缺乏效率。因此,近年來,許多研究將物件偵測(Object Detection)、人體姿態估計(Human Pose Estimation, HPE)應用在運動領域,進一步進行動作辨識(Action Recognition)實現精準運動的目的。

人體姿態估計是電腦視覺領域的熱門議題,可分為2D與3D姿態分析; 2D 人體姿態估計透過影像辨識圖片中人體的關節點位置;3D 人體姿態估計的作法是根據2D 人體姿態估計的結果,堆疊在時間軸上,進一步預測3D關節點的位置,如圖 1所示。目前,運動領域廣泛運用了人體姿態估計的技術,例如:預測曲棍球員與球桿的2D骨架[1]、偵測游泳選手的2D姿態並校正以提高精確度[2]、在大型體育賽事追蹤多位運動員的3D姿態[3],這些研究都使用感測器與深度學習演算法來做到特定領域的人體姿態估計。此外,姿態應用的相關研究也非常多元,例如:檢測橄欖球賽事的鏟球位置與球員姿態以評估腦震盪風險[4]、結合姿態與場地要素預測羽球的3D飛行軌跡[5]、PoseCoach比較專業與業餘跑步者的姿態並給予建議[6]。


圖1: 基於骨架的 3D HPE [7]
一一

高爾夫運動近年來日益盛行,其揮桿動作直接影響揮桿結果,如何正確有效的進行高爾夫揮桿也是相當重要。早期研究使用動態捕捉錄製高爾夫選手的揮桿姿態,統計分析揮桿動作與運動傷害間的關係,近年來,有研究開始使用2D人體姿態估計,從高爾夫揮桿影片找出關鍵幀,進行揮桿動作效益評估,或是使用深度學習技術估計3D人體姿態,進一步同步初學者與專家的姿態後協助進行揮桿動作的矯正,也有研究使用動態捕捉系統錄製使用者的姿態後,比較與資料庫中教練姿態的差異,進行視覺化與評分,幫助使用者了解他們與教練間的差異。

在資料集方面,GolfDB [8]包含1400部專業高爾夫選手的揮桿影片,每部影片都有事件幀(event frames)、邊界框(bounding box) 球員姓名和性別、球杆類型以及視角類型等資訊。如圖 2所示,他們將高爾夫揮桿序列分成以下8個事件: 擊球準備(address)、起桿(toe-up)、上桿(mid-backswing)、上桿頂點(top)、下桿(mid-downswing)、擊球(Impact)、送桿(mid-follow-through)以及收桿(finish)。此外,他們也提出一個輕量級深度神經網絡模型SwingNet,混合深度卷積和循環神經網絡架構,來偵測上述高爾夫揮桿的8個事件。


圖2:高爾夫揮杆序列中的8個事件 [8]
一一

另一資料集SportsPose [9],是一個大規模無標記(markerless)針對運動動作的3D人體姿態資料集,如圖 3所示,該資料集收錄24位受試者進行投球、跳躍、網球、排球、足球5種運動,場景涵蓋室內和室外,總計包含176000組3D人體姿態,反映運動動作其高動態、複雜且具變化性的特點。他們先使用HRNet估計各角度影像的2D關鍵點位置,再經過三角測量估計3D關鍵點位置,產生比Human3.6M和3DPW更加動態的3D人體姿態估計資料集,增加3D人體姿態估計在體育領域的準確性,以及運動分析、教練和預防傷害等相關應用。


圖3: SportPose資料集中各種運動的2D影像以及相應的3D姿態 [9]
一一

經上述介紹我們知道以往人體姿態估計常見的資料集如Human3.6M, TotalCapture等,包含的人體姿態類型屬於人類日常活動,且姿態估計大多以人體為主,若應用於精準運動可能因少見姿態、自我遮擋等問題,產生的人體姿態估計不夠準確,後續精準運動的相關應用勢必因此受限。

本團隊以高爾夫運動為例,建立一個GolfSwing資料集,包含人體與球桿的2D、3D高爾夫揮桿姿態,如圖 4。我們使用高精準度的3D動態捕捉系統Vicon錄製受試者的揮桿動作,計算3D人體17個關鍵點與球桿5個關鍵點,並將3D關鍵點投影至RGB影像獲取2D關鍵點。在獲得人體和球桿的2D、3D正確答案(ground truth)之後,我們以此資料集來微調(fine-tuning)現有的2D、3D人體姿態估計模型,提出了GolfPose模型,從揮桿影片估計高爾夫球手和球桿的3D姿態。我們採用的3D姿態估計分為兩步驟:第一步使用2D姿態估計,從RGB影像估計高爾夫球手與球桿的2D姿態,第二步再將整體的2D姿態提升為3D姿態。從實驗結果可以發現,僅針對高爾夫球手的姿態模型進行微調,可將3D姿態估計的結果MPJPE(Mean Per Joint Position Error)降至35.6毫米,優於預訓練(pre-trained)模型,如果同時針對高爾夫球手和球桿的姿態模型進行微調,可進一步提升高爾夫球手準確性至32.3毫米,表示加入球桿關鍵點後,能有效提升揮桿姿態的準確度。此研究成果將有利於後續的高爾夫揮桿動作辨識與分析,也可指導高爾夫揮桿的正確姿勢,更進一步推廣至其他球具運動上。


圖4: GolfPose整體架構

參考資料

  1. H. Neher, K. Vats, A. Wong, and D. A. Clausi, "Hyperstacknet: A hyper stacked hourglass deep convolutional neural network architecture for joint player and stick pose estimation in hockey," in 2018 15th Conference on Computer and Robot Vision (CRV), 2018, pp. 313-320: IEEE.
  2. D. Zecha, M. Einfalt, C. Eggert, and R. Lienhart, "Kinematic pose rectification for performance analysis and retrieval in sports," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2018, pp. 1791-1799.
  3. T. Baumgartner and S. Klatt, "Monocular 3D Human Pose Estimation for Sports Broadcasts using Partial Sports Field Registration," in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 5108-5117.
  4. N. Nonaka et al., "End-to-end high-risk tackle detection system for rugby," in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 3550-3559.
  5. P. Liu and J.-H. Wang, "MonoTrack: Shuttle trajectory reconstruction from monocular badminton video," in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 3513-3522.
  6. J. Liu et al., "PoseCoach: A Customizable Analysis and Visualization System for Video-based Running Coaching," IEEE Transactions on Visualization and Computer Graphics, 2022.
  7. C. Zheng et al., "Deep learning-based human pose estimation: A survey," ACM Computing Surveys, vol. 56, no. 1, pp. 1-37, 2023.
  8. W. McNally, K. Vats, T. Pinto, C. Dulhanty, J. McPhee, and A. Wong, "Golfdb: A video database for golf swing sequencing," in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, 2019, pp. 0-0.
  9. C. K. Ingwersen, C. M. Mikkelstrup, J. N. Jensen, M. R. Hannemose, and A. B. Dahl, "SportsPose-A Dynamic 3D sports pose dataset," in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 5218-5227.

TOP