- 新しい順
- 投票が多い順
- コメントが多い順
Split dataのtransform機能は単純にデータを分割するだけなのでしょうか?
Data Wrangler における組み込み変換である Data Split [1] については、データセットをトレーニング用とテスト用に分割するための機能です。
デフォルトでは、SageMaker Canvasはランダム分割を使用しますが、順序付き(Ordered)、層別化(Stratified)、キーによる分割(Split by key)などの分割タイプも選択できます。
この分割は単純にデータを分けるだけの機能で、分割されたデータセットはそれぞれ別々に扱われます。
一度モデルをdeployした際にRMSE, MASEなどの指標が表示されますが、こちらの指標はどのデータをもとに計算されてますか?
Canvas にて Build [2] を実施され、モデル構築後に表示される指標 [3] についてのご質問と認識しております。
Canvas にてモデルを構築される場合、Canvas のデータセットはトレーニングセットと検証セットに分割され、トレーニングセットはモデルの構築に使用され、検証セットはモデル候補の精度のテストに使用されます [2]。
つまり、Data Split にてトレーニング用に分割したデータを Canvas のデータセットとされた場合、そこからさらに検証セットとして分割されたデータを元に計算された指標となります。
一例の流れにつきましては、チュートリアル [4] がございますので、こちらを参考に実施いただけますと幸いです。
Sources
[1] データの分割 | [データを変換する] - Amazon SageMaker AI
[2] モデルの構築 - Amazon SageMaker AI
[3] モデル評価 - Amazon SageMaker AI
[4] チュートリアル: SageMaker Canvas でエンドツーエンドの機械学習ワークフローを構築する - Amazon SageMaker AI
