クラウドエンジニアのノート

情報技術系全般,自分用メモを公開してます。

kaggle datasets api 使い方

はじめに

kaggle datasets apiの使い方が少し癖あったので、備忘録

初期化

最初にフォルダを初期化してあげる必要があります。

  • フォルダを登録
kaggle datasets init -p /path/to/datasets

tiitleidを任意の値に変更します(titleは6~50文字)

vim path/to/datasets/dataset-metadata.json
  • 作成
kaggle datasets create -p path/to/datasets

追加アップロード(バージョニング)

単一ファイルの場合

kaggle datasets version -p /path/to/dataset -m "comments"

フォルダ階層になっている場合

複数ファイルの場合は圧縮形式の指定が必要です。

kaggle datasets version -p path/to/datasets -m "comments" --dir-mode zip

dir-mode

createコマンドでもフォルダ階層になってる場合は--dir-mode必須です

dir-modeは3種類あります

  • skip
  • zip
  • tar

zipとかは圧縮に時間取られたりするので、細々していなければskipが一番はやいです。

追記:
tarにすると、アップデート後もフォルダが.tar形式になるみたいなので、zip一択ですね

参考

私がよく使う kaggle api command まとめた - かえるのプログラミングブログ