Использование наборов данных kaggle в Google Colab

можно ли напрямую использовать любые наборы данных, доступные в kaggle в Google Colab? Я вижу Kaggle API на этой link но, по-видимому, он имеет только определенные наборы данных, и это немного смущает меня.

4 ответов


шаг-за-шагом --

  1. создайте ключ API в Kaggle.

    чтобы сделать это, перейдите к kaggle.com/ и откройте страницу настроек пользователя. settings nav

  2. далее прокрутите вниз до раздела доступ к API и нажмите кнопку Создать чтобы загрузить API-ключ. api token Это загрузит файл под названием kaggle.json на ваш компьютер. Вы будете использовать этот файл в Colab для доступа к наборам данных Kaggle и соревнования.

  3. перейдите к https://colab.research.google.com/.

  4. загрузить kaggle.json файл, используя следующий фрагмент в кодовая ячейка:

    from google.colab import files files.upload()

  5. установите API kaggle с помощью !pip install -q kaggle

  6. перемещение на ~/.kaggle, где Клиент API ожидает, что ваш токен будет местонахождение:

    !mkdir -p ~/.kaggle !cp kaggle.json ~/.kaggle/

  7. вы можете получить доступ к наборам данных с помощью клиента, например, !kaggle datasets list.

вот полный пример ноутбука части Colab этого процесса: https://colab.research.google.com/drive/1DofKEdQYaXmDWBzuResXWWvxhLgDeVyl

этот пример показывает загрузку kaggle.json файл, клиент API Kaggle и использование клиента Kaggle для загрузки набор данных.


вы должны иметь доступ к любому набору данных на Kaggle через API. В этом примере перечисляются только наборы данных для соревнований. Вы можете видеть, что наборы данных вы можете получить доступ с помощью этой команды:

kaggle datasets list

вы также можете искать наборы данных, добавив тег-s, а затем интересующий вас поисковый термин. Таким образом, это даст вам список наборов данных о собаках:

kaggle datasets list -s dogs

Вы можете найти более подробную информацию об API и как его использовать в документации.

надеюсь, что это поможет! :)


У меня есть этот учебник, чтобы использовать Kaggle API на Google Colab напрямую без загрузки и загрузки набора данных через локальную машину. Kaggle API + Colaboratory


посмотреть этой.

Он использует официальный api kaggle за сценой, но автоматизирует процесс, поэтому вам не нужно повторно загружать вручную каждый раз, когда ваша виртуальная машина забирается. Кроме того, еще одной проблемой, с которой я столкнулся с использованием Kaggle API непосредственно на Colab, была проблема передачи маркера Kaggle API через Google Диск. Выше метод автоматизирует это также.

отказ от ответственности: я один из создателей Clouderizer.