Register
Login
Resources
Docs Blog Datasets Glossary Case Studies Tutorials & Webinars
Product
Data Engine LLMs Platform Enterprise
Pricing Explore
Connect to our Discord channel
..
8ac71e1b7c
added: todo get arguments
3 years ago
a1c9c09a83
upd: fix parser after yet another kaggle update
3 years ago
a1c9c09a83
upd: fix parser after yet another kaggle update
3 years ago
e6bd8abadf
upd:parsing metric names
3 years ago
41997b2ccb
add: competition collecting script, slight changes to scraping module
3 years ago
7a7ecd2a92
upd: small tweaks to collect new kernel refs
3 years ago
968d69d501
upd:parsing tags
3 years ago
35efa1cd25
wip: collecting notebooks and optimization for parsing
3 years ago
41997b2ccb
add: competition collecting script, slight changes to scraping module
3 years ago
b1d1fe0fc7
upd: fixed parsing for kernels remote source code, fixed cookie acceptance
3 years ago
8942d06f09
solving conflict in readme.md
3 years ago
41997b2ccb
add: competition collecting script, slight changes to scraping module
3 years ago
a1c9c09a83
upd: fix parser after yet another kaggle update
3 years ago

readme.md

You have to be logged in to leave a comment. Sign In

Сбор и парсинг ноутбуков

Сбор

Запуск из терминала python3 ./kaggle.py

Аргументы (kaggle API): --page-size (default : 1001) --language (default : python) --kernel-type (default : notebook) --sort-by (default : dateCreated) --competition --dataset

Аргументы (фильтры): --kaggle_score (применяется только если выбрано соревнование --competition) --minimize_score (получить значения меньшие или равные пороговому(kaggle_score), если не задан - получить значения большие или равные порогу) --upvotes --comments

Передает полученные данные в notebook_parsing.py и по умолчанию записывает результат в файл ../data/code_blocks_new_{date}.csv.

Аргументы командной строки можно увидеть по команде python3 ./kaggle.py --help

Парсинг

Парсер использует библиотеку BeautifulSoup4, а также tqdm для красивого и удобного прогресбара. чтобы собрать ссылки на используемые данные, потребовался Selenium. С Selenium используется веб-драйвер Google Chrome.

Tip!

Press p or to see the previous file or, n or to see the next file

Comments

Loading...