Register
Login
Resources
Docs Blog Datasets Glossary Case Studies Tutorials & Webinars
Product
Data Engine LLMs Platform Enterprise
Pricing Explore
Connect to our Discord channel
Ekaterina d09f310789
parser & data updated
2 years ago
..
d09f310789
parser & data updated
2 years ago
d09f310789
parser & data updated
2 years ago
d09f310789
parser & data updated
2 years ago
d09f310789
parser & data updated
2 years ago
d09f310789
parser & data updated
2 years ago
d09f310789
parser & data updated
2 years ago
d09f310789
parser & data updated
2 years ago
d09f310789
parser & data updated
2 years ago

readme.md

You have to be logged in to leave a comment. Sign In

Очистка in-code comments

Критерии хорошего комментария

  1. Кратко описывает одно, возможно сложное, действие
  2. Не содержит ссылок
  3. Не содержит кода или объяснения работы использованных функций
  4. Не описывает входные и выходные переменные
  5. Не является кодом
  6. На английском языке

Скрипт для ручной разметки комментариев

Запуск из терминала python3 ./manual_labeling.py

Для разметки в скрипте нужно выбрать количество размечающих (LABELER_COUNT) и номер размечающего (LABELER_ID, от 0 до LABELER_COUNT - 1), чтобы в размеченных данных не было пересечений.

Размеченные данные сохраняются в файл data_parts/labeled_comments_partition{id}.npy, где {id} --- номер размечающего.

Если комментарий хороший, то нужно нажимать y. Иначе, n. По остальным нажатиям сессия разметки завершается. Слишком длинные комментарии пропускаются.

Скрипт для подготовки тренировочного набора данных

Запуск из терминала python3 ./make_train.py

По разметке, собранной из данных в папке data_parts, определяется, для каких комментариев известна целевая переменная. Затем из этих комментариев извлекаются параметры.

Результат сохраняется в файл train.csv

Скрипт для обучения модели

Запуск из терминала python3 ./train_model.py

Обучает модель по заданным размеченным данным и сохраняет её в заданную папку. Необходимо задать несколько глобальных значений:

  • DATASET: название файла с размеченными данными
  • MODEL_FOLDER: название папки в которую будет сохранена модель
  • RESULT_FILE: название файла, в который сохранят полученные метрики модели

Скрипт для удаления плохих комментариев

Запуск из терминала python3 ./update_notebook.py

Выгружает сохраненную модель и на основе полученных от неё предсказаний удаляет комментарии из поданных данных. Необходимо задать несколько глобальных значений:

  • DATA: название файла с данными
  • SAVE_UPDATED_DATA: булевая перерменная обозначающая надо ли сохранять обновленные данные
  • UPDATED_DATA: название файла, в который сохранят обновленные данные
  • MODEL_FOLDER: название папки с моделью
  • DELETED_COMMETNS_FILE: название файла в который будут записаны удаленные комментарии
  • NUM_OF_COMMENTS_TO_WRITE_TO_FILE: число удаленных комментариев которые будут записаны в отдельный файл
Tip!

Press p or to see the previous file or, n or to see the next file

Comments

Loading...