Register
Login
Resources
Docs Blog Datasets Glossary Case Studies Tutorials & Webinars
Product
Data Engine LLMs Platform Enterprise
Pricing Explore
Connect to our Discord channel

explain.txt 2.9 KB

You have to be logged in to leave a comment. Sign In
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
  1. pre-preprocessing.ipynb - ноутбук с препроцессингом (код -> функции и тд)
  2. code2vec.py - файл, который создает/загружает модель (исп. в train.sh)
  3. common.py - всякие утилиты
  4. interactive_predict.py - файл для предикта на конкретном своем примере
  5. config.py - файл с (гипер)параметрами модели
  6. preprocess.sh - скрипт для препроцессинга (фукнции -> ast, с помощью jb cli)
  7. train.sh - скрипт для обучения
  8. my_predict.sh - Make predictions for files in pred_files directory
  9. my_get_embeddings.sh - saves targets and tokens embeddings to models directory
  10. save_predicted.sh - запускает my_predict.sh, но в отдельный файл сохраняет выводы
  11. my_find_synonym.py - находит наиболее похожий
  12. code2vec/cli.jar - cli от JB для парсинга
  13. code2vec/EMBEDDINGS.txt - создается при запуске my_get_embeddings.sh
  14. code2vec/python/my_* - каталог с функциями в отдельных файлах (создаются в pre-preprocessing.ipynb)
  15. code2vec/python/real_validation - каталог для файлов для интерактивного предсказания (не создается)
  16. data/my_dataset/* - создается автоматически при preprocess.sh, это всякие специальные представления ast для c2v
  17. models/* - ну тут сами модельки хранятся под своими названиями
  18. my_dataset_*
  19. pred_files/* - здесь лежат .py файлы для интерактивного предсказания
  20. ---------------------------------------
  21. у меня на гитхабе github.com/Kirili4ik/code2vec или в README подробно написано как запускать по шагам (Steps), но приведу тут кратко без пояснений
  22. 1) изменить preprocess.sh под себя, там инструкции
  23. >source preprocess.sh
  24. 2) изменить train.sh под свои директории
  25. изменить config.py под свои параметры моделей
  26. >source train.sh
  27. 3) Эвалюэйшн:
  28. > python3 code2vec.py --framework keras --load models/my_first_model/saved_model --test data/my_dataset/my_dataset.test.c2v
  29. Для проверки на своем файле (интерактивной):
  30. 4) >source my_predict.sh
  31. Изменяете файл в соответствии с инструкциями и жмете энтер
  32. комплит
  33. Чтобы найти синонимы:
  34. >python3 my_find_synonim.py --label 'linear|algebra'
  35. (Or any other tag and look at the closest to it.)
  36. Чтобы эмбеддинги выгрузить:
  37. >source my_get_embeddings.sh
  38. Удачи!
Tip!

Press p or to see the previous file or, n or to see the next file

Comments

Loading...