levin
/
nl2ml
mirror of https://gitlab.com/lambda-hse/nl2ml


  
1

	
2

	
3

	
4

	
5

	
6

	
7

	
8

	
9

	
10

	
11

	
12

	
13

	
14

	
15

	
16

	
17

	
18

	
19

	
20

	
21

	
22

	
23

	
24

	
25

	
26

	
27

	
28

	
29

	
30

	
31

	
32

	
33

	
34

	
35

	
36

	
37

	
38

	
39

	
40

	
41

	
42

	
43

	
44

	
45

	
46

	
47

	
48

	
49

	
50

	
51

	
52

	
53

	
54

	
55

	
56

	
57

	
58

	
59

	
60

	
61

	
62

	
63

	
64

	
65

	
            import numpy as np
import pandas as pd

import utils.preprocessing as preprocessing
import utils.feature_generation as feature_generation


PARTITION_NAME_TEMPLATE = "./data_parts/labeled_comments_partition{}.npy"
PARTITION_COUNT = 2


def preprocess(code_blocks):
    prep_pipeline = [
        preprocessing.trim_symbols,
        preprocessing.single_lines,
        preprocessing.multiple_lines,
        preprocessing.extract_comments,
    ]
    
    for prep_func in prep_pipeline:
        code_blocks = code_blocks.apply(prep_func, axis=1)
    
    comments = []
    for block_comments in code_blocks["comments"]:
        for comment_data in block_comments:
            comments.append(comment_data[1])
    comments = np.array(comments)
    return pd.DataFrame(data=comments.reshape((-1, 1)), columns=["comment"])


def load_code_blocks():
    all_blocks = pd.read_csv("../data/code_blocks_clean.csv")
    all_blocks = all_blocks["code_block"].to_frame()

    comment_blocks_idx = (
        all_blocks["code_block"].str.contains("#") | 
        (all_blocks["code_block"].str.contains("'''") & 
         (all_blocks["code_block"].str.count("'''") % 2 == 0)) |
        (all_blocks["code_block"].str.contains('"""') & 
         (all_blocks["code_block"].str.count('"""') % 2 == 0))
    )
    
    return preprocess(all_blocks[comment_blocks_idx].reset_index())


target = None
for part_id in range(PARTITION_COUNT):
    part_data = np.load(PARTITION_NAME_TEMPLATE.format(part_id))
    if target is None:
        target = part_data
        continue
    labeled_idx = part_data >= 0
    target[labeled_idx] = part_data[labeled_idx]


train_mask = target >= 0
determined_target = target[train_mask]

all_comments = load_code_blocks()
comment_df = feature_generation.preprocess_comments(all_comments)

train_df = comment_df[train_mask]
train_df["is_good_comment"] = determined_target

train_df.to_csv("train.csv")