nipdep
/
How-to-Win-a-Data-Science-Competition-Learn-from-Top-Kagglers
mirror of https://github.com/nipdep/How-to-Win-a-Data-Science-Competition-Learn-from-Top-Kagglers.git


  
1

	
2

	
3

	
4

	
5

	
6

	
7

	
8

	
9

	
10

	
11

	
12

	
13

	
14

	
15

	
16

	
17

	
18

	
19

	
20

	
21

	
            import pandas as pd 
import numpy as np

train_df = pd.read_csv('../readonly/final_project_data/sales_train.csv.gz')
test_df = pd.read_csv('../readonly/final_project_data/test.csv.gz')
item_df = pd.read_csv('../readonly/final_project_data/items.csv')


trainf_gb = train_df.groupby(["date_block_num","shop_id", "item_id"])
trainf_agg = trainf_gb.agg({
    'item_price' : 'mean',
    'item_cnt_day' : 'sum'
})
train_data = trainf_agg.reset_index()

train_data["cat_id"] = train_data["item_id"].map(pd.Series(item_df.loc[:, "item_category_id"].values, index = item_df.loc[:, "item_id"].values))

train_data.rename(columns={'item_cnt_day' : 'item_cnt_block'}, inplace=True)
train_data = train_data.loc[:, ["date_block_num", "shop_id", "item_id", "cat_id", "item_price", "item_cnt_block"]]

train_data.to_csv('../readonly/features/training_data.csv', index=False)