nipdep
/
How-to-Win-a-Data-Science-Competition-Learn-from-Top-Kagglers
mirror of https://github.com/nipdep/How-to-Win-a-Data-Science-Competition-Learn-from-Top-Kagglers.git


  
1

	
2

	
3

	
4

	
5

	
6

	
7

	
8

	
9

	
10

	
11

	
12

	
13

	
14

	
15

	
16

	
17

	
18

	
19

	
20

	
21

	
22

	
23

	
            import numpy as np 
import pandas as pd 

test_df = pd.read_csv('../readonly/final_project_data/test.csv.gz')
train_df = pd.read_csv('../readonly/final_project_data/training_data.csv')
item_df = pd.read_csv('../readonly/final_project_data/items.csv')

date_block_ser = pd.Series(34, index=range(test_df.shape[0]))
test_df["date_block_num"] = date_block_ser

test_df["cat_id"] = test_df["item_id"].map(pd.Series(item_df.loc[:, "item_category_id"].values, index = item_df.loc[:, "item_id"].values))

train_gb = train_df.groupby(["shop_id","item_id"])
train_agg = train_gb.agg({
    'item_price' : 'last'
})
price_df = train_agg.reset_index()
test_df = pd.merge(test_df, price_df, how='left', on=["item_id", "shop_id"])

replace_val = test_df.item_price.mean()
test_df.item_price.fillna(replace_val, inplace=True)

test_df.to_csv('../readonly/features/testing_data.csv', index=False)