Guy
/
fairseq


  
1

	
2

	
3

	
4

	
5

	
6

	
7

	
8

	
9

	
10

	
11

	
12

	
13

	
14

	
15

	
16

	
17

	
18

	
19

	
20

	
21

	
22

	
23

	
24

	
            # To see possible and default values: look at the various model architectures at the bottom of transformer.py 
arch: transformer_universal
dropout: 0.1
attention-dropout: 0.0
encoder-embed-dim: 512
encoder-ffn-embed-dim: 2048
encoder-layers: 1
encoder-layer-recurrence: 6
encoder-attention-heads: 8
decoder-embed-dim: 512
decoder-ffn-embed-dim: 2048
decoder-layers: 1
decoder-layer-recurrence: 6
decoder-attention-heads: 8
relu-dropout: 0.
adaptive-softmax-dropout: 0
optimizer: sgd
lr: 0.0001
lr-schedule: fixed
lr-shrink: 0.9
max-tokens: 500
min-lr: 0.0
update-freq: 4
max-update: 630