Unity-Technologies · ervteng · May 26, 2020 · Apr 30, 2020 · Apr 30, 2020 · Apr 30, 2020
diff --git a/com.unity.ml-agents/CHANGELOG.md b/com.unity.ml-agents/CHANGELOG.md
@@ -25,6 +25,8 @@ vector observations to be used simultaneously. (#3981) Thank you @shakenes !
 - Curriculum and Parameter Randomization configurations have been merged
   into the main training configuration file. Note that this means training
   configuration files are now environment-specific. (#3791)
+- The format for trainer configuration has changed, and the "default" behavior has been deprecated.
+  See the [Migration Guide](https://github.com/Unity-Technologies/ml-agents/blob/master/docs/Migrating.md) for more details. (#3936)
 - Training artifacts (trained models, summaries) are now found in the `results/`
   directory. (#3829)
 - Unity Player logs are now written out to the results directory. (#3877)

diff --git a/config/imitation/CrawlerStatic.yaml b/config/imitation/CrawlerStatic.yaml
@@ -1,29 +1,37 @@
 behaviors:
   CrawlerStatic:
-    trainer: ppo
-    batch_size: 2024
-    beta: 0.005
-    buffer_size: 20240
-    epsilon: 0.2
-    hidden_units: 512
-    lambd: 0.95
-    learning_rate: 0.0003
-    max_steps: 1e7
-    memory_size: 256
-    normalize: true
-    num_epoch: 3
-    num_layers: 3
-    time_horizon: 1000
-    sequence_length: 64
-    summary_freq: 30000
-    use_recurrent: false
+    trainer_type: ppo
+    hyperparameters:
+      batch_size: 2024
+      buffer_size: 20240
+      learning_rate: 0.0003
+      beta: 0.005
+      epsilon: 0.2
+      lambd: 0.95
+      num_epoch: 3
+      learning_rate_schedule: linear
+    network_settings:
+      normalize: true
+      hidden_units: 512
+      num_layers: 3
+      vis_encode_type: simple
     reward_signals:
       gail:
-        strength: 1.0
         gamma: 0.99
+        strength: 1.0
         encoding_size: 128
+        learning_rate: 0.0003
+        use_actions: false
+        use_vail: false
         demo_path: Project/Assets/ML-Agents/Examples/Crawler/Demos/ExpertCrawlerSta.demo
+    output_path: default
+    keep_checkpoints: 5
+    max_steps: 10000000
+    time_horizon: 1000
+    summary_freq: 30000
+    threaded: true
     behavioral_cloning:
       demo_path: Project/Assets/ML-Agents/Examples/Crawler/Demos/ExpertCrawlerSta.demo
-      strength: 0.5
       steps: 50000
+      strength: 0.5
+      samples_per_update: 0
diff --git a/config/imitation/FoodCollector.yaml b/config/imitation/FoodCollector.yaml
@@ -1,29 +1,37 @@
 behaviors:
   FoodCollector:
-    trainer: ppo
-    batch_size: 64
-    beta: 0.005
-    buffer_size: 10240
-    epsilon: 0.2
-    hidden_units: 128
-    lambd: 0.95
-    learning_rate: 0.0003
-    max_steps: 2.0e6
-    memory_size: 256
-    normalize: false
-    num_epoch: 3
-    num_layers: 2
-    time_horizon: 64
-    sequence_length: 32
-    summary_freq: 10000
-    use_recurrent: false
+    trainer_type: ppo
+    hyperparameters:
+      batch_size: 64
+      buffer_size: 10240
+      learning_rate: 0.0003
+      beta: 0.005
+      epsilon: 0.2
+      lambd: 0.95
+      num_epoch: 3
+      learning_rate_schedule: linear
+    network_settings:
+      normalize: false
+      hidden_units: 128
+      num_layers: 2
+      vis_encode_type: simple
     reward_signals:
       gail:
-        strength: 0.1
         gamma: 0.99
+        strength: 0.1
         encoding_size: 128
+        learning_rate: 0.0003
+        use_actions: false
+        use_vail: false
         demo_path: Project/Assets/ML-Agents/Examples/FoodCollector/Demos/ExpertFood.demo
+    output_path: default
+    keep_checkpoints: 5
+    max_steps: 2000000
+    time_horizon: 64
+    summary_freq: 10000
+    threaded: true
     behavioral_cloning:
       demo_path: Project/Assets/ML-Agents/Examples/FoodCollector/Demos/ExpertFood.demo
-      strength: 1.0
       steps: 0
+      strength: 1.0
+      samples_per_update: 0
diff --git a/config/imitation/Hallway.yaml b/config/imitation/Hallway.yaml
@@ -1,28 +1,38 @@
 behaviors:
   Hallway:
-    trainer: ppo
-    batch_size: 128
-    beta: 0.01
-    buffer_size: 1024
-    epsilon: 0.2
-    hidden_units: 128
-    lambd: 0.95
-    learning_rate: 0.0003
-    max_steps: 1.0e7
-    memory_size: 256
-    normalize: false
-    num_epoch: 3
-    num_layers: 2
-    time_horizon: 64
-    sequence_length: 64
-    summary_freq: 10000
-    use_recurrent: true
+    trainer_type: ppo
+    hyperparameters:
+      batch_size: 128
+      buffer_size: 1024
+      learning_rate: 0.0003
+      beta: 0.01
+      epsilon: 0.2
+      lambd: 0.95
+      num_epoch: 3
+      learning_rate_schedule: linear
+    network_settings:
+      normalize: false
+      hidden_units: 128
+      num_layers: 2
+      vis_encode_type: simple
+      memory:
+        sequence_length: 64
+        memory_size: 256
     reward_signals:
       extrinsic:
-        strength: 1.0
         gamma: 0.99
+        strength: 1.0
       gail:
-        strength: 0.1
         gamma: 0.99
+        strength: 0.1
         encoding_size: 128
+        learning_rate: 0.0003
+        use_actions: false
+        use_vail: false
         demo_path: Project/Assets/ML-Agents/Examples/Hallway/Demos/ExpertHallway.demo
+    output_path: default
+    keep_checkpoints: 5
+    max_steps: 10000000
+    time_horizon: 64
+    summary_freq: 10000
+    threaded: true
diff --git a/config/imitation/PushBlock.yaml b/config/imitation/PushBlock.yaml
@@ -1,25 +1,32 @@
 behaviors:
   PushBlock:
-    trainer: ppo
-    batch_size: 128
-    beta: 0.01
-    buffer_size: 2048
-    epsilon: 0.2
-    hidden_units: 256
-    lambd: 0.95
-    learning_rate: 0.0003
-    max_steps: 1.5e7
-    memory_size: 256
-    normalize: false
-    num_epoch: 3
-    num_layers: 2
-    time_horizon: 64
-    sequence_length: 64
-    summary_freq: 60000
-    use_recurrent: false
+    trainer_type: ppo
+    hyperparameters:
+      batch_size: 128
+      buffer_size: 2048
+      learning_rate: 0.0003
+      beta: 0.01
+      epsilon: 0.2
+      lambd: 0.95
+      num_epoch: 3
+      learning_rate_schedule: linear
+    network_settings:
+      normalize: false
+      hidden_units: 256
+      num_layers: 2
+      vis_encode_type: simple
     reward_signals:
       gail:
-        strength: 1.0
         gamma: 0.99
+        strength: 1.0
         encoding_size: 128
+        learning_rate: 0.0003
+        use_actions: false
+        use_vail: false
         demo_path: Project/Assets/ML-Agents/Examples/PushBlock/Demos/ExpertPush.demo
+    output_path: default
+    keep_checkpoints: 5
+    max_steps: 15000000
+    time_horizon: 64
+    summary_freq: 60000
+    threaded: true
diff --git a/config/imitation/Pyramids.yaml b/config/imitation/Pyramids.yaml
@@ -1,22 +1,20 @@
 behaviors:
   Pyramids:
-    trainer: ppo
-    batch_size: 128
-    beta: 0.01
-    buffer_size: 2048
-    epsilon: 0.2
-    hidden_units: 512
-    lambd: 0.95
-    learning_rate: 0.0003
-    max_steps: 1.0e7
-    memory_size: 256
-    normalize: false
-    num_epoch: 3
-    num_layers: 2
+    trainer_type: ppo
     time_horizon: 128
-    sequence_length: 64
-    summary_freq: 30000
-    use_recurrent: false
+    max_steps: 1.0e7
+    hyperparameters:
+      batch_size: 128
+      beta: 0.01
+      buffer_size: 2048
+      epsilon: 0.2
+      lambd: 0.95
+      learning_rate: 0.0003
+      num_epoch: 3
+    network_settings:
+      num_layers: 2
+      normalize: false
+      hidden_units: 512
     reward_signals:
       extrinsic:
         strength: 1.0

diff --git a/config/ppo/3DBall.yaml b/config/ppo/3DBall.yaml
@@ -1,25 +1,27 @@
 behaviors:
   3DBall:
-    trainer: ppo
-    batch_size: 64
-    beta: 0.001
-    buffer_size: 12000
-    epsilon: 0.2
-    hidden_units: 128
-    lambd: 0.99
-    learning_rate: 0.0003
-    learning_rate_schedule: linear
-    max_steps: 5.0e5
-    memory_size: 128
-    normalize: true
-    num_epoch: 3
-    num_layers: 2
-    time_horizon: 1000
-    sequence_length: 64
-    summary_freq: 12000
-    use_recurrent: false
-    vis_encode_type: simple
+    trainer_type: ppo
+    hyperparameters:
+      batch_size: 64
+      buffer_size: 12000
+      learning_rate: 0.0003
+      beta: 0.001
+      epsilon: 0.2
+      lambd: 0.99
+      num_epoch: 3
+      learning_rate_schedule: linear
+    network_settings:
+      normalize: true
+      hidden_units: 128
+      num_layers: 2
+      vis_encode_type: simple
     reward_signals:
       extrinsic:
-        strength: 1.0
         gamma: 0.99
+        strength: 1.0
+    output_path: default
+    keep_checkpoints: 5
+    max_steps: 500000
+    time_horizon: 1000
+    summary_freq: 12000
+    threaded: true
diff --git a/config/ppo/3DBallHard.yaml b/config/ppo/3DBallHard.yaml
@@ -1,25 +1,27 @@
 behaviors:
   3DBallHard:
-    trainer: ppo
-    batch_size: 1200
-    beta: 0.001
-    buffer_size: 12000
-    epsilon: 0.2
-    hidden_units: 128
-    lambd: 0.95
-    learning_rate: 0.0003
-    learning_rate_schedule: linear
-    max_steps: 5.0e6
-    memory_size: 128
-    normalize: true
-    num_epoch: 3
-    num_layers: 2
-    time_horizon: 1000
-    sequence_length: 64
-    summary_freq: 12000
-    use_recurrent: false
-    vis_encode_type: simple
+    trainer_type: ppo
+    hyperparameters:
+      batch_size: 1200
+      buffer_size: 12000
+      learning_rate: 0.0003
+      beta: 0.001
+      epsilon: 0.2
+      lambd: 0.95
+      num_epoch: 3
+      learning_rate_schedule: linear
+    network_settings:
+      normalize: true
+      hidden_units: 128
+      num_layers: 2
+      vis_encode_type: simple
     reward_signals:
       extrinsic:
-        strength: 1.0
         gamma: 0.995
+        strength: 1.0
+    output_path: default
+    keep_checkpoints: 5
+    max_steps: 5000000
+    time_horizon: 1000
+    summary_freq: 12000
+    threaded: true