[Feature] Model Freezing ❄️ #189

icedoom888 · 2024-12-06T10:19:02Z

📚 Documentation preview 📚: https://anemoi-training--189.org.readthedocs.build/en/189/

…removed metadata saving in checkpoints due to corruption error on big models, fixed logging to work in the transfer leanring setting

Merged

…y after changing it

… models

…arning' into feature/transfer-learning

JesperDramsch

Hi @icedoom888!

Thanks for adding this, I was working on something similar, so might have a refactor coming sometime next year. Until then, I think there are some improvements we should make to the implementation.

Pytorch Lightning provides recursive freezing capability.
We should make these config entries optional.

Additionally, I had some concerns around unused parameters in the model. During my research I have found some hints that the training strategy may have to be adjusted to still work correctly with unused parameters.

The Pytorch one is here and implements:
https://pytorch.org/docs/stable/generated/torch.nn.parallel.DistributedDataParallel.html#torch.nn.parallel.DistributedDataParallel
find_unused_parameters, have you noticed any changes to your (computational) graph as opposed to non-frozen training?

CHANGELOG.md

src/anemoi/training/utils/checkpoint.py

src/anemoi/training/train/train.py

JesperDramsch · 2024-12-13T09:24:45Z

src/anemoi/training/utils/checkpoint.py

+        module (nn.Module): The parent module to search in.
+        target_name (str): The name of the submodule to freeze.
+    """
+    for name, child in module.named_children():


Is this actually necessary?

As far as I know, we can use Pytorch Lightning .freeze() that also does the recursion for us (and the checking of edge cases).

I looked into Pytorch Lightning freeze().
The function can only be called on a LightningModule class. Most submodules are torch.nn.Module classes.

src/anemoi/training/config/training/default.yaml

icedoom888 and others added 30 commits October 9, 2024 15:25

Introduced resume flag and checkpoint loading for transfer learning, …

7e238e4

…removed metadata saving in checkpoints due to corruption error on big models, fixed logging to work in the transfer leanring setting

Added len of dataset computed dynamically

08671d7

debugging validation

e2bd868

Merge branch 'develop' into feature/transfer-learning

557a9f0

Small changes

544dddc

Removed prints

a85619d

Merge branch 'develop' into feature/transfer-learning

b87f795

Not working

c8ce0b0

small changes

135eac5

Rebased on develop

3cebf18

Imputer changes

db2a14f

Added sanification of checkpoint, effective batch size, git pre commit

57f9026

gpc

039c16f

gpc

463c6a9

Merge branch 'develop' into feature/transfer-learning

062f552

Merged

rebased on develop

2f4dd65

New implementation: do not store modified checkpoint, load it directl…

c6d7519

…y after changing it

Added logging

bca0355

Rebased on develop

aa6f207

Transfer learning working: implemented checkpoint cleaning with large…

7894cc0

… models

Reverted some changes concerning imputer issues

eff4539

Reverted some changes concerning imputer issues

c1f854f

Cleaned code for final review

338387d

Changed changelog and assigned TODO correctly

f739bf4

Changed changelog and assigned TODO correctly

7fd9a92

Merge branch 'develop' into feature/transfer-learning

315d59d

Addressed review: copy checkpoint before removing metadata file

1ac34d8

Merge remote-tracking branch 'refs/remotes/origin/feature/transfer-le…

b7697a1

…arning' into feature/transfer-learning

Merge branch 'develop' into feature/transfer-learning

22ddeab

gpc passed

0d4fa51

icedoom888 added 6 commits December 5, 2024 18:50

Added Freezing functionality

0f0dff0

Tested ✅ waiting for transfer learning merge to happen

03c4adb

Switched logging to info from debug

7d51c75

Merge branch 'feature/transfer-learning' into feature/model_freezing

7063407

Rebased on transfer learning develop

37f6090

GPC passed

8c7d54c

icedoom888 added enhancement New feature or request contributor labels Dec 6, 2024

icedoom888 requested review from JesperDramsch and mchantry December 6, 2024 10:19

icedoom888 self-assigned this Dec 6, 2024

icedoom888 added 2 commits December 6, 2024 11:23

Changelog updated

4bce6f1

Completed Merge and code check

bd32096

icedoom888 requested a review from gabrieloks December 6, 2024 10:26

icedoom888 changed the title ~~Feature/model freezing ❄️~~ Feature/Model Freezing ❄️ Dec 6, 2024

icedoom888 added 2 commits December 11, 2024 14:52

Rebased on latest changes

da5fffb

gpc

6aac548

JesperDramsch suggested changes Dec 13, 2024

View reviewed changes

icedoom888 added 5 commits December 17, 2024 10:21

Merge branch 'develop' into feature/model_freezing

a7ab588

Changed docstring and pytorch lightnening freeze

8478689

Addressed review

2eb2140

Changes for review

742a7a8

Refactor CHANGELOG

0b8a407

icedoom888 requested a review from JesperDramsch December 17, 2024 14:52

icedoom888 changed the title ~~Feature/Model Freezing ❄️~~ [Feature] Model Freezing ❄️ Dec 17, 2024

icedoom888 mentioned this pull request Dec 18, 2024

Model Freezing Callback ecmwf/anemoi-core#3

Open

icedoom888 added 4 commits December 18, 2024 19:26

Merge branch 'develop' into feature/model_freezing

498a792

Rebased on develop

8797fb3

Added documentation

7705a7e

Added documentation

463bec4

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Feature] Model Freezing ❄️ #189

[Feature] Model Freezing ❄️ #189

icedoom888 commented Dec 6, 2024 •

edited by github-actions bot

Loading

JesperDramsch left a comment

JesperDramsch Dec 13, 2024

icedoom888 Dec 17, 2024

[Feature] Model Freezing ❄️ #189

Are you sure you want to change the base?

[Feature] Model Freezing ❄️ #189

Conversation

icedoom888 commented Dec 6, 2024 • edited by github-actions bot Loading

JesperDramsch left a comment

Choose a reason for hiding this comment

JesperDramsch Dec 13, 2024

Choose a reason for hiding this comment

icedoom888 Dec 17, 2024

Choose a reason for hiding this comment

icedoom888 commented Dec 6, 2024 •

edited by github-actions bot

Loading