CPUoffloadOptimizer issues

hi all, i was giving the CPUOffloadOptimizer a try and found two issues when using with QLoRA single device in torchtune:

1. When using a LR scheduler i got. Maybe there is a way to inherit the optimizer class?
```
File "/data/users/felipemello/torchtune/torchtune/training/lr_schedulers.py", line 58, in get_cosine_schedule_with_warmup
    return LambdaLR(optimizer, lr_lambda, last_epoch)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/felipemello/.conda/envs/torchtune/lib/python3.11/site-packages/torch/optim/lr_scheduler.py", line 336, in __init__
    super().__init__(optimizer, last_epoch, verbose)
  File "/home/felipemello/.conda/envs/torchtune/lib/python3.11/site-packages/torch/optim/lr_scheduler.py", line 99, in __init__
    raise TypeError(f"{type(optimizer).__name__} is not an Optimizer")
TypeError: CPUOffloadOptimizer is not an Optimizer
```

2. When passing model.params() i got the error below. I imagine that a simple fix is to keep only params that require grad, like adamw implementation oes
```
  File "/home/felipemello/.conda/envs/torchtune/lib/python3.11/site-packages/torchao/prototype/low_bit_optim/cpu_offload.py", line 76, in __init__
    p_cuda.register_post_accumulate_grad_hook(backward_hook)
  File "/home/felipemello/.conda/envs/torchtune/lib/python3.11/site-packages/torch/_tensor.py", line 678, in register_post_accumulate_grad_hook
    raise RuntimeError(
RuntimeError: cannot register a hook on a tensor that doesn't require gradient
```

cc: @gau-nernst

	for p_cuda in params:
	# pre-allocate CPU params and grads
	p_cpu = torch.empty_like(p_cuda, device="cpu", pin_memory=True)
	p_cpu.grad = torch.empty_like(p_cpu, pin_memory=True)

	p_cpu.copy_(p_cuda.detach(), non_blocking=True)
	self.param_cuda2cpu_map[p_cuda] = p_cpu

	p_cuda.register_post_accumulate_grad_hook(backward_hook)
	self.optim_dict[p_cuda] = optimizer_class([{"params": p_cpu, param_group}], kwargs)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

CPUoffloadOptimizer issues #1209

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Participants

CPUoffloadOptimizer issues #1209

Description

Activity

gau-nernst commented on Nov 1, 2024

fzyzcjy commented on Nov 18, 2024

gau-nernst commented on Nov 19, 2024

fzyzcjy commented on Nov 19, 2024

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Participants

Issue actions