Add HQQ quant loader (#4888)

--------- Co-authored-by: oobabooga <112222186+oobabooga@users.noreply.github.com>
2023-12-18 19:23:16 -05:00 · 2023-12-18 19:23:16 -05:00 · 674be9a09a
commit 674be9a09a
parent 64a57d9dc2
16 changed files with 79 additions and 0 deletions
--- a/modules/ui_model_menu.py
+++ b/modules/ui_model_menu.py
@ -84,6 +84,7 @@ def create_ui():
                            shared.gradio['transformers_info'] = gr.Markdown('load-in-4bit params:')
                            shared.gradio['compute_dtype'] = gr.Dropdown(label="compute_dtype", choices=["bfloat16", "float16", "float32"], value=shared.args.compute_dtype)
                            shared.gradio['quant_type'] = gr.Dropdown(label="quant_type", choices=["nf4", "fp4"], value=shared.args.quant_type)
+                            shared.gradio['hqq_backend'] = gr.Dropdown(label="hqq_backend", choices=["PYTORCH", "PYTORCH_COMPILE", "ATEN"], value=shared.args.hqq_backend)

                            shared.gradio['n_gpu_layers'] = gr.Slider(label="n-gpu-layers", minimum=0, maximum=128, value=shared.args.n_gpu_layers)
                            shared.gradio['n_ctx'] = gr.Slider(minimum=0, maximum=shared.settings['truncation_length_max'], step=256, label="n_ctx", value=shared.args.n_ctx, info='Context length. Try lowering this if you run out of memory while loading the model.')