AutoGPTQ: Add --disable_exllamav2 flag (Mixtral CPU offloading needs this)

2023-12-15 06:46:13 -08:00 · 2023-12-15 06:46:13 -08:00 · 3bbf6c601d
commit 3bbf6c601d
parent 7de10f4c8e
7 changed files with 16 additions and 4 deletions
--- a/modules/AutoGPTQ_loader.py
+++ b/modules/AutoGPTQ_loader.py
@ -52,6 +52,7 @@ def load_quantized(model_name):
        'quantize_config': quantize_config,
        'use_cuda_fp16': not shared.args.no_use_cuda_fp16,
        'disable_exllama': shared.args.disable_exllama,
+        'disable_exllamav2': shared.args.disable_exllamav2,
    }

    logger.info(f"The AutoGPTQ params are: {params}")