close neural-speed when using xpu

zhenwei-intel · zhenwei-intel · commit 40a8882aa28e · 2024-03-07T15:47:11.000+08:00
Signed-off-by: zhenwei-intel &lt;zhenwei.liu@intel.com&gt;
diff --git a/docs/weightonlyquant.md b/docs/weightonlyquant.md
@@ -166,7 +166,7 @@ tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
 prompt = "Once upon a time, there existed a little girl,"
 inputs = tokenizer(prompt, return_tensors="pt").input_ids.to(device)
 
-qmodel = AutoModelForCausalLM.from_pretrained(model_name, load_in_4bit=True, device_map="xpu", trust_remote_code=True, use_neural_speed=False)
+qmodel = AutoModelForCausalLM.from_pretrained(model_name, load_in_4bit=True, device_map="xpu", trust_remote_code=True)
 
 # optimize the model with ipex, it will improve performance.
 qmodel = ipex.optimize_transformers(qmodel, inplace=True, dtype=torch.float16, quantization_config={}, device="xpu")
diff --git a/intel_extension_for_transformers/transformers/modeling/modeling_auto.py b/intel_extension_for_transformers/transformers/modeling/modeling_auto.py
@@ -197,25 +197,25 @@ def from_pretrained(cls, pretrained_model_name_or_path, *model_args, **kwargs):
         device_map = kwargs.get("device_map", "cpu")
         use_cpu = (True if device_map == torch.device("cpu") or device_map == "cpu" else False)
         use_xpu = (True if device_map == torch.device("xpu") or device_map == "xpu" else False)
-
-        if kwargs.get("use_llm_runtime", None) is not None:
-            use_neural_speed = kwargs.pop("use_llm_runtime", True) and not use_xpu
-            logger.warning("use_llm_runtime is deprecated in version 1.3.2, please use_neural_speed instead.")
-        elif kwargs.get("use_neural_speed", None) is not None:
-            use_neural_speed = kwargs.pop("use_neural_speed", True) and not use_xpu
-        else:
-            config = transformers.AutoConfig.from_pretrained(pretrained_model_name_or_path,
-                                                             trust_remote_code = kwargs.get('trust_remote_code', False))
-            if hasattr(config, "model_type") == False:
-                logger.error("Can't get the model_type. Please check the correct model_type")
-                exit(0)
-
-            if config.model_type in cls.model_type_list:
-                logger.info("Using Neural Speed...")
-                use_neural_speed = True
+        use_neural_speed = False
+        if not use_xpu:
+            if kwargs.get("use_llm_runtime", None) is not None:
+                use_neural_speed = kwargs.pop("use_llm_runtime", True) and not use_xpu
+                logger.warning("use_llm_runtime is deprecated in version 1.3.2, please use_neural_speed instead.")
+            elif kwargs.get("use_neural_speed", None) is not None:
+                use_neural_speed = kwargs.pop("use_neural_speed", True) and not use_xpu
             else:
-                logger.info("Using Pytorch...")
-                use_neural_speed = False
+                config = transformers.AutoConfig.from_pretrained(pretrained_model_name_or_path, **kwargs)
+                if hasattr(config, "model_type") == False:
+                    logger.error("Can't get the model_type. Please check the correct model_type")
+                    exit(0)
+
+                if config.model_type in cls.model_type_list:
+                    logger.info("Using Neural Speed...")
+                    use_neural_speed = True
+                else:
+                    logger.info("Using Pytorch...")
+                    use_neural_speed = False
 
         if os.path.isfile(os.path.join(pretrained_model_name_or_path, QUANT_CONFIG)):
             logger.info(