add bindings for llama_grammar_parse / llama_grammar_from_state

xaptronic · xaptronic · commit c37a02982b31 · 2023-06-14T17:14:14.000-04:00
diff --git a/grammar_test.py b/grammar_test.py
@@ -1,7 +1,6 @@
 from llama_cpp import Llama
 
-grammar = """
-root      ::= nav eol (commands eol)*
+grammar = """root      ::= nav eol (commands eol)*
 commands  ::= t | info
 nav       ::= "nav(\\"admin/" [a-z/]*  "\\")"
 info      ::= "info(" setting ")"
@@ -17,15 +16,13 @@
 
 llm = Llama(
     model_path="/Users/alex/llama-7b.ggmlv3.q8_0.bin",
-    lora_base="/Users/alex/llama-7b.ggml.f16.bin",
+    # lora_base="/Users/alex/llama-7b.ggml.f16.bin",
     # python ~/llama.cpp/convert-lora-to-ggml.py .
-    lora_path="/Users/alex/src/github.com/Shopify/sidekick-data/src/webapp/models/ggml-adapter-model.bin",
+    # lora_path="/Users/alex/src/github.com/Shopify/sidekick-data/src/webapp/models/ggml-adapter-model.bin",
     # n_gpu_layers=1000,
     n_ctx=2048,
     grammar=grammar,
 )
 
-# response = llm("make my theme orange")
-
 import code
 code.interact(local=globals())
diff --git a/llama_cpp/llama.py b/llama_cpp/llama.py
@@ -273,12 +273,6 @@ def __init__(
 
         self.lora_base = lora_base
         self.lora_path = lora_path
-        self.grammar = grammar
-
-        if grammar:
-            self.grammar = llama_cpp.llama_parse_grammar(
-                llama_cpp.c_char_p(self.grammar.encode("utf-8"))
-            )
 
         ### DEPRECATED ###
         self.n_parts = n_parts
@@ -306,6 +300,12 @@ def __init__(
                     f"Failed to apply LoRA from lora path: {self.lora_path} to base path: {self.lora_base}"
                 )
 
+        if grammar:
+            self.parse_state = llama_cpp.llama_grammar_parse(
+                llama_cpp.c_char_p(grammar.encode("utf-8"))
+            )
+            self.grammar = llama_cpp.llama_grammar_from_state(self.parse_state)
+
         if self.verbose:
             print(llama_cpp.llama_print_system_info().decode("utf-8"), file=sys.stderr)
 
@@ -582,7 +582,6 @@ def _sample(
             )
 
         if self.grammar:
-            breakpoint()
             id = llama_cpp.llama_grammar_accept_token(
                 self.ctx,
                 self.grammar,
@@ -890,7 +889,8 @@ def _create_completion(
             stopping_criteria=stopping_criteria,
             logits_processor=logits_processor,
         ):
-            if token == self._token_eos:
+
+            if token == self._token_eos: #or token == self._token_nl:
                 text = self.detokenize(completion_tokens)
                 finish_reason = "stop"
                 break
diff --git a/llama_cpp/llama_cpp.py b/llama_cpp/llama_cpp.py
@@ -114,6 +114,8 @@ def _load_shared_library(lib_base_name: str):
 llama_token = c_int
 llama_token_p = POINTER(llama_token)
 
+# struct llama_grammar
+parse_state_p = c_void_p
 llama_grammar_p = c_void_p
 
 
@@ -796,13 +798,22 @@ def llama_sample_temperature(
 _lib.llama_sample_temperature.restype = None
 
 
-def llama_parse_grammar(grammar: str):
-    return _lib.llama_parse_grammar(grammar)
+def llama_grammar_parse(grammar: str):
+    return _lib.llama_grammar_parse(grammar)
 
-_lib.llama_parse_grammar.argtypes = [
+_lib.llama_grammar_parse.argtypes = [
     c_char_p,
 ]
-_lib.llama_parse_grammar.restype = llama_grammar_p
+_lib.llama_grammar_parse.restype = parse_state_p
+
+
+def llama_grammar_from_state(parse_state: parse_state_p):
+    return _lib.llama_grammar_from_state(parse_state)
+
+_lib.llama_grammar_from_state.argtypes = [
+    parse_state_p
+]
+_lib.llama_grammar_from_state.restype = llama_grammar_p
 
 
 def llama_sample_grammar(
diff --git a/vendor/llama.cpp b/vendor/llama.cpp
@@ -1 +1 @@
-Subproject commit 3e78f0071a76fac0a9807bd32de805d2ac67401a
+Subproject commit 9d0fcb0c350305a91ce7460c57228f2d259a804f