server : send token probs for "stream == false" (#4714)

ggerganov · web-flow · commit 012cf349aec8 · 2024-01-04T19:56:33.000+02:00
diff --git a/examples/server/server.cpp b/examples/server/server.cpp
@@ -1265,7 +1265,7 @@ struct llama_server_context
         {
             std::vector<completion_token_output> probs_output = {};
             const std::vector<llama_token> to_send_toks = llama_tokenize(ctx, tkn.text_to_send, false);
-            size_t probs_pos = std::min(slot.sent_token_probs_index, slot.generated_token_probs.size());
+            size_t probs_pos      = std::min(slot.sent_token_probs_index,                       slot.generated_token_probs.size());
             size_t probs_stop_pos = std::min(slot.sent_token_probs_index + to_send_toks.size(), slot.generated_token_probs.size());
             if (probs_pos < probs_stop_pos)
             {
@@ -1325,7 +1325,7 @@ struct llama_server_context
             {
                 probs = std::vector<completion_token_output>(
                                     slot.generated_token_probs.begin(),
-                                    slot.generated_token_probs.begin() + slot.sent_token_probs_index);
+                                    slot.generated_token_probs.end());
             }
             res.result_json["completion_probabilities"] = probs_vector_to_json(ctx, probs);
         }

Original file line number	Diff line number	Diff line change
`@@ -1265,7 +1265,7 @@ struct llama_server_context`
`1265`	`1265`	`{`
`1266`	`1266`	`std::vector<completion_token_output> probs_output = {};`
`1267`	`1267`	`const std::vector<llama_token> to_send_toks = llama_tokenize(ctx, tkn.text_to_send, false);`
`1268`		`- size_t probs_pos = std::min(slot.sent_token_probs_index, slot.generated_token_probs.size());`
	`1268`	`+ size_t probs_pos = std::min(slot.sent_token_probs_index, slot.generated_token_probs.size());`
`1269`	`1269`	`size_t probs_stop_pos = std::min(slot.sent_token_probs_index + to_send_toks.size(), slot.generated_token_probs.size());`
`1270`	`1270`	`if (probs_pos < probs_stop_pos)`
`1271`	`1271`	`{`
`@@ -1325,7 +1325,7 @@ struct llama_server_context`
`1325`	`1325`	`{`
`1326`	`1326`	`probs = std::vector<completion_token_output>(`
`1327`	`1327`	`slot.generated_token_probs.begin(),`
`1328`		`- slot.generated_token_probs.begin() + slot.sent_token_probs_index);`
	`1328`	`+ slot.generated_token_probs.end());`
`1329`	`1329`	`}`
`1330`	`1330`	`res.result_json["completion_probabilities"] = probs_vector_to_json(ctx, probs);`
`1331`	`1331`	`}`