chore(neuron): bump default max_tokens from 512 to 8192

512 is too low for any modern coding model — clients that don't explicitly set max_tokens get clipped responses with no diagnostic. Bump the fallback at all four inference call sites (single-GPU streaming + non-streaming, TP leader + non-leader) to 8192, which fits comfortably within Qwen3-class context windows after a typical agent prompt and lines up with what helexa-acp / a0 / curl clients reasonably expect. Clients that explicitly set max_tokens (now including helexa-acp via HELEXA_ACP_MAX_TOKENS / per-endpoint TOML) override this. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-28 12:38:28 +03:00
parent 6cc14e925c
commit abbedf8d8a
1 changed files with 4 additions and 4 deletions
--- a/crates/neuron/src/harness/candle.rs
+++ b/crates/neuron/src/harness/candle.rs
@@ -1381,7 +1381,7 @@ impl CandleHarness {
            let temperature = request.temperature.unwrap_or(0.7);
            let top_p = request.top_p;
-            let max_new = request.max_tokens.unwrap_or(512) as usize;
+            let max_new = request.max_tokens.unwrap_or(8192) as usize;
            let seed = unix_subsec_nanos();
            let eos_id = loaded
@@ -1620,7 +1620,7 @@ impl CandleHarness {
        let temperature = request.temperature.unwrap_or(0.7);
        let top_p = request.top_p;
-        let max_new = request.max_tokens.unwrap_or(512) as usize;
+        let max_new = request.max_tokens.unwrap_or(8192) as usize;
        let seed = unix_subsec_nanos();
        let eos_id = loaded
@@ -2264,7 +2264,7 @@ impl CandleHarness {
        let temperature = request.temperature.unwrap_or(0.7);
        let top_p = request.top_p;
-        let max_new = request.max_tokens.unwrap_or(512) as usize;
+        let max_new = request.max_tokens.unwrap_or(8192) as usize;
        let seed = unix_subsec_nanos();
        let eos_id = tp
@@ -2598,7 +2598,7 @@ async fn chat_completion_tp_inner(
    let temperature = request.temperature.unwrap_or(0.7);
    let top_p = request.top_p;
-    let max_new = request.max_tokens.unwrap_or(512) as usize;
+    let max_new = request.max_tokens.unwrap_or(8192) as usize;
    let seed = unix_subsec_nanos();
    let eos_id = tp