Merge branch 'benchmark_simpleqa' of https://github.com/vamplabAI/sgr-deep-research into benchmark_simpleqa

maksimov maksim · maksimov maksim · commit a72bf6d40c93 · 2025-10-15T15:41:32.000+05:00
diff --git a/README.md b/README.md
@@ -581,20 +581,20 @@ We conducted a comprehensive benchmark evaluation using the [SimpleQA](https://h
 
 **Benchmark Configuration:**
 
-| Component         | Parameter        | Value                  |
-| ----------------- | ---------------- | ---------------------- |
-| **Search Engine** | Provider         | Tavily Basic Search    |
-|                   | Scraping Enabled | Yes                    |
-|                   | Max Pages        | 5                      |
-|                   | Content Limit    | 33,000 characters      |
-| **Agent**         | Name             | sgr_tool_calling_agent |
-|                   | Max Steps        | 20                     |
-| **LLM (Agent)**   | Model            | gpt-4o-mini            |
-|                   | Max Tokens       | 12,000                 |
-|                   | Temperature      | 0.2                    |
-| **LLM (Judge)**   | Model            | gpt-4o                 |
-|                   | Max Tokens       | Default                |
-|                   | Temperature      | Default                |
+| Component         | Parameter        | Value                   |
+| ----------------- | ---------------- | ----------------------- |
+| **Search Engine** | Provider         | Tavily Basic Search     |
+|                   | Scraping Enabled | Yes                     |
+|                   | Max Pages        | 5                       |
+|                   | Content Limit    | 33,000 characters       |
+| **Agent**         | Name             | sgr_tool_calling_agent  |
+|                   | Max Steps        | 20                      |
+| **LLM (Agent)**   | Model            | gpt-4.1-mini            |
+|                   | Max Tokens       | 12,000                  |
+|                   | Temperature      | 0.2                     |
+| **LLM (Judge)**   | Model            | gpt-4o                  |
+|                   | Max Tokens       | Default                 |
+|                   | Temperature      | Default                 |
 
 Detailed benchmark results are available in [this spreadsheet](assets/simpleqa_result.xlsx).