MiroMindAI
diff --git a/‎.github/workflows/check-leaks.yml‎
Lines changed: 0 additions & 1 deletion b/‎.github/workflows/check-leaks.yml‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎.github/workflows/check-pr-title.yml‎
Lines changed: 1 addition & 2 deletions b/‎.github/workflows/check-pr-title.yml‎
Lines changed: 1 addition & 2 deletions
diff --git a/‎.github/workflows/run-ruff.yml‎
Lines changed: 15 additions & 3 deletions b/‎.github/workflows/run-ruff.yml‎
Lines changed: 15 additions & 3 deletions
diff --git a/‎common_benchmark.py‎
Lines changed: 8 additions & 2 deletions b/‎common_benchmark.py‎
Lines changed: 8 additions & 2 deletions
diff --git a/‎docs/mkdocs/docs/all_about_agents.md‎
Lines changed: 63 additions & 1 deletion b/‎docs/mkdocs/docs/all_about_agents.md‎
Lines changed: 63 additions & 1 deletion
diff --git a/‎docs/mkdocs/docs/index.md‎
Lines changed: 17 additions & 0 deletions b/‎docs/mkdocs/docs/index.md‎
Lines changed: 17 additions & 0 deletions
diff --git a/‎src/logging/logger.py‎
Lines changed: 42 additions & 19 deletions b/‎src/logging/logger.py‎
Lines changed: 42 additions & 19 deletions
@@ -15,7 +15,6 @@ permissions:
 
 jobs:
   scan:
-    if: github.repository_owner == 'MiroMindAI'
     name: gitleaks
     runs-on: ubuntu-latest
     steps:
 
@@ -2,11 +2,10 @@ name: check-pr-title
 
 on:
   pull_request:
-   types: [opened, synchronize]
+   types: [opened, synchronize, edited]
 
 jobs:
   check-pr-title:
-    if: github.repository_owner == 'MiroMindAI'
     name: Check PR Title
     runs-on: ubuntu-latest
     steps:
 
@@ -2,28 +2,40 @@ name: lint
 
 on:
   pull_request:
+    types: [opened, synchronize, edited]
+  push:
     branches: [ "main" ]
 
 jobs:
   lint:
-    if: github.repository_owner == 'MiroMindAI'
     name: lint pull request
     runs-on: ubuntu-latest
     steps:
+    - name: Debug workflow trigger
+      run: |
+        echo "Workflow triggered by: ${{ github.event_name }}"
+        echo "PR number: ${{ github.event.pull_request.number }}"
+        echo "PR title: ${{ github.event.pull_request.title }}"
+        echo "Repository: ${{ github.repository }}"
+        echo "Branch: ${{ github.head_ref }}"
+    
     - name: checkout code
       uses: actions/checkout@v4
 
     - name: Install uv
       uses: astral-sh/setup-uv@v5
 
+    - name: Install dependencies
+      run: uv sync
+
     - name: Check static error
       run: |
-        uv tool run ruff@0.8.0 check --show-fixes --output-format=github
+        uv run ruff check --show-fixes --output-format=github
 
     - name: Reformat code style
       run: |
         echo '## Reformat summary' >> $GITHUB_STEP_SUMMARY
-        if diff_output="$(uv tool run ruff@0.8.0 format --diff 2>&1)"; then
+        if diff_output="$(uv run ruff format --diff 2>&1)"; then
           echo "$diff_output"
           echo '✅ Format check passed.' >> "$GITHUB_STEP_SUMMARY"
         else
 
@@ -19,14 +19,20 @@
 from omegaconf import DictConfig, OmegaConf
 
 from utils.eval_utils import verify_answer_for_datasets
-from src.logging.logger import bootstrap_logger, task_logging_context, init_logging_for_benchmark_evaluation
+from src.logging.logger import (
+    bootstrap_logger,
+    task_logging_context,
+    init_logging_for_benchmark_evaluation,
+)
 from config import config_name, config_path
 from src.core.pipeline import (
     create_pipeline_components,
     execute_task_pipeline,
 )
+
 init_logging_for_benchmark_evaluation(print_task_logs=False)
 
+
 class TaskStatus(StrEnum):
     PENDING = "pending"
     RUN_FAILED = "run_failed"
@@ -373,7 +379,7 @@ async def run_parallel_inference(
         async def run_with_semaphore(task):
             async with semaphore:
                 with task_logging_context(task.task_id, self.get_log_dir()):
-                        result = await self.run_single_task(task)
+                    result = await self.run_single_task(task)
                 return result
 
         # Shuffle tasks to avoid order bias and improve balancing
 
@@ -155,12 +155,68 @@ Welcome to our comprehensive resource collection for AI agents. This page curate
 **P045** - Stratified GRPO: Handling Structural Heterogeneity in Reinforcement Learning of LLM Search Agents
     - [:material-file-document: Paper](https://arxiv.org/abs/2510.06214)
 
-**P046** - In-the-Flow Agentic System Optimization: Effective Planning and Tool Use
+**P046** - AgentFlow: In-the-Flow Agentic System Optimization: Effective Planning and Tool Use
     - [:material-file-document: Paper](https://arxiv.org/abs/2510.05592) · [:material-github: GitHub](https://github.com/lupantech/AgentFlow)
 
 **P047** - ARM: Discovering Agentic Reasoning Modules for Generalizable Multi-Agent Systems
     - [:material-file-document: Paper](https://arxiv.org/abs/2510.05746)
 
+**P048** - Customer-R1: Personalized Simulation of Human Behaviors via RL-based LLM Agent in Online Shopping
+    - [:material-file-document: Paper](https://arxiv.org/abs/2510.07230)
+
+**P049** - CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards
+    - [:material-file-document: Paper](https://arxiv.org/abs/2510.08529)
+
+**P050** - Beyond Turn Limits: Training Deep Search Agents with Dynamic Context Window
+    - [:material-file-document: Paper](https://arxiv.org/abs/2510.08276)
+
+**P051** - Learning on the Job: An Experience-Driven Self-Evolving Agent for Long-Horizon Tasks
+    - [:material-file-document: Paper](https://arxiv.org/abs/2510.08002)
+
+**P052** - MATRIX: Multimodal Agent Tuning for Robust Tool-Use Reasoning
+    - [:material-file-document: Paper](https://arxiv.org/abs/2510.08567)
+
+**P053** - Agent Learning via Early Experience
+    - [:material-file-document: Paper](https://arxiv.org/abs/2510.08558)
+
+**P054** - CaRT: Teaching LLM Agents to Know When They Know Enough
+    - [:material-file-document: Paper](https://arxiv.org/abs/2510.08517)
+
+**P055** - AutoMLGen: Navigating Fine-Grained Optimization for Coding Agents
+    - [:material-file-document: Paper](https://arxiv.org/abs/2510.08511)
+
+**P056** - Opponent Shaping in LLM Agents
+    - [:material-file-document: Paper](https://arxiv.org/abs/2510.08255)
+
+**P057** - NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions
+    - [:material-file-document: Paper](https://arxiv.org/abs/2510.08173)
+
+**P058** - VoiceAgentBench: Are Voice Assistants ready for agentic tasks?
+    - [:material-file-document: Paper](https://arxiv.org/abs/2510.07978)
+
+**P059** - Self-Improving LLM Agents at Test-Time
+    - [:material-file-document: Paper](https://arxiv.org/abs/2510.07841)
+
+**P060** - AgentRL: Scaling Agentic Reinforcement Learning with a Multi-Turn, Multi-Task Framework
+    - [:material-file-document: Paper](https://arxiv.org/abs/2510.04206)
+
+**P061** - Adaptive Tool Generation with Models as Tools and Reinforcement Learning
+    - [:material-file-document: Paper](https://arxiv.org/abs/2510.06825)
+
+**P062** - TinyScientist: An Interactive, Extensible, and Controllable Framework for Building Research Agents
+    - [:material-file-document: Paper](https://arxiv.org/abs/2510.06579)
+
+**P063** - A Survey on Agentic Security: Applications, Threats and Defenses
+    - [:material-file-document: Paper](https://arxiv.org/abs/2510.06445)
+
+**P064** - A Multi-Agent Framework for Stateful Inference-Time Search
+    - [:material-file-document: Paper](https://arxiv.org/abs/2510.07147)
+
+**P065** - AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic Reasoning
+    - [:material-file-document: Paper](https://arxiv.org/abs/2510.06261)
+
+**P066** - Democratizing AI Scientists using ToolUniverse
+    - [:material-file-document: Paper](https://arxiv.org/abs/2509.23426) · [:material-github: GitHub](https://github.com/mims-harvard/ToolUniverse)
 
 
 ---
@@ -277,6 +333,9 @@ Welcome to our comprehensive resource collection for AI agents. This page curate
 **E027** - ACEBench: Who Wins the Match Point in Tool Usage?
     - [:material-file-document: Paper](https://arxiv.org/abs/2501.12851)
 
+**E028** - Haystack Engineering: Context Engineering for Heterogeneous and Agentic Long-Context Evaluation
+    - [:material-file-document: Paper](https://arxiv.org/abs/2510.07414) · [:material-github: GitHub](https://github.com/Graph-COM/HaystackCraft)
+
 
 ---
 
@@ -327,6 +386,9 @@ Welcome to our comprehensive resource collection for AI agents. This page curate
 **M014** - A-MemGuard: A Proactive Defense Framework for LLM-Based Agent Memory
     - [:material-file-document: Paper](https://www.arxiv.org/abs/2510.02373)
 
+**M015** - ToolMem: Enhancing Multimodal Agents with Learnable Tool Capability Memory
+    - [:material-file-document: Paper](https://arxiv.org/abs/2510.06664)
+
 
 ---
 
 
@@ -53,6 +53,23 @@ Explore the complete MiroMind AI ecosystem:
     | **MiroTrain** | Complete training recipes and tools | [GitHub](https://github.com/MiroMindAI/MiroTrain) :material-arrow-right: |
 
 
+## 📝 Recent Updates
+
+!!! success "Latest Changes & Improvements"
+    
+    **Oct 2025** - 
+
+    - 📊 Added support for FinSearchComp evaluation benchmark [#51](https://github.com/MiroMindAI/MiroFlow/pull/51)
+    - 🔍 Added support for XBench-DS (Deep Search) evaluation [#47](https://github.com/MiroMindAI/MiroFlow/pull/47)
+    - 🧠 Updated o3 hints and summary to more models [#58](https://github.com/MiroMindAI/MiroFlow/pull/58)
+    - ✨ Added support for GPT-5 integration [#52](https://github.com/MiroMindAI/MiroFlow/pull/52)
+    - 🔧 Improved tool logs and per-task log storage [#69](https://github.com/MiroMindAI/MiroFlow/pull/69)
+    - 🤖 Added support for single agent mode [#67](https://github.com/MiroMindAI/MiroFlow/pull/67)
+    - 📚 Added comprehensive collection of agentic AI research papers [#65](https://github.com/MiroMindAI/MiroFlow/pull/65)
+
+
+
+
 
 ---
 
 
@@ -8,16 +8,18 @@
 import logging
 from functools import lru_cache
 from pathlib import Path
-from typing import Literal, Dict
+from typing import Literal
 from contextvars import ContextVar
 import hydra
 from rich.console import Console
 from rich.logging import RichHandler
 import asyncio
 import threading
 from contextlib import contextmanager
+
 TASK_CONTEXT_VAR: ContextVar[str | None] = ContextVar("CURRENT_TASK_ID", default=None)
 
+
 class ZMQLogHandler(logging.Handler):
     def __init__(self, addr="tcp://127.0.0.1:6000", tool_name="unknown_tool"):
         super().__init__()
@@ -34,6 +36,7 @@ def emit(self, record):
         except Exception:
             self.handleError(record)
 
+
 async def zmq_log_listener(bind_addr="tcp://127.0.0.1:6000"):
     ctx = zmq.asyncio.Context()
     sock = ctx.socket(zmq.PULL)
@@ -47,23 +50,30 @@ async def zmq_log_listener(bind_addr="tcp://127.0.0.1:6000"):
             task_id, tool_name, msg = raw.split("||", 2)
 
             record = root_logger.makeRecord(
-                name=f'[TOOL] {tool_name}',
+                name=f"[TOOL] {tool_name}",
                 level=logging.INFO,
-                fn="", lno=0, msg=msg, args=(),
-                exc_info=None
+                fn="",
+                lno=0,
+                msg=msg,
+                args=(),
+                exc_info=None,
             )
             record.task_id = task_id
 
             root_logger.handle(record)
         else:
             root_logger.info(raw)
 
+
 def start_zmq_listener():
     loop = asyncio.new_event_loop()
     asyncio.set_event_loop(loop)
     loop.run_until_complete(zmq_log_listener())
 
-def setup_mcp_logging(level="INFO", addr="tcp://127.0.0.1:6000", tool_name="unknown_tool"):
+
+def setup_mcp_logging(
+    level="INFO", addr="tcp://127.0.0.1:6000", tool_name="unknown_tool"
+):
     root = logging.getLogger()
     root.setLevel(level)
 
@@ -78,29 +88,36 @@ def setup_mcp_logging(level="INFO", addr="tcp://127.0.0.1:6000", tool_name="unkn
             for h in logger.handlers[:]:
                 logger.removeHandler(h)
                 h.close()
-            logger.propagate = True  # 确保冒泡到 root
+            logger.propagate = True  # Ensure bubbling to root
 
     # Re-add the ZMQ handler
     handler = ZMQLogHandler(addr=addr, tool_name=tool_name)
-    handler.setFormatter(logging.Formatter("[TOOL] %(asctime)s %(levelname)s: %(message)s"))
+    handler.setFormatter(
+        logging.Formatter("[TOOL] %(asctime)s %(levelname)s: %(message)s")
+    )
     root.addHandler(handler)
 
+
 def setup_log_record_factory():
     old_factory = logging.getLogRecordFactory()
+
     def record_factory(*args, **kwargs):
         record = old_factory(*args, **kwargs)
         record.task_id = TASK_CONTEXT_VAR.get()
         return record
+
     logging.setLogRecordFactory(record_factory)
 
+
 class TaskFilter(logging.Filter):
     def __init__(self, task_id: str):
         super().__init__()
         self.task_id = task_id
-    
+
     def filter(self, record: logging.LogRecord) -> bool:
         return getattr(record, "task_id", None) == self.task_id
 
+
 def make_task_logger(task_id: str, log_dir: Path) -> logging.Handler:
     log_dir.mkdir(parents=True, exist_ok=True)
     file_path = log_dir / f"task_{task_id}.log"
@@ -111,9 +128,10 @@ def make_task_logger(task_id: str, log_dir: Path) -> logging.Handler:
     logging.getLogger().addHandler(fh)
     return fh
 
+
 def remove_all_console_handlers():
     """
-    移除当前进程中所有 logger 上的 console handler (StreamHandler/RichHandler)。
+    Remove all console handlers (StreamHandler/RichHandler) from all loggers in the current process.
     """
     for name, logger in logging.Logger.manager.loggerDict.items():
         if isinstance(logger, logging.Logger):
@@ -134,6 +152,7 @@ def remove_all_console_handlers():
         root_logger.removeHandler(h)
         h.close()
 
+
 @contextmanager
 def task_logging_context(task_id: str, log_dir: Path):
     token = TASK_CONTEXT_VAR.set(task_id)
@@ -145,21 +164,25 @@ def task_logging_context(task_id: str, log_dir: Path):
         logging.getLogger().removeHandler(handler)
         handler.close()
 
+
 def init_logging_for_benchmark_evaluation(print_task_logs=False):
-    threading.Thread(target=start_zmq_listener, daemon=True).start() #monitoring tool logs
-    logging.basicConfig(handlers=[]) 
+    threading.Thread(
+        target=start_zmq_listener, daemon=True
+    ).start()  # monitoring tool logs
+    logging.basicConfig(handlers=[])
     setup_log_record_factory()
     if not print_task_logs:
-        remove_all_console_handlers()  
+        remove_all_console_handlers()
+
 
 @lru_cache
 def bootstrap_logger(
     level: Literal["DEBUG", "INFO", "WARNING", "ERROR", "CRITICAL"] | int = "INFO",
     logger_name: str = "miroflow",
     logger: logging.Logger | None = None,
-    log_dir: str | Path | None = None,   # 日志存储目录
-    log_filename: str = "miroflow.log",  # 默认日志文件名
-    to_console: bool = True,             # 是否显示到 console
+    log_dir: str | Path | None = None,  # Log storage directory
+    log_filename: str = "miroflow.log",  # Default log filename
+    to_console: bool = True,  # Whether to display to console
 ) -> logging.Logger:
     """Configure only this logger, not the root logger"""
     if logger is None:
@@ -173,7 +196,7 @@ def bootstrap_logger(
             console=Console(
                 stderr=True,
                 width=200,
-                color_system=None,   
+                color_system=None,
                 force_terminal=False,
                 legacy_windows=False,
             ),
@@ -191,9 +214,9 @@ def bootstrap_logger(
         log_dir.mkdir(parents=True, exist_ok=True)
         file_path = log_dir / log_filename
         file_handler = logging.FileHandler(file_path, encoding="utf-8")
-        file_handler.setFormatter(logging.Formatter(
-            "%(asctime)s [%(levelname)s] %(name)s: %(message)s"
-        ))
+        file_handler.setFormatter(
+            logging.Formatter("%(asctime)s [%(levelname)s] %(name)s: %(message)s")
+        )
         logger.addHandler(file_handler)
 
     logger.setLevel(level)