multi mode ragas changes

kaustubh-darekar · kaustubh-darekar · commit 6486420fd2c0 · 2024-10-18T09:46:49.000Z
diff --git a/backend/score.py b/backend/score.py
@@ -718,12 +718,9 @@ async def calculate_metric(question: str = Form(),
                            model: str = Form(),
                            mode: str = Form()):
    try:
-       context_list = json.loads(context) if context else []
-       answer_list = json.loads(answer) if answer else []
-       mode_list = json.loads(mode) if mode else []
-       context_list = [str(item).strip() for item in context_list]
-       answer_list = [str(item).strip() for item in answer_list]
-       mode_list = [str(item).strip() for item in mode_list]
+       context_list = [str(item).strip() for item in json.loads(context)] if context else []
+       answer_list = [str(item).strip() for item in json.loads(answer)] if answer else []
+       mode_list = [str(item).strip() for item in json.loads(mode)] if mode else []
 
        result = await asyncio.to_thread(
            get_ragas_metrics, question, context_list, answer_list, model
diff --git a/backend/src/ragas_eval.py b/backend/src/ragas_eval.py
@@ -1,36 +1,23 @@
 import os
 import logging
 import time
-from typing import Dict, Optional
 from src.llm import get_llm
 from datasets import Dataset
 from dotenv import load_dotenv
 from ragas import evaluate
 from ragas.metrics import answer_relevancy, faithfulness
 from src.shared.common_fn import load_embedding_model 
-import math
 load_dotenv()
 
 EMBEDDING_MODEL = os.getenv("EMBEDDING_MODEL")
 EMBEDDING_FUNCTION, _ = load_embedding_model(EMBEDDING_MODEL)
 
-def sanitize_data(data):
-   for key, value in data.items():
-       if isinstance(value, float) and (math.isnan(value) or math.isinf(value)):
-           data[key] = None
-   return data
-
-def preprocess_dataset(example):
-    example["contexts"] = [example["contexts"]]
-    return example
-
 def get_ragas_metrics(question: str, context: list, answer: list, model: str):
     """Calculates RAGAS metrics."""
     try:
         start_time = time.time()
-        question = [question] * len(answer)
         dataset = Dataset.from_dict(
-            {"question": question, "answer": answer, "contexts": context}
+            {"question": [question] * len(answer), "answer": answer, "contexts": [[ctx] for ctx in context]}
         )
         dataset = dataset.map(preprocess_dataset)
         logging.info("Evaluation dataset created successfully.")
@@ -53,8 +40,6 @@ def get_ragas_metrics(question: str, context: list, answer: list, model: str):
             .round(4)
             .to_dict(orient="list")
         ) 
-        #score_dict = sanitize_data(score_dict)
-        print("Score dict : ",score_dict)
         end_time = time.time()
         logging.info(f"Evaluation completed in: {end_time - start_time:.2f} seconds")
         return score_dict