quarkiverse
diff --git a/‎docs/modules/ROOT/pages/testing.adoc‎
Lines changed: 731 additions & 85 deletions b/‎docs/modules/ROOT/pages/testing.adoc‎
Lines changed: 731 additions & 85 deletions
diff --git a/‎samples/chatbot-evaluation/.gitignore‎
Lines changed: 6 additions & 0 deletions b/‎samples/chatbot-evaluation/.gitignore‎
Lines changed: 6 additions & 0 deletions
diff --git a/‎samples/chatbot-evaluation/README.md‎
Lines changed: 15 additions & 0 deletions b/‎samples/chatbot-evaluation/README.md‎
Lines changed: 15 additions & 0 deletions
diff --git a/‎samples/chatbot-evaluation/pom.xml‎
Lines changed: 75 additions & 0 deletions b/‎samples/chatbot-evaluation/pom.xml‎
Lines changed: 75 additions & 0 deletions
diff --git a/‎samples/chatbot-evaluation/src/main/java/io/quarkiverse/langchain4j/sample/chatbot/CustomerSupportBot.java‎
Lines changed: 29 additions & 0 deletions b/‎samples/chatbot-evaluation/src/main/java/io/quarkiverse/langchain4j/sample/chatbot/CustomerSupportBot.java‎
Lines changed: 29 additions & 0 deletions
diff --git a/‎samples/chatbot-evaluation/src/main/resources/application.properties‎
Lines changed: 8 additions & 0 deletions b/‎samples/chatbot-evaluation/src/main/resources/application.properties‎
Lines changed: 8 additions & 0 deletions
diff --git a/‎samples/chatbot-evaluation/src/test/java/io/quarkiverse/langchain4j/sample/chatbot/AIJudgeEvaluationTest.java‎
Lines changed: 103 additions & 0 deletions b/‎samples/chatbot-evaluation/src/test/java/io/quarkiverse/langchain4j/sample/chatbot/AIJudgeEvaluationTest.java‎
Lines changed: 103 additions & 0 deletions
diff --git a/‎samples/chatbot-evaluation/src/test/java/io/quarkiverse/langchain4j/sample/chatbot/DeclarativeEvaluationTest.java‎
Lines changed: 97 additions & 0 deletions b/‎samples/chatbot-evaluation/src/test/java/io/quarkiverse/langchain4j/sample/chatbot/DeclarativeEvaluationTest.java‎
Lines changed: 97 additions & 0 deletions
@@ -0,0 +1,6 @@
+target/
+*.iml
+.idea/
+.vscode/
+.DS_Store
+*.log
@@ -0,0 +1,15 @@
+# Chatbot Evaluation Testing Sample
+
+This sample demonstrates comprehensive evaluation testing for AI-powered chatbots using the Quarkus LangChain4j evaluation framework.
+
+## Overview
+
+The sample includes a simple customer support chatbot and showcases various evaluation approaches:
+
+- **Imperative Testing** - Traditional programmatic evaluation using `Scorer`
+- **Fluent Builder API** - Readable, chainable evaluation definitions
+- **Declarative Testing** - Annotation-driven evaluations with `@EvaluationTest`
+- **AI as Judge** - Using an LLM to evaluate response quality
+- **Semantic Similarity** - Embedding-based similarity comparison
+- **Test suite-Level Reporting** - Aggregated reports across multiple tests
+
@@ -0,0 +1,75 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<project xmlns="http://maven.apache.org/POM/4.0.0"
+         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
+         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
+    <modelVersion>4.0.0</modelVersion>
+
+    <parent>
+        <groupId>io.quarkiverse.langchain4j</groupId>
+        <artifactId>quarkus-langchain4j-samples-parent</artifactId>
+        <version>999-SNAPSHOT</version>
+        <relativePath>../pom.xml</relativePath>
+    </parent>
+
+    <artifactId>quarkus-langchain4j-sample-chatbot-evaluation</artifactId>
+    <name>Quarkus LangChain4j - Samples - Chatbot Evaluation Testing</name>
+    <description>Sample demonstrating comprehensive evaluation testing with semantic similarity and AI judge strategies</description>
+
+    <dependencies>
+        <dependency>
+            <groupId>io.quarkus</groupId>
+            <artifactId>quarkus-rest</artifactId>
+        </dependency>
+        <dependency>
+            <groupId>io.quarkiverse.langchain4j</groupId>
+            <artifactId>quarkus-langchain4j-openai</artifactId>
+            <version>${project.version}</version>
+        </dependency>
+
+        <!-- Evaluation Testing Framework -->
+        <dependency>
+            <groupId>io.quarkiverse.langchain4j</groupId>
+            <artifactId>quarkus-langchain4j-testing-evaluation-junit5</artifactId>
+            <version>${project.version}</version>
+            <scope>test</scope>
+        </dependency>
+        <dependency>
+            <groupId>dev.langchain4j</groupId>
+            <artifactId>langchain4j-embeddings-bge-small-en-v15</artifactId>
+            <scope>test</scope>
+        </dependency>
+        <dependency>
+            <groupId>io.quarkiverse.langchain4j</groupId>
+            <artifactId>quarkus-langchain4j-testing-evaluation-semantic-similarity</artifactId>
+            <version>${project.version}</version>
+            <scope>test</scope>
+        </dependency>
+        <dependency>
+            <groupId>io.quarkiverse.langchain4j</groupId>
+            <artifactId>quarkus-langchain4j-testing-evaluation-ai-judge</artifactId>
+            <version>${project.version}</version>
+            <scope>test</scope>
+        </dependency>
+
+        <!-- Test dependencies -->
+        <dependency>
+            <groupId>io.quarkus</groupId>
+            <artifactId>quarkus-junit5</artifactId>
+            <scope>test</scope>
+        </dependency>
+        <dependency>
+            <groupId>io.rest-assured</groupId>
+            <artifactId>rest-assured</artifactId>
+            <scope>test</scope>
+        </dependency>
+    </dependencies>
+
+    <build>
+        <plugins>
+            <plugin>
+                <groupId>io.quarkus</groupId>
+                <artifactId>quarkus-maven-plugin</artifactId>
+            </plugin>
+        </plugins>
+    </build>
+</project>
@@ -0,0 +1,29 @@
+package io.quarkiverse.langchain4j.sample.chatbot;
+
+import jakarta.enterprise.context.ApplicationScoped;
+
+import dev.langchain4j.service.SystemMessage;
+import dev.langchain4j.service.UserMessage;
+import io.quarkiverse.langchain4j.RegisterAiService;
+
+/**
+ * A simple customer support chatbot that answers questions about
+ * a fictional e-commerce company.
+ */
+@RegisterAiService
+@ApplicationScoped
+public interface CustomerSupportBot {
+
+    @SystemMessage("""
+            You are a helpful customer support assistant for QuarkusShop, an online e-commerce store.
+
+            Company Information:
+            - Business hours: Monday-Friday, 9 AM - 5 PM EST
+            - Shipping: Free shipping on orders over $50
+            - Returns: 30-day return policy
+            - Contact: [email protected] or 1-800-QUARKUS
+
+            Provide helpful, concise, and friendly responses to customer questions.
+            """)
+    String chat(@UserMessage String message);
+}
@@ -0,0 +1,8 @@
+# OpenAI Configuration
+quarkus.langchain4j.openai.api-key=${OPENAI_API_KEY}
+quarkus.langchain4j.openai.chat-model.model-name=gpt-4o-mini
+quarkus.langchain4j.openai.chat-model.temperature=0.0
+quarkus.langchain4j.openai.timeout=60s
+
+# Logging
+quarkus.log.category."io.quarkiverse.langchain4j".level=DEBUG
@@ -0,0 +1,103 @@
+package io.quarkiverse.langchain4j.sample.chatbot;
+
+import static io.quarkiverse.langchain4j.testing.evaluation.EvaluationAssertions.assertThat;
+
+import jakarta.inject.Inject;
+
+import org.junit.jupiter.api.Test;
+
+import dev.langchain4j.model.chat.ChatModel;
+import io.quarkiverse.langchain4j.evaluation.junit5.Evaluate;
+import io.quarkiverse.langchain4j.evaluation.junit5.SampleLocation;
+import io.quarkiverse.langchain4j.testing.evaluation.EvaluationReport;
+import io.quarkiverse.langchain4j.testing.evaluation.Samples;
+import io.quarkiverse.langchain4j.testing.evaluation.Scorer;
+import io.quarkiverse.langchain4j.testing.evaluation.judge.AiJudgeStrategy;
+import io.quarkiverse.langchain4j.testing.evaluation.similarity.SemanticSimilarityStrategy;
+import io.quarkus.test.junit.QuarkusTest;
+
+/**
+ * Demonstrates using AI as a judge to evaluate chatbot responses.
+ * This approach uses an LLM to judge whether responses are acceptable,
+ * which is useful for more nuanced evaluation beyond simple similarity.
+ */
+@QuarkusTest
+@Evaluate
+public class AIJudgeEvaluationTest {
+
+    @Inject
+    CustomerSupportBot bot;
+
+    @Inject
+    ChatModel model;
+
+    @Test
+    void evaluateWithAIJudge(
+            Scorer scorer,
+            @SampleLocation("src/test/resources/customer-support-samples.yaml") Samples<String> samples) {
+
+        // Use AI judge strategy for more sophisticated evaluation
+        EvaluationReport<String> report = scorer.evaluate(
+                samples,
+                params -> bot.chat(params.get(0)),
+                new AiJudgeStrategy(model));
+
+        assertThat(report)
+                .hasScoreGreaterThanOrEqualTo(50.0)
+                .hasAtLeastPassedEvaluations(3);
+
+        // Print detailed results
+        report.evaluations().forEach(eval -> {
+            System.out.printf("%s: %s (score: %.2f)%n",
+                    eval.sample().name(),
+                    eval.passed() ? "PASS" : "FAIL",
+                    eval.score() * 100);
+            if (eval.explanation() != null) {
+                System.out.printf("  Explanation: %s%n", eval.explanation());
+            }
+        });
+    }
+
+    @Test
+    void compareStrategies(
+            Scorer scorer,
+            @SampleLocation("src/test/resources/smoke-tests.yaml") Samples<String> samples) {
+
+        // Evaluate with semantic similarity
+        EvaluationReport<String> semanticReport = scorer.evaluate(
+                samples,
+                params -> bot.chat(params.get(0)),
+                new SemanticSimilarityStrategy(0.85));
+
+        // Evaluate with AI judge
+        EvaluationReport<String> aiJudgeReport = scorer.evaluate(
+                samples,
+                params -> bot.chat(params.get(0)),
+                new AiJudgeStrategy(model));
+
+        System.out.printf("Semantic Similarity Score: %.2f%%%n", semanticReport.score());
+        System.out.printf("AI Judge Score: %.2f%%%n", aiJudgeReport.score());
+
+        // Both should have reasonable scores
+        assertThat(semanticReport).hasScoreGreaterThan(60.0);
+        assertThat(aiJudgeReport).hasScoreGreaterThan(60.0);
+    }
+
+    @Test
+    void evaluateWithBothStrategies(
+            Scorer scorer,
+            @SampleLocation("src/test/resources/customer-support-samples.yaml") Samples<String> samples) {
+
+        // Apply both strategies - sample must pass both to be considered successful
+        EvaluationReport<String> report = scorer.evaluate(
+                samples,
+                params -> bot.chat(params.get(0)),
+                new SemanticSimilarityStrategy(0.80),
+                new AiJudgeStrategy(model));
+
+        // Since each sample is evaluated by both strategies,
+        // we'll have 2x the number of evaluations
+        assertThat(report)
+                .hasAtLeastPassedEvaluations(8); // At least half should pass
+    }
+}
@@ -0,0 +1,97 @@
+package io.quarkiverse.langchain4j.sample.chatbot;
+
+import static io.quarkiverse.langchain4j.testing.evaluation.EvaluationAssertions.assertThat;
+
+import java.util.function.Function;
+
+import jakarta.inject.Inject;
+
+import org.junit.jupiter.api.DisplayNameGeneration;
+
+import dev.langchain4j.model.chat.ChatModel;
+import io.quarkiverse.langchain4j.evaluation.junit5.Evaluate;
+import io.quarkiverse.langchain4j.evaluation.junit5.EvaluationDisplayNameGenerator;
+import io.quarkiverse.langchain4j.evaluation.junit5.EvaluationFunction;
+import io.quarkiverse.langchain4j.evaluation.junit5.EvaluationTest;
+import io.quarkiverse.langchain4j.evaluation.junit5.SampleLocation;
+import io.quarkiverse.langchain4j.evaluation.junit5.StrategyTest;
+import io.quarkiverse.langchain4j.testing.evaluation.EvaluationStrategy;
+import io.quarkiverse.langchain4j.testing.evaluation.Parameters;
+import io.quarkiverse.langchain4j.testing.evaluation.Samples;
+import io.quarkiverse.langchain4j.testing.evaluation.Scorer;
+import io.quarkiverse.langchain4j.testing.evaluation.judge.AiJudgeStrategy;
+import io.quarkiverse.langchain4j.testing.evaluation.similarity.SemanticSimilarityStrategy;
+import io.quarkus.test.junit.QuarkusTest;
+
+/**
+ * Demonstrates declarative evaluation testing using annotations.
+ * This approach is more concise and reduces boilerplate code.
+ */
+@QuarkusTest
+@Evaluate
+@DisplayNameGeneration(EvaluationDisplayNameGenerator.class)
+public class DeclarativeEvaluationTest {
+
+    @Inject
+    CustomerSupportBot bot;
+
+    @Inject // Reuse the chat model for AI judging
+    ChatModel judgeModel;
+
+    /**
+     * Define a reusable evaluation function.
+     * This function will be referenced by name in the test annotations.
+     */
+    @EvaluationFunction("chatbot")
+    public Function<Parameters, String> chatbotFunction() {
+        return params -> bot.chat(params.get(0));
+    }
+
+    /**
+     * Declarative test using @EvaluationTest.
+     * The framework automatically loads samples, evaluates them,
+     * and asserts the minimum score.
+     */
+    @EvaluationTest(samples = "smoke-tests.yaml", strategy = SemanticSimilarityStrategy.class, function = "chatbot", minScore = 70.0)
+    void smokeTestsWithSemanticSimilarity() {
+        // Test body can be empty - evaluation happens automatically
+        // The test will fail if score is below 70%
+    }
+
+    /**
+     * Test using multiple strategies with @StrategyTest.
+     * The test runs once for each strategy.
+     */
+    @StrategyTest(strategies = {
+            SemanticSimilarityStrategy.class,
+            AiJudgeStrategy.class,
+    })
+    void customerSupportWithMultipleStrategies(
+            @SampleLocation("src/test/resources/smoke-tests.yaml") Samples<String> samples,
+            EvaluationStrategy<String> strategy,
+            Scorer scorer) {
+        // This test method will execute twice:
+        // 1. Once with SemanticSimilarityStrategy
+        // 2. Once with AiJudgeStrategy
+        // Each execution appears as a separate test in the results
+
+        var report = scorer.evaluate(
+                samples,
+                params -> bot.chat(params.get(0)),
+                strategy);
+
+        System.out.printf("Strategy %s - Score: %.2f%%%n",
+                strategy.getClass().getSimpleName(),
+                report.score());
+
+        assertThat(report).hasScoreGreaterThan(60.0);
+    }
+
+    /**
+     * Another @EvaluationTest with different configuration.
+     */
+    @EvaluationTest(samples = "customer-support-samples.yaml", strategy = AiJudgeStrategy.class, function = "chatbot", minScore = 85.0)
+    void criticalCustomerSupportEvaluation() {
+        // Higher threshold for critical evaluations
+    }
+}
-Original file line number
+Diff line change
@@ @@ -0,0 +1,6 @@ @@
 +target/
 +*.iml
 +.idea/
 +.vscode/
 +.DS_Store
 +*.log