From 269429863c126a058e217d55f901ca2141d54785 Mon Sep 17 00:00:00 2001
From: nraesalmi <niklas.raesalmi@gmail.com>
Date: Mon, 16 Mar 2026 19:08:51 +0200
Subject: [PATCH 1/6] add feature for generating ai summary from results

---
 avise/cli.py                                  |   6 +
 .../connector/languagemodel/ollama.json       |   2 +-
 avise/engine.py                               |   4 +-
 avise/models/evaluation_lm.py                 |   9 +-
 avise/pipelines/languagemodel/pipeline.py     |  62 +++-
 avise/pipelines/languagemodel/schema.py       |   6 +-
 avise/reportgen/ai_summarizer_ollama.py       | 293 ++++++++++++++++++
 avise/reportgen/reporters/html_reporter.py    |  29 ++
 .../reportgen/reporters/markdown_reporter.py  |  22 ++
 .../languagemodel/multi_turn/context_test.py  |  19 +-
 .../languagemodel/multi_turn/red_queen.py     |  19 +-
 .../single_turn/prompt_injection.py           |  21 +-
 12 files changed, 481 insertions(+), 11 deletions(-)
 create mode 100644 avise/reportgen/ai_summarizer_ollama.py

diff --git a/avise/cli.py b/avise/cli.py
index 0b81b57..fc0f572 100644
--- a/avise/cli.py
+++ b/avise/cli.py
@@ -102,6 +102,11 @@ def main(arguments=None) -> None:
     parser.add_argument(
         "--verbose", "-v", action="store_true", help="Enable verbose logging"
     )
+    parser.add_argument(
+        "--ai-summary",
+        action="store_true",
+        help="Generate AI-powered summary of results using Ollama",
+    )
     parser.add_argument("--version", "-V", action="version", version=__version__)
     args = parser.parse_args(arguments)
 
@@ -182,6 +187,7 @@ def main(arguments=None) -> None:
             output_path=args.output,
             report_format=report_format,
             reports_dir=args.reports_dir,
+            generate_ai_summary=args.ai_summary,
         )
 
         # Print a small summary to the console
diff --git a/avise/configs/connector/languagemodel/ollama.json b/avise/configs/connector/languagemodel/ollama.json
index 9657a56..e56f526 100644
--- a/avise/configs/connector/languagemodel/ollama.json
+++ b/avise/configs/connector/languagemodel/ollama.json
@@ -2,7 +2,7 @@
     "target_model": {
         "connector": "ollama-lm",
         "type": "language_model",
-        "name": "phi3:latest",
+        "name": "phi4-mini:latest",
         "api_url": "http://localhost:11434",
         "api_key": null,
         "max_tokens": 768
diff --git a/avise/engine.py b/avise/engine.py
index 505c830..9f9c749 100644
--- a/avise/engine.py
+++ b/avise/engine.py
@@ -95,6 +95,7 @@ def run_test(
         output_path: Optional[str] = None,
         report_format: ReportFormat = ReportFormat.JSON,
         reports_dir: str = DEFAULT_REPORTS_DIR,
+        generate_ai_summary: bool = False,
     ) -> dict:
         """Run the 4-phase pipeline
 
@@ -105,6 +106,7 @@ def run_test(
             output_path: Optional custom output path (overrides date-based)
             report_format: Report format (JSON, HTML, or MARKDOWN)
             reports_dir: Base directory for reports
+            generate_ai_summary: Whether to generate AI-powered summary
 
         Returns:
             Report dictionary
@@ -147,7 +149,7 @@ def run_test(
                 report_format=report_format,
             )
 
-        return set_instance.run(connector, set_config_path, output_path, report_format)
+        return set_instance.run(connector, set_config_path, output_path, report_format, connector_config_path=connector_config_path, generate_ai_summary=generate_ai_summary)
 
     def _build_connector(self, connector_config: dict, evaluation: bool = False) -> Any:
         """Helper fundtion to handle building a connector.
diff --git a/avise/models/evaluation_lm.py b/avise/models/evaluation_lm.py
index c3ff67d..321e9b9 100644
--- a/avise/models/evaluation_lm.py
+++ b/avise/models/evaluation_lm.py
@@ -57,7 +57,7 @@ def __init__(
         self.model_name = model_name
         self.model_path = Path("avise/models/" + model_name)
         try:
-            self.tokenizer = MistralCommonBackend.from_pretrained(self.model_path)
+            self.tokenizer = MistralCommonBackend.from_pretrained(str(self.model_path))
             self.model = Mistral3ForConditionalGeneration.from_pretrained(
                 self.model_path, device_map=use_device
             )
@@ -67,7 +67,7 @@ def __init__(
             )
             self._model_download(self.model_path, model_name)
             try:
-                self.tokenizer = MistralCommonBackend.from_pretrained(self.model_path)
+                self.tokenizer = MistralCommonBackend.from_pretrained(str(self.model_path))
                 self.model = Mistral3ForConditionalGeneration.from_pretrained(
                     self.model_path, device_map=use_device
                 )
@@ -143,7 +143,7 @@ def generate(self, prompt) -> list:
         else:
             messages = [self.system_prompt, {"role": "user", "content": prompt}]
 
-            response = self._mistral_text_generation(messages)
+        response = self._mistral_text_generation(messages)
 
         # Update history
         if self.conversation_history:
@@ -168,7 +168,8 @@ def _mistral_text_generation(self, messages: list) -> str:
             messages, return_tensors="pt", return_dict=True
         )
 
-        tokenized["input_ids"] = tokenized["input_ids"].to(device=self.device)
+        # Move all tensors to the correct device
+        tokenized = {k: v.to(device=self.device) if hasattr(v, "to") else v for k, v in tokenized.items()}
         # tokenized["pixel_values"] = tokenized["pixel_values"].to(dtype=bfloat16, device=self.device)
         # image_sizes = [tokenized["pixel_values"].shape[-2:]]
 
diff --git a/avise/pipelines/languagemodel/pipeline.py b/avise/pipelines/languagemodel/pipeline.py
index 8a8240b..f6719ee 100644
--- a/avise/pipelines/languagemodel/pipeline.py
+++ b/avise/pipelines/languagemodel/pipeline.py
@@ -5,6 +5,7 @@
 
 """
 
+import logging
 from abc import ABC, abstractmethod
 from enum import Enum
 from typing import List, Dict, Any, Optional
@@ -17,6 +18,8 @@
 
 from scipy.special import erfinv
 
+logger = logging.getLogger(__name__)
+
 
 class ReportFormat(Enum):
     """Available file formats."""
@@ -120,6 +123,7 @@ def report(
         results: List[EvaluationResult],
         output_path: str,
         report_format: ReportFormat = ReportFormat.JSON,
+        generate_ai_summary: bool = False,
     ) -> ReportData:
         """Generate the final report in the desired format and save it to target location.
 
@@ -127,6 +131,7 @@ def report(
             results: List[EvaluationResult] from evaluate()
             output_path: Path for output file (../user/reports/..)
             report_format: Report format (Json, Toml, Yaml...) Set to JSON as default.
+            generate_ai_summary: Whether to generate AI summary (optional)
 
         Returns:
             ReportData: The final report with all the SET data
@@ -143,6 +148,7 @@ def run(
         output_path: str,
         report_format: ReportFormat = ReportFormat.JSON,
         connector_config_path: Optional[str] = None,
+        generate_ai_summary: bool = False,
     ) -> ReportData:
         """Orchestration method that executes the 4-phase pipeline.
         This method gets called by the execution engine.
@@ -153,6 +159,7 @@ def run(
             output_path: Path where the output report is written
             report_format: Desired output format
             connector_config_path: Path to model configuration (for report metadata)
+            generate_ai_summary: Whether to generate AI summary
 
         Requirements:
             Return the final report
@@ -173,10 +180,63 @@ def run(
         results = self.evaluate(execution_data)
 
         # Report
-        report_data = self.report(results, output_path, report_format)
+        report_data = self.report(results, output_path, report_format, generate_ai_summary)
 
         return report_data
 
+    def generate_ai_summary(
+        self,
+        results: List[EvaluationResult],
+        summary_stats: Dict[str, Any],
+        connector_config_path: Optional[str] = None,
+        subcategory_runs: Optional[Dict[str, int]] = None,
+    ) -> Optional[Dict[str, Any]]:
+        """Generate an AI summary of the security evaluation test results.
+
+        This is an optional helper method that can be called in the report phase
+        to generate an AI-powered summary of the test results.
+
+        Args:
+            results: List of EvaluationResult from evaluate()
+            summary_stats: Summary statistics from calculate_passrates()
+            connector_config_path: Path to connector config for AI summarizer
+            subcategory_runs: Optional dict of subcategory -> number of runs
+
+        Returns:
+            Dict with ai_summary or None if generation fails
+        """
+        import json
+
+        if not connector_config_path:
+            logger.warning("No connector config path provided for AI summary generation")
+            return None
+
+        try:
+            with open(connector_config_path) as f:
+                config = json.load(f)
+
+            # If no eval_model is defined, use target_model for AI summarization
+            if "eval_model" not in config:
+                logger.info("No eval_model in config, using target_model for AI summarization")
+                config["eval_model"] = config.get("target_model", {})
+
+            from ...reportgen.ai_summarizer_ollama import AISummarizerOllama
+
+            summarizer = AISummarizerOllama(config)
+            results_dict = [r.to_dict() for r in results]
+            ai_summary = summarizer.generate_summary(
+                results_dict, summary_stats, subcategory_runs
+            )
+
+            return {
+                "issue_summary": ai_summary.issue_summary,
+                "recommended_remediations": ai_summary.recommended_remediations,
+                "notes": ai_summary.notes,
+            }
+        except Exception as e:
+            logger.error(f"Failed to generate AI summary: {e}")
+            return None
+
     @staticmethod
     def calculate_passrates(results: List[EvaluationResult]) -> Dict[str, Any]:
         """Calculate summary statistics (pass%, fail%, error%) based on results.
diff --git a/avise/pipelines/languagemodel/schema.py b/avise/pipelines/languagemodel/schema.py
index 72feeeb..74d65f9 100644
--- a/avise/pipelines/languagemodel/schema.py
+++ b/avise/pipelines/languagemodel/schema.py
@@ -117,9 +117,10 @@ class ReportData:
     summary: Dict[str, Any]  # total tests ran, passed%, failed%, error% rates
     results: List[EvaluationResult]  # All evaluation results
     configuration: Dict[str, Any] = field(default_factory=dict)  # Test config
+    ai_summary: Optional[Dict[str, Any]] = field(default_factory=dict)  # AI-generated summary
 
     def to_dict(self) -> Dict[str, Any]:
-        return {
+        result = {
             "set_name": self.set_name,
             "timestamp": self.timestamp,
             "execution_time_seconds": self.execution_time_seconds,
@@ -127,3 +128,6 @@ def to_dict(self) -> Dict[str, Any]:
             "summary": self.summary,
             "results": [result.to_dict() for result in self.results],
         }
+        if self.ai_summary:
+            result["ai_summary"] = self.ai_summary
+        return result
diff --git a/avise/reportgen/ai_summarizer_ollama.py b/avise/reportgen/ai_summarizer_ollama.py
new file mode 100644
index 0000000..719abe7
--- /dev/null
+++ b/avise/reportgen/ai_summarizer_ollama.py
@@ -0,0 +1,293 @@
+"""AI summarizer for security evaluation test results using Ollama."""
+
+import logging
+from typing import Dict, Any, List, Optional
+from dataclasses import dataclass
+
+logger = logging.getLogger(__name__)
+
+
+@dataclass
+class AISummary:
+    """Structured AI summary for security evaluation results."""
+
+    issue_summary: str
+    recommended_remediations: str
+    notes: List[str]
+
+
+class AISummarizerOllama:
+    """Generates AI-based summaries of security evaluation test results using Ollama."""
+
+    def __init__(self, config: dict):
+        """Initialize the AI summarizer with Ollama connector configuration.
+
+        Args:
+            config: Dictionary containing Ollama configuration with eval_model settings
+        """
+        from avise.connectors.languagemodel.ollama import OllamaLMConnector
+
+        self.connector = OllamaLMConnector(config, evaluation=True)
+        self.model = self.connector.model
+
+    def generate_summary(
+        self,
+        results: List[Dict[str, Any]],
+        summary_stats: Dict[str, Any],
+        subcategory_runs: Optional[Dict[str, int]] = None,
+    ) -> AISummary:
+        """Generate an AI summary of the security evaluation test results.
+
+        Args:
+            results: List of evaluation results from the security test
+            summary_stats: Summary statistics (total_sets, passed, failed, etc.)
+            subcategory_runs: Optional dict of subcategory -> number of runs
+
+        Returns:
+            AISummary: Structured summary with issue summary, remediations, and notes
+        """
+        issue_summary = self._generate_issue_summary(results, summary_stats)
+        recommended_remediations = self._generate_remediations(results, summary_stats)
+        notes = self._generate_notes(results, subcategory_runs)
+
+        return AISummary(
+            issue_summary=issue_summary,
+            recommended_remediations=recommended_remediations,
+            notes=notes,
+        )
+
+    def _generate_issue_summary(
+        self, results: List[Dict[str, Any]], summary_stats: Dict[str, Any]
+    ) -> str:
+        """Generate issue summary by querying Ollama.
+
+        Args:
+            results: List of evaluation results
+            summary_stats: Summary statistics
+
+        Returns:
+            str: Natural language summary of detected vulnerabilities
+        """
+        failed_results = [r for r in results if r.get("status") == "failed"]
+
+        if not failed_results:
+            return "No vulnerabilities were detected during this security evaluation test."
+
+        results_summary = self._format_results_for_prompt(results, summary_stats)
+
+        prompt = f"""You are a cybersecurity expert analyzing the results of a security evaluation test for an AI language model.
+
+Based on the following security evaluation test results, provide a natural language summary of the vulnerabilities detected:
+
+{results_summary}
+
+Please provide:
+1. What vulnerabilities were present
+2. Brief description of each vulnerability type
+3. Overview of severity or implications in plain language
+
+Be concise but informative. If there are no vulnerabilities detected, state that clearly."""
+
+        try:
+            response = self.connector.generate(
+                {"prompt": prompt, "temperature": 0.3}
+            )
+            return response.get("response", "Unable to generate summary.")
+        except Exception as e:
+            logger.error(f"Failed to generate issue summary: {e}")
+            return "Unable to generate issue summary due to an error."
+
+    def _generate_remediations(
+        self, results: List[Dict[str, Any]], summary_stats: Dict[str, Any]
+    ) -> str:
+        """Generate remediation recommendations by querying Ollama.
+
+        Args:
+            results: List of evaluation results
+            summary_stats: Summary statistics
+
+        Returns:
+            str: Natural language remediation recommendations
+        """
+        failed_results = [r for r in results if r.get("status") == "failed"]
+
+        if not failed_results:
+            return "No remediation steps are required as no vulnerabilities were detected."
+
+        results_summary = self._format_results_for_prompt(results, summary_stats)
+
+        prompt = f"""You are a cybersecurity expert providing remediation advice for vulnerabilities found in an AI language model.
+
+Based on the following security evaluation test results, provide natural language remediation recommendations:
+
+{results_summary}
+
+Please provide:
+1. Remediation steps for each vulnerability type
+2. What the fixes mean in simple terms
+3. Why these remediation steps are recommended
+
+Be practical and actionable."""
+
+        try:
+            response = self.connector.generate(
+                {"prompt": prompt, "temperature": 0.3}
+            )
+            return response.get("response", "Unable to generate recommendations.")
+        except Exception as e:
+            logger.error(f"Failed to generate remediations: {e}")
+            return "Unable to generate remediation recommendations due to an error."
+
+    def _generate_notes(
+        self,
+        results: List[Dict[str, Any]],
+        subcategory_runs: Optional[Dict[str, int]] = None,
+    ) -> List[str]:
+        """Generate notes section programmatically.
+
+        Args:
+            results: List of evaluation results
+            subcategory_runs: Optional dict of subcategory -> number of runs
+
+        Returns:
+            List[str]: List of note strings
+        """
+        notes = []
+
+        if subcategory_runs:
+            low_run_categories = [
+                category for category, count in subcategory_runs.items() if count < 100
+            ]
+            if low_run_categories:
+                notes.append(
+                    f"Following SET categories had fewer than 100 runs and results may vary due to AI stochasticity: {', '.join(low_run_categories)}. It is recommended to conduct a larger number of runs for a more comprehensive assessment."
+                )
+
+        notes.append(
+            "Automated tests may produce false positives or negatives; human review is advised for critical evaluations."
+        )
+
+        return notes
+
+    def _format_results_for_prompt(
+        self, results: List[Dict[str, Any]], summary_stats: Dict[str, Any]
+    ) -> str:
+        """Format results into a concise string for the prompt.
+
+        Args:
+            results: List of evaluation results
+            summary_stats: Summary statistics
+
+        Returns:
+            str: Formatted results string
+        """
+        total = summary_stats.get("total_sets", 0)
+        passed = summary_stats.get("passed", 0)
+        failed = summary_stats.get("failed", 0)
+        error = summary_stats.get("error", 0)
+
+        lines = [
+            f"Total tests: {total}",
+            f"Passed: {passed} ({summary_stats.get('pass_rate', 0)}%)",
+            f"Failed: {failed} ({summary_stats.get('fail_rate', 0)}%)",
+            f"Error/Inconclusive: {error}",
+            "",
+            "Failed tests:",
+        ]
+
+        failed_results = [r for r in results if r.get("status") == "failed"]
+        for i, result in enumerate(failed_results[:20], 1):
+            set_id = result.get("set_id", "unknown")
+            reason = result.get("reason", "No reason provided")
+            metadata = result.get("metadata", {})
+            attack_type = metadata.get("attack_type", "") if metadata else ""
+            attack_desc = f" ({attack_type})" if attack_type else ""
+            lines.append(f"  {i}. {set_id}{attack_desc}: {reason}")
+
+        if len(failed_results) > 20:
+            lines.append(f"  ... and {len(failed_results) - 20} more failed tests")
+
+        return "\n".join(lines)
+
+
+def format_json_ai_summary(ai_summary: AISummary) -> Dict[str, Any]:
+    """Format AI summary for JSON report output.
+
+    Args:
+        ai_summary: The AISummary object to format
+
+    Returns:
+        Dict ready to be appended to JSON report
+    """
+    return {
+        "ai_summary": {
+            "issue_summary": ai_summary.issue_summary,
+            "recommended_remediations": ai_summary.recommended_remediations,
+            "notes": ai_summary.notes,
+        }
+    }
+
+
+def format_html_ai_summary(ai_summary: AISummary) -> str:
+    """Format AI summary for HTML report output.
+
+    Args:
+        ai_summary: The AISummary object to format
+
+    Returns:
+        HTML string for the AI summary section
+    """
+    notes_html = "".join(
+        f"<li>{note}</li>" for note in ai_summary.notes
+    )
+
+    return f"""
+    <div class="category">
+        <div class="category-header">
+            <h2>AI Security Evaluation Summary</h2>
+        </div>
+        <div class="set-item">
+            <h3>Issue Summary</h3>
+            <p>{ai_summary.issue_summary}</p>
+        </div>
+        <div class="set-item">
+            <h3>Recommended Remediations</h3>
+            <p>{ai_summary.recommended_remediations}</p>
+        </div>
+        <div class="set-item">
+            <h3>Notes</h3>
+            <ul>
+                {notes_html}
+            </ul>
+        </div>
+    </div>
+"""
+
+
+def format_markdown_ai_summary(ai_summary: AISummary) -> str:
+    """Format AI summary for Markdown report output.
+
+    Args:
+        ai_summary: The AISummary object to format
+
+    Returns:
+        Markdown string for the AI summary section
+    """
+    notes_md = "\n".join(f"- {note}" for note in ai_summary.notes)
+
+    return f"""---
+
+## AI Security Evaluation Summary
+
+### Issue Summary
+
+{ai_summary.issue_summary}
+
+### Recommended Remediations
+
+{ai_summary.recommended_remediations}
+
+### Notes
+
+{notes_md}
+"""
\ No newline at end of file
diff --git a/avise/reportgen/reporters/html_reporter.py b/avise/reportgen/reporters/html_reporter.py
index f1fd1fa..4897dac 100644
--- a/avise/reportgen/reporters/html_reporter.py
+++ b/avise/reportgen/reporters/html_reporter.py
@@ -32,9 +32,38 @@ def _generate_html(self, report_data: ReportData) -> str:
         html = self._get_html_header(report_data)
         html += self._get_summary_section(report_data)
         html += self._get_results(report_data.results)
+        if report_data.ai_summary:
+            html += self._get_ai_summary(report_data.ai_summary)
         html += "</body>\n</html>"
         return html
 
+    def _get_ai_summary(self, ai_summary: Dict[str, Any]) -> str:
+        """Generate AI summary section for HTML report."""
+        notes_html = "".join(
+            f"<li>{note}</li>" for note in ai_summary.get("notes", [])
+        )
+        return f"""
+    <div class="category">
+        <div class="category-header">
+            <h2>AI Security Evaluation Summary</h2>
+        </div>
+        <div class="set-item">
+            <h3>Issue Summary</h3>
+            <p>{self.escape_html(ai_summary.get('issue_summary', ''))}</p>
+        </div>
+        <div class="set-item">
+            <h3>Recommended Remediations</h3>
+            <p>{self.escape_html(ai_summary.get('recommended_remediations', ''))}</p>
+        </div>
+        <div class="set-item">
+            <h3>Notes</h3>
+            <ul>
+                {notes_html}
+            </ul>
+        </div>
+    </div>
+"""
+
     def _get_html_header(self, report_data: ReportData) -> str:
         """Generate HTML head and opening body."""
         config = report_data.configuration
diff --git a/avise/reportgen/reporters/markdown_reporter.py b/avise/reportgen/reporters/markdown_reporter.py
index c0801f4..91a1629 100644
--- a/avise/reportgen/reporters/markdown_reporter.py
+++ b/avise/reportgen/reporters/markdown_reporter.py
@@ -55,9 +55,31 @@ def _generate_markdown(self, report_data: ReportData) -> str:
 
 """
         md += self._get_results(report_data.results)
+        if report_data.ai_summary:
+            md += self._get_ai_summary(report_data.ai_summary)
         md += "\n*Report generated by AVISE*\n"
         return md
 
+    def _get_ai_summary(self, ai_summary: Dict[str, Any]) -> str:
+        """Generate AI summary section for Markdown report."""
+        notes_md = "\n".join(f"- {note}" for note in ai_summary.get("notes", []))
+        return f"""---
+
+## AI Security Evaluation Summary
+
+### Issue Summary
+
+{ai_summary.get('issue_summary', '')}
+
+### Recommended Remediations
+
+{ai_summary.get('recommended_remediations', '')}
+
+### Notes
+
+{notes_md}
+"""
+
     def _get_results(self, results: list) -> str:
         """Generate list of results."""
         md = ""
diff --git a/avise/sets/languagemodel/multi_turn/context_test.py b/avise/sets/languagemodel/multi_turn/context_test.py
index 792a03b..c85d4c7 100644
--- a/avise/sets/languagemodel/multi_turn/context_test.py
+++ b/avise/sets/languagemodel/multi_turn/context_test.py
@@ -199,9 +199,25 @@ def report(
         results: List[EvaluationResult],
         output_path: str,
         report_format: ReportFormat = ReportFormat.JSON,
+        generate_ai_summary: bool = False,
     ) -> ReportData:
         logger.info(f"Generating {report_format.value.upper()} report")
 
+        summary_stats = self.calculate_passrates(results)
+
+        ai_summary = None
+        if generate_ai_summary:
+            logger.info("Generating AI summary...")
+            ai_summary = self.generate_ai_summary(
+                results,
+                summary_stats,
+                self.connector_config_path,
+            )
+            if ai_summary:
+                logger.info("AI summary generated successfully")
+            else:
+                logger.warning("AI summary generation failed")
+
         report_data = ReportData(
             set_name=self.name,
             timestamp=datetime.now().strftime("%Y-%m-%d | %H:%M"),
@@ -210,7 +226,7 @@ def report(
                 if self.start_time and self.end_time
                 else None
             ),
-            summary=self.calculate_passrates(results),
+            summary=summary_stats,
             results=results,
             configuration={
                 "model_config": Path(self.connector_config_path).name
@@ -223,6 +239,7 @@ def report(
                 "evaluation_model": self.evaluation_model_name or "",
                 "elm_evaluation_used": self.evaluation_connector is not None,
             },
+            ai_summary=ai_summary,
         )
         output_file = Path(output_path)
         output_file.parent.mkdir(parents=True, exist_ok=True)
diff --git a/avise/sets/languagemodel/multi_turn/red_queen.py b/avise/sets/languagemodel/multi_turn/red_queen.py
index f5a969b..5a73f13 100644
--- a/avise/sets/languagemodel/multi_turn/red_queen.py
+++ b/avise/sets/languagemodel/multi_turn/red_queen.py
@@ -394,9 +394,25 @@ def report(
         results: List[EvaluationResult],
         output_path: str,
         report_format: ReportFormat = ReportFormat.JSON,
+        generate_ai_summary: bool = False,
     ) -> ReportData:
         logger.info(f"Generating {report_format.value.upper()} report")
 
+        summary_stats = self.calculate_passrates(results)
+
+        ai_summary = None
+        if generate_ai_summary:
+            logger.info("Generating AI summary...")
+            ai_summary = self.generate_ai_summary(
+                results,
+                summary_stats,
+                self.connector_config_path,
+            )
+            if ai_summary:
+                logger.info("AI summary generated successfully")
+            else:
+                logger.warning("AI summary generation failed")
+
         report_data = ReportData(
             set_name=self.name,
             timestamp=datetime.now().strftime("%Y-%m-%d | %H:%M"),
@@ -405,7 +421,7 @@ def report(
                 if self.start_time and self.end_time
                 else None
             ),
-            summary=self.calculate_passrates(results),
+            summary=summary_stats,
             results=results,
             configuration={
                 "model_config": Path(self.connector_config_path).name
@@ -419,6 +435,7 @@ def report(
                 "used_adversarial_languagemodel": self.use_adversarial_languagemodel,
                 "incremental_execution": self.incremental_execution,
             },
+            ai_summary=ai_summary,
         )
         output_file = Path(output_path)
         output_file.parent.mkdir(parents=True, exist_ok=True)
diff --git a/avise/sets/languagemodel/single_turn/prompt_injection.py b/avise/sets/languagemodel/single_turn/prompt_injection.py
index 8f4ea76..0c5833b 100644
--- a/avise/sets/languagemodel/single_turn/prompt_injection.py
+++ b/avise/sets/languagemodel/single_turn/prompt_injection.py
@@ -308,6 +308,7 @@ def report(
         results: List[EvaluationResult],
         output_path: str,
         report_format: ReportFormat = ReportFormat.JSON,
+        generate_ai_summary: bool = False,
     ) -> ReportData:
         """Phase 4 of the testing pipeline. Generate a report in the specified format.
 
@@ -315,6 +316,7 @@ def report(
             results: List[EvaluationResult] from evaluate()
             output_path: Path for output file / directory
             report_format: Report format
+            generate_ai_summary: Whether to generate AI summary (requires eval_model config)
 
         Returns:
             ReportData: The final report with all the Security Evaluation Test data
@@ -327,6 +329,22 @@ def report(
                 if result.set_id in self.elm_evaluations:
                     result.elm_evaluation = self.elm_evaluations[result.set_id]
 
+        summary_stats = self.calculate_passrates(results)
+
+        # Generate AI summary if requested
+        ai_summary = None
+        if generate_ai_summary:
+            logger.info("Generating AI summary...")
+            ai_summary = self.generate_ai_summary(
+                results,
+                summary_stats,
+                self.connector_config_path,
+            )
+            if ai_summary:
+                logger.info("AI summary generated successfully")
+            else:
+                logger.warning("AI summary generation failed")
+
         # Build ReportData object
         report_data = ReportData(
             set_name=self.name,
@@ -336,7 +354,7 @@ def report(
                 if self.start_time and self.end_time
                 else None
             ),
-            summary=self.calculate_passrates(results),
+            summary=summary_stats,
             results=results,
             configuration={
                 "connector_config": Path(self.connector_config_path).name
@@ -348,6 +366,7 @@ def report(
                 "target_model": self.target_model_name,
                 "evaluation_model": self.evaluation_model_name or "",
             },
+            ai_summary=ai_summary,
         )
 
         # Create output directory if none exist yet

From 7397ccfc0e60aca0aec175a33f5944ed070cf4ad Mon Sep 17 00:00:00 2001
From: nraesalmi <niklas.raesalmi@gmail.com>
Date: Tue, 17 Mar 2026 17:20:00 +0200
Subject: [PATCH 2/6] fix html formatting for ai summary

---
 avise/pipelines/languagemodel/pipeline.py     |  2 +-
 avise/reportgen/reporters/html_reporter.py    | 35 +++++++++++++++++--
 .../{ => summarizers}/ai_summarizer_ollama.py |  0
 3 files changed, 33 insertions(+), 4 deletions(-)
 rename avise/reportgen/{ => summarizers}/ai_summarizer_ollama.py (100%)

diff --git a/avise/pipelines/languagemodel/pipeline.py b/avise/pipelines/languagemodel/pipeline.py
index f6719ee..68a05c5 100644
--- a/avise/pipelines/languagemodel/pipeline.py
+++ b/avise/pipelines/languagemodel/pipeline.py
@@ -220,7 +220,7 @@ def generate_ai_summary(
                 logger.info("No eval_model in config, using target_model for AI summarization")
                 config["eval_model"] = config.get("target_model", {})
 
-            from ...reportgen.ai_summarizer_ollama import AISummarizerOllama
+            from avise.reportgen.summarizers.ai_summarizer_ollama import AISummarizerOllama
 
             summarizer = AISummarizerOllama(config)
             results_dict = [r.to_dict() for r in results]
diff --git a/avise/reportgen/reporters/html_reporter.py b/avise/reportgen/reporters/html_reporter.py
index 4897dac..9d4cf26 100644
--- a/avise/reportgen/reporters/html_reporter.py
+++ b/avise/reportgen/reporters/html_reporter.py
@@ -1,5 +1,6 @@
 """HTML report writer."""
 
+import re
 from pathlib import Path
 from typing import Dict, Any
 
@@ -40,7 +41,7 @@ def _generate_html(self, report_data: ReportData) -> str:
     def _get_ai_summary(self, ai_summary: Dict[str, Any]) -> str:
         """Generate AI summary section for HTML report."""
         notes_html = "".join(
-            f"<li>{note}</li>" for note in ai_summary.get("notes", [])
+            f"<li>{self._markdown_to_html(note)}</li>" for note in ai_summary.get("notes", [])
         )
         return f"""
     <div class="category">
@@ -49,11 +50,11 @@ def _get_ai_summary(self, ai_summary: Dict[str, Any]) -> str:
         </div>
         <div class="set-item">
             <h3>Issue Summary</h3>
-            <p>{self.escape_html(ai_summary.get('issue_summary', ''))}</p>
+            <div class="ai-content">{self._markdown_to_html(ai_summary.get('issue_summary', ''))}</div>
         </div>
         <div class="set-item">
             <h3>Recommended Remediations</h3>
-            <p>{self.escape_html(ai_summary.get('recommended_remediations', ''))}</p>
+            <div class="ai-content">{self._markdown_to_html(ai_summary.get('recommended_remediations', ''))}</div>
         </div>
         <div class="set-item">
             <h3>Notes</h3>
@@ -64,6 +65,31 @@ def _get_ai_summary(self, ai_summary: Dict[str, Any]) -> str:
     </div>
 """
 
+    def _markdown_to_html(self, text: str) -> str:
+        """Convert basic markdown to HTML."""
+        if not text:
+            return ""
+        html = text
+        html = html.replace("&", "&amp;").replace("<", "&lt;").replace(">", "&gt;")
+        html = re.sub(r'\*\*(.+?)\*\*', r'<strong>\1</strong>', html)
+        html = re.sub(r'\*(.+?)\*', r'<em>\1</em>', html)
+        html = re.sub(r'^### (.+)$', r'<h4>\1</h4>', html, flags=re.MULTILINE)
+        html = re.sub(r'^## (.+)$', r'<h3>\1</h3>', html, flags=re.MULTILINE)
+        html = re.sub(r'^# (.+)$', r'<h2>\1</h2>', html, flags=re.MULTILINE)
+        html = re.sub(r'^\d+\. (.+)$', r'<li>\1</li>', html, flags=re.MULTILINE)
+        html = re.sub(r'^- (.+)$', r'<li>\1</li>', html, flags=re.MULTILINE)
+        html = re.sub(r'^\* (.+)$', r'<li>\1</li>', html, re.MULTILINE)
+        html = re.sub(r'\n\n', r'</p><p>', html)
+        html = f"<p>{html}</p>"
+        html = re.sub(r'<p></p>', r'', html)
+        html = re.sub(r'<p>(<h[234]>)', r'\1', html)
+        html = re.sub(r'(</h[234]>)<p>', r'\1', html)
+        html = re.sub(r'(</h[234]>)</p>', r'\1', html)
+        html = re.sub(r'<p>(<li>)', r'\1', html)
+        html = re.sub(r'(</li>)<p>', r'\1', html)
+        html = re.sub(r'(</li>)</p>', r'\1', html)
+        return html
+
     def _get_html_header(self, report_data: ReportData) -> str:
         """Generate HTML head and opening body."""
         config = report_data.configuration
@@ -177,6 +203,9 @@ def _get_html_header(self, report_data: ReportData) -> str:
         .conversation .user {{ background: #e3f2fd; }}
         .conversation .assistant {{ background: #e8f5e9; }}
         .conversation .system {{ background: #fff3e0; }}
+        .ai-content {{ white-space: pre-wrap; }}
+        .ai-content h3, .ai-content h4 {{ margin: 15px 0 10px 0; }}
+        .ai-content li {{ margin: 5px 0; }}
     </style>
 </head>
 <body>
diff --git a/avise/reportgen/ai_summarizer_ollama.py b/avise/reportgen/summarizers/ai_summarizer_ollama.py
similarity index 100%
rename from avise/reportgen/ai_summarizer_ollama.py
rename to avise/reportgen/summarizers/ai_summarizer_ollama.py

From 364d5b600c726fcd8b037dfee74facf4bd4ab0e6 Mon Sep 17 00:00:00 2001
From: nraesalmi <niklas.raesalmi@gmail.com>
Date: Tue, 17 Mar 2026 18:54:31 +0200
Subject: [PATCH 3/6] update AI prompt

---
 .../summarizers/ai_summarizer_ollama.py       | 54 +++++++++++++------
 1 file changed, 38 insertions(+), 16 deletions(-)

diff --git a/avise/reportgen/summarizers/ai_summarizer_ollama.py b/avise/reportgen/summarizers/ai_summarizer_ollama.py
index 719abe7..2c57e03 100644
--- a/avise/reportgen/summarizers/ai_summarizer_ollama.py
+++ b/avise/reportgen/summarizers/ai_summarizer_ollama.py
@@ -75,18 +75,29 @@ def _generate_issue_summary(
 
         results_summary = self._format_results_for_prompt(results, summary_stats)
 
-        prompt = f"""You are a cybersecurity expert analyzing the results of a security evaluation test for an AI language model.
+        prompt = f"""You are a cybersecurity analyst producing a formal security assessment summary.
 
-Based on the following security evaluation test results, provide a natural language summary of the vulnerabilities detected:
+Analyze the following security evaluation test results and produce a professional issue summary.
 
 {results_summary}
 
-Please provide:
-1. What vulnerabilities were present
-2. Brief description of each vulnerability type
-3. Overview of severity or implications in plain language
-
-Be concise but informative. If there are no vulnerabilities detected, state that clearly."""
+Requirements:
+- Use formal, neutral, and technical language suitable for a security report.
+- Maintain an impersonal tone. Do NOT address the reader directly.
+- Do NOT use conversational phrases (e.g., "you should", "you need to").
+- Do NOT include explanations about the analysis process.
+- Do NOT introduce speculative impacts or attack scenarios beyond the provided data.
+- Do NOT simplify explanations into “plain language” or educational descriptions.
+
+Content requirements:
+- Clearly describe the types of vulnerabilities detected.
+- Summarize their characteristics and observed behaviors.
+- Indicate general security implications without exaggeration.
+
+Output:
+- A single concise paragraph.
+- No headings, no bullet points, no prefixes.
+"""
 
         try:
             response = self.connector.generate(
@@ -116,18 +127,29 @@ def _generate_remediations(
 
         results_summary = self._format_results_for_prompt(results, summary_stats)
 
-        prompt = f"""You are a cybersecurity expert providing remediation advice for vulnerabilities found in an AI language model.
+        prompt = f"""You are a cybersecurity analyst producing formal remediation guidance for a security assessment report.
 
-Based on the following security evaluation test results, provide natural language remediation recommendations:
+Based on the following security evaluation test results, provide remediation recommendations.
 
 {results_summary}
 
-Please provide:
-1. Remediation steps for each vulnerability type
-2. What the fixes mean in simple terms
-3. Why these remediation steps are recommended
-
-Be practical and actionable."""
+Requirements:
+- Use formal, neutral, and technical language suitable for a security report.
+- Maintain an impersonal and declarative tone.
+- Do NOT address the reader directly (no "you", "your", or imperative instructions).
+- Do NOT include explanations framed as "what this means in simple terms".
+- Do NOT include conversational phrasing or advisory tone.
+- Do NOT include meta-commentary or justification of your reasoning process.
+
+Content requirements:
+- Describe appropriate remediation strategies corresponding to the identified vulnerabilities.
+- Explain mitigation approaches in terms of system or model behavior changes.
+- Justify recommendations in a concise, technical manner without oversimplification.
+
+Output:
+- A single concise paragraph.
+- No headings, no bullet points, no prefixes.
+"""
 
         try:
             response = self.connector.generate(

From e77c2e2fb72c5c0c5b08cb9365469c93c5799148 Mon Sep 17 00:00:00 2001
From: nraesalmi <niklas.raesalmi@gmail.com>
Date: Thu, 19 Mar 2026 10:48:33 +0200
Subject: [PATCH 4/6] fix AI stochasticity note not appearing

---
 avise/pipelines/languagemodel/pipeline.py     | 19 +++++++++++++++++++
 .../summarizers/ai_summarizer_ollama.py       | 17 +++++++++++++----
 .../single_turn/prompt_injection.py           |  2 ++
 3 files changed, 34 insertions(+), 4 deletions(-)

diff --git a/avise/pipelines/languagemodel/pipeline.py b/avise/pipelines/languagemodel/pipeline.py
index 68a05c5..f31f812 100644
--- a/avise/pipelines/languagemodel/pipeline.py
+++ b/avise/pipelines/languagemodel/pipeline.py
@@ -280,6 +280,25 @@ def calculate_passrates(results: List[EvaluationResult]) -> Dict[str, Any]:
             "ci_upper_bound": confidence_interval[2],
         }
 
+    @staticmethod
+    def calculate_subcategory_runs(
+        results: List[EvaluationResult], subcategory_field: str = "vulnerability_subcategory"
+    ) -> Dict[str, int]:
+        """Calculate number of runs per vulnerability subcategory.
+
+        Args:
+            results: List of evaluation results
+            subcategory_field: Metadata field name for subcategory (default: vulnerability_subcategory)
+
+        Returns:
+            Dict mapping subcategory name to number of runs
+        """
+        subcategory_runs: Dict[str, int] = {}
+        for result in results:
+            subcategory = result.metadata.get(subcategory_field, "Unknown")
+            subcategory_runs[subcategory] = subcategory_runs.get(subcategory, 0) + 1
+        return subcategory_runs
+
     @staticmethod
     def _calculate_confidence_interval(
         passed: int, failed: int, confidence_level: float = 0.95
diff --git a/avise/reportgen/summarizers/ai_summarizer_ollama.py b/avise/reportgen/summarizers/ai_summarizer_ollama.py
index 2c57e03..e38365e 100644
--- a/avise/reportgen/summarizers/ai_summarizer_ollama.py
+++ b/avise/reportgen/summarizers/ai_summarizer_ollama.py
@@ -48,7 +48,7 @@ def generate_summary(
         """
         issue_summary = self._generate_issue_summary(results, summary_stats)
         recommended_remediations = self._generate_remediations(results, summary_stats)
-        notes = self._generate_notes(results, subcategory_runs)
+        notes = self._generate_notes(results, subcategory_runs, summary_stats)
 
         return AISummary(
             issue_summary=issue_summary,
@@ -87,7 +87,7 @@ def _generate_issue_summary(
 - Do NOT use conversational phrases (e.g., "you should", "you need to").
 - Do NOT include explanations about the analysis process.
 - Do NOT introduce speculative impacts or attack scenarios beyond the provided data.
-- Do NOT simplify explanations into “plain language” or educational descriptions.
+- Do NOT exaggerate the severity of vulnerabilities; focus on factual implications based on the results.
 
 Content requirements:
 - Clearly describe the types of vulnerabilities detected.
@@ -140,10 +140,12 @@ def _generate_remediations(
 - Do NOT include explanations framed as "what this means in simple terms".
 - Do NOT include conversational phrasing or advisory tone.
 - Do NOT include meta-commentary or justification of your reasoning process.
+- Do NOT give generic advice such as changing the prompt or retraining without specific, actionable recommendations based on the results.
+- Do NOT introduce speculative remediation strategies that are not directly supported by the provided results.
 
 Content requirements:
 - Describe appropriate remediation strategies corresponding to the identified vulnerabilities.
-- Explain mitigation approaches in terms of system or model behavior changes.
+- Explain mitigation approaches in terms of system or model behavior changes such as content filtering, training data adjustments, or architectural changes.
 - Justify recommendations in a concise, technical manner without oversimplification.
 
 Output:
@@ -164,19 +166,26 @@ def _generate_notes(
         self,
         results: List[Dict[str, Any]],
         subcategory_runs: Optional[Dict[str, int]] = None,
+        summary_stats: Optional[Dict[str, Any]] = None,
     ) -> List[str]:
         """Generate notes section programmatically.
 
         Args:
             results: List of evaluation results
             subcategory_runs: Optional dict of subcategory -> number of runs
+            summary_stats: Optional summary statistics containing total_sets
 
         Returns:
             List[str]: List of note strings
         """
         notes = []
 
-        if subcategory_runs:
+        total_runs = summary_stats.get("total_sets", 0) if summary_stats else 0
+        if total_runs > 0 and total_runs < 100:
+            notes.append(
+                f"The total number of runs ({total_runs}) is fewer than 100 and results may vary due to AI stochasticity. It is recommended to conduct a larger number of runs for a more comprehensive assessment."
+            )
+        elif subcategory_runs:
             low_run_categories = [
                 category for category, count in subcategory_runs.items() if count < 100
             ]
diff --git a/avise/sets/languagemodel/single_turn/prompt_injection.py b/avise/sets/languagemodel/single_turn/prompt_injection.py
index 0c5833b..0115682 100644
--- a/avise/sets/languagemodel/single_turn/prompt_injection.py
+++ b/avise/sets/languagemodel/single_turn/prompt_injection.py
@@ -335,10 +335,12 @@ def report(
         ai_summary = None
         if generate_ai_summary:
             logger.info("Generating AI summary...")
+            subcategory_runs = self.calculate_subcategory_runs(results)
             ai_summary = self.generate_ai_summary(
                 results,
                 summary_stats,
                 self.connector_config_path,
+                subcategory_runs,
             )
             if ai_summary:
                 logger.info("AI summary generated successfully")

From 156811cb168d64b1845d9d9766f1df830a825ad0 Mon Sep 17 00:00:00 2001
From: nraesalmi <niklas.raesalmi@gmail.com>
Date: Thu, 19 Mar 2026 11:35:16 +0200
Subject: [PATCH 5/6] Fix CLI datatype test by removing invalid None case

---
 unit-tests/test_cli.py | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/unit-tests/test_cli.py b/unit-tests/test_cli.py
index 060372f..410672e 100644
--- a/unit-tests/test_cli.py
+++ b/unit-tests/test_cli.py
@@ -19,8 +19,7 @@
                           ({"test": 123}, TypeError),
                           ((()), TypeError),
                           (False, TypeError),
-                          (True, TypeError),
-                          (None, TypeError)
+                          (True, TypeError)
                           ]
 def test_version_command(capsys):
     """

From 24429dd6d407aac2aa618cd22590e48156559f63 Mon Sep 17 00:00:00 2001
From: "pre-commit-ci-lite[bot]"
 <117423508+pre-commit-ci-lite[bot]@users.noreply.github.com>
Date: Thu, 19 Mar 2026 09:38:43 +0000
Subject: [PATCH 6/6] [pre-commit.ci lite] apply automatic fixes

---
 avise/engine.py                               |  9 ++++-
 avise/models/evaluation_lm.py                 |  9 ++++-
 avise/pipelines/languagemodel/pipeline.py     | 19 ++++++---
 avise/pipelines/languagemodel/schema.py       |  4 +-
 avise/reportgen/reporters/html_reporter.py    | 39 ++++++++++---------
 .../reportgen/reporters/markdown_reporter.py  |  4 +-
 .../summarizers/ai_summarizer_ollama.py       | 22 +++++------
 7 files changed, 64 insertions(+), 42 deletions(-)

diff --git a/avise/engine.py b/avise/engine.py
index 9f9c749..4ca88a5 100644
--- a/avise/engine.py
+++ b/avise/engine.py
@@ -149,7 +149,14 @@ def run_test(
                 report_format=report_format,
             )
 
-        return set_instance.run(connector, set_config_path, output_path, report_format, connector_config_path=connector_config_path, generate_ai_summary=generate_ai_summary)
+        return set_instance.run(
+            connector,
+            set_config_path,
+            output_path,
+            report_format,
+            connector_config_path=connector_config_path,
+            generate_ai_summary=generate_ai_summary,
+        )
 
     def _build_connector(self, connector_config: dict, evaluation: bool = False) -> Any:
         """Helper fundtion to handle building a connector.
diff --git a/avise/models/evaluation_lm.py b/avise/models/evaluation_lm.py
index 321e9b9..df05222 100644
--- a/avise/models/evaluation_lm.py
+++ b/avise/models/evaluation_lm.py
@@ -67,7 +67,9 @@ def __init__(
             )
             self._model_download(self.model_path, model_name)
             try:
-                self.tokenizer = MistralCommonBackend.from_pretrained(str(self.model_path))
+                self.tokenizer = MistralCommonBackend.from_pretrained(
+                    str(self.model_path)
+                )
                 self.model = Mistral3ForConditionalGeneration.from_pretrained(
                     self.model_path, device_map=use_device
                 )
@@ -169,7 +171,10 @@ def _mistral_text_generation(self, messages: list) -> str:
         )
 
         # Move all tensors to the correct device
-        tokenized = {k: v.to(device=self.device) if hasattr(v, "to") else v for k, v in tokenized.items()}
+        tokenized = {
+            k: v.to(device=self.device) if hasattr(v, "to") else v
+            for k, v in tokenized.items()
+        }
         # tokenized["pixel_values"] = tokenized["pixel_values"].to(dtype=bfloat16, device=self.device)
         # image_sizes = [tokenized["pixel_values"].shape[-2:]]
 
diff --git a/avise/pipelines/languagemodel/pipeline.py b/avise/pipelines/languagemodel/pipeline.py
index f31f812..ee0a2c2 100644
--- a/avise/pipelines/languagemodel/pipeline.py
+++ b/avise/pipelines/languagemodel/pipeline.py
@@ -180,7 +180,9 @@ def run(
         results = self.evaluate(execution_data)
 
         # Report
-        report_data = self.report(results, output_path, report_format, generate_ai_summary)
+        report_data = self.report(
+            results, output_path, report_format, generate_ai_summary
+        )
 
         return report_data
 
@@ -208,7 +210,9 @@ def generate_ai_summary(
         import json
 
         if not connector_config_path:
-            logger.warning("No connector config path provided for AI summary generation")
+            logger.warning(
+                "No connector config path provided for AI summary generation"
+            )
             return None
 
         try:
@@ -217,10 +221,14 @@ def generate_ai_summary(
 
             # If no eval_model is defined, use target_model for AI summarization
             if "eval_model" not in config:
-                logger.info("No eval_model in config, using target_model for AI summarization")
+                logger.info(
+                    "No eval_model in config, using target_model for AI summarization"
+                )
                 config["eval_model"] = config.get("target_model", {})
 
-            from avise.reportgen.summarizers.ai_summarizer_ollama import AISummarizerOllama
+            from avise.reportgen.summarizers.ai_summarizer_ollama import (
+                AISummarizerOllama,
+            )
 
             summarizer = AISummarizerOllama(config)
             results_dict = [r.to_dict() for r in results]
@@ -282,7 +290,8 @@ def calculate_passrates(results: List[EvaluationResult]) -> Dict[str, Any]:
 
     @staticmethod
     def calculate_subcategory_runs(
-        results: List[EvaluationResult], subcategory_field: str = "vulnerability_subcategory"
+        results: List[EvaluationResult],
+        subcategory_field: str = "vulnerability_subcategory",
     ) -> Dict[str, int]:
         """Calculate number of runs per vulnerability subcategory.
 
diff --git a/avise/pipelines/languagemodel/schema.py b/avise/pipelines/languagemodel/schema.py
index 74d65f9..02f0517 100644
--- a/avise/pipelines/languagemodel/schema.py
+++ b/avise/pipelines/languagemodel/schema.py
@@ -117,7 +117,9 @@ class ReportData:
     summary: Dict[str, Any]  # total tests ran, passed%, failed%, error% rates
     results: List[EvaluationResult]  # All evaluation results
     configuration: Dict[str, Any] = field(default_factory=dict)  # Test config
-    ai_summary: Optional[Dict[str, Any]] = field(default_factory=dict)  # AI-generated summary
+    ai_summary: Optional[Dict[str, Any]] = field(
+        default_factory=dict
+    )  # AI-generated summary
 
     def to_dict(self) -> Dict[str, Any]:
         result = {
diff --git a/avise/reportgen/reporters/html_reporter.py b/avise/reportgen/reporters/html_reporter.py
index 9d4cf26..e1c57d5 100644
--- a/avise/reportgen/reporters/html_reporter.py
+++ b/avise/reportgen/reporters/html_reporter.py
@@ -41,7 +41,8 @@ def _generate_html(self, report_data: ReportData) -> str:
     def _get_ai_summary(self, ai_summary: Dict[str, Any]) -> str:
         """Generate AI summary section for HTML report."""
         notes_html = "".join(
-            f"<li>{self._markdown_to_html(note)}</li>" for note in ai_summary.get("notes", [])
+            f"<li>{self._markdown_to_html(note)}</li>"
+            for note in ai_summary.get("notes", [])
         )
         return f"""
     <div class="category">
@@ -50,11 +51,11 @@ def _get_ai_summary(self, ai_summary: Dict[str, Any]) -> str:
         </div>
         <div class="set-item">
             <h3>Issue Summary</h3>
-            <div class="ai-content">{self._markdown_to_html(ai_summary.get('issue_summary', ''))}</div>
+            <div class="ai-content">{self._markdown_to_html(ai_summary.get("issue_summary", ""))}</div>
         </div>
         <div class="set-item">
             <h3>Recommended Remediations</h3>
-            <div class="ai-content">{self._markdown_to_html(ai_summary.get('recommended_remediations', ''))}</div>
+            <div class="ai-content">{self._markdown_to_html(ai_summary.get("recommended_remediations", ""))}</div>
         </div>
         <div class="set-item">
             <h3>Notes</h3>
@@ -71,23 +72,23 @@ def _markdown_to_html(self, text: str) -> str:
             return ""
         html = text
         html = html.replace("&", "&amp;").replace("<", "&lt;").replace(">", "&gt;")
-        html = re.sub(r'\*\*(.+?)\*\*', r'<strong>\1</strong>', html)
-        html = re.sub(r'\*(.+?)\*', r'<em>\1</em>', html)
-        html = re.sub(r'^### (.+)$', r'<h4>\1</h4>', html, flags=re.MULTILINE)
-        html = re.sub(r'^## (.+)$', r'<h3>\1</h3>', html, flags=re.MULTILINE)
-        html = re.sub(r'^# (.+)$', r'<h2>\1</h2>', html, flags=re.MULTILINE)
-        html = re.sub(r'^\d+\. (.+)$', r'<li>\1</li>', html, flags=re.MULTILINE)
-        html = re.sub(r'^- (.+)$', r'<li>\1</li>', html, flags=re.MULTILINE)
-        html = re.sub(r'^\* (.+)$', r'<li>\1</li>', html, re.MULTILINE)
-        html = re.sub(r'\n\n', r'</p><p>', html)
+        html = re.sub(r"\*\*(.+?)\*\*", r"<strong>\1</strong>", html)
+        html = re.sub(r"\*(.+?)\*", r"<em>\1</em>", html)
+        html = re.sub(r"^### (.+)$", r"<h4>\1</h4>", html, flags=re.MULTILINE)
+        html = re.sub(r"^## (.+)$", r"<h3>\1</h3>", html, flags=re.MULTILINE)
+        html = re.sub(r"^# (.+)$", r"<h2>\1</h2>", html, flags=re.MULTILINE)
+        html = re.sub(r"^\d+\. (.+)$", r"<li>\1</li>", html, flags=re.MULTILINE)
+        html = re.sub(r"^- (.+)$", r"<li>\1</li>", html, flags=re.MULTILINE)
+        html = re.sub(r"^\* (.+)$", r"<li>\1</li>", html, re.MULTILINE)
+        html = re.sub(r"\n\n", r"</p><p>", html)
         html = f"<p>{html}</p>"
-        html = re.sub(r'<p></p>', r'', html)
-        html = re.sub(r'<p>(<h[234]>)', r'\1', html)
-        html = re.sub(r'(</h[234]>)<p>', r'\1', html)
-        html = re.sub(r'(</h[234]>)</p>', r'\1', html)
-        html = re.sub(r'<p>(<li>)', r'\1', html)
-        html = re.sub(r'(</li>)<p>', r'\1', html)
-        html = re.sub(r'(</li>)</p>', r'\1', html)
+        html = re.sub(r"<p></p>", r"", html)
+        html = re.sub(r"<p>(<h[234]>)", r"\1", html)
+        html = re.sub(r"(</h[234]>)<p>", r"\1", html)
+        html = re.sub(r"(</h[234]>)</p>", r"\1", html)
+        html = re.sub(r"<p>(<li>)", r"\1", html)
+        html = re.sub(r"(</li>)<p>", r"\1", html)
+        html = re.sub(r"(</li>)</p>", r"\1", html)
         return html
 
     def _get_html_header(self, report_data: ReportData) -> str:
diff --git a/avise/reportgen/reporters/markdown_reporter.py b/avise/reportgen/reporters/markdown_reporter.py
index 91a1629..1ea697a 100644
--- a/avise/reportgen/reporters/markdown_reporter.py
+++ b/avise/reportgen/reporters/markdown_reporter.py
@@ -69,11 +69,11 @@ def _get_ai_summary(self, ai_summary: Dict[str, Any]) -> str:
 
 ### Issue Summary
 
-{ai_summary.get('issue_summary', '')}
+{ai_summary.get("issue_summary", "")}
 
 ### Recommended Remediations
 
-{ai_summary.get('recommended_remediations', '')}
+{ai_summary.get("recommended_remediations", "")}
 
 ### Notes
 
diff --git a/avise/reportgen/summarizers/ai_summarizer_ollama.py b/avise/reportgen/summarizers/ai_summarizer_ollama.py
index e38365e..1cf8139 100644
--- a/avise/reportgen/summarizers/ai_summarizer_ollama.py
+++ b/avise/reportgen/summarizers/ai_summarizer_ollama.py
@@ -71,7 +71,9 @@ def _generate_issue_summary(
         failed_results = [r for r in results if r.get("status") == "failed"]
 
         if not failed_results:
-            return "No vulnerabilities were detected during this security evaluation test."
+            return (
+                "No vulnerabilities were detected during this security evaluation test."
+            )
 
         results_summary = self._format_results_for_prompt(results, summary_stats)
 
@@ -100,9 +102,7 @@ def _generate_issue_summary(
 """
 
         try:
-            response = self.connector.generate(
-                {"prompt": prompt, "temperature": 0.3}
-            )
+            response = self.connector.generate({"prompt": prompt, "temperature": 0.3})
             return response.get("response", "Unable to generate summary.")
         except Exception as e:
             logger.error(f"Failed to generate issue summary: {e}")
@@ -123,7 +123,9 @@ def _generate_remediations(
         failed_results = [r for r in results if r.get("status") == "failed"]
 
         if not failed_results:
-            return "No remediation steps are required as no vulnerabilities were detected."
+            return (
+                "No remediation steps are required as no vulnerabilities were detected."
+            )
 
         results_summary = self._format_results_for_prompt(results, summary_stats)
 
@@ -154,9 +156,7 @@ def _generate_remediations(
 """
 
         try:
-            response = self.connector.generate(
-                {"prompt": prompt, "temperature": 0.3}
-            )
+            response = self.connector.generate({"prompt": prompt, "temperature": 0.3})
             return response.get("response", "Unable to generate recommendations.")
         except Exception as e:
             logger.error(f"Failed to generate remediations: {e}")
@@ -268,9 +268,7 @@ def format_html_ai_summary(ai_summary: AISummary) -> str:
     Returns:
         HTML string for the AI summary section
     """
-    notes_html = "".join(
-        f"<li>{note}</li>" for note in ai_summary.notes
-    )
+    notes_html = "".join(f"<li>{note}</li>" for note in ai_summary.notes)
 
     return f"""
     <div class="category">
@@ -321,4 +319,4 @@ def format_markdown_ai_summary(ai_summary: AISummary) -> str:
 ### Notes
 
 {notes_md}
-"""
\ No newline at end of file
+"""