Normalize Trajectory Eval Score (#7668)

2025-09-13 13:36:15 +00:00 · 2023-07-13 09:58:28 -07:00
parent 5f03cc3511
commit aab2a7cd4b
3 changed files with 17 additions and 13 deletions
--- a/tests/unit_tests/evaluation/agents/test_eval_chain.py
+++ b/tests/unit_tests/evaluation/agents/test_eval_chain.py
@@ -70,7 +70,7 @@ def test_trajectory_eval_chain(
        agent_trajectory=intermediate_steps,
        prediction="I like pie.",
    )
-    assert res["score"] == 5
+    assert res["score"] == 1.0
    # Test when ref is provided
    res = chain.evaluate_agent_trajectory(
        input="What is your favorite food?",
@@ -78,7 +78,7 @@ def test_trajectory_eval_chain(
        prediction="I like pie.",
        reference="Paris",
    )
-    assert res["score"] == 1
+    assert res["score"] == 0.0


 def test_trajectory_eval_chain_no_tools(
@@ -97,14 +97,14 @@ def test_trajectory_eval_chain_no_tools(
        agent_trajectory=intermediate_steps,
        prediction="I like pie.",
    )
-    assert res["score"] == 5
+    assert res["score"] == 1.0
    res = chain.evaluate_agent_trajectory(
        input="What is your favorite food?",
        agent_trajectory=intermediate_steps,
        prediction="I like pie.",
        reference="Paris",
    )
-    assert res["score"] == 1
+    assert res["score"] == 0.0


 def test_old_api_works(intermediate_steps: List[Tuple[AgentAction, str]]) -> None:
@@ -123,7 +123,7 @@ def test_old_api_works(intermediate_steps: List[Tuple[AgentAction, str]]) -> Non
            "answer": "I like pie.",
        }
    )
-    assert res["score"] == 5
+    assert res["score"] == 1.0

    res = chain(
        {
@@ -133,4 +133,4 @@ def test_old_api_works(intermediate_steps: List[Tuple[AgentAction, str]]) -> Non
            "reference": "Paris",
        }
    )
-    assert res["score"] == 1
+    assert res["score"] == 0.0