x

2026-02-04 00:00:34 +00:00 · 2025-10-13 15:44:56 -04:00 · 2025-10-13 15:43:53 -04:00 · 2025-10-13 14:42:48 -04:00 · 2025-10-13 14:42:18 -04:00 · 2025-10-13 14:34:36 -04:00
15 changed files with 1955 additions and 676 deletions
--- a/libs/langchain_v1/langchain/agents/middleware/init.py
+++ b/libs/langchain_v1/langchain/agents/middleware/init.py
@@ -12,7 +12,6 @@ from .model_call_limit import ModelCallLimitMiddleware
 from .model_fallback import ModelFallbackMiddleware
 from .pii import PIIDetectionError, PIIMiddleware
 from .planning import PlanningMiddleware
-from .prompt_caching import AnthropicPromptCachingMiddleware
 from .summarization import SummarizationMiddleware
 from .tool_call_limit import ToolCallLimitMiddleware
 from .tool_emulator import LLMToolEmulator
@@ -33,8 +32,6 @@ from .types import (
 __all__ = [
    "AgentMiddleware",
    "AgentState",
-    # should move to langchain-anthropic if we decide to keep it
-    "AnthropicPromptCachingMiddleware",
    "ClearToolUsesEdit",
    "ContextEditingMiddleware",
    "HumanInTheLoopMiddleware",
--- a/libs/langchain_v1/langchain/agents/middleware/context_editing.py
+++ b/libs/langchain_v1/langchain/agents/middleware/context_editing.py
@@ -8,7 +8,7 @@ with any LangChain chat model.

 from __future__ import annotations

-from collections.abc import Callable, Iterable, Sequence
+from collections.abc import Awaitable, Callable, Iterable, Sequence
 from dataclasses import dataclass
 from typing import Literal

@@ -239,6 +239,34 @@ class ContextEditingMiddleware(AgentMiddleware):

        return handler(request)

+    async def awrap_model_call(
+        self,
+        request: ModelRequest,
+        handler: Callable[[ModelRequest], Awaitable[ModelResponse]],
+    ) -> ModelCallResult:
+        """Apply context edits before invoking the model via handler (async version)."""
+        if not request.messages:
+            return await handler(request)
+
+        if self.token_count_method == "approximate":  # noqa: S105
+
+            def count_tokens(messages: Sequence[BaseMessage]) -> int:
+                return count_tokens_approximately(messages)
+        else:
+            system_msg = (
+                [SystemMessage(content=request.system_prompt)] if request.system_prompt else []
+            )
+
+            def count_tokens(messages: Sequence[BaseMessage]) -> int:
+                return request.model.get_num_tokens_from_messages(
+                    system_msg + list(messages), request.tools
+                )
+
+        for edit in self.edits:
+            edit.apply(request.messages, count_tokens=count_tokens)
+
+        return await handler(request)
+

 __all__ = [
    "ClearToolUsesEdit",
--- a/libs/langchain_v1/langchain/agents/middleware/model_fallback.py
+++ b/libs/langchain_v1/langchain/agents/middleware/model_fallback.py
@@ -13,7 +13,7 @@ from langchain.agents.middleware.types import (
 from langchain.chat_models import init_chat_model

 if TYPE_CHECKING:
-    from collections.abc import Callable
+    from collections.abc import Awaitable, Callable

    from langchain_core.language_models.chat_models import BaseChatModel

@@ -102,3 +102,38 @@ class ModelFallbackMiddleware(AgentMiddleware):
                continue

        raise last_exception
+
+    async def awrap_model_call(
+        self,
+        request: ModelRequest,
+        handler: Callable[[ModelRequest], Awaitable[ModelResponse]],
+    ) -> ModelCallResult:
+        """Try fallback models in sequence on errors (async version).
+
+        Args:
+            request: Initial model request.
+            handler: Async callback to execute the model.
+
+        Returns:
+            AIMessage from successful model call.
+
+        Raises:
+            Exception: If all models fail, re-raises last exception.
+        """
+        # Try primary model first
+        last_exception: Exception
+        try:
+            return await handler(request)
+        except Exception as e:  # noqa: BLE001
+            last_exception = e
+
+        # Try fallback models
+        for fallback_model in self.models:
+            request.model = fallback_model
+            try:
+                return await handler(request)
+            except Exception as e:  # noqa: BLE001
+                last_exception = e
+                continue
+
+        raise last_exception
--- a/libs/langchain_v1/langchain/agents/middleware/planning.py
+++ b/libs/langchain_v1/langchain/agents/middleware/planning.py
@@ -6,7 +6,7 @@ from __future__ import annotations
 from typing import TYPE_CHECKING, Annotated, Literal

 if TYPE_CHECKING:
-    from collections.abc import Callable
+    from collections.abc import Awaitable, Callable

 from langchain_core.messages import ToolMessage
 from langchain_core.tools import tool
@@ -204,3 +204,16 @@ class PlanningMiddleware(AgentMiddleware):
            else self.system_prompt
        )
        return handler(request)
+
+    async def awrap_model_call(
+        self,
+        request: ModelRequest,
+        handler: Callable[[ModelRequest], Awaitable[ModelResponse]],
+    ) -> ModelCallResult:
+        """Update the system prompt to include the todo system prompt (async version)."""
+        request.system_prompt = (
+            request.system_prompt + "\n\n" + self.system_prompt
+            if request.system_prompt
+            else self.system_prompt
+        )
+        return await handler(request)
--- a/libs/langchain_v1/langchain/agents/middleware/prompt_caching.py
+++ b/libs/langchain_v1/langchain/agents/middleware/prompt_caching.py
@@ -1,89 +0,0 @@
-"""Anthropic prompt caching middleware."""
-
-from collections.abc import Callable
-from typing import Literal
-from warnings import warn
-
-from langchain.agents.middleware.types import (
-    AgentMiddleware,
-    ModelCallResult,
-    ModelRequest,
-    ModelResponse,
-)
-
-
-class AnthropicPromptCachingMiddleware(AgentMiddleware):
-    """Prompt Caching Middleware.
-
-    Optimizes API usage by caching conversation prefixes for Anthropic models.
-
-    Learn more about Anthropic prompt caching
-    [here](https://docs.anthropic.com/en/docs/build-with-claude/prompt-caching).
-    """
-
-    def __init__(
-        self,
-        type: Literal["ephemeral"] = "ephemeral",
-        ttl: Literal["5m", "1h"] = "5m",
-        min_messages_to_cache: int = 0,
-        unsupported_model_behavior: Literal["ignore", "warn", "raise"] = "warn",
-    ) -> None:
-        """Initialize the middleware with cache control settings.
-
-        Args:
-            type: The type of cache to use, only "ephemeral" is supported.
-            ttl: The time to live for the cache, only "5m" and "1h" are supported.
-            min_messages_to_cache: The minimum number of messages until the cache is used,
-                default is 0.
-            unsupported_model_behavior: The behavior to take when an unsupported model is used.
-                "ignore" will ignore the unsupported model and continue without caching.
-                "warn" will warn the user and continue without caching.
-                "raise" will raise an error and stop the agent.
-        """
-        self.type = type
-        self.ttl = ttl
-        self.min_messages_to_cache = min_messages_to_cache
-        self.unsupported_model_behavior = unsupported_model_behavior
-
-    def wrap_model_call(
-        self,
-        request: ModelRequest,
-        handler: Callable[[ModelRequest], ModelResponse],
-    ) -> ModelCallResult:
-        """Modify the model request to add cache control blocks."""
-        try:
-            from langchain_anthropic import ChatAnthropic
-        except ImportError:
-            ChatAnthropic = None  # noqa: N806
-
-        msg: str | None = None
-
-        if ChatAnthropic is None:
-            msg = (
-                "AnthropicPromptCachingMiddleware caching middleware only supports "
-                "Anthropic models. "
-                "Please install langchain-anthropic."
-            )
-        elif not isinstance(request.model, ChatAnthropic):
-            msg = (
-                "AnthropicPromptCachingMiddleware caching middleware only supports "
-                f"Anthropic models, not instances of {type(request.model)}"
-            )
-
-        if msg is not None:
-            if self.unsupported_model_behavior == "raise":
-                raise ValueError(msg)
-            if self.unsupported_model_behavior == "warn":
-                warn(msg, stacklevel=3)
-            else:
-                return handler(request)
-
-        messages_count = (
-            len(request.messages) + 1 if request.system_prompt else len(request.messages)
-        )
-        if messages_count < self.min_messages_to_cache:
-            return handler(request)
-
-        request.model_settings["cache_control"] = {"type": self.type, "ttl": self.ttl}
-
-        return handler(request)
--- a/libs/langchain_v1/tests/unit_tests/agents/test_context_editing_middleware.py
+++ b/libs/langchain_v1/tests/unit_tests/agents/test_context_editing_middleware.py
@@ -233,3 +233,169 @@ def test_exclude_tools_prevents_clearing() -> None:

 def _fake_runtime() -> Runtime:
    return cast(Runtime, object())
+
+
+async def test_no_edit_when_below_trigger_async() -> None:
+    """Test async version of context editing with no edit when below trigger."""
+    tool_call_id = "call-1"
+    ai_message = AIMessage(
+        content="",
+        tool_calls=[{"id": tool_call_id, "name": "search", "args": {}}],
+    )
+    tool_message = ToolMessage(content="12345", tool_call_id=tool_call_id)
+
+    state, request = _make_state_and_request([ai_message, tool_message])
+    middleware = ContextEditingMiddleware(
+        edits=[ClearToolUsesEdit(trigger=50)],
+    )
+
+    async def mock_handler(req: ModelRequest) -> AIMessage:
+        return AIMessage(content="mock response")
+
+    # Call awrap_model_call which modifies the request
+    await middleware.awrap_model_call(request, mock_handler)
+
+    # The request should have been modified in place
+    assert request.messages[0].content == ""
+    assert request.messages[1].content == "12345"
+    assert state["messages"] == request.messages
+
+
+async def test_clear_tool_outputs_and_inputs_async() -> None:
+    """Test async version of clearing tool outputs and inputs."""
+    tool_call_id = "call-2"
+    ai_message = AIMessage(
+        content=[
+            {"type": "tool_call", "id": tool_call_id, "name": "search", "args": {"query": "foo"}}
+        ],
+        tool_calls=[{"id": tool_call_id, "name": "search", "args": {"query": "foo"}}],
+    )
+    tool_message = ToolMessage(content="x" * 200, tool_call_id=tool_call_id)
+
+    state, request = _make_state_and_request([ai_message, tool_message])
+
+    edit = ClearToolUsesEdit(
+        trigger=50,
+        clear_at_least=10,
+        clear_tool_inputs=True,
+        keep=0,
+        placeholder="[cleared output]",
+    )
+    middleware = ContextEditingMiddleware(edits=[edit])
+
+    async def mock_handler(req: ModelRequest) -> AIMessage:
+        return AIMessage(content="mock response")
+
+    # Call awrap_model_call which modifies the request
+    await middleware.awrap_model_call(request, mock_handler)
+
+    cleared_ai = request.messages[0]
+    cleared_tool = request.messages[1]
+
+    assert isinstance(cleared_tool, ToolMessage)
+    assert cleared_tool.content == "[cleared output]"
+    assert cleared_tool.response_metadata["context_editing"]["cleared"] is True
+
+    assert isinstance(cleared_ai, AIMessage)
+    assert cleared_ai.tool_calls[0]["args"] == {}
+    context_meta = cleared_ai.response_metadata.get("context_editing")
+    assert context_meta is not None
+    assert context_meta["cleared_tool_inputs"] == [tool_call_id]
+
+    assert state["messages"] == request.messages
+
+
+async def test_respects_keep_last_tool_results_async() -> None:
+    """Test async version respects keep parameter for last tool results."""
+    conversation: list[AIMessage | ToolMessage] = []
+    edits = [
+        ("call-a", "tool-output-a" * 5),
+        ("call-b", "tool-output-b" * 5),
+        ("call-c", "tool-output-c" * 5),
+    ]
+
+    for call_id, text in edits:
+        conversation.append(
+            AIMessage(
+                content="",
+                tool_calls=[{"id": call_id, "name": "tool", "args": {"input": call_id}}],
+            )
+        )
+        conversation.append(ToolMessage(content=text, tool_call_id=call_id))
+
+    state, request = _make_state_and_request(conversation)
+
+    middleware = ContextEditingMiddleware(
+        edits=[
+            ClearToolUsesEdit(
+                trigger=50,
+                keep=1,
+                placeholder="[cleared]",
+            )
+        ],
+        token_count_method="model",
+    )
+
+    async def mock_handler(req: ModelRequest) -> AIMessage:
+        return AIMessage(content="mock response")
+
+    # Call awrap_model_call which modifies the request
+    await middleware.awrap_model_call(request, mock_handler)
+
+    cleared_messages = [
+        msg
+        for msg in request.messages
+        if isinstance(msg, ToolMessage) and msg.content == "[cleared]"
+    ]
+
+    assert len(cleared_messages) == 2
+    assert isinstance(request.messages[-1], ToolMessage)
+    assert request.messages[-1].content != "[cleared]"
+
+
+async def test_exclude_tools_prevents_clearing_async() -> None:
+    """Test async version of excluding tools from clearing."""
+    search_call = "call-search"
+    calc_call = "call-calc"
+
+    state, request = _make_state_and_request(
+        [
+            AIMessage(
+                content="",
+                tool_calls=[{"id": search_call, "name": "search", "args": {"query": "foo"}}],
+            ),
+            ToolMessage(content="search-results" * 20, tool_call_id=search_call),
+            AIMessage(
+                content="",
+                tool_calls=[{"id": calc_call, "name": "calculator", "args": {"a": 1, "b": 2}}],
+            ),
+            ToolMessage(content="42", tool_call_id=calc_call),
+        ]
+    )
+
+    middleware = ContextEditingMiddleware(
+        edits=[
+            ClearToolUsesEdit(
+                trigger=50,
+                clear_at_least=10,
+                keep=0,
+                exclude_tools=("search",),
+                placeholder="[cleared]",
+            )
+        ],
+    )
+
+    async def mock_handler(req: ModelRequest) -> AIMessage:
+        return AIMessage(content="mock response")
+
+    # Call awrap_model_call which modifies the request
+    await middleware.awrap_model_call(request, mock_handler)
+
+    search_tool = request.messages[1]
+    calc_tool = request.messages[3]
+
+    assert isinstance(search_tool, ToolMessage)
+    assert search_tool.content == "search-results" * 20
+
+    assert isinstance(calc_tool, ToolMessage)
+    assert calc_tool.content == "[cleared]"
--- a/libs/langchain_v1/tests/unit_tests/agents/test_middleware_agent.py
+++ b/libs/langchain_v1/tests/unit_tests/agents/test_middleware_agent.py
@@ -44,7 +44,6 @@ from langchain.agents.middleware.model_call_limit import (
    ModelCallLimitExceededError,
 )
 from langchain.agents.middleware.model_fallback import ModelFallbackMiddleware
-from langchain.agents.middleware.prompt_caching import AnthropicPromptCachingMiddleware
 from langchain.agents.middleware.summarization import SummarizationMiddleware
 from langchain.agents.middleware.types import (
    AgentMiddleware,
@@ -1024,115 +1023,6 @@ def test_human_in_the_loop_middleware_description_as_callable() -> None:
        assert captured_request["action_requests"][1]["description"] == "Static description"


-# Tests for AnthropicPromptCachingMiddleware
-def test_anthropic_prompt_caching_middleware_initialization() -> None:
-    """Test AnthropicPromptCachingMiddleware initialization."""
-    # Test with custom values
-    middleware = AnthropicPromptCachingMiddleware(
-        type="ephemeral", ttl="1h", min_messages_to_cache=5
-    )
-    assert middleware.type == "ephemeral"
-    assert middleware.ttl == "1h"
-    assert middleware.min_messages_to_cache == 5
-
-    # Test with default values
-    middleware = AnthropicPromptCachingMiddleware()
-    assert middleware.type == "ephemeral"
-    assert middleware.ttl == "5m"
-    assert middleware.min_messages_to_cache == 0
-
-    fake_request = ModelRequest(
-        model=FakeToolCallingModel(),
-        messages=[HumanMessage("Hello")],
-        system_prompt=None,
-        tool_choice=None,
-        tools=[],
-        response_format=None,
-        state={"messages": [HumanMessage("Hello")]},
-        runtime=cast(Runtime, object()),
-        model_settings={},
-    )
-
-    def mock_handler(req: ModelRequest) -> AIMessage:
-        return AIMessage(content="mock response", **req.model_settings)
-
-    result = middleware.wrap_model_call(fake_request, mock_handler)
-    # Check that model_settings were passed through via the request
-    assert fake_request.model_settings == {"cache_control": {"type": "ephemeral", "ttl": "5m"}}
-
-
-def test_anthropic_prompt_caching_middleware_unsupported_model() -> None:
-    """Test AnthropicPromptCachingMiddleware with unsupported model."""
-    from typing import cast
-
-    fake_request = ModelRequest(
-        model=FakeToolCallingModel(),
-        messages=[HumanMessage("Hello")],
-        system_prompt=None,
-        tool_choice=None,
-        tools=[],
-        response_format=None,
-        state={"messages": [HumanMessage("Hello")]},
-        runtime=cast(Runtime, object()),
-        model_settings={},
-    )
-
-    middleware = AnthropicPromptCachingMiddleware(unsupported_model_behavior="raise")
-
-    def mock_handler(req: ModelRequest) -> AIMessage:
-        return AIMessage(content="mock response")
-
-    with pytest.raises(
-        ValueError,
-        match="AnthropicPromptCachingMiddleware caching middleware only supports Anthropic models. Please install langchain-anthropic.",
-    ):
-        middleware.wrap_model_call(fake_request, mock_handler)
-
-    langchain_anthropic = ModuleType("langchain_anthropic")
-
-    class MockChatAnthropic:
-        pass
-
-    langchain_anthropic.ChatAnthropic = MockChatAnthropic
-
-    with patch.dict("sys.modules", {"langchain_anthropic": langchain_anthropic}):
-        with pytest.raises(
-            ValueError,
-            match="AnthropicPromptCachingMiddleware caching middleware only supports Anthropic models, not instances of",
-        ):
-            middleware.wrap_model_call(fake_request, mock_handler)
-
-    middleware = AnthropicPromptCachingMiddleware(unsupported_model_behavior="warn")
-
-    with warnings.catch_warnings(record=True) as w:
-        result = middleware.wrap_model_call(fake_request, mock_handler)
-        assert len(w) == 1
-        assert (
-            "AnthropicPromptCachingMiddleware caching middleware only supports Anthropic models. Please install langchain-anthropic."
-            in str(w[-1].message)
-        )
-        assert isinstance(result, AIMessage)
-
-    with warnings.catch_warnings(record=True) as w:
-        with patch.dict("sys.modules", {"langchain_anthropic": langchain_anthropic}):
-            result = middleware.wrap_model_call(fake_request, mock_handler)
-            assert isinstance(result, AIMessage)
-            assert len(w) == 1
-            assert (
-                "AnthropicPromptCachingMiddleware caching middleware only supports Anthropic models, not instances of"
-                in str(w[-1].message)
-            )
-
-    middleware = AnthropicPromptCachingMiddleware(unsupported_model_behavior="ignore")
-
-    result = middleware.wrap_model_call(fake_request, mock_handler)
-    assert isinstance(result, AIMessage)
-
-    with patch.dict("sys.modules", {"langchain_anthropic": {"ChatAnthropic": object()}}):
-        result = middleware.wrap_model_call(fake_request, mock_handler)
-        assert isinstance(result, AIMessage)
-
-
 # Tests for SummarizationMiddleware
 def test_summarization_middleware_initialization() -> None:
    """Test SummarizationMiddleware initialization."""
--- a/libs/langchain_v1/tests/unit_tests/agents/test_model_fallback_middleware.py
+++ b/libs/langchain_v1/tests/unit_tests/agents/test_model_fallback_middleware.py
@@ -0,0 +1,220 @@
+"""Unit tests for ModelFallbackMiddleware."""
+
+from __future__ import annotations
+
+from typing import cast
+
+import pytest
+from langchain_core.language_models.fake_chat_models import GenericFakeChatModel
+from langchain_core.messages import AIMessage
+
+from langchain.agents.middleware.model_fallback import ModelFallbackMiddleware
+from langchain.agents.middleware.types import ModelRequest, ModelResponse
+from langgraph.runtime import Runtime
+
+
+def _fake_runtime() -> Runtime:
+    return cast(Runtime, object())
+
+
+def _make_request() -> ModelRequest:
+    """Create a minimal ModelRequest for testing."""
+    model = GenericFakeChatModel(messages=iter([AIMessage(content="primary")]))
+    return ModelRequest(
+        model=model,
+        system_prompt=None,
+        messages=[],
+        tool_choice=None,
+        tools=[],
+        response_format=None,
+        state=cast("AgentState", {}),  # type: ignore[name-defined]
+        runtime=_fake_runtime(),
+        model_settings={},
+    )
+
+
+def test_primary_model_succeeds() -> None:
+    """Test that primary model is used when it succeeds."""
+    primary_model = GenericFakeChatModel(messages=iter([AIMessage(content="primary response")]))
+    fallback_model = GenericFakeChatModel(messages=iter([AIMessage(content="fallback response")]))
+
+    middleware = ModelFallbackMiddleware(fallback_model)
+    request = _make_request()
+    request.model = primary_model
+
+    def mock_handler(req: ModelRequest) -> ModelResponse:
+        # Simulate successful model call
+        result = req.model.invoke([])
+        return ModelResponse(result=[result])
+
+    response = middleware.wrap_model_call(request, mock_handler)
+
+    assert isinstance(response, ModelResponse)
+    assert response.result[0].content == "primary response"
+
+
+def test_fallback_on_primary_failure() -> None:
+    """Test that fallback model is used when primary fails."""
+
+    class FailingPrimaryModel(GenericFakeChatModel):
+        def _generate(self, messages, **kwargs):
+            raise ValueError("Primary model failed")
+
+    primary_model = FailingPrimaryModel(messages=iter([AIMessage(content="should not see")]))
+    fallback_model = GenericFakeChatModel(messages=iter([AIMessage(content="fallback response")]))
+
+    middleware = ModelFallbackMiddleware(fallback_model)
+    request = _make_request()
+    request.model = primary_model
+
+    def mock_handler(req: ModelRequest) -> ModelResponse:
+        result = req.model.invoke([])
+        return ModelResponse(result=[result])
+
+    response = middleware.wrap_model_call(request, mock_handler)
+
+    assert isinstance(response, ModelResponse)
+    assert response.result[0].content == "fallback response"
+
+
+def test_multiple_fallbacks() -> None:
+    """Test that multiple fallback models are tried in sequence."""
+
+    class FailingModel(GenericFakeChatModel):
+        def _generate(self, messages, **kwargs):
+            raise ValueError("Model failed")
+
+    primary_model = FailingModel(messages=iter([AIMessage(content="should not see")]))
+    fallback1 = FailingModel(messages=iter([AIMessage(content="fallback1")]))
+    fallback2 = GenericFakeChatModel(messages=iter([AIMessage(content="fallback2")]))
+
+    middleware = ModelFallbackMiddleware(fallback1, fallback2)
+    request = _make_request()
+    request.model = primary_model
+
+    def mock_handler(req: ModelRequest) -> ModelResponse:
+        result = req.model.invoke([])
+        return ModelResponse(result=[result])
+
+    response = middleware.wrap_model_call(request, mock_handler)
+
+    assert isinstance(response, ModelResponse)
+    assert response.result[0].content == "fallback2"
+
+
+def test_all_models_fail() -> None:
+    """Test that exception is raised when all models fail."""
+
+    class AlwaysFailingModel(GenericFakeChatModel):
+        def _generate(self, messages, **kwargs):
+            raise ValueError("Model failed")
+
+    primary_model = AlwaysFailingModel(messages=iter([]))
+    fallback_model = AlwaysFailingModel(messages=iter([]))
+
+    middleware = ModelFallbackMiddleware(fallback_model)
+    request = _make_request()
+    request.model = primary_model
+
+    def mock_handler(req: ModelRequest) -> ModelResponse:
+        result = req.model.invoke([])
+        return ModelResponse(result=[result])
+
+    with pytest.raises(ValueError, match="Model failed"):
+        middleware.wrap_model_call(request, mock_handler)
+
+
+# ==============================================================================
+# Async Tests
+# ==============================================================================
+
+
+async def test_primary_model_succeeds_async() -> None:
+    """Test async version - primary model is used when it succeeds."""
+    primary_model = GenericFakeChatModel(messages=iter([AIMessage(content="primary response")]))
+    fallback_model = GenericFakeChatModel(messages=iter([AIMessage(content="fallback response")]))
+
+    middleware = ModelFallbackMiddleware(fallback_model)
+    request = _make_request()
+    request.model = primary_model
+
+    async def mock_handler(req: ModelRequest) -> ModelResponse:
+        # Simulate successful async model call
+        result = await req.model.ainvoke([])
+        return ModelResponse(result=[result])
+
+    response = await middleware.awrap_model_call(request, mock_handler)
+
+    assert isinstance(response, ModelResponse)
+    assert response.result[0].content == "primary response"
+
+
+async def test_fallback_on_primary_failure_async() -> None:
+    """Test async version - fallback model is used when primary fails."""
+
+    class AsyncFailingPrimaryModel(GenericFakeChatModel):
+        async def _agenerate(self, messages, **kwargs):
+            raise ValueError("Primary model failed")
+
+    primary_model = AsyncFailingPrimaryModel(messages=iter([AIMessage(content="should not see")]))
+    fallback_model = GenericFakeChatModel(messages=iter([AIMessage(content="fallback response")]))
+
+    middleware = ModelFallbackMiddleware(fallback_model)
+    request = _make_request()
+    request.model = primary_model
+
+    async def mock_handler(req: ModelRequest) -> ModelResponse:
+        result = await req.model.ainvoke([])
+        return ModelResponse(result=[result])
+
+    response = await middleware.awrap_model_call(request, mock_handler)
+
+    assert isinstance(response, ModelResponse)
+    assert response.result[0].content == "fallback response"
+
+
+async def test_multiple_fallbacks_async() -> None:
+    """Test async version - multiple fallback models are tried in sequence."""
+
+    class AsyncFailingModel(GenericFakeChatModel):
+        async def _agenerate(self, messages, **kwargs):
+            raise ValueError("Model failed")
+
+    primary_model = AsyncFailingModel(messages=iter([AIMessage(content="should not see")]))
+    fallback1 = AsyncFailingModel(messages=iter([AIMessage(content="fallback1")]))
+    fallback2 = GenericFakeChatModel(messages=iter([AIMessage(content="fallback2")]))
+
+    middleware = ModelFallbackMiddleware(fallback1, fallback2)
+    request = _make_request()
+    request.model = primary_model
+
+    async def mock_handler(req: ModelRequest) -> ModelResponse:
+        result = await req.model.ainvoke([])
+        return ModelResponse(result=[result])
+
+    response = await middleware.awrap_model_call(request, mock_handler)
+
+    assert isinstance(response, ModelResponse)
+    assert response.result[0].content == "fallback2"
+
+
+async def test_all_models_fail_async() -> None:
+    """Test async version - exception is raised when all models fail."""
+
+    class AsyncAlwaysFailingModel(GenericFakeChatModel):
+        async def _agenerate(self, messages, **kwargs):
+            raise ValueError("Model failed")
+
+    primary_model = AsyncAlwaysFailingModel(messages=iter([]))
+    fallback_model = AsyncAlwaysFailingModel(messages=iter([]))
+
+    middleware = ModelFallbackMiddleware(fallback_model)
+    request = _make_request()
+    request.model = primary_model
+
+    async def mock_handler(req: ModelRequest) -> ModelResponse:
+        result = await req.model.ainvoke([])
+        return ModelResponse(result=[result])
+
+    with pytest.raises(ValueError, match="Model failed"):
+        await middleware.awrap_model_call(request, mock_handler)
--- a/libs/langchain_v1/tests/unit_tests/agents/test_planning_middleware.py
+++ b/libs/langchain_v1/tests/unit_tests/agents/test_planning_middleware.py
@@ -0,0 +1,172 @@
+"""Unit tests for PlanningMiddleware."""
+
+from __future__ import annotations
+
+from typing import cast
+
+from langchain_core.language_models.fake_chat_models import GenericFakeChatModel
+from langchain_core.messages import AIMessage
+
+from langchain.agents.middleware.planning import PlanningMiddleware
+from langchain.agents.middleware.types import ModelRequest, ModelResponse
+from langgraph.runtime import Runtime
+
+
+def _fake_runtime() -> Runtime:
+    return cast(Runtime, object())
+
+
+def _make_request(system_prompt: str | None = None) -> ModelRequest:
+    """Create a minimal ModelRequest for testing."""
+    model = GenericFakeChatModel(messages=iter([AIMessage(content="response")]))
+    return ModelRequest(
+        model=model,
+        system_prompt=system_prompt,
+        messages=[],
+        tool_choice=None,
+        tools=[],
+        response_format=None,
+        state=cast("AgentState", {}),  # type: ignore[name-defined]
+        runtime=_fake_runtime(),
+        model_settings={},
+    )
+
+
+def test_adds_system_prompt_when_none_exists() -> None:
+    """Test that middleware adds system prompt when request has none."""
+    middleware = PlanningMiddleware()
+    request = _make_request(system_prompt=None)
+
+    def mock_handler(req: ModelRequest) -> ModelResponse:
+        return ModelResponse(result=[AIMessage(content="response")])
+
+    middleware.wrap_model_call(request, mock_handler)
+
+    # System prompt should be set
+    assert request.system_prompt is not None
+    assert "write_todos" in request.system_prompt
+
+
+def test_appends_to_existing_system_prompt() -> None:
+    """Test that middleware appends to existing system prompt."""
+    existing_prompt = "You are a helpful assistant."
+    middleware = PlanningMiddleware()
+    request = _make_request(system_prompt=existing_prompt)
+
+    def mock_handler(req: ModelRequest) -> ModelResponse:
+        return ModelResponse(result=[AIMessage(content="response")])
+
+    middleware.wrap_model_call(request, mock_handler)
+
+    # System prompt should contain both
+    assert request.system_prompt is not None
+    assert existing_prompt in request.system_prompt
+    assert "write_todos" in request.system_prompt
+    assert request.system_prompt.startswith(existing_prompt)
+
+
+def test_custom_system_prompt() -> None:
+    """Test that middleware uses custom system prompt."""
+    custom_prompt = "Custom planning instructions"
+    middleware = PlanningMiddleware(system_prompt=custom_prompt)
+    request = _make_request(system_prompt=None)
+
+    def mock_handler(req: ModelRequest) -> ModelResponse:
+        return ModelResponse(result=[AIMessage(content="response")])
+
+    middleware.wrap_model_call(request, mock_handler)
+
+    # Should use custom prompt
+    assert request.system_prompt == custom_prompt
+
+
+def test_has_write_todos_tool() -> None:
+    """Test that middleware registers the write_todos tool."""
+    middleware = PlanningMiddleware()
+
+    # Should have one tool registered
+    assert len(middleware.tools) == 1
+    assert middleware.tools[0].name == "write_todos"
+
+
+def test_custom_tool_description() -> None:
+    """Test that middleware uses custom tool description."""
+    custom_description = "Custom todo tool description"
+    middleware = PlanningMiddleware(tool_description=custom_description)
+
+    # Tool should use custom description
+    assert len(middleware.tools) == 1
+    assert middleware.tools[0].description == custom_description
+
+
+# ==============================================================================
+# Async Tests
+# ==============================================================================
+
+
+async def test_adds_system_prompt_when_none_exists_async() -> None:
+    """Test async version - middleware adds system prompt when request has none."""
+    middleware = PlanningMiddleware()
+    request = _make_request(system_prompt=None)
+
+    async def mock_handler(req: ModelRequest) -> ModelResponse:
+        return ModelResponse(result=[AIMessage(content="response")])
+
+    await middleware.awrap_model_call(request, mock_handler)
+
+    # System prompt should be set
+    assert request.system_prompt is not None
+    assert "write_todos" in request.system_prompt
+
+
+async def test_appends_to_existing_system_prompt_async() -> None:
+    """Test async version - middleware appends to existing system prompt."""
+    existing_prompt = "You are a helpful assistant."
+    middleware = PlanningMiddleware()
+    request = _make_request(system_prompt=existing_prompt)
+
+    async def mock_handler(req: ModelRequest) -> ModelResponse:
+        return ModelResponse(result=[AIMessage(content="response")])
+
+    await middleware.awrap_model_call(request, mock_handler)
+
+    # System prompt should contain both
+    assert request.system_prompt is not None
+    assert existing_prompt in request.system_prompt
+    assert "write_todos" in request.system_prompt
+    assert request.system_prompt.startswith(existing_prompt)
+
+
+async def test_custom_system_prompt_async() -> None:
+    """Test async version - middleware uses custom system prompt."""
+    custom_prompt = "Custom planning instructions"
+    middleware = PlanningMiddleware(system_prompt=custom_prompt)
+    request = _make_request(system_prompt=None)
+
+    async def mock_handler(req: ModelRequest) -> ModelResponse:
+        return ModelResponse(result=[AIMessage(content="response")])
+
+    await middleware.awrap_model_call(request, mock_handler)
+
+    # Should use custom prompt
+    assert request.system_prompt == custom_prompt
+
+
+async def test_handler_called_with_modified_request_async() -> None:
+    """Test async version - handler receives the modified request."""
+    middleware = PlanningMiddleware()
+    request = _make_request(system_prompt="Original")
+    handler_called = {"value": False}
+    received_prompt = {"value": None}
+
+    async def mock_handler(req: ModelRequest) -> ModelResponse:
+        handler_called["value"] = True
+        received_prompt["value"] = req.system_prompt
+        return ModelResponse(result=[AIMessage(content="response")])
+
+    await middleware.awrap_model_call(request, mock_handler)
+
+    assert handler_called["value"]
+    assert received_prompt["value"] is not None
+    assert "Original" in received_prompt["value"]
+    assert "write_todos" in received_prompt["value"]
--- a/libs/partners/anthropic/langchain_anthropic/middleware/init.py
+++ b/libs/partners/anthropic/langchain_anthropic/middleware/init.py
@@ -0,0 +1,9 @@
+"""Middleware for Anthropic models."""
+
+from langchain_anthropic.middleware.prompt_caching import (
+    AnthropicPromptCachingMiddleware,
+)
+
+__all__ = [
+    "AnthropicPromptCachingMiddleware",
+]
--- a/libs/partners/anthropic/langchain_anthropic/middleware/prompt_caching.py
+++ b/libs/partners/anthropic/langchain_anthropic/middleware/prompt_caching.py
@@ -0,0 +1,157 @@
+"""Anthropic prompt caching middleware.
+
+Requires:
+    - langchain: For agent middleware framework
+    - langchain-anthropic: For ChatAnthropic model (already a dependency)
+"""
+
+from collections.abc import Awaitable, Callable
+from typing import Literal
+from warnings import warn
+
+try:
+    from langchain.agents.middleware.types import (
+        AgentMiddleware,
+        ModelCallResult,
+        ModelRequest,
+        ModelResponse,
+    )
+except ImportError as e:
+    msg = (
+        "AnthropicPromptCachingMiddleware requires 'langchain' to be installed. "
+        "This middleware is designed for use with LangChain agents. "
+        "Install it with: pip install langchain"
+    )
+    raise ImportError(msg) from e
+
+
+class AnthropicPromptCachingMiddleware(AgentMiddleware):
+    """Prompt Caching Middleware.
+
+    Optimizes API usage by caching conversation prefixes for Anthropic models.
+
+    Requires both 'langchain' and 'langchain-anthropic' packages to be installed.
+
+    Learn more about Anthropic prompt caching
+    [here](https://docs.anthropic.com/en/docs/build-with-claude/prompt-caching).
+    """
+
+    def __init__(
+        self,
+        type: Literal["ephemeral"] = "ephemeral",  # noqa: A002
+        ttl: Literal["5m", "1h"] = "5m",
+        min_messages_to_cache: int = 0,
+        unsupported_model_behavior: Literal["ignore", "warn", "raise"] = "warn",
+    ) -> None:
+        """Initialize the middleware with cache control settings.
+
+        Args:
+            type: The type of cache to use, only "ephemeral" is supported.
+            ttl: The time to live for the cache, only "5m" and "1h" are
+                supported.
+            min_messages_to_cache: The minimum number of messages until the
+                cache is used, default is 0.
+            unsupported_model_behavior: The behavior to take when an
+                unsupported model is used. "ignore" will ignore the unsupported
+                model and continue without caching. "warn" will warn the user
+                and continue without caching. "raise" will raise an error and
+                stop the agent.
+        """
+        self.type = type
+        self.ttl = ttl
+        self.min_messages_to_cache = min_messages_to_cache
+        self.unsupported_model_behavior = unsupported_model_behavior
+
+    def wrap_model_call(
+        self,
+        request: ModelRequest,
+        handler: Callable[[ModelRequest], ModelResponse],
+    ) -> ModelCallResult:
+        """Modify the model request to add cache control blocks."""
+        try:
+            from langchain_anthropic import ChatAnthropic
+
+            chat_anthropic_cls: type | None = ChatAnthropic
+        except ImportError:
+            chat_anthropic_cls = None
+
+        msg: str | None = None
+
+        if chat_anthropic_cls is None:
+            msg = (
+                "AnthropicPromptCachingMiddleware caching middleware only supports "
+                "Anthropic models. "
+                "Please install langchain-anthropic."
+            )
+        elif not isinstance(request.model, chat_anthropic_cls):
+            msg = (
+                "AnthropicPromptCachingMiddleware caching middleware only supports "
+                f"Anthropic models, not instances of {type(request.model)}"
+            )
+
+        if msg is not None:
+            if self.unsupported_model_behavior == "raise":
+                raise ValueError(msg)
+            if self.unsupported_model_behavior == "warn":
+                warn(msg, stacklevel=3)
+            else:
+                return handler(request)
+
+        messages_count = (
+            len(request.messages) + 1
+            if request.system_prompt
+            else len(request.messages)
+        )
+        if messages_count < self.min_messages_to_cache:
+            return handler(request)
+
+        request.model_settings["cache_control"] = {"type": self.type, "ttl": self.ttl}
+
+        return handler(request)
+
+    async def awrap_model_call(
+        self,
+        request: ModelRequest,
+        handler: Callable[[ModelRequest], Awaitable[ModelResponse]],
+    ) -> ModelCallResult:
+        """Modify the model request to add cache control blocks (async version)."""
+        try:
+            from langchain_anthropic import ChatAnthropic
+
+            chat_anthropic_cls: type | None = ChatAnthropic
+        except ImportError:
+            chat_anthropic_cls = None
+
+        msg: str | None = None
+
+        if chat_anthropic_cls is None:
+            msg = (
+                "AnthropicPromptCachingMiddleware caching middleware only supports "
+                "Anthropic models. "
+                "Please install langchain-anthropic."
+            )
+        elif not isinstance(request.model, chat_anthropic_cls):
+            msg = (
+                "AnthropicPromptCachingMiddleware caching middleware only supports "
+                f"Anthropic models, not instances of {type(request.model)}"
+            )
+
+        if msg is not None:
+            if self.unsupported_model_behavior == "raise":
+                raise ValueError(msg)
+            if self.unsupported_model_behavior == "warn":
+                warn(msg, stacklevel=3)
+            else:
+                return await handler(request)
+
+        messages_count = (
+            len(request.messages) + 1
+            if request.system_prompt
+            else len(request.messages)
+        )
+        if messages_count < self.min_messages_to_cache:
+            return await handler(request)
+
+        request.model_settings["cache_control"] = {"type": self.type, "ttl": self.ttl}
+
+        return await handler(request)
--- a/libs/partners/anthropic/pyproject.toml
+++ b/libs/partners/anthropic/pyproject.toml
@@ -41,6 +41,7 @@ test = [
    "vcrpy>=7.0.0,<8.0.0",
    "langchain-core",
    "langchain-tests",
+    "langchain",
 ]
 lint = ["ruff>=0.13.1,<0.14.0"]
 dev = ["langchain-core"]
@@ -55,6 +56,7 @@ typing = [
 [tool.uv.sources]
 langchain-core = { path = "../../core", editable = true }
 langchain-tests = { path = "../../standard-tests", editable = true }
+langchain = { path = "../../langchain_v1", editable = true }

 [tool.mypy]
 disallow_untyped_defs = "True"
--- a/libs/partners/anthropic/tests/unit_tests/middleware/init.py
+++ b/libs/partners/anthropic/tests/unit_tests/middleware/init.py
@@ -0,0 +1 @@
+"""Tests for Anthropic middleware."""
--- a/libs/partners/anthropic/tests/unit_tests/middleware/test_prompt_caching.py
+++ b/libs/partners/anthropic/tests/unit_tests/middleware/test_prompt_caching.py
@@ -0,0 +1,238 @@
+"""Tests for Anthropic prompt caching middleware."""
+
+import warnings
+from typing import Any, cast
+
+import pytest
+from langchain.agents.middleware.types import ModelRequest, ModelResponse
+from langchain_core.callbacks import (
+    AsyncCallbackManagerForLLMRun,
+    CallbackManagerForLLMRun,
+)
+from langchain_core.language_models import BaseChatModel
+from langchain_core.messages import AIMessage, BaseMessage, HumanMessage
+from langchain_core.outputs import ChatGeneration, ChatResult
+from langgraph.runtime import Runtime
+
+from langchain_anthropic.middleware import AnthropicPromptCachingMiddleware
+
+
+class FakeToolCallingModel(BaseChatModel):
+    """Fake model for testing middleware."""
+
+    def _generate(
+        self,
+        messages: list[BaseMessage],
+        stop: list[str] | None = None,
+        run_manager: CallbackManagerForLLMRun | None = None,
+        **kwargs: Any,
+    ) -> ChatResult:
+        """Top Level call"""
+        messages_string = "-".join([str(m.content) for m in messages])
+        message = AIMessage(content=messages_string, id="0")
+        return ChatResult(generations=[ChatGeneration(message=message)])
+
+    async def _agenerate(
+        self,
+        messages: list[BaseMessage],
+        stop: list[str] | None = None,
+        run_manager: AsyncCallbackManagerForLLMRun | None = None,
+        **kwargs: Any,
+    ) -> ChatResult:
+        """Async top level call"""
+        messages_string = "-".join([str(m.content) for m in messages])
+        message = AIMessage(content=messages_string, id="0")
+        return ChatResult(generations=[ChatGeneration(message=message)])
+
+    @property
+    def _llm_type(self) -> str:
+        return "fake-tool-call-model"
+
+
+def test_anthropic_prompt_caching_middleware_initialization() -> None:
+    """Test AnthropicPromptCachingMiddleware initialization."""
+    # Test with custom values
+    middleware = AnthropicPromptCachingMiddleware(
+        type="ephemeral", ttl="1h", min_messages_to_cache=5
+    )
+    assert middleware.type == "ephemeral"
+    assert middleware.ttl == "1h"
+    assert middleware.min_messages_to_cache == 5
+
+    # Test with default values
+    middleware = AnthropicPromptCachingMiddleware()
+    assert middleware.type == "ephemeral"
+    assert middleware.ttl == "5m"
+    assert middleware.min_messages_to_cache == 0
+
+    fake_request = ModelRequest(
+        model=FakeToolCallingModel(),
+        messages=[HumanMessage("Hello")],
+        system_prompt=None,
+        tool_choice=None,
+        tools=[],
+        response_format=None,
+        state={"messages": [HumanMessage("Hello")]},
+        runtime=cast(Runtime, object()),
+        model_settings={},
+    )
+
+    def mock_handler(req: ModelRequest) -> ModelResponse:
+        return ModelResponse(result=[AIMessage(content="mock response")])
+
+    middleware.wrap_model_call(fake_request, mock_handler)
+    # Check that model_settings were passed through via the request
+    assert fake_request.model_settings == {
+        "cache_control": {"type": "ephemeral", "ttl": "5m"}
+    }
+
+
+def test_anthropic_prompt_caching_middleware_unsupported_model() -> None:
+    """Test AnthropicPromptCachingMiddleware with unsupported model."""
+    fake_request = ModelRequest(
+        model=FakeToolCallingModel(),
+        messages=[HumanMessage("Hello")],
+        system_prompt=None,
+        tool_choice=None,
+        tools=[],
+        response_format=None,
+        state={"messages": [HumanMessage("Hello")]},
+        runtime=cast(Runtime, object()),
+        model_settings={},
+    )
+
+    middleware = AnthropicPromptCachingMiddleware(unsupported_model_behavior="raise")
+
+    def mock_handler(req: ModelRequest) -> ModelResponse:
+        return ModelResponse(result=[AIMessage(content="mock response")])
+
+    # Since we're in the langchain-anthropic package, ChatAnthropic is always
+    # available. Test that it raises an error for unsupported model instances
+    with pytest.raises(
+        ValueError,
+        match=(
+            "AnthropicPromptCachingMiddleware caching middleware only supports "
+            "Anthropic models, not instances of"
+        ),
+    ):
+        middleware.wrap_model_call(fake_request, mock_handler)
+
+    middleware = AnthropicPromptCachingMiddleware(unsupported_model_behavior="warn")
+
+    # Test warn behavior for unsupported model instances
+    with warnings.catch_warnings(record=True) as w:
+        result = middleware.wrap_model_call(fake_request, mock_handler)
+        assert isinstance(result, ModelResponse)
+        assert len(w) == 1
+        assert (
+            "AnthropicPromptCachingMiddleware caching middleware only supports "
+            "Anthropic models, not instances of"
+        ) in str(w[-1].message)
+
+    # Test ignore behavior
+    middleware = AnthropicPromptCachingMiddleware(unsupported_model_behavior="ignore")
+    result = middleware.wrap_model_call(fake_request, mock_handler)
+    assert isinstance(result, ModelResponse)
+
+
+async def test_anthropic_prompt_caching_middleware_async() -> None:
+    """Test AnthropicPromptCachingMiddleware async path."""
+    # Test with custom values
+    middleware = AnthropicPromptCachingMiddleware(
+        type="ephemeral", ttl="1h", min_messages_to_cache=5
+    )
+
+    fake_request = ModelRequest(
+        model=FakeToolCallingModel(),
+        messages=[HumanMessage("Hello")] * 6,
+        system_prompt=None,
+        tool_choice=None,
+        tools=[],
+        response_format=None,
+        state={"messages": [HumanMessage("Hello")] * 6},
+        runtime=cast(Runtime, object()),
+        model_settings={},
+    )
+
+    async def mock_handler(req: ModelRequest) -> ModelResponse:
+        return ModelResponse(result=[AIMessage(content="mock response")])
+
+    result = await middleware.awrap_model_call(fake_request, mock_handler)
+    assert isinstance(result, ModelResponse)
+    # Check that model_settings were passed through via the request
+    assert fake_request.model_settings == {
+        "cache_control": {"type": "ephemeral", "ttl": "1h"}
+    }
+
+
+async def test_anthropic_prompt_caching_middleware_async_unsupported_model() -> None:
+    """Test AnthropicPromptCachingMiddleware async path with unsupported model."""
+    fake_request = ModelRequest(
+        model=FakeToolCallingModel(),
+        messages=[HumanMessage("Hello")],
+        system_prompt=None,
+        tool_choice=None,
+        tools=[],
+        response_format=None,
+        state={"messages": [HumanMessage("Hello")]},
+        runtime=cast(Runtime, object()),
+        model_settings={},
+    )
+
+    middleware = AnthropicPromptCachingMiddleware(unsupported_model_behavior="raise")
+
+    async def mock_handler(req: ModelRequest) -> ModelResponse:
+        return ModelResponse(result=[AIMessage(content="mock response")])
+
+    # Test that it raises an error for unsupported model instances
+    with pytest.raises(
+        ValueError,
+        match=(
+            "AnthropicPromptCachingMiddleware caching middleware only supports "
+            "Anthropic models, not instances of"
+        ),
+    ):
+        await middleware.awrap_model_call(fake_request, mock_handler)
+
+    middleware = AnthropicPromptCachingMiddleware(unsupported_model_behavior="warn")
+
+    # Test warn behavior for unsupported model instances
+    with warnings.catch_warnings(record=True) as w:
+        result = await middleware.awrap_model_call(fake_request, mock_handler)
+        assert isinstance(result, ModelResponse)
+        assert len(w) == 1
+        assert (
+            "AnthropicPromptCachingMiddleware caching middleware only supports "
+            "Anthropic models, not instances of"
+        ) in str(w[-1].message)
+
+    # Test ignore behavior
+    middleware = AnthropicPromptCachingMiddleware(unsupported_model_behavior="ignore")
+    result = await middleware.awrap_model_call(fake_request, mock_handler)
+    assert isinstance(result, ModelResponse)
+
+
+async def test_anthropic_prompt_caching_middleware_async_min_messages() -> None:
+    """Test async path respects min_messages_to_cache."""
+    middleware = AnthropicPromptCachingMiddleware(min_messages_to_cache=5)
+
+    # Test with fewer messages than minimum
+    fake_request = ModelRequest(
+        model=FakeToolCallingModel(),
+        messages=[HumanMessage("Hello")] * 3,
+        system_prompt=None,
+        tool_choice=None,
+        tools=[],
+        response_format=None,
+        state={"messages": [HumanMessage("Hello")] * 3},
+        runtime=cast(Runtime, object()),
+        model_settings={},
+    )
+
+    async def mock_handler(req: ModelRequest) -> ModelResponse:
+        return ModelResponse(result=[AIMessage(content="mock response")])
+
+    result = await middleware.awrap_model_call(fake_request, mock_handler)
+    assert isinstance(result, ModelResponse)
+    # Cache control should NOT be added when message count is below minimum
+    assert fake_request.model_settings == {}
--- a/libs/partners/anthropic/uv.lock
+++ b/libs/partners/anthropic/uv.lock
Author	SHA1	Message	Date
Eugene Yurtsev	fed37ddf96	x	2025-10-13 15:44:56 -04:00
Eugene Yurtsev	9f6b660f00	x	2025-10-13 15:43:53 -04:00
Eugene Yurtsev	00c2380019	x	2025-10-13 14:42:48 -04:00
Eugene Yurtsev	c53ffe4b82	x	2025-10-13 14:42:18 -04:00
Eugene Yurtsev	23f5b0cedf	x	2025-10-13 14:34:36 -04:00
Eugene Yurtsev	89e3a10cbd	langchain-anthropic middleware	2025-10-13 10:05:14 -04:00
Eugene Yurtsev	fad0e2dbd8	update anthropic pyproject / uv lock	2025-10-13 10:02:46 -04:00
Eugene Yurtsev	6c2f0eb67a	update langchain_v1	2025-10-13 10:02:19 -04:00