pingcap · lidezhu · Feb 8, 2026 · coderabbitai · Feb 8, 2026
diff --git a/logservice/logpuller/region_req_cache.go b/logservice/logpuller/region_req_cache.go
@@ -87,6 +87,18 @@ func newRequestCache(maxPendingCount int) *requestCache {
 	return res
 }
 
+// markDropped marks a region request as finished without being tracked in sentRequests.
+// It is used when a request is popped from pendingQueue but won't be sent (for example, for a stop task),
+// or when sending fails before markSent is called.
+func (c *requestCache) markDropped() {
+	c.decPendingCount()
+	// Notify waiting add operations that there's space available.
+	select {
+	case c.spaceAvailable <- struct{}{}:
+	default: // If channel is full, skip notification
+	}
+}
+
 // add adds a new region request to the cache
 // It blocks if pendingCount >= maxPendingCount until there's space or ctx is cancelled
 func (c *requestCache) add(ctx context.Context, region regionInfo, force bool) (bool, error) {
@@ -255,9 +267,15 @@ func (c *requestCache) clearStaleRequest() {
 		}
 	}
 
-	if reqCount == 0 && c.pendingCount.Load() != 0 {
-		log.Info("region worker pending request count is not equal to actual region request count, correct it", zap.Int("pendingCount", int(c.pendingCount.Load())), zap.Int("actualReqCount", reqCount))
-		c.pendingCount.Store(0)
+	actualReqCount := int64(reqCount) + int64(len(c.pendingQueue))
+	pendingCount := c.pendingCount.Load()
+	// One request can be "in flight" (popped from pendingQueue but not yet marked sent),
+	// so we tolerate a small mismatch to avoid false corrections.
+	if pendingCount < actualReqCount || pendingCount-actualReqCount > 1 {
+		log.Info("region worker pending request count is not equal to actual region request count, correct it",
+			zap.Int("pendingCount", int(pendingCount)),
+			zap.Int64("actualReqCount", actualReqCount))
+		c.pendingCount.Store(actualReqCount)
 	}
 
 	c.lastCheckStaleRequestTime.Store(time.Now())

diff --git a/logservice/logpuller/region_request_worker.go b/logservice/logpuller/region_request_worker.go
@@ -93,6 +93,7 @@ func newRegionRequestWorker(
 				*worker.preFetchForConnecting = region.regionInfo
 				return nil
 			} else {
+				worker.requestCache.markDropped()
 				continue
 			}
 		}
@@ -375,8 +376,10 @@ func (s *regionRequestWorker) processRegionSendTask(
 				FilterLoop: region.filterLoop,
 			}
 			if err := doSend(req); err != nil {
+				s.requestCache.markDropped()
 				return err
 			}
+			s.requestCache.markDropped()
 			for _, state := range s.takeRegionStates(subID) {
 				state.markStopped(&requestCancelledErr{})
 				regionEvent := regionEvent{
@@ -390,11 +393,13 @@ func (s *regionRequestWorker) processRegionSendTask(
 			// the stopped subscribedTable, or the special singleRegionInfo for stopping
 			// the table will be handled later.
 			s.client.onRegionFail(newRegionErrorInfo(region, &sendRequestToStoreErr{}))
+			s.requestCache.markDropped()
 		} else {
 			state := newRegionFeedState(region, uint64(subID), s)
 			state.start()
 			s.addRegionState(subID, region.verID.GetID(), state)
 			if err := doSend(s.createRegionRequest(region)); err != nil {
+				s.requestCache.markDropped()
 				return err
 			}
 			s.requestCache.markSent(regionReq)
@@ -485,6 +490,7 @@ func (s *regionRequestWorker) clearPendingRegions() []regionInfo {
 		region := *s.preFetchForConnecting
 		s.preFetchForConnecting = nil
 		regions = append(regions, region)
+		s.requestCache.markDropped()
 	}
 
 	// Clear all regions from cache

diff --git a/logservice/logpuller/region_request_worker_test.go b/logservice/logpuller/region_request_worker_test.go
@@ -14,9 +14,19 @@
 package logpuller
 
 import (
+	"context"
+	"errors"
+	"io"
 	"testing"
+	"time"
 
+	"github.com/pingcap/kvproto/pkg/cdcpb"
+	"github.com/pingcap/kvproto/pkg/metapb"
+	"github.com/pingcap/ticdc/heartbeatpb"
+	"github.com/pingcap/ticdc/logservice/logpuller/regionlock"
 	"github.com/stretchr/testify/require"
+	"github.com/tikv/client-go/v2/tikv"
+	"google.golang.org/grpc/metadata"
 )
 
 func TestRegionStatesOperation(t *testing.T) {
@@ -38,3 +48,116 @@ func TestRegionStatesOperation(t *testing.T) {
 	require.Nil(t, worker.getRegionState(1, 2))
 	require.Equal(t, 0, len(worker.requestedRegions.subscriptions))
 }
+
+type fakeEventFeedV2Client struct {
+	sendErr  error
+	sendHook func(*cdcpb.ChangeDataRequest)
+	ctx      context.Context
+}
+
+func (c *fakeEventFeedV2Client) Send(req *cdcpb.ChangeDataRequest) error {
+	if c.sendHook != nil {
+		c.sendHook(req)
+	}
+	return c.sendErr
+}
+
+func (c *fakeEventFeedV2Client) Recv() (*cdcpb.ChangeDataEvent, error) { return nil, io.EOF }
+
+func (c *fakeEventFeedV2Client) Header() (metadata.MD, error) { return nil, nil }
+func (c *fakeEventFeedV2Client) Trailer() metadata.MD         { return nil }
+func (c *fakeEventFeedV2Client) CloseSend() error             { return nil }
+func (c *fakeEventFeedV2Client) Context() context.Context {
+	if c.ctx != nil {
+		return c.ctx
+	}
+	return context.Background()
+}
+func (c *fakeEventFeedV2Client) SendMsg(m any) error { return nil }
+func (c *fakeEventFeedV2Client) RecvMsg(m any) error { return nil }
+
+func TestRegionRequestWorkerSendErrorDoesNotLeakPendingCount(t *testing.T) {
+	t.Parallel()
+
+	subSpan := &subscribedSpan{subID: 1}
+	region := newRegionInfo(
+		tikv.NewRegionVerID(100, 1, 1),
+		heartbeatpb.TableSpan{StartKey: []byte("a"), EndKey: []byte("b")},
+		&tikv.RPCContext{
+			Addr: "store-1",
+			Meta: &metapb.Region{RegionEpoch: &metapb.RegionEpoch{ConfVer: 1, Version: 1}},
+		},
+		subSpan,
+		false,
+	)
+	region.lockedRangeState = &regionlock.LockedRangeState{}
+
+	worker := &regionRequestWorker{
+		workerID:              1,
+		client:                &subscriptionClient{clusterID: 1},
+		store:                 &requestedStore{storeAddr: "store-1"},
+		preFetchForConnecting: &region,
+		requestCache:          newRequestCache(16),
+	}
+	worker.requestedRegions.subscriptions = make(map[SubscriptionID]regionFeedStates)
+	worker.requestCache.pendingCount.Store(1)
+
+	conn := &ConnAndClient{
+		Client: &fakeEventFeedV2Client{sendErr: errors.New("send failed")},
+	}
+
+	err := worker.processRegionSendTask(context.Background(), conn)
+	require.Error(t, err)
+	require.Equal(t, int64(0), worker.requestCache.pendingCount.Load())
+}
+
+func TestRegionRequestWorkerStopTaskDoesNotLeakPendingCount(t *testing.T) {
+	t.Parallel()
+
+	ctx, cancel := context.WithCancel(context.Background())
+	defer cancel()
+
+	sendCalled := make(chan struct{})
+	conn := &ConnAndClient{
+		Client: &fakeEventFeedV2Client{
+			sendHook: func(*cdcpb.ChangeDataRequest) {
+				select {
+				case <-sendCalled:
+				default:
+					close(sendCalled)
+				}
+				cancel()
+			},
+		},
+	}
+
+	stopRegion := regionInfo{
+		subscribedSpan:   &subscribedSpan{subID: 1},
+		lockedRangeState: nil,
+	}
+
+	worker := &regionRequestWorker{
+		workerID:              1,
+		client:                &subscriptionClient{clusterID: 1},
+		store:                 &requestedStore{storeAddr: "store-1"},
+		preFetchForConnecting: &stopRegion,
+		requestCache:          newRequestCache(16),
+	}
+	worker.requestedRegions.subscriptions = make(map[SubscriptionID]regionFeedStates)
+	worker.requestCache.pendingCount.Store(1)
+
+	errCh := make(chan error, 1)
+	go func() {
+		errCh <- worker.processRegionSendTask(ctx, conn)
+	}()
+
+	select {
+	case <-sendCalled:
+	case <-time.After(2 * time.Second):
+		t.Fatal("send is not called in time")
+	}
+
+	err := <-errCh
+	require.Error(t, err)
+	require.Equal(t, int64(0), worker.requestCache.pendingCount.Load())
+}