Telemetry enhancement by minjieqiu · Pull Request #1677 · splunk/splunk-operator

minjieqiu · 2026-01-29T04:56:08Z

Description.

This PR implement SOK Telemetry enhancement. ERD:
https://cisco-my.sharepoint.com/:w:/p/mqiu/IQBoVUuEEY1SR4rDjbja0iPuAeN5dxFG-K-ZPpvO6RoWJp0?e=n5R1Ow

What does this PR have in it?.

Periodically collect (once per day) and send SOK telemetry which includes:

SOK telemetry.
a. SOK version.
b. CPU/Memory settings (limit and request) of containers including standalone, searchheadcluster, indexercluster,
clustermaster, clustermanager, licensemaster and licensemanager.
c. LincenseInfo (Splunk license ID and license type).
Other component's telemetry which are submitted to SOK by adding key/value to the new telemetry configmap splunk-operator-manager-telemetry

Key Changes.

Created a new configmap splunk-operator-manager-telemetry
Create a new controller which reconciles on the telemetry configmap
Renamed the telemetry app to app_tel_for_sok

Highlight the updates in specific files

Testing and Verification.

Tested on s1, c3 and m4.

How did you test these changes? What automated tests are added?.
Added telemetry verification to existing s1, c3 and m4 tests.

Related Issues

Jira tickets, GitHub issues, Support tickets...
https://splunk.atlassian.net/browse/CSPL-4371.

PR Checklist

[✅ ] Code changes adhere to the project's coding standards.
[ ✅ ] Relevant unit and integration tests are included.
[✅ ] Documentation has been updated accordingly.
[✅ ] All tests pass locally.
[✅ ] The PR description follows the project's guidelines.

github-actions · 2026-01-29T04:56:19Z

CLA Assistant Lite bot CLA Assistant Lite bot All contributors have signed the COC ✍️ ✅

minjieqiu · 2026-01-29T04:59:13Z

I have read the CLA Document and I hereby sign the CLA

minjieqiu · 2026-01-29T05:00:32Z

I have read the Code of Conduct and I hereby accept the Terms

coveralls · 2026-01-29T05:07:08Z

Pull Request Test Coverage Report for Build 21975003576

Details

372 of 465 (80.0%) changed or added relevant lines in 6 files are covered.
3 unchanged lines in 1 file lost coverage.
Overall coverage decreased (-0.3%) to 86.022%

Changes Missing Coverage	Covered Lines	Changed/Added Lines	%
pkg/splunk/client/enterprise.go	13	15	86.67%
pkg/splunk/enterprise/names.go	0	6	0.0%
internal/controller/telemetry_controller.go	37	46	80.43%
pkg/splunk/enterprise/telemetry.go	316	392	80.61%

Files with Coverage Reduction	New Missed Lines	%
pkg/splunk/enterprise/afwscheduler.go	3	92.51%

Totals
Change from base Build 21948077040:	-0.3%
Covered Lines:	11293
Relevant Lines:	13128

💛 - Coveralls

pkg/splunk/enterprise/telemetry.go

pkg/splunk/enterprise/names.go

internal/controller/telemetry_controller.go

kasiakoziol · 2026-02-03T08:45:55Z

I think it might be worth to add/update docs

internal/controller/telemetry_controller.go

internal/controller/telemetry_controller_test.go

Makefile

vivekr-splunk · 2026-02-11T18:03:26Z

internal/controller/telemetry_controller_test.go

+	"sigs.k8s.io/controller-runtime/pkg/reconcile"
+)
+
+var _ = Describe("Telemetry Controller", func() {


we should have some controller test cases

vivekr-splunk · 2026-02-11T18:16:31Z

pkg/splunk/enterprise/telemetry.go

+	scopedLog.Info("Updated last transmission time in configmap", "newStatus", cm.Data[telStatusKey])
+}
+
+func collectResourceTelData(resources corev1.ResourceRequirements, data map[string]string) {


should we refactor this code to make it much easier to read, or use generics
an example

func collectDeploymentTelDataRefactored(ctx context.Context, client splcommon.ControllerClient, deploymentData map[string]interface{}) map[string][]splcommon.MetaObject { reqLogger := log.FromContext(ctx) scopedLog := reqLogger.WithName("collectDeploymentTelData") crWithTelAppList := make(map[string][]splcommon.MetaObject) scopedLog.Info("Start collecting deployment telemetry data") // Define all CR handlers in a slice handlers := []crListHandler{ {kind: "Standalone", listFunc: listStandalones, checkTelApp: true}, {kind: "LicenseManager", listFunc: listLicenseManagers, checkTelApp: true}, {kind: "LicenseMaster", listFunc: listLicenseMasters, checkTelApp: true}, {kind: "SearchHeadCluster", listFunc: listSearchHeadClusters, checkTelApp: true}, {kind: "IndexerCluster", listFunc: listIndexerClusters, checkTelApp: false}, {kind: "ClusterManager", listFunc: listClusterManagers, checkTelApp: true}, {kind: "ClusterMaster", listFunc: listClusterMasters, checkTelApp: true}, {kind: "MonitoringConsole", listFunc: listMonitoringConsoles, checkTelApp: false}, } // Process each CR type using the same logic for _, handler := range handlers { processCRType(ctx, client, handler, deploymentData, crWithTelAppList, scopedLog) } return crWithTelAppList } // processCRType is the common processing logic for all CR types func processCRType( ctx context.Context, client splcommon.ControllerClient, handler crListHandler, deploymentData map[string]interface{}, crWithTelAppList map[string][]splcommon.MetaObject, scopedLog interface{}, // Using interface{} to avoid import issues, should be logr.Logger ) { items, err := handler.listFunc(ctx, client) if err != nil { // scopedLog.Error(err, "Failed to list objects", "kind", handler.kind) return } if len(items) == 0 { return } // Create per-kind data map perKindData := make(map[string]interface{}) deploymentData[handler.kind] = perKindData // Process each item for _, item := range items { // scopedLog.Info("Collecting data", "kind", item.kind, "name", item.name, "namespace", item.namespace) crResourceData := make(map[string]string) perKindData[item.name] = crResourceData // Collect resource telemetry data if resources, ok := item.resources.(corev1.ResourceRequirements); ok { collectResourceTelData(resources, crResourceData) } // Add to telemetry app list if applicable if handler.checkTelApp && item.hasTelApp { crWithTelAppList[handler.kind] = append(crWithTelAppList[handler.kind], item.cr) } else if handler.checkTelApp && !item.hasTelApp { // scopedLog.Info("Telemetry app is not installed for this CR", "kind", item.kind, "name", item.name) } } } // List functions for each CR type - these extract the common pattern func listStandalones(ctx context.Context, client splcommon.ControllerClient) ([]crItem, error) { var list enterpriseApi.StandaloneList err := client.List(ctx, &list) if err != nil { return nil, err } items := make([]crItem, 0, len(list.Items)) for i := range list.Items { cr := &list.Items[i] items = append(items, crItem{ name: cr.GetName(), namespace: cr.GetNamespace(), kind: cr.Kind, resources: cr.Spec.CommonSplunkSpec.Resources, hasTelApp: cr.Status.TelAppInstalled, cr: cr, }) } return items, nil } func listLicenseManagers(ctx context.Context, client splcommon.ControllerClient) ([]crItem, error) { var list enterpriseApi.LicenseManagerList err := client.List(ctx, &list) if err != nil { return nil, err } items := make([]crItem, 0, len(list.Items)) for i := range list.Items { cr := &list.Items[i] items = append(items, crItem{ name: cr.GetName(), namespace: cr.GetNamespace(), kind: cr.Kind, resources: cr.Spec.CommonSplunkSpec.Resources, hasTelApp: cr.Status.TelAppInstalled, cr: cr, }) } return items, nil } func listLicenseMasters(ctx context.Context, client splcommon.ControllerClient) ([]crItem, error) { var list enterpriseApiV3.LicenseMasterList err := client.List(ctx, &list) if err != nil { return nil, err } items := make([]crItem, 0, len(list.Items)) for i := range list.Items { cr := &list.Items[i] items = append(items, crItem{ name: cr.GetName(), namespace: cr.GetNamespace(), kind: cr.Kind, resources: cr.Spec.CommonSplunkSpec.Resources, hasTelApp: cr.Status.TelAppInstalled, cr: cr, }) } return items, nil } func listSearchHeadClusters(ctx context.Context, client splcommon.ControllerClient) ([]crItem, error) { var list enterpriseApi.SearchHeadClusterList err := client.List(ctx, &list) if err != nil { return nil, err } items := make([]crItem, 0, len(list.Items)) for i := range list.Items { cr := &list.Items[i] items = append(items, crItem{ name: cr.GetName(), namespace: cr.GetNamespace(), kind: cr.Kind, resources: cr.Spec.CommonSplunkSpec.Resources, hasTelApp: cr.Status.TelAppInstalled, cr: cr, }) } return items, nil } func listIndexerClusters(ctx context.Context, client splcommon.ControllerClient) ([]crItem, error) { var list enterpriseApi.IndexerClusterList err := client.List(ctx, &list) if err != nil { return nil, err } items := make([]crItem, 0, len(list.Items)) for i := range list.Items { cr := &list.Items[i] items = append(items, crItem{ name: cr.GetName(), namespace: cr.GetNamespace(), kind: cr.Kind, resources: cr.Spec.CommonSplunkSpec.Resources, hasTelApp: false, // IndexerClusters don't track TelAppInstalled cr: cr, }) } return items, nil } func listClusterManagers(ctx context.Context, client splcommon.ControllerClient) ([]crItem, error) { var list enterpriseApi.ClusterManagerList err := client.List(ctx, &list) if err != nil { return nil, err } items := make([]crItem, 0, len(list.Items)) for i := range list.Items { cr := &list.Items[i] items = append(items, crItem{ name: cr.GetName(), namespace: cr.GetNamespace(), kind: cr.Kind, resources: cr.Spec.CommonSplunkSpec.Resources, hasTelApp: cr.Status.TelAppInstalled, cr: cr, }) } return items, nil } func listClusterMasters(ctx context.Context, client splcommon.ControllerClient) ([]crItem, error) { var list enterpriseApiV3.ClusterMasterList err := client.List(ctx, &list) if err != nil { return nil, err } items := make([]crItem, 0, len(list.Items)) for i := range list.Items { cr := &list.Items[i] items = append(items, crItem{ name: cr.GetName(), namespace: cr.GetNamespace(), kind: cr.Kind, resources: cr.Spec.CommonSplunkSpec.Resources, hasTelApp: cr.Status.TelAppInstalled, cr: cr, }) } return items, nil } func listMonitoringConsoles(ctx context.Context, client splcommon.ControllerClient) ([]crItem, error) { var list enterpriseApi.MonitoringConsoleList err := client.List(ctx, &list) if err != nil { return nil, err } items := make([]crItem, 0, len(list.Items)) for i := range list.Items { cr := &list.Items[i] items = append(items, crItem{ name: cr.GetName(), namespace: cr.GetNamespace(), kind: cr.Kind, resources: cr.Spec.CommonSplunkSpec.Resources, hasTelApp: false, // MonitoringConsoles don't track TelAppInstalled cr: cr, }) } return items, nil }

Thanks for the code suggestion. I have made the change.

vivekr-splunk · 2026-02-11T18:18:10Z

.github/workflows/pre-release-workflow.yml

code has 47% test coverage lets try to move to 90%

I have added more tests.

kubabuczak · 2026-02-12T14:53:37Z

pkg/splunk/enterprise/names.go

 	telAppReloadString = "curl -k -u admin:`cat /mnt/splunk-secrets/password` https://localhost:8089/services/apps/local/_reload"
+
+	// Name of the telemetry configmap: <namePrefix>-manager-telemetry
+	telConfigMapTemplateStr = "%smanager-telemetry"


Is this hardcoded?

Yes. This config map is not accessed by multiple CRs.

vivekr-splunk · 2026-02-15T02:47:15Z

internal/controller/telemetry_controller.go

+
+// SetupWithManager sets up the controller with the Manager.
+func (r *TelemetryReconciler) SetupWithManager(mgr ctrl.Manager) error {
+	return ctrl.NewControllerManagedBy(mgr).


should you be watching for CR resource creation and process them only when new CR is created

Can you implement an event-driven approach where the telemetry controller watches the actual Splunk custom resources and only triggers reconciliation when:

A new CR is created (Standalone, ClusterMaster, IndexerCluster, SearchHeadCluster, etc.)

An existing CR is modified (configuration changes, scaling events)

A CR is deleted (to track removal events)

Benefits of This Approach

1. Reduced Resource Consumption

No periodic reconciliation when nothing has changed

CPU and memory usage only when actual events occur

More efficient for clusters with stable configurations

2. Immediate Response

Telemetry collected immediately when CRs are created/modified

No waiting for the next 10-minute requeue cycle

More accurate timestamps for resource creation events

3. Better Alignment with Kubernetes Best Practices

Controllers should react to resource changes, not poll

Leverages Kubernetes watch mechanism efficiently

Reduces unnecessary API server load

4. Clearer Intent

The controller's purpose becomes explicit: "Send telemetry when Splunk resources change"

Easier to understand and maintain

Better for debugging (logs show which CR triggered telemetry)

Proposed Implementation Changes

Current Setup (from SetupWithManager):

func (r *TelemetryReconciler) SetupWithManager(mgr ctrl.Manager) error { return ctrl.NewControllerManagedBy(mgr). For(&corev1.ConfigMap{}). // Watching ConfigMaps WithEventFilter(predicate.Funcs{ CreateFunc: func(e event.CreateEvent) bool { return r.isTelemetryConfigMap(e.Object) }, // ... more predicates }). WithOptions(controller.Options{ MaxConcurrentReconciles: 1, }). Complete(r) }

Suggested Alternative:

func (r *TelemetryReconciler) SetupWithManager(mgr ctrl.Manager) error { return ctrl.NewControllerManagedBy(mgr). // Watch Splunk CRs directly For(&enterprisev4.Standalone{}). Owns(&enterprisev4.ClusterMaster{}). Owns(&enterprisev4.IndexerCluster{}). Owns(&enterprisev4.SearchHeadCluster{}). // ... other Splunk CRs WithEventFilter(predicate.Funcs{ CreateFunc: func(e event.CreateEvent) bool { // Trigger on CR creation return true }, UpdateFunc: func(e event.UpdateEvent) bool { // Optionally trigger on significant updates return shouldCollectTelemetry(e.ObjectOld, e.ObjectNew) }, DeleteFunc: func(e event.DeleteEvent) bool { // Optionally track deletions return false }, }). WithOptions(controller.Options{ MaxConcurrentReconciles: 1, }). Complete(r) }

Modified Reconcile Method:

func (r *TelemetryReconciler) Reconcile(ctx context.Context, req ctrl.Request) (ctrl.Result, error) { log := r.Log.WithValues("telemetry", req.NamespacedName) // Fetch the actual Splunk CR that triggered this reconciliation // Determine CR type and get relevant telemetry data // Collect telemetry for THIS specific resource telemetryData := r.collectResourceTelemetry(ctx, req) // Send telemetry immediately (no requeue needed!) if err := r.applyTelemetryFn(ctx, telemetryData); err != nil { log.Error(err, "Failed to send telemetry") // Only requeue on actual errors, not as a periodic timer return ctrl.Result{Requeue: true}, err } // Done! No automatic requeue return ctrl.Result{}, nil }

Additional Considerations

1. Rate Limiting

If watching CRs directly, consider:

Implementing rate limiting to avoid telemetry spam

Batching multiple CR events within a time window

Using a "debounce" mechanism for rapid successive changes

2. Daily Telemetry Requirement

The PR mentions "collecting and sending telemetry data once per day". If this is the actual requirement:

Option A: Use a CronJob instead of a controller

apiVersion: batch/v1 kind: CronJob metadata: name: splunk-operator-telemetry spec: schedule: "0 2 * * *" # Daily at 2 AM jobTemplate: spec: template: spec: containers: - name: telemetry-collector # Collect and send telemetry

Option B: If controller is needed, add timestamp-based logic:

// Check last telemetry send time lastSent := getLastTelemetrySendTime() if time.Since(lastSent) < 24*time.Hour { // Skip telemetry, already sent today return ctrl.Result{}, nil }

Initial commit

edf2618

minjieqiu added 5 commits January 29, 2026 13:02

Add more unit tests

656737b

fix test

930784e

Pass test mode as false in testing

694e766

fix

a01170d

cleanup

7092e25

minjieqiu marked this pull request as ready for review February 2, 2026 17:11

minjieqiu requested review from rlieberman-splunk and vivekr-splunk February 2, 2026 17:11

minjieqiu changed the title ~~[Draft]: Telemetry enhancement~~ Telemetry enhancement Feb 2, 2026

rlieberman-splunk reviewed Feb 2, 2026

View reviewed changes

pkg/splunk/enterprise/telemetry.go Outdated Show resolved Hide resolved

rlieberman-splunk reviewed Feb 2, 2026

View reviewed changes

pkg/splunk/enterprise/telemetry.go Outdated Show resolved Hide resolved

rlieberman-splunk reviewed Feb 2, 2026

View reviewed changes

pkg/splunk/enterprise/telemetry.go Outdated Show resolved Hide resolved

rlieberman-splunk reviewed Feb 2, 2026

View reviewed changes

pkg/splunk/enterprise/names.go Show resolved Hide resolved

kasiakoziol reviewed Feb 3, 2026

View reviewed changes

internal/controller/telemetry_controller.go Outdated Show resolved Hide resolved

kasiakoziol reviewed Feb 3, 2026

View reviewed changes

internal/controller/telemetry_controller.go Outdated Show resolved Hide resolved

kasiakoziol reviewed Feb 3, 2026

View reviewed changes

internal/controller/telemetry_controller.go Outdated Show resolved Hide resolved

kasiakoziol reviewed Feb 3, 2026

View reviewed changes

internal/controller/telemetry_controller_test.go Show resolved Hide resolved

minjieqiu added 3 commits February 3, 2026 21:15

Set value for test and sokVersion

f7c5c88

Address some comments

bcf5434

fix

ddd3186

rlieberman-splunk reviewed Feb 4, 2026

View reviewed changes

internal/controller/telemetry_controller_test.go Outdated Show resolved Hide resolved

internal/controller/telemetry_controller_test.go Outdated Show resolved Hide resolved

Makefile Show resolved Hide resolved

minjieqiu added 3 commits February 4, 2026 21:51

Update deployment telemetry

d0e0f5e

Fix unit test

2dc1851

fix

82480ef

rlieberman-splunk approved these changes Feb 6, 2026

View reviewed changes

minjieqiu added 4 commits February 6, 2026 15:12

Address comment for renaming sok app and fix

dc08f44

fix int test

381df2c

fix int test

0009f50

Set version in make

9c8dcbd

vivekr-splunk reviewed Feb 11, 2026

View reviewed changes

minjieqiu added 3 commits February 11, 2026 21:49

Address comments

76a0110

Increase test coverage

bb988ff

fix unit test

23ac8e8

kubabuczak reviewed Feb 12, 2026

View reviewed changes

minjieqiu added 5 commits February 12, 2026 08:30

Add more tests

9e6903b

resolve conflicts

06ca952

fix

77df860

more tests

c977bdc

Set test to false before release

5306a09

vivekr-splunk reviewed Feb 16, 2026

View reviewed changes

Resolve merge conflict

d7d9a71

vivekr-splunk approved these changes Feb 18, 2026

View reviewed changes

fix

02eb7aa

minjieqiu merged commit d413ee8 into develop Feb 18, 2026
52 of 53 checks passed

minjieqiu deleted the feature/telemetry1 branch February 18, 2026 15:13

github-actions bot locked and limited conversation to collaborators Feb 18, 2026

Conversation

minjieqiu commented Jan 29, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Description.

Key Changes.

Testing and Verification.

Related Issues

PR Checklist

Uh oh!

github-actions bot commented Jan 29, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

minjieqiu commented Jan 29, 2026

Uh oh!

minjieqiu commented Jan 29, 2026

Uh oh!

coveralls commented Jan 29, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Pull Request Test Coverage Report for Build 21975003576

Details

💛 - Coveralls

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

kasiakoziol commented Feb 3, 2026

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Benefits of This Approach

1. Reduced Resource Consumption

2. Immediate Response

3. Better Alignment with Kubernetes Best Practices

4. Clearer Intent

Proposed Implementation Changes

Current Setup (from SetupWithManager):

Suggested Alternative:

Modified Reconcile Method:

Additional Considerations

1. Rate Limiting

2. Daily Telemetry Requirement

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

6 participants

Comments

minjieqiu commented Jan 29, 2026 •

edited

Loading

github-actions bot commented Jan 29, 2026 •

edited

Loading

coveralls commented Jan 29, 2026 •

edited

Loading