Batch Opmization

alanprot · alanprot · commit 50884d9a5092 · 2023-03-28T17:27:15.000-07:00
Signed-off-by: Alan Protasio &lt;alanprot@gmail.com&gt;
diff --git a/pkg/querier/batch/batch.go b/pkg/querier/batch/batch.go
@@ -1,6 +1,8 @@
 package batch
 
 import (
+	"time"
+
 	"github.com/cortexproject/cortex/pkg/chunk"
 	"github.com/cortexproject/cortex/pkg/chunk/encoding"
 	promchunk "github.com/cortexproject/cortex/pkg/chunk/encoding"
@@ -98,6 +100,24 @@ func (a *iteratorAdapter) Seek(t int64) bool {
 				a.curr.Index++
 			}
 			return true
+		} else {
+			// In this case, t is after the end of the current batch. Here we try to calculate if we are seeking to samples
+			// in the same chunks, and if so, we foward the iterator to the right point in time - we do that this
+			// is more efficient than the seek call
+			approxNumberOfSamples := model.Time(t).Sub(model.Time(a.curr.Timestamps[a.curr.Length-1])) / (30 * time.Second)
+			if approxNumberOfSamples < 60 {
+				for a.underlying.Next(promchunk.BatchSize) {
+					a.curr = a.underlying.Batch()
+					if t <= a.curr.Timestamps[a.curr.Length-1] {
+						//In this case, some timestamp between current sample and end of batch can fulfill
+						//the seek. Let's find it.
+						for a.curr.Index < a.curr.Length && t > a.curr.Timestamps[a.curr.Index] {
+							a.curr.Index++
+						}
+						return true
+					}
+				}
+			}
 		}
 	}
 
diff --git a/pkg/querier/batch/batch_test.go b/pkg/querier/batch/batch_test.go
@@ -13,42 +13,102 @@ import (
 	promchunk "github.com/cortexproject/cortex/pkg/chunk/encoding"
 )
 
-func BenchmarkNewChunkMergeIterator_CreateAndIterate(b *testing.B) {
+//func BenchmarkNewChunkMergeIterator_CreateAndIterate(b *testing.B) {
+//	scenarios := []struct {
+//		numChunks          int
+//		numSamplesPerChunk int
+//		duplicationFactor  int
+//		enc                promchunk.Encoding
+//	}{
+//		{numChunks: 1000, numSamplesPerChunk: 100, duplicationFactor: 1, enc: promchunk.PrometheusXorChunk},
+//		{numChunks: 1000, numSamplesPerChunk: 100, duplicationFactor: 3, enc: promchunk.PrometheusXorChunk},
+//		{numChunks: 100, numSamplesPerChunk: 100, duplicationFactor: 1, enc: promchunk.PrometheusXorChunk},
+//		{numChunks: 100, numSamplesPerChunk: 100, duplicationFactor: 3, enc: promchunk.PrometheusXorChunk},
+//		{numChunks: 1, numSamplesPerChunk: 100, duplicationFactor: 1, enc: promchunk.PrometheusXorChunk},
+//		{numChunks: 1, numSamplesPerChunk: 100, duplicationFactor: 3, enc: promchunk.PrometheusXorChunk},
+//	}
+//
+//	for _, scenario := range scenarios {
+//		name := fmt.Sprintf("chunks: %d samples per chunk: %d duplication factor: %d encoding: %s",
+//			scenario.numChunks,
+//			scenario.numSamplesPerChunk,
+//			scenario.duplicationFactor,
+//			scenario.enc.String())
+//
+//		chunks := createChunks(b, scenario.numChunks, scenario.numSamplesPerChunk, scenario.duplicationFactor, scenario.enc)
+//
+//		b.Run(name, func(b *testing.B) {
+//			b.ReportAllocs()
+//
+//			for n := 0; n < b.N; n++ {
+//				it := NewChunkMergeIterator(chunks, 0, 0)
+//				for it.Next() != chunkenc.ValNone {
+//					it.At()
+//				}
+//
+//				// Ensure no error occurred.
+//				if it.Err() != nil {
+//					b.Fatal(it.Err().Error())
+//				}
+//			}
+//		})
+//	}
+//}
+
+func BenchmarkNewChunkMergeIterator_Seek(b *testing.B) {
+	scrapeInterval := 30 * time.Second
+
 	scenarios := []struct {
 		numChunks          int
 		numSamplesPerChunk int
 		duplicationFactor  int
+		seekStep           time.Duration
 		enc                promchunk.Encoding
 	}{
-		{numChunks: 1000, numSamplesPerChunk: 100, duplicationFactor: 1, enc: promchunk.PrometheusXorChunk},
-		{numChunks: 1000, numSamplesPerChunk: 100, duplicationFactor: 3, enc: promchunk.PrometheusXorChunk},
-		{numChunks: 100, numSamplesPerChunk: 100, duplicationFactor: 1, enc: promchunk.PrometheusXorChunk},
-		{numChunks: 100, numSamplesPerChunk: 100, duplicationFactor: 3, enc: promchunk.PrometheusXorChunk},
-		{numChunks: 1, numSamplesPerChunk: 100, duplicationFactor: 1, enc: promchunk.PrometheusXorChunk},
-		{numChunks: 1, numSamplesPerChunk: 100, duplicationFactor: 3, enc: promchunk.PrometheusXorChunk},
+		{numChunks: 1000, numSamplesPerChunk: 120, duplicationFactor: 1, seekStep: scrapeInterval / 2, enc: promchunk.PrometheusXorChunk},
+		{numChunks: 1000, numSamplesPerChunk: 120, duplicationFactor: 1, seekStep: scrapeInterval, enc: promchunk.PrometheusXorChunk},
+		{numChunks: 1000, numSamplesPerChunk: 120, duplicationFactor: 1, seekStep: scrapeInterval * 2, enc: promchunk.PrometheusXorChunk},
+		{numChunks: 1000, numSamplesPerChunk: 120, duplicationFactor: 1, seekStep: scrapeInterval * 10, enc: promchunk.PrometheusXorChunk},
+		{numChunks: 1000, numSamplesPerChunk: 120, duplicationFactor: 1, seekStep: scrapeInterval * 100, enc: promchunk.PrometheusXorChunk},
+		{numChunks: 1000, numSamplesPerChunk: 120, duplicationFactor: 1, seekStep: scrapeInterval * 1000, enc: promchunk.PrometheusXorChunk},
+		{numChunks: 1000, numSamplesPerChunk: 120, duplicationFactor: 3, seekStep: scrapeInterval / 2, enc: promchunk.PrometheusXorChunk},
+		{numChunks: 1000, numSamplesPerChunk: 120, duplicationFactor: 3, seekStep: scrapeInterval, enc: promchunk.PrometheusXorChunk},
+		{numChunks: 1000, numSamplesPerChunk: 120, duplicationFactor: 3, seekStep: scrapeInterval * 2, enc: promchunk.PrometheusXorChunk},
+		{numChunks: 1000, numSamplesPerChunk: 120, duplicationFactor: 3, seekStep: scrapeInterval * 10, enc: promchunk.PrometheusXorChunk},
+		{numChunks: 1000, numSamplesPerChunk: 120, duplicationFactor: 3, seekStep: scrapeInterval * 100, enc: promchunk.PrometheusXorChunk},
+		{numChunks: 1000, numSamplesPerChunk: 120, duplicationFactor: 3, seekStep: scrapeInterval * 1000, enc: promchunk.PrometheusXorChunk},
+		{numChunks: 100, numSamplesPerChunk: 120, duplicationFactor: 1, seekStep: scrapeInterval / 2, enc: promchunk.PrometheusXorChunk},
+		{numChunks: 100, numSamplesPerChunk: 120, duplicationFactor: 1, seekStep: scrapeInterval, enc: promchunk.PrometheusXorChunk},
+		{numChunks: 100, numSamplesPerChunk: 120, duplicationFactor: 1, seekStep: scrapeInterval * 2, enc: promchunk.PrometheusXorChunk},
+		{numChunks: 100, numSamplesPerChunk: 120, duplicationFactor: 1, seekStep: scrapeInterval * 10, enc: promchunk.PrometheusXorChunk},
+		{numChunks: 100, numSamplesPerChunk: 120, duplicationFactor: 1, seekStep: scrapeInterval * 100, enc: promchunk.PrometheusXorChunk},
+		{numChunks: 100, numSamplesPerChunk: 120, duplicationFactor: 1, seekStep: scrapeInterval * 1000, enc: promchunk.PrometheusXorChunk},
+		{numChunks: 100, numSamplesPerChunk: 120, duplicationFactor: 3, seekStep: scrapeInterval / 2, enc: promchunk.PrometheusXorChunk},
+		{numChunks: 100, numSamplesPerChunk: 120, duplicationFactor: 3, seekStep: scrapeInterval, enc: promchunk.PrometheusXorChunk},
+		{numChunks: 100, numSamplesPerChunk: 120, duplicationFactor: 3, seekStep: scrapeInterval * 2, enc: promchunk.PrometheusXorChunk},
+		{numChunks: 100, numSamplesPerChunk: 120, duplicationFactor: 3, seekStep: scrapeInterval * 10, enc: promchunk.PrometheusXorChunk},
+		{numChunks: 100, numSamplesPerChunk: 120, duplicationFactor: 3, seekStep: scrapeInterval * 100, enc: promchunk.PrometheusXorChunk},
+		{numChunks: 100, numSamplesPerChunk: 120, duplicationFactor: 3, seekStep: scrapeInterval * 1000, enc: promchunk.PrometheusXorChunk},
 	}
 
 	for _, scenario := range scenarios {
-		name := fmt.Sprintf("chunks: %d samples per chunk: %d duplication factor: %d encoding: %s",
+		name := fmt.Sprintf("chunks: %d samples per chunk: %d duplication factor: %d seekStep %vs encoding: %s",
 			scenario.numChunks,
 			scenario.numSamplesPerChunk,
 			scenario.duplicationFactor,
+			scenario.seekStep.Seconds(),
 			scenario.enc.String())
 
-		chunks := createChunks(b, scenario.numChunks, scenario.numSamplesPerChunk, scenario.duplicationFactor, scenario.enc)
+		chunks := createChunks(b, scrapeInterval, scenario.numChunks, scenario.numSamplesPerChunk, scenario.duplicationFactor, scenario.enc)
 
 		b.Run(name, func(b *testing.B) {
 			b.ReportAllocs()
 
 			for n := 0; n < b.N; n++ {
 				it := NewChunkMergeIterator(chunks, 0, 0)
-				for it.Next() != chunkenc.ValNone {
-					it.At()
-				}
-
-				// Ensure no error occurred.
-				if it.Err() != nil {
-					b.Fatal(it.Err().Error())
+				i := int64(0)
+				for it.Seek(i*scenario.seekStep.Milliseconds()) != chunkenc.ValNone {
+					i++
 				}
 			}
 		})
@@ -57,8 +117,8 @@ func BenchmarkNewChunkMergeIterator_CreateAndIterate(b *testing.B) {
 
 func TestSeekCorrectlyDealWithSinglePointChunks(t *testing.T) {
 	t.Parallel()
-	chunkOne := mkChunk(t, model.Time(1*step/time.Millisecond), 1, promchunk.PrometheusXorChunk)
-	chunkTwo := mkChunk(t, model.Time(10*step/time.Millisecond), 1, promchunk.PrometheusXorChunk)
+	chunkOne := mkChunk(t, step, model.Time(1*step/time.Millisecond), 1, promchunk.PrometheusXorChunk)
+	chunkTwo := mkChunk(t, step, model.Time(10*step/time.Millisecond), 1, promchunk.PrometheusXorChunk)
 	chunks := []chunk.Chunk{chunkOne, chunkTwo}
 
 	sut := NewChunkMergeIterator(chunks, 0, 0)
@@ -72,13 +132,13 @@ func TestSeekCorrectlyDealWithSinglePointChunks(t *testing.T) {
 	require.Equal(t, int64(1*time.Second/time.Millisecond), actual)
 }
 
-func createChunks(b *testing.B, numChunks, numSamplesPerChunk, duplicationFactor int, enc promchunk.Encoding) []chunk.Chunk {
+func createChunks(b *testing.B, step time.Duration, numChunks, numSamplesPerChunk, duplicationFactor int, enc promchunk.Encoding) []chunk.Chunk {
 	result := make([]chunk.Chunk, 0, numChunks)
 
 	for d := 0; d < duplicationFactor; d++ {
 		for c := 0; c < numChunks; c++ {
 			minTime := step * time.Duration(c*numSamplesPerChunk)
-			result = append(result, mkChunk(b, model.Time(minTime.Milliseconds()), numSamplesPerChunk, enc))
+			result = append(result, mkChunk(b, step, model.Time(minTime.Milliseconds()), numSamplesPerChunk, enc))
 		}
 	}
 
diff --git a/pkg/querier/batch/chunk_test.go b/pkg/querier/batch/chunk_test.go
@@ -44,7 +44,7 @@ func forEncodings(t *testing.T, f func(t *testing.T, enc promchunk.Encoding)) {
 	}
 }
 
-func mkChunk(t require.TestingT, from model.Time, points int, enc promchunk.Encoding) chunk.Chunk {
+func mkChunk(t require.TestingT, step time.Duration, from model.Time, points int, enc promchunk.Encoding) chunk.Chunk {
 	metric := labels.Labels{
 		{Name: model.MetricNameLabel, Value: "foo"},
 	}
@@ -65,7 +65,7 @@ func mkChunk(t require.TestingT, from model.Time, points int, enc promchunk.Enco
 }
 
 func mkGenericChunk(t require.TestingT, from model.Time, points int, enc promchunk.Encoding) GenericChunk {
-	ck := mkChunk(t, from, points, enc)
+	ck := mkChunk(t, step, from, points, enc)
 	return NewGenericChunk(int64(ck.From), int64(ck.Through), ck.Data.NewIterator)
 }
 

Original file line number	Diff line number	Diff line change
`@@ -44,7 +44,7 @@ func forEncodings(t testing.T, f func(t testing.T, enc promchunk.Encoding)) {`
`44`	`44`	`}`
`45`	`45`	`}`
`46`	`46`
`47`		`-func mkChunk(t require.TestingT, from model.Time, points int, enc promchunk.Encoding) chunk.Chunk {`
	`47`	`+func mkChunk(t require.TestingT, step time.Duration, from model.Time, points int, enc promchunk.Encoding) chunk.Chunk {`
`48`	`48`	`metric := labels.Labels{`
`49`	`49`	`{Name: model.MetricNameLabel, Value: "foo"},`
`50`	`50`	`}`
`@@ -65,7 +65,7 @@ func mkChunk(t require.TestingT, from model.Time, points int, enc promchunk.Enco`
`65`	`65`	`}`
`66`	`66`
`67`	`67`	`func mkGenericChunk(t require.TestingT, from model.Time, points int, enc promchunk.Encoding) GenericChunk {`
`68`		`- ck := mkChunk(t, from, points, enc)`
	`68`	`+ ck := mkChunk(t, step, from, points, enc)`
`69`	`69`	`return NewGenericChunk(int64(ck.From), int64(ck.Through), ck.Data.NewIterator)`
`70`	`70`	`}`
`71`	`71`