apache · zeroshade · Dec 9, 2024 · Nov 22, 2024 · Dec 6, 2024 · wgtmac
@@ -1945,6 +1945,51 @@ func TestParquetArrowIO(t *testing.T) {
 	suite.Run(t, new(ParquetIOTestSuite))
 }
 
+func TestForceLargeTypes(t *testing.T) {
+	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
+	defer mem.AssertSize(t, 0)
+
+	sc := arrow.NewSchema([]arrow.Field{
+		{Name: "str", Type: arrow.BinaryTypes.LargeString},
+		{Name: "bin", Type: arrow.BinaryTypes.LargeBinary},
+	}, nil)
+
+	bldr := array.NewRecordBuilder(mem, sc)
+	defer bldr.Release()
+
+	bldr.Field(0).(*array.LargeStringBuilder).AppendValues([]string{"hello", "foo", "bar"}, nil)
+	bldr.Field(1).(*array.BinaryBuilder).AppendValues([][]byte{[]byte("hello"), []byte("foo"), []byte("bar")}, nil)
+
+	rec := bldr.NewRecord()
+	defer rec.Release()
+
+	var buf bytes.Buffer
+	wr, err := pqarrow.NewFileWriter(sc, &buf,
+		parquet.NewWriterProperties(),
+		pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem)))
+	require.NoError(t, err)
+
+	require.NoError(t, wr.Write(rec))
+	require.NoError(t, wr.Close())
+
+	rdr, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()))
+	require.NoError(t, err)
+	defer rdr.Close()
+
+	pqrdr, err := pqarrow.NewFileReader(rdr, pqarrow.ArrowReadProperties{
+		ForceLarge: true}, mem)
+	require.NoError(t, err)
+
+	recrdr, err := pqrdr.GetRecordReader(context.Background(), nil, nil)
+	require.NoError(t, err)
+	defer recrdr.Release()
+
+	got, err := recrdr.Read()
+	require.NoError(t, err)
+
+	assert.Truef(t, array.RecordEqual(rec, got), "expected: %s\ngot: %s", rec, got)
+}
+
 func TestBufferedRecWrite(t *testing.T) {
 	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
 	defer mem.AssertSize(t, 0)

@@ -471,9 +471,13 @@ func (fr *FileReader) GetRecordReader(ctx context.Context, colIndices, rowGroups
 		nrows += fr.rdr.MetaData().RowGroup(rg).NumRows()
 	}
 
+	batchSize := fr.Props.BatchSize
+	if fr.Props.BatchSize <= 0 {
+		batchSize = nrows
+	}
 	return &recordReader{
 		numRows:      nrows,
-		batchSize:    fr.Props.BatchSize,
+		batchSize:    batchSize,
 		parallel:     fr.Props.Parallel,
 		sc:           sc,
 		fieldReaders: readers,

@@ -165,6 +165,11 @@ type ArrowReadProperties struct {
 	Parallel bool
 	// BatchSize is the size used for calls to NextBatch when reading whole columns
 	BatchSize int64
+	// Setting ForceLarge to true will force the reader to use LargeString/LargeBinary
+	// for string and binary columns respectively, instead of the default variants. This
+	// can be necessary if you know that there are columns which contain more than 2GB of
+	// data, which would prevent use of int32 offsets.
+	ForceLarge bool
 
 	readDictIndices map[int]struct{}
 }

@@ -494,16 +494,22 @@ func arrowFromInt64(logical schema.LogicalType) (arrow.DataType, error) {
 	}
 }
 
-func arrowFromByteArray(logical schema.LogicalType) (arrow.DataType, error) {
+func arrowFromByteArray(ctx *schemaTree, logical schema.LogicalType) (arrow.DataType, error) {
 	switch logtype := logical.(type) {
 	case schema.StringLogicalType:
+		if ctx.props.ForceLarge {
+			return arrow.BinaryTypes.LargeString, nil
+		}
 		return arrow.BinaryTypes.String, nil
 	case schema.DecimalLogicalType:
 		return arrowDecimal(logtype), nil
 	case schema.NoLogicalType,
 		schema.EnumLogicalType,
 		schema.JSONLogicalType,
 		schema.BSONLogicalType:
+		if ctx.props.ForceLarge {
+			return arrow.BinaryTypes.LargeBinary, nil
+		}
 		return arrow.BinaryTypes.Binary, nil
 	default:
 		return nil, xerrors.New("unhandled logicaltype " + logical.String() + " for byte_array")
@@ -607,7 +613,7 @@ func getParquetType(typ arrow.DataType, props *parquet.WriterProperties, arrprop
 	}
 }
 
-func getArrowType(physical parquet.Type, logical schema.LogicalType, typeLen int) (arrow.DataType, error) {
+func getArrowType(ctx *schemaTree, physical parquet.Type, logical schema.LogicalType, typeLen int) (arrow.DataType, error) {
 	if !logical.IsValid() || logical.Equals(schema.NullLogicalType{}) {
 		return arrow.Null, nil
 	}
@@ -626,7 +632,7 @@ func getArrowType(physical parquet.Type, logical schema.LogicalType, typeLen int
 	case parquet.Types.Double:
 		return arrow.PrimitiveTypes.Float64, nil
 	case parquet.Types.ByteArray:
-		return arrowFromByteArray(logical)
+		return arrowFromByteArray(ctx, logical)
 	case parquet.Types.FixedLenByteArray:
 		return arrowFromFLBA(logical, typeLen)
 	default:
@@ -708,7 +714,7 @@ func listToSchemaField(n *schema.GroupNode, currentLevels file.LevelInfo, ctx *s
 		// }
 		primitiveNode := listNode.(*schema.PrimitiveNode)
 		colIndex := ctx.schema.ColumnIndexByNode(primitiveNode)
-		arrowType, err := getArrowType(primitiveNode.PhysicalType(), primitiveNode.LogicalType(), primitiveNode.TypeLength())
+		arrowType, err := getArrowType(ctx, primitiveNode.PhysicalType(), primitiveNode.LogicalType(), primitiveNode.TypeLength())
 		if err != nil {
 			return err
 		}
@@ -882,7 +888,7 @@ func nodeToSchemaField(n schema.Node, currentLevels file.LevelInfo, ctx *schemaT
 
 	primitive := n.(*schema.PrimitiveNode)
 	colIndex := ctx.schema.ColumnIndexByNode(primitive)
-	arrowType, err := getArrowType(primitive.PhysicalType(), primitive.LogicalType(), primitive.TypeLength())
+	arrowType, err := getArrowType(ctx, primitive.PhysicalType(), primitive.LogicalType(), primitive.TypeLength())
 	if err != nil {
 		return err
 	}