LineRecordReader read wrong data #1

lordk911 · 2017-01-17T01:12:40Z

I have a test file: field delimiter with \t
kevin 30 2016
shen 30 2016
kai 33 2016
wei 30 2016

after useing:
var datas: RDD[(LongWritable, String)] = sc.newAPIHadoopFile(inputPath+filename, classOf[TextInputFormat], classOf[LongWritable], classOf[Text], hadoopConf).map { case (key, value) =>
(key, new String(value.getBytes, decode))
}

and I save RDD to hdfs I got this:

(0,kevin 30 2016)
(14,shen 30 20166)
(27,kai 33 201666)
(39,wei 30 201666)

It looks like after the reader read a line and it did't clean it's buffer or something?

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

LineRecordReader read wrong data #1

LineRecordReader read wrong data #1

lordk911 commented Jan 17, 2017

LineRecordReader read wrong data #1

LineRecordReader read wrong data #1

Comments

lordk911 commented Jan 17, 2017