feat(filesystem): implement a csv reader with duckdb engine #319

IlyaFaer · 2024-01-12T07:55:42Z

Towards #299

A raw version of the source to discuss some details.

Test data in a form of CSV files and folders is required in different buckets. For now, I tested it on my local filesystem:

Data from two CSV files is read and saved in the same table. As it works through the filesystem source, all the kinds of storages supported by filesystem are supposed to be working here as well. But as I don't have straight access to the buckets to create test CSV files, I had to use local file system.

sources/csv_reader/__init__.py

sources/csv_reader/helpers.py

sources/csv_reader/__init__.py

rudolfix

@IlyaFaer good start. check my comment in read_csv

sources/csv_reader/__init__.py

IlyaFaer · 2024-01-23T06:54:53Z

This PR requires another PR to be merged first: dlt-hub/dlt#906

rudolfix

it's so cool that passing fsspec file works with duck db! next steps:

move it to filesystem source, see review
you still do not read in batches really (see review)
I think we need both json and arrow option when yielding items (see review :)

sources/csv_reader/__init__.py

rudolfix

OK this is not a WIP anymore - we are almost ready to merge :)

pls fix the review
pls add demo (can be super simple along stream_and_merge_csv)
pls document new reader in filesystem README

sources/filesystem/readers.py

tests/filesystem/test_filesystem.py

rudolfix · 2024-01-25T12:47:26Z

@IlyaFaer could you also look at this: https://clickhouse.com/docs/en/getting-started/example-datasets/nyc-taxi it is a taxi dataset as zip csv. it is quite large. pls make sure you can ingest it with duckdb reader

make sure we ingest zip streams (I think duckdb detects compression)
you do not need to load it all
you may add this as a duckb example I asked above

sources/filesystem/readers.py

tests/filesystem/test_filesystem.py

rudolfix

LGTM!

files are added, but the core PR must be fixed and merged first

WIP: a prototype of a csv reader with duckdb engine

1b6c93f

IlyaFaer commented Jan 12, 2024

View reviewed changes

sources/csv_reader/__init__.py Outdated Show resolved Hide resolved

IlyaFaer commented Jan 12, 2024

View reviewed changes

sources/csv_reader/__init__.py Outdated Show resolved Hide resolved

IlyaFaer commented Jan 12, 2024

View reviewed changes

sources/csv_reader/__init__.py Outdated Show resolved Hide resolved

IlyaFaer commented Jan 12, 2024

View reviewed changes

sources/csv_reader/helpers.py Outdated Show resolved Hide resolved

IlyaFaer requested a review from rudolfix January 12, 2024 08:15

add simple tests and samples

bc85c23

sultaniman reviewed Jan 17, 2024

View reviewed changes

sources/csv_reader/__init__.py Outdated Show resolved Hide resolved

sources/csv_reader/__init__.py Outdated Show resolved Hide resolved

sources/csv_reader/__init__.py Outdated Show resolved Hide resolved

use filesystem detection for DuckDB registration

85ecfa3

rudolfix requested changes Jan 18, 2024

View reviewed changes

sources/csv_reader/__init__.py Outdated Show resolved Hide resolved

IlyaFaer added 2 commits January 19, 2024 15:56

use file-like objects for extracting the data

be06d32

implement S3 and local filesystem tests

8c0b713

IlyaFaer mentioned this pull request Jan 23, 2024

feat(csv_reader): separate a method for csv_reader dlt-hub/dlt#906

Merged

IlyaFaer added 2 commits January 23, 2024 10:06

update the code

2e9165b

add dlt into requirements

f342455

rudolfix requested changes Jan 23, 2024

View reviewed changes

sources/csv_reader/__init__.py Outdated Show resolved Hide resolved

sources/csv_reader/__init__.py Outdated Show resolved Hide resolved

sources/csv_reader/__init__.py Outdated Show resolved Hide resolved

sources/csv_reader/__init__.py Outdated Show resolved Hide resolved

IlyaFaer added 3 commits January 24, 2024 13:42

make csv reader a helper

0ea1457

fixes

095cc1b

lint fixes

490c5e7

IlyaFaer marked this pull request as ready for review January 24, 2024 12:42

rudolfix requested changes Jan 24, 2024

View reviewed changes

sources/filesystem/readers.py Outdated Show resolved Hide resolved

tests/filesystem/test_filesystem.py Outdated Show resolved Hide resolved

fixes

e25d95a

IlyaFaer changed the title ~~WIP: a prototype of a csv reader with duckdb engine~~ feat(filesystem): implement a csv reader with duckdb engine Jan 25, 2024

IlyaFaer added 2 commits January 25, 2024 14:48

a side import fix

755abf0

fix typo

bca25da

rudolfix requested changes Jan 25, 2024

View reviewed changes

sources/filesystem/readers.py Outdated Show resolved Hide resolved

IlyaFaer added 2 commits January 26, 2024 15:17

add a gz file and an example

5bab574

fix

ee3dfbd

IlyaFaer added 2 commits January 26, 2024 16:06

delete test file

9831cf8

delete testing example

96ef2ae

IlyaFaer mentioned this pull request Jan 26, 2024

feat(filesystem): add compression flag if the read file is GZ dlt-hub/dlt#912

Merged

IlyaFaer added 2 commits January 26, 2024 16:58

add a gzip csv read example

8b93e7c

fix

34801e2

IlyaFaer commented Jan 26, 2024

View reviewed changes

tests/filesystem/test_filesystem.py Show resolved Hide resolved

rudolfix previously approved these changes Jan 26, 2024

View reviewed changes

update test assert values

18af577

IlyaFaer dismissed rudolfix’s stale review via 18af577 January 30, 2024 07:37

rudolfix added 3 commits January 30, 2024 13:59

bumps dlt to version 0.4.3a0

f90a495

Merge branch 'master' into csv_duckdb_reader

643bfca

fixes taxi dataset, duckdb reader signature and tests

a942518

rudolfix merged commit 29b86fa into master Jan 31, 2024
14 checks passed

rudolfix deleted the csv_duckdb_reader branch January 31, 2024 03:15

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat(filesystem): implement a csv reader with duckdb engine #319

feat(filesystem): implement a csv reader with duckdb engine #319

IlyaFaer commented Jan 12, 2024 •

edited

Loading

rudolfix left a comment

IlyaFaer commented Jan 23, 2024

rudolfix left a comment

rudolfix left a comment

rudolfix commented Jan 25, 2024

rudolfix left a comment

feat(filesystem): implement a csv reader with duckdb engine #319

feat(filesystem): implement a csv reader with duckdb engine #319

Conversation

IlyaFaer commented Jan 12, 2024 • edited Loading

rudolfix left a comment

Choose a reason for hiding this comment

IlyaFaer commented Jan 23, 2024

rudolfix left a comment

Choose a reason for hiding this comment

rudolfix left a comment

Choose a reason for hiding this comment

rudolfix commented Jan 25, 2024

rudolfix left a comment

Choose a reason for hiding this comment

IlyaFaer commented Jan 12, 2024 •

edited

Loading