Wrap "Dimensions" onto multiple lines in xarray.Dataset repr? #4081

shoyer · 2020-05-19T16:31:59Z

Here's an example dataset of a large dataset from @alimanfoo:
https://nbviewer.jupyter.org/gist/alimanfoo/b74b08465727894538d5b161b3ced764

<xarray.Dataset>
Dimensions:                         (__variants/BaseCounts_dim1: 4, __variants/MLEAC_dim1: 3, __variants/MLEAF_dim1: 3, alt_alleles: 3, ploidy: 2, samples: 1142, variants: 21442865)
Coordinates:
    samples/ID                      (samples) object dask.array<chunksize=(1142,), meta=np.ndarray>
    variants/CHROM                  (variants) object dask.array<chunksize=(21442865,), meta=np.ndarray>
    variants/POS                    (variants) int32 dask.array<chunksize=(4194304,), meta=np.ndarray>
Dimensions without coordinates: __variants/BaseCounts_dim1, __variants/MLEAC_dim1, __variants/MLEAF_dim1, alt_alleles, ploidy, samples, variants
Data variables:
    variants/ABHet                  (variants) float32 dask.array<chunksize=(4194304,), meta=np.ndarray>
    variants/ABHom                  (variants) float32 dask.array<chunksize=(4194304,), meta=np.ndarray>
    variants/AC                     (variants, alt_alleles) int32 dask.array<chunksize=(4194304, 3), meta=np.ndarray>
    variants/AF                     (variants, alt_alleles) float32 dask.array<chunksize=(4194304, 3), meta=np.ndarray>
...

I know similarly large datasets with lots of dimensions come up in other contexts as well, e.g., with geophysical model output.

That's a very long first line! This would be easier to read as:

<xarray.Dataset>
Dimensions:                         (__variants/BaseCounts_dim1: 4, __variants/MLEAC_dim1: 3,
                                     __variants/MLEAF_dim1: 3, alt_alleles: 3, ploidy: 2,
                                     samples: 1142, variants: 21442865)
Coordinates:
    samples/ID                      (samples) object dask.array<chunksize=(1142,), meta=np.ndarray>
    variants/CHROM                  (variants) object dask.array<chunksize=(21442865,), meta=np.ndarray>
    variants/POS                    (variants) int32 dask.array<chunksize=(4194304,), meta=np.ndarray>
Dimensions without coordinates: __variants/BaseCounts_dim1, __variants/MLEAC_dim1, __variants/MLEAF_dim1, alt_alleles, ploidy, samples, variants
Data variables:
    variants/ABHet                  (variants) float32 dask.array<chunksize=(4194304,), meta=np.ndarray>
    variants/ABHom                  (variants) float32 dask.array<chunksize=(4194304,), meta=np.ndarray>
    variants/AC                     (variants, alt_alleles) int32 dask.array<chunksize=(4194304, 3), meta=np.ndarray>
    variants/AF                     (variants, alt_alleles) float32 dask.array<chunksize=(4194304, 3), meta=np.ndarray>
...

or maybe:

<xarray.Dataset>
Dimensions:
    __variants/BaseCounts_dim1: 4
    __variants/MLEAC_dim1: 3
    __variants/MLEAF_dim1: 3
    alt_alleles: 3
    ploidy: 2
    samples: 1142
    variants: 21442865
Coordinates:
    samples/ID                      (samples) object dask.array<chunksize=(1142,), meta=np.ndarray>
    variants/CHROM                  (variants) object dask.array<chunksize=(21442865,), meta=np.ndarray>
    variants/POS                    (variants) int32 dask.array<chunksize=(4194304,), meta=np.ndarray>
Dimensions without coordinates: __variants/BaseCounts_dim1, __variants/MLEAC_dim1, __variants/MLEAF_dim1, alt_alleles, ploidy, samples, variants
Data variables:
    variants/ABHet                  (variants) float32 dask.array<chunksize=(4194304,), meta=np.ndarray>
    variants/ABHom                  (variants) float32 dask.array<chunksize=(4194304,), meta=np.ndarray>
    variants/AC                     (variants, alt_alleles) int32 dask.array<chunksize=(4194304, 3), meta=np.ndarray>
    variants/AF                     (variants, alt_alleles) float32 dask.array<chunksize=(4194304, 3), meta=np.ndarray>
...

Dimensions without coordinates could probably use some wrapping, too.

The text was updated successfully, but these errors were encountered:

alimanfoo · 2020-05-19T20:43:07Z

Thanks @shoyer for raising this, would be nice to wrap the dimensions, I'd vote for one per line.

max-sixty · 2020-05-19T21:24:09Z

Agree with @alimanfoo !

Maybe (eventually, second priority) with the dim lengths aligned. Or do we end up with a table-within-a-table then?

stale · 2022-04-28T23:37:46Z

In order to maintain a list of currently relevant issues, we mark issues as stale after a period of inactivity

If this issue remains relevant, please comment here or remove the stale label; otherwise it will be marked as closed automatically

Illviljan · 2022-04-29T19:59:23Z

Done in #5662.

stale bot added the stale label Apr 28, 2022

dcherian removed the stale label Apr 29, 2022

Illviljan closed this as completed Apr 29, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Wrap "Dimensions" onto multiple lines in xarray.Dataset repr? #4081

Wrap "Dimensions" onto multiple lines in xarray.Dataset repr? #4081

shoyer commented May 19, 2020 •

edited

Loading

alimanfoo commented May 19, 2020

max-sixty commented May 19, 2020

stale bot commented Apr 28, 2022

Illviljan commented Apr 29, 2022

Wrap "Dimensions" onto multiple lines in xarray.Dataset repr? #4081

Wrap "Dimensions" onto multiple lines in xarray.Dataset repr? #4081

Comments

shoyer commented May 19, 2020 • edited Loading

alimanfoo commented May 19, 2020

max-sixty commented May 19, 2020

stale bot commented Apr 28, 2022

Illviljan commented Apr 29, 2022

shoyer commented May 19, 2020 •

edited

Loading