refactor checking for df and bump version

FBruzzesi · web-flow · commit 878d4db86263 · 2024-10-29T16:11:31.000+01:00
diff --git a/packages/python/plotly/optional-requirements.txt b/packages/python/plotly/optional-requirements.txt
@@ -39,7 +39,7 @@ ipython
 
 ## pandas deps for some matplotlib functionality ##
 pandas
-narwhals>=1.11.0
+narwhals>=1.12.0
 
 ## scipy deps for some FigureFactory functions ##
 scipy
diff --git a/packages/python/plotly/plotly/express/_core.py b/packages/python/plotly/plotly/express/_core.py
@@ -1421,48 +1421,41 @@ def build_dataframe(args, constructor):
     # Cast data_frame argument to DataFrame (it could be a numpy array, dict etc.)
     df_provided = args["data_frame"] is not None
     is_pd_like = False
+    needs_interchanging = False
     if df_provided:
 
-        if nw.dependencies.is_polars_dataframe(
-            args["data_frame"]
-        ) or nw.dependencies.is_pyarrow_table(args["data_frame"]):
-            args["data_frame"] = nw.from_native(args["data_frame"], eager_only=True)
-            columns = args["data_frame"].columns
-
-        elif nw.dependencies.is_polars_series(
-            args["data_frame"]
-        ) or nw.dependencies.is_pyarrow_chunked_array(args["data_frame"]):
-            args["data_frame"] = nw.from_native(
-                args["data_frame"],
-                series_only=True,
-            ).to_frame()
-            columns = args["data_frame"].columns
-
-        elif nw.dependencies.is_pandas_like_dataframe(args["data_frame"]):
+        if nw.dependencies.is_pandas_like_dataframe(args["data_frame"]):
 
             columns = args["data_frame"].columns  # This can be multi index
-            args["data_frame"] = nw.from_native(args["data_frame"])
+            args["data_frame"] = nw.from_native(args["data_frame"], eager_only=True)
             is_pd_like = True
 
         elif nw.dependencies.is_pandas_like_series(args["data_frame"]):
 
             args["data_frame"] = nw.from_native(
-                args["data_frame"],
-                series_only=True,
+                args["data_frame"], series_only=True
             ).to_frame()
             columns = args["data_frame"].columns
             is_pd_like = True
 
-        elif hasattr(args["data_frame"], "__dataframe__"):
-            # data_frame supports interchange protocol
-            args["data_frame"] = nw.from_native(
-                nw.from_native(
-                    args["data_frame"], eager_or_interchange_only=True
-                ).to_pandas(),  # Converts to pandas
-                eager_only=True,
-            )
+        elif isinstance(
+            data_frame := nw.from_native(
+                args["data_frame"], eager_or_interchange_only=True, strict=False
+            ),
+            nw.DataFrame,
+        ):
+            args["data_frame"] = data_frame
+            needs_interchanging = nw.get_level(data_frame) == "interchange"
+            columns = args["data_frame"].columns
+
+        elif isinstance(
+            series := nw.from_native(
+                args["data_frame"], series_only=True, strict=False
+            ),
+            nw.Series,
+        ):
+            args["data_frame"] = series.to_frame()
             columns = args["data_frame"].columns
-            is_pd_like = True
 
         elif hasattr(args["data_frame"], "toPandas"):
             # data_frame is PySpark: it does not support interchange and it is not
@@ -1498,11 +1491,16 @@ def build_dataframe(args, constructor):
         columns = None  # no data_frame
 
     df_input: nw.DataFrame | None = args["data_frame"]
-    index = nw.maybe_get_index(df_input) if df_provided else None
-
-    # This is safe since at this point `_compliant_frame` is one of the "full" level
-    # support dataframe(s)
-    native_namespace = nw.get_native_namespace(df_input) if df_provided else None
+    index = (
+        nw.maybe_get_index(df_input)
+        if df_provided and not needs_interchanging
+        else None
+    )
+    native_namespace = (
+        nw.get_native_namespace(df_input)
+        if df_provided and not needs_interchanging
+        else None
+    )
 
     # now we handle special cases like wide-mode or x-xor-y specification
     # by rearranging args to tee things up for process_args_into_dataframe to work
@@ -1575,6 +1573,32 @@ def build_dataframe(args, constructor):
         value_name = _escape_col_name(columns, "value", [])
         var_name = _escape_col_name(columns, var_name, [])
 
+    if isinstance(args["data_frame"], nw.DataFrame) and needs_interchanging:
+        # Interchange to PyArrow
+        if wide_mode:
+            args["data_frame"] = nw.from_native(
+                args["data_frame"].to_arrow(), eager_only=True
+            )
+        else:
+            # Save precious resources by only interchanging columns that are
+            # actually going to be plotted. This is tricky to do in the general case,
+            # because Plotly allows calls like `px.line(df, x='x', y=['y1', df['y1']])`,
+            # but interchange-only objects (e.g. DuckDB) don't typically have a concept
+            # of self-standing Series. It's more important to perform project pushdown
+            # here seeing as we're materialising to an (eager) PyArrow table.
+            necessary_columns = {
+                i for i in args.values() if isinstance(i, str) and i in columns
+            }
+            for field in args:
+                if args[field] is not None and field in array_attrables:
+                    necessary_columns.update(i for i in args[field] if i in columns)
+            columns = list(necessary_columns)
+            args["data_frame"] = nw.from_native(
+                args["data_frame"].select(columns).to_arrow(), eager_only=True
+            )
+        import pyarrow as pa
+
+        native_namespace = pa
     missing_bar_dim = None
     if (
         constructor in [go.Scatter, go.Bar, go.Funnel] + hist2d_types
diff --git a/packages/python/plotly/plotly/tests/test_optional/test_px/test_px_input.py b/packages/python/plotly/plotly/tests/test_optional/test_px/test_px_input.py
@@ -1,4 +1,5 @@
 import plotly.express as px
+import pyarrow as pa
 import plotly.graph_objects as go
 import narwhals.stable.v1 as nw
 import numpy as np
@@ -290,35 +291,48 @@ def test_build_df_with_index():
 
 def test_build_df_using_interchange_protocol_mock():
     class InterchangeDataFrame:
-        def __init__(self, columns):
-            self._columns = columns
+        def __init__(self, df):
+            self._df = df
 
-        def column_names(self):
-            return self._columns
+        def __dataframe__(self):
+            return self
 
-    interchange_dataframe = InterchangeDataFrame(
-        ["petal_width", "sepal_length", "sepal_width"]
-    )
+        def column_names(self):
+            return list(self._df._data.keys())
+
+        def select_columns_by_name(self, columns):
+            return InterchangeDataFrame(
+                CustomDataFrame(
+                    {
+                        key: value
+                        for key, value in self._df._data.items()
+                        if key in columns
+                    }
+                )
+            )
 
     class CustomDataFrame:
-        def __dataframe__(self):
-            return interchange_dataframe
+        def __init__(self, data):
+            self._data = data
+
+        def __dataframe__(self, allow_copy: bool = True):
+            return InterchangeDataFrame(self)
 
-    input_dataframe = CustomDataFrame()
+    input_dataframe = CustomDataFrame({"a": [1, 2, 3], "b": [4, 5, 6]})
 
-    iris_pandas = px.data.iris()
+    input_dataframe_pa = pa.table({"a": [1, 2, 3], "b": [4, 5, 6]})
 
-    args = dict(data_frame=input_dataframe, x="petal_width", y="sepal_length")
+    args = dict(data_frame=input_dataframe, x="a", y="b")
     with mock.patch(
-        "narwhals._interchange.dataframe.InterchangeFrame.to_pandas",
-        return_value=iris_pandas,
+        "narwhals._interchange.dataframe.InterchangeFrame.to_arrow",
+        return_value=input_dataframe_pa,
     ) as mock_from_dataframe:
         out = build_dataframe(args, go.Scatter)
 
         mock_from_dataframe.assert_called_once()
 
         assert_frame_equal(
-            iris_pandas.reset_index()[out["data_frame"].columns],
+            input_dataframe_pa.select(out["data_frame"].columns).to_pandas(),
             out["data_frame"].to_pandas(),
         )
 
diff --git a/packages/python/plotly/requirements.txt b/packages/python/plotly/requirements.txt
@@ -6,4 +6,4 @@
 ###################################################
 
 ## dataframe agnostic layer ##
-narwhals>=1.11.0
+narwhals>=1.12.0
diff --git a/packages/python/plotly/setup.py b/packages/python/plotly/setup.py
@@ -603,7 +603,7 @@ def run(self):
     data_files=[
         ("etc/jupyter/nbconfig/notebook.d", ["jupyterlab-plotly.json"]),
     ],
-    install_requires=["narwhals>=1.11.0", "packaging"],
+    install_requires=["narwhals>=1.12.0", "packaging"],
     zip_safe=False,
     cmdclass=dict(
         build_py=js_prerelease(versioneer_cmds["build_py"]),
diff --git a/packages/python/plotly/test_requirements/requirements_310_core.txt b/packages/python/plotly/test_requirements/requirements_310_core.txt
@@ -1,3 +1,3 @@
 requests==2.25.1
 pytest==7.4.4
-narwhals>=1.11.0
+narwhals>=1.12.0
diff --git a/packages/python/plotly/test_requirements/requirements_310_optional.txt b/packages/python/plotly/test_requirements/requirements_310_optional.txt
@@ -21,4 +21,4 @@ kaleido
 orjson==3.8.12
 polars[timezone]
 pyarrow
-narwhals>=1.11.0
+narwhals>=1.12.0
diff --git a/packages/python/plotly/test_requirements/requirements_311_core.txt b/packages/python/plotly/test_requirements/requirements_311_core.txt
@@ -1,3 +1,3 @@
 requests==2.25.1
 pytest==7.4.4
-narwhals>=1.11.0
+narwhals>=1.12.0
diff --git a/packages/python/plotly/test_requirements/requirements_311_optional.txt b/packages/python/plotly/test_requirements/requirements_311_optional.txt
@@ -21,4 +21,4 @@ kaleido
 orjson==3.8.12
 polars[timezone]
 pyarrow
-narwhals>=1.11.0
+narwhals>=1.12.0
diff --git a/packages/python/plotly/test_requirements/requirements_312_core.txt b/packages/python/plotly/test_requirements/requirements_312_core.txt
@@ -1,3 +1,3 @@
 requests==2.25.1
 pytest==7.4.4
-narwhals>=1.11.0
+narwhals>=1.12.0
diff --git a/packages/python/plotly/test_requirements/requirements_312_no_numpy_optional.txt b/packages/python/plotly/test_requirements/requirements_312_no_numpy_optional.txt
@@ -20,4 +20,4 @@ kaleido
 orjson==3.9.10
 polars[timezone]
 pyarrow
-narwhals>=1.11.0
+narwhals>=1.12.0
diff --git a/packages/python/plotly/test_requirements/requirements_312_optional.txt b/packages/python/plotly/test_requirements/requirements_312_optional.txt
@@ -21,4 +21,4 @@ kaleido
 orjson==3.9.10
 polars[timezone]
 pyarrow
-narwhals>=1.11.0
+narwhals>=1.12.0
diff --git a/packages/python/plotly/test_requirements/requirements_38_core.txt b/packages/python/plotly/test_requirements/requirements_38_core.txt
@@ -1,3 +1,3 @@
 requests==2.25.1
 pytest==8.1.1
-narwhals>=1.11.0
+narwhals>=1.12.0
diff --git a/packages/python/plotly/test_requirements/requirements_38_optional.txt b/packages/python/plotly/test_requirements/requirements_38_optional.txt
@@ -21,4 +21,4 @@ psutil==5.7.0
 kaleido
 polars[timezone]
 pyarrow
-narwhals>=1.11.0
+narwhals>=1.12.0
diff --git a/packages/python/plotly/test_requirements/requirements_39_core.txt b/packages/python/plotly/test_requirements/requirements_39_core.txt
@@ -1,3 +1,3 @@
 requests==2.25.1
 pytest==6.2.3
-narwhals>=1.11.0
+narwhals>=1.12.0
diff --git a/packages/python/plotly/test_requirements/requirements_39_optional.txt b/packages/python/plotly/test_requirements/requirements_39_optional.txt
@@ -22,4 +22,4 @@ kaleido
 orjson==3.8.12
 polars[timezone]
 pyarrow
-narwhals>=1.11.0
+narwhals>=1.12.0
diff --git a/packages/python/plotly/test_requirements/requirements_39_pandas_2_optional.txt b/packages/python/plotly/test_requirements/requirements_39_pandas_2_optional.txt
@@ -22,4 +22,4 @@ vaex
 pydantic<=1.10.11 # for vaex, see https://github.com/vaexio/vaex/issues/2384
 polars[timezone]
 pyarrow
-narwhals>=1.11.0
+narwhals>=1.12.0