Update 00_spotPython_tests.ipynb

bartzbeielstein · bartzbeielstein · commit 7e72f7dcf950 · 2024-07-11T13:52:04.000+02:00
diff --git a/notebooks/00_spotPython_tests.ipynb b/notebooks/00_spotPython_tests.ipynb
@@ -4055,39 +4055,9 @@
     },
     {
       "cell_type": "code",
-      "execution_count": 2,
+      "execution_count": null,
       "metadata": {},
-      "outputs": [
-        {
-          "name": "stderr",
-          "output_type": "stream",
-          "text": [
-            "Seed set to 123\n"
-          ]
-        },
-        {
-          "name": "stdout",
-          "output_type": "stream",
-          "text": [
-            "Before modification:\n",
-            "| name            | type   |   default |   lower |   upper | transform   |\n",
-            "|-----------------|--------|-----------|---------|---------|-------------|\n",
-            "| n_estimators    | int    |        10 |     2   |    1000 | None        |\n",
-            "| step            | float  |         1 |     0.1 |      10 | None        |\n",
-            "| use_aggregation | factor |         1 |     0   |       1 | None        |\n",
-            "Setting hyperparameter n_estimators to value [2, 5].\n",
-            "Variable type is int.\n",
-            "Core type is None.\n",
-            "Calling modify_hyper_parameter_bounds().\n",
-            "After modification:\n",
-            "| name            | type   |   default |   lower |   upper | transform   |\n",
-            "|-----------------|--------|-----------|---------|---------|-------------|\n",
-            "| n_estimators    | int    |        10 |     2   |       5 | None        |\n",
-            "| step            | float  |         1 |     0.1 |      10 | None        |\n",
-            "| use_aggregation | factor |         1 |     0   |       1 | None        |\n"
-          ]
-        }
-      ],
+      "outputs": [],
       "source": [
         "from spotRiver.hyperdict.river_hyper_dict import RiverHyperDict\n",
         "from spotPython.utils.init import fun_control_init\n",
@@ -4106,59 +4076,9 @@
     },
     {
       "cell_type": "code",
-      "execution_count": 6,
+      "execution_count": null,
       "metadata": {},
-      "outputs": [
-        {
-          "name": "stderr",
-          "output_type": "stream",
-          "text": [
-            "Seed set to 123\n"
-          ]
-        },
-        {
-          "name": "stdout",
-          "output_type": "stream",
-          "text": [
-            "Before modification:\n",
-            "| name                   | type   | default          |   lower |    upper | transform              |\n",
-            "|------------------------|--------|------------------|---------|----------|------------------------|\n",
-            "| grace_period           | int    | 200              |  10     | 1000     | None                   |\n",
-            "| max_depth              | int    | 20               |   2     |   20     | transform_power_2_int  |\n",
-            "| delta                  | float  | 1e-07            |   1e-08 |    1e-06 | None                   |\n",
-            "| tau                    | float  | 0.05             |   0.01  |    0.1   | None                   |\n",
-            "| leaf_prediction        | factor | mean             |   0     |    2     | None                   |\n",
-            "| leaf_model             | factor | LinearRegression |   0     |    2     | None                   |\n",
-            "| model_selector_decay   | float  | 0.95             |   0.9   |    0.99  | None                   |\n",
-            "| splitter               | factor | EBSTSplitter     |   0     |    2     | None                   |\n",
-            "| min_samples_split      | int    | 5                |   2     |   10     | None                   |\n",
-            "| binary_split           | factor | 0                |   0     |    1     | None                   |\n",
-            "| max_size               | float  | 500.0            | 100     | 1000     | None                   |\n",
-            "| memory_estimate_period | int    | 6                |   3     |    8     | transform_power_10_int |\n",
-            "| stop_mem_management    | factor | 0                |   0     |    1     | None                   |\n",
-            "| remove_poor_attrs      | factor | 0                |   0     |    1     | None                   |\n",
-            "| merit_preprune         | factor | 1                |   0     |    1     | None                   |\n",
-            "After modification:\n",
-            "| name                   | type   | default          |   lower |    upper | transform              |\n",
-            "|------------------------|--------|------------------|---------|----------|------------------------|\n",
-            "| grace_period           | int    | 200              |  10     | 1000     | None                   |\n",
-            "| max_depth              | int    | 20               |   2     |   20     | transform_power_2_int  |\n",
-            "| delta                  | float  | 1e-07            |   1e-08 |    1e-06 | None                   |\n",
-            "| tau                    | float  | 0.05             |   0.01  |    0.1   | None                   |\n",
-            "| leaf_prediction        | factor | mean             |   0     |    2     | None                   |\n",
-            "| leaf_model             | factor | LinearRegression |   0     |    1     | None                   |\n",
-            "| model_selector_decay   | float  | 0.95             |   0.9   |    0.99  | None                   |\n",
-            "| splitter               | factor | EBSTSplitter     |   0     |    2     | None                   |\n",
-            "| min_samples_split      | int    | 5                |   2     |   10     | None                   |\n",
-            "| binary_split           | factor | 0                |   0     |    1     | None                   |\n",
-            "| max_size               | float  | 500.0            | 100     | 1000     | None                   |\n",
-            "| memory_estimate_period | int    | 6                |   3     |    8     | transform_power_10_int |\n",
-            "| stop_mem_management    | factor | 0                |   0     |    1     | None                   |\n",
-            "| remove_poor_attrs      | factor | 0                |   0     |    1     | None                   |\n",
-            "| merit_preprune         | factor | 1                |   0     |    1     | None                   |\n"
-          ]
-        }
-      ],
+      "outputs": [],
       "source": [
         "import pprint\n",
         "from spotRiver.hyperdict.river_hyper_dict import RiverHyperDict\n",
@@ -4179,24 +4099,9 @@
     },
     {
       "cell_type": "code",
-      "execution_count": 7,
+      "execution_count": null,
       "metadata": {},
-      "outputs": [
-        {
-          "name": "stderr",
-          "output_type": "stream",
-          "text": [
-            "Seed set to 123\n"
-          ]
-        },
-        {
-          "name": "stdout",
-          "output_type": "stream",
-          "text": [
-            "{'grace_period': {'type': 'int', 'default': 200, 'transform': 'None', 'lower': 10, 'upper': 1000}, 'max_depth': {'type': 'int', 'default': 20, 'transform': 'transform_power_2_int', 'lower': 2, 'upper': 20}, 'delta': {'type': 'float', 'default': 1e-07, 'transform': 'None', 'lower': 1e-08, 'upper': 1e-06}, 'tau': {'type': 'float', 'default': 0.05, 'transform': 'None', 'lower': 0.01, 'upper': 0.1}, 'leaf_prediction': {'levels': ['mean', 'model', 'adaptive'], 'type': 'factor', 'default': 'mean', 'transform': 'None', 'core_model_parameter_type': 'str', 'lower': 0, 'upper': 2}, 'leaf_model': {'levels': ['LinearRegression', 'Perceptron'], 'type': 'factor', 'default': 'LinearRegression', 'transform': 'None', 'class_name': 'river.linear_model', 'core_model_parameter_type': 'instance()', 'lower': 0, 'upper': 1}, 'model_selector_decay': {'type': 'float', 'default': 0.95, 'transform': 'None', 'lower': 0.9, 'upper': 0.99}, 'splitter': {'levels': ['EBSTSplitter', 'TEBSTSplitter', 'QOSplitter'], 'type': 'factor', 'default': 'EBSTSplitter', 'transform': 'None', 'class_name': 'river.tree.splitter', 'core_model_parameter_type': 'instance()', 'lower': 0, 'upper': 2}, 'min_samples_split': {'type': 'int', 'default': 5, 'transform': 'None', 'lower': 2, 'upper': 10}, 'binary_split': {'levels': [0, 1], 'type': 'factor', 'default': 0, 'transform': 'None', 'core_model_parameter_type': 'bool', 'lower': 0, 'upper': 1}, 'max_size': {'type': 'float', 'default': 500.0, 'transform': 'None', 'lower': 100.0, 'upper': 1000.0}, 'memory_estimate_period': {'type': 'int', 'default': 6, 'transform': 'transform_power_10_int', 'lower': 3, 'upper': 8}, 'stop_mem_management': {'levels': [0, 1], 'type': 'factor', 'default': 0, 'transform': 'None', 'core_model_parameter_type': 'bool', 'lower': 0, 'upper': 1}, 'remove_poor_attrs': {'levels': [0, 1], 'type': 'factor', 'default': 0, 'transform': 'None', 'core_model_parameter_type': 'bool', 'lower': 0, 'upper': 1}, 'merit_preprune': {'levels': [0, 1], 'type': 'factor', 'default': 1, 'transform': 'None', 'core_model_parameter_type': 'bool', 'lower': 0, 'upper': 1}}\n"
-          ]
-        }
-      ],
+      "outputs": [],
       "source": [
         "fun_control = fun_control_init(\n",
         "    core_model_name=\"tree.HoeffdingTreeRegressor\",\n",
@@ -4213,50 +4118,9 @@
     },
     {
       "cell_type": "code",
-      "execution_count": 9,
+      "execution_count": null,
       "metadata": {},
-      "outputs": [
-        {
-          "name": "stderr",
-          "output_type": "stream",
-          "text": [
-            "Seed set to 123\n"
-          ]
-        },
-        {
-          "name": "stdout",
-          "output_type": "stream",
-          "text": [
-            "Before modification:\n",
-            "| name            | type   |   default |   lower |   upper | transform   |\n",
-            "|-----------------|--------|-----------|---------|---------|-------------|\n",
-            "| n_estimators    | int    |        10 |     2   |    1000 | None        |\n",
-            "| step            | float  |         1 |     0.1 |      10 | None        |\n",
-            "| use_aggregation | factor |         1 |     0   |       1 | None        |\n",
-            "Setting hyperparameter use_aggregation to value [0, 0].\n",
-            "Variable type is factor.\n",
-            "Core type is bool.\n",
-            "Calling modify_boolean_hyper_parameter_levels().\n",
-            "After modification:\n",
-            "| name            | type   |   default |   lower |   upper | transform   |\n",
-            "|-----------------|--------|-----------|---------|---------|-------------|\n",
-            "| n_estimators    | int    |        10 |     2   |    1000 | None        |\n",
-            "| step            | float  |         1 |     0.1 |      10 | None        |\n",
-            "| use_aggregation | factor |         1 |     0   |       0 | None        |\n"
-          ]
-        },
-        {
-          "ename": "",
-          "evalue": "",
-          "output_type": "error",
-          "traceback": [
-            "\u001b[1;31mThe Kernel crashed while executing code in the current cell or a previous cell. \n",
-            "\u001b[1;31mPlease review the code in the cell(s) to identify a possible cause of the failure. \n",
-            "\u001b[1;31mClick <a href='https://aka.ms/vscodeJupyterKernelCrash'>here</a> for more info. \n",
-            "\u001b[1;31mView Jupyter <a href='command:jupyter.viewOutput'>log</a> for further details."
-          ]
-        }
-      ],
+      "outputs": [],
       "source": [
         "from spotRiver.hyperdict.river_hyper_dict import RiverHyperDict\n",
         "from spotPython.utils.init import fun_control_init\n",
@@ -4273,6 +4137,187 @@
         "print(gen_design_table(fun_control))"
       ]
     },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "# Scaler"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Dataset"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 19,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "import torch\n",
+        "from torch.utils.data import Dataset\n",
+        "\n",
+        "class MyDataset(Dataset):\n",
+        "    def __init__(self, data, labels):\n",
+        "        self.data = data\n",
+        "        self.labels = labels\n",
+        "\n",
+        "    def __len__(self):\n",
+        "        return len(self.data)\n",
+        "\n",
+        "    def __getitem__(self, idx):\n",
+        "        return self.data[idx], self.labels[idx]"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## DataModule"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 20,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "import pytorch_lightning as pl\n",
+        "from sklearn.preprocessing import StandardScaler\n",
+        "from torch.utils.data import DataLoader, random_split\n",
+        "\n",
+        "class MyDataModule(pl.LightningDataModule):\n",
+        "    def __init__(self, full_dataset, train_size=0.8, batch_size=32, num_workers=4):\n",
+        "        super().__init__()\n",
+        "        self.dataset = full_dataset\n",
+        "        self.train_size = train_size\n",
+        "        self.batch_size = batch_size\n",
+        "        self.num_workers = num_workers\n",
+        "        self.scaler = StandardScaler()\n",
+        "\n",
+        "    def setup(self, stage=None):\n",
+        "        # Split the dataset\n",
+        "        train_len = int(len(self.dataset) * self.train_size)\n",
+        "        val_len = len(self.dataset) - train_len\n",
+        "        self.train_set, self.val_set = random_split(self.dataset, [train_len, val_len])\n",
+        "        \n",
+        "        # Fit scaler on training data\n",
+        "        train_data = torch.stack([item[0] for item in self.train_set])\n",
+        "        print(f\"train_data before scaling\\n: {train_data}\")  \n",
+        "        self.scaler.fit(train_data)\n",
+        "       \n",
+        "        # Transform training data\n",
+        "        scaled_train_data = self.scaler.transform(train_data)\n",
+        "        self.train_set = self._update_dataset(self.train_set, scaled_train_data)\n",
+        "        print(f\"train_data after scaling\\n: {self.train_set}\")  \n",
+        "        \n",
+        "        # Transform validation data\n",
+        "        val_data = torch.stack([item[0] for item in self.val_set])\n",
+        "        scaled_val_data = self.scaler.transform(val_data)\n",
+        "        self.val_set = self._update_dataset(self.val_set, scaled_val_data)\n",
+        "\n",
+        "    def _update_dataset(self, original_dataset, scaled_data):\n",
+        "        updated_dataset = []\n",
+        "        for i, (data, label) in enumerate(original_dataset):\n",
+        "            updated_dataset.append((torch.tensor(scaled_data[i]), label))\n",
+        "        return updated_dataset\n",
+        "\n",
+        "    def train_dataloader(self):\n",
+        "        return DataLoader(self.train_set, batch_size=self.batch_size, num_workers=self.num_workers, shuffle=True)\n",
+        "\n",
+        "    def val_dataloader(self):\n",
+        "        return DataLoader(self.val_set, batch_size=self.batch_size, num_workers=self.num_workers)\n",
+        "\n",
+        "    def test_dataloader(self):\n",
+        "        test_data = torch.stack([item[0] for item in self.test_set])\n",
+        "        scaled_test_data = self.scaler.transform(test_data)\n",
+        "        self.test_set = self._update_dataset(self.test_set, scaled_test_data)\n",
+        "        return DataLoader(self.test_set, batch_size=self.batch_size, num_workers=self.num_workers)\n",
+        "\n",
+        "    def prepare_data(self):\n",
+        "        # Here you can download datasets if needed\n",
+        "        pass"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Example"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 21,
+      "metadata": {},
+      "outputs": [
+        {
+          "name": "stdout",
+          "output_type": "stream",
+          "text": [
+            "data: tensor([[0.1279, 0.1770, 0.1569],\n",
+            "        [0.6378, 0.3699, 0.0971],\n",
+            "        [0.1516, 0.7931, 0.8748],\n",
+            "        [0.8640, 0.3450, 0.7994],\n",
+            "        [0.1711, 0.5990, 0.5109],\n",
+            "        [0.2568, 0.1260, 0.3945],\n",
+            "        [0.9566, 0.3997, 0.4479],\n",
+            "        [0.5616, 0.4342, 0.3842],\n",
+            "        [0.9247, 0.1204, 0.4356],\n",
+            "        [0.2621, 0.9219, 0.2392]])\n",
+            "labels: tensor([0., 1., 0., 1., 0., 1., 0., 1., 0., 1.])\n",
+            "train_data before scaling\n",
+            ": tensor([[0.1279, 0.1770, 0.1569],\n",
+            "        [0.1516, 0.7931, 0.8748],\n",
+            "        [0.6378, 0.3699, 0.0971],\n",
+            "        [0.5616, 0.4342, 0.3842],\n",
+            "        [0.2621, 0.9219, 0.2392],\n",
+            "        [0.1711, 0.5990, 0.5109],\n",
+            "        [0.9566, 0.3997, 0.4479],\n",
+            "        [0.2568, 0.1260, 0.3945]])\n",
+            "train_data after scaling\n",
+            ": [(tensor([-0.9444, -1.1516, -1.0144], dtype=torch.float64), tensor(0.)), (tensor([-0.8594,  1.2085,  2.1341], dtype=torch.float64), tensor(0.)), (tensor([ 0.8881, -0.4127, -1.2768], dtype=torch.float64), tensor(1.)), (tensor([ 0.6144, -0.1661, -0.0176], dtype=torch.float64), tensor(1.)), (tensor([-0.4621,  1.7019, -0.6533], dtype=torch.float64), tensor(1.)), (tensor([-0.7891,  0.4651,  0.5384], dtype=torch.float64), tensor(0.)), (tensor([ 2.0336, -0.2985,  0.2620], dtype=torch.float64), tensor(0.)), (tensor([-0.4812, -1.3467,  0.0277], dtype=torch.float64), tensor(1.))]\n",
+            "Batch data shape: torch.Size([8, 3])\n",
+            "tensor([[-0.7891,  0.4651,  0.5384],\n",
+            "        [ 0.8881, -0.4127, -1.2768],\n",
+            "        [ 2.0336, -0.2985,  0.2620],\n",
+            "        [-0.8594,  1.2085,  2.1341],\n",
+            "        [-0.9444, -1.1516, -1.0144],\n",
+            "        [-0.4812, -1.3467,  0.0277],\n",
+            "        [ 0.6144, -0.1661, -0.0176],\n",
+            "        [-0.4621,  1.7019, -0.6533]], dtype=torch.float64)\n",
+            "tensor([0., 1., 0., 0., 0., 1., 1., 1.])\n"
+          ]
+        }
+      ],
+      "source": [
+        "# generate a 3-dimensional tensor with 1000 samples\n",
+        "n = 10\n",
+        "data = torch.rand((n, 3))\n",
+        "print(f\"data: {data}\")\n",
+        "labels = torch.tensor([i % 2 for i in range(n)], dtype=torch.float32)\n",
+        "print(f\"labels: {labels}\")\n",
+        "full_dataset = MyDataset(data, labels)\n",
+        "\n",
+        "# Creating DataModule instance\n",
+        "data_module = MyDataModule(full_dataset)\n",
+        "\n",
+        "# Setup the data module\n",
+        "data_module.setup()\n",
+        "\n",
+        "# Example of fetching a single batch\n",
+        "train_loader = data_module.train_dataloader()\n",
+        "for batch in train_loader:\n",
+        "    print(f\"Batch data shape: {batch[0].shape}\")\n",
+        "    x, y = batch\n",
+        "    print(x)\n",
+        "    print(y)\n",
+        "    break"
+      ]
+    },
     {
       "cell_type": "code",
       "execution_count": null,