.. DO NOT EDIT. .. THIS FILE WAS AUTOMATICALLY GENERATED BY SPHINX-GALLERY. .. TO MAKE CHANGES, EDIT THE SOURCE PYTHON FILE: .. "checks_gallery/vision/model_evaluation/plot_train_test_prediction_drift.py" .. LINE NUMBERS ARE GIVEN BELOW. .. only:: html .. note:: :class: sphx-glr-download-link-note Click :ref:`here ` to download the full example code .. rst-class:: sphx-glr-example-title .. _sphx_glr_checks_gallery_vision_model_evaluation_plot_train_test_prediction_drift.py: .. _plot_vision_train_test_prediction_drift: Train Test Prediction Drift *************************** This notebooks provides an overview for using and understanding the vision prediction drift check. **Structure:** * `What Is Prediction Drift? <#what-is-prediction-drift>`__ * `Which Prediction Properties Are Used? <#which-prediction-properties-are-used>`__ * `Run Check on a Classification Task <#run-the-check-on-a-classification-task-mnist>`__ * `Run Check on an Object Detection Task <#run-the-check-on-an-object-detection-task-coco>`__ What Is Prediction Drift? ========================= Drift is simply a change in the distribution of data over time, and it is also one of the top reasons why machine learning model's performance degrades over time. Prediction drift is when drift occurs in the prediction itself. Calculating prediction drift is especially useful in cases in which labels are not available for the test dataset, and so a drift in the predictions is a direct indication that a change that happened in the data has affected the model's predictions. If labels are available, it's also recommended to run the :doc:`Label Drift check `. For more information on drift, please visit our :doc:`drift guide ` How Deepchecks Detects Prediction Drift --------------------------------------- This check detects prediction drift by using :ref:`univariate measures ` on the prediction properties. Using Prediction Properties to Detect Prediction Drift ------------------------------------------------------ In computer vision specifically, our predictions may be complex, and measuring their drift is not a straightforward task. Therefore, we calculate drift on different :doc:`properties of the prediction`, on which we can directly measure drift. Which Prediction Properties Are Used? ===================================== ================ =================================== ========== Task Type Property name What is it ================ =================================== ========== Classification Samples Per Class Number of images per class Object Detection Samples Per Class Number of bounding boxes per class Object Detection Bounding Box Area Area of bounding box (height * width) Object Detection Number of Bounding Boxes Per Image Number of bounding box objects in each image ================ =================================== ========== Run the Check on a Classification Task (MNIST) ============================================== .. GENERATED FROM PYTHON SOURCE LINES 63-65 Imports ------- .. GENERATED FROM PYTHON SOURCE LINES 65-70 .. code-block:: default from deepchecks.vision.checks import TrainTestPredictionDrift from deepchecks.vision.datasets.classification.mnist import (load_dataset, load_model) .. GENERATED FROM PYTHON SOURCE LINES 71-73 Loading data and model: ----------------------- .. GENERATED FROM PYTHON SOURCE LINES 73-78 .. code-block:: default train_ds = load_dataset(train=True, batch_size=64, object_type='VisionData') test_ds = load_dataset(train=False, batch_size=64, object_type='VisionData') .. GENERATED FROM PYTHON SOURCE LINES 79-82 .. code-block:: default model = load_model() .. GENERATED FROM PYTHON SOURCE LINES 83-85 Running TrainTestLabelDrift on classification --------------------------------------------- .. GENERATED FROM PYTHON SOURCE LINES 85-90 .. code-block:: default check = TrainTestPredictionDrift() result = check.run(train_ds, test_ds, model) result .. rst-class:: sphx-glr-script-out .. code-block:: none Validating Input: | | 0/1 [Time: 00:00] Validating Input: |#####| 1/1 [Time: 00:00] Ingesting Batches - Train Dataset: | | 0/157 [Time: 00:00] Ingesting Batches - Train Dataset: |#############9 | 14/157 [Time: 00:00] Ingesting Batches - Train Dataset: |############################9 | 29/157 [Time: 00:00] Ingesting Batches - Train Dataset: |############################################ | 44/157 [Time: 00:00] Ingesting Batches - Train Dataset: |############################################################ | 60/157 [Time: 00:00] Ingesting Batches - Train Dataset: |############################################################################ | 76/157 [Time: 00:00] Ingesting Batches - Train Dataset: |########################################################################################### | 91/157 [Time: 00:00] Ingesting Batches - Train Dataset: |########################################################################################################## | 106/157 [Time: 00:00] Ingesting Batches - Train Dataset: |######################################################################################################################### | 121/157 [Time: 00:00] Ingesting Batches - Train Dataset: |######################################################################################################################################## | 136/157 [Time: 00:00] Ingesting Batches - Train Dataset: |####################################################################################################################################################### | 151/157 [Time: 00:01] Ingesting Batches - Train Dataset: |#############################################################################################################################################################| 157/157 [Time: 00:01] Ingesting Batches - Test Dataset: | | 0/157 [Time: 00:00] Ingesting Batches - Test Dataset: |################ | 16/157 [Time: 00:00] Ingesting Batches - Test Dataset: |################################ | 32/157 [Time: 00:00] Ingesting Batches - Test Dataset: |############################################### | 47/157 [Time: 00:00] Ingesting Batches - Test Dataset: |############################################################## | 62/157 [Time: 00:00] Ingesting Batches - Test Dataset: |############################################################################# | 77/157 [Time: 00:00] Ingesting Batches - Test Dataset: |############################################################################################ | 92/157 [Time: 00:00] Ingesting Batches - Test Dataset: |########################################################################################################### | 107/157 [Time: 00:00] Ingesting Batches - Test Dataset: |########################################################################################################################### | 123/157 [Time: 00:00] Ingesting Batches - Test Dataset: |########################################################################################################################################### | 139/157 [Time: 00:00] Ingesting Batches - Test Dataset: |########################################################################################################################################################## | 154/157 [Time: 00:01] Ingesting Batches - Test Dataset: |#############################################################################################################################################################| 157/157 [Time: 00:01] Computing Check: | | 0/1 [Time: 00:00] Computing Check: |#####| 1/1 [Time: 00:00] .. raw:: html
Train Test Prediction Drift


.. GENERATED FROM PYTHON SOURCE LINES 91-94 If you have a GPU, you can speed up this check by passing it as an argument to .run() as device= To display the results in an IDE like PyCharm, you can use the following code: .. GENERATED FROM PYTHON SOURCE LINES 94-96 .. code-block:: default # result.show_in_window() .. GENERATED FROM PYTHON SOURCE LINES 97-98 The result will be displayed in a new window. .. GENERATED FROM PYTHON SOURCE LINES 100-105 Understanding the results ------------------------- We can see there is almost no drift between the train & test labels. This means the split to train and test was good (as it is balanced and random). Let's check the performance of a simple model trained on MNIST. .. GENERATED FROM PYTHON SOURCE LINES 105-110 .. code-block:: default from deepchecks.vision.checks import ClassPerformance ClassPerformance().run(train_ds, test_ds, model) .. rst-class:: sphx-glr-script-out .. code-block:: none Validating Input: | | 0/1 [Time: 00:00] Validating Input: |#####| 1/1 [Time: 00:00] Ingesting Batches - Train Dataset: | | 0/157 [Time: 00:00] Ingesting Batches - Train Dataset: |############### | 15/157 [Time: 00:00] Ingesting Batches - Train Dataset: |############################## | 30/157 [Time: 00:00] Ingesting Batches - Train Dataset: |############################################# | 45/157 [Time: 00:00] Ingesting Batches - Train Dataset: |############################################################ | 60/157 [Time: 00:00] Ingesting Batches - Train Dataset: |########################################################################### | 75/157 [Time: 00:00] Ingesting Batches - Train Dataset: |########################################################################################## | 90/157 [Time: 00:00] Ingesting Batches - Train Dataset: |######################################################################################################### | 105/157 [Time: 00:00] Ingesting Batches - Train Dataset: |######################################################################################################################## | 120/157 [Time: 00:00] Ingesting Batches - Train Dataset: |####################################################################################################################################### | 135/157 [Time: 00:00] Ingesting Batches - Train Dataset: |###################################################################################################################################################### | 150/157 [Time: 00:01] Ingesting Batches - Train Dataset: |#############################################################################################################################################################| 157/157 [Time: 00:01] Ingesting Batches - Test Dataset: | | 0/157 [Time: 00:00] Ingesting Batches - Test Dataset: |############### | 15/157 [Time: 00:00] Ingesting Batches - Test Dataset: |############################## | 30/157 [Time: 00:00] Ingesting Batches - Test Dataset: |############################################# | 45/157 [Time: 00:00] Ingesting Batches - Test Dataset: |############################################################ | 60/157 [Time: 00:00] Ingesting Batches - Test Dataset: |########################################################################### | 75/157 [Time: 00:00] Ingesting Batches - Test Dataset: |########################################################################################## | 90/157 [Time: 00:00] Ingesting Batches - Test Dataset: |######################################################################################################### | 105/157 [Time: 00:00] Ingesting Batches - Test Dataset: |######################################################################################################################## | 120/157 [Time: 00:00] Ingesting Batches - Test Dataset: |####################################################################################################################################### | 135/157 [Time: 00:00] Ingesting Batches - Test Dataset: |####################################################################################################################################################### | 151/157 [Time: 00:01] Ingesting Batches - Test Dataset: |#############################################################################################################################################################| 157/157 [Time: 00:01] Computing Check: | | 0/1 [Time: 00:00] Computing Check: |#####| 1/1 [Time: 00:00] .. raw:: html
Class Performance


.. GENERATED FROM PYTHON SOURCE LINES 111-117 MNIST with label drift ====================== Now, let's try to separate the MNIST dataset in a different manner that will result in a prediction drift, and see how it affects the performance. We are going to create a custom collate_fn in the test dataset, that will select samples with class 0 in a 1/10 chances. .. GENERATED FROM PYTHON SOURCE LINES 117-124 .. code-block:: default import torch mnist_dataloader_train = load_dataset(train=True, batch_size=64, object_type='DataLoader') mnist_dataloader_test = load_dataset(train=False, batch_size=64, object_type='DataLoader') full_mnist = torch.utils.data.ConcatDataset([mnist_dataloader_train.dataset, mnist_dataloader_test.dataset]) .. GENERATED FROM PYTHON SOURCE LINES 125-128 .. code-block:: default train_dataset, test_dataset = torch.utils.data.random_split(full_mnist, [60000,10000], generator=torch.Generator().manual_seed(42)) .. GENERATED FROM PYTHON SOURCE LINES 129-131 Inserting drift to the test set ------------------------------- .. GENERATED FROM PYTHON SOURCE LINES 131-157 .. code-block:: default import numpy as np from torch.utils.data._utils.collate import default_collate np.random.seed(42) images, labels = next(iter(mnist_dataloader_test)) def collate_test(batch): modified_batch = [] for item in batch: image, label = item if label == 0: if np.random.randint(5) == 0: modified_batch.append(item) else: modified_batch.append((images[0], 1)) else: modified_batch.append(item) return default_collate(modified_batch) mod_train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=64) mod_test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=64, collate_fn=collate_test) .. GENERATED FROM PYTHON SOURCE LINES 158-163 .. code-block:: default from deepchecks.vision.datasets.classification.mnist import MNISTData mod_train_ds = MNISTData(mod_train_loader) mod_test_ds = MNISTData(mod_test_loader) .. GENERATED FROM PYTHON SOURCE LINES 164-166 Run the check ------------- .. GENERATED FROM PYTHON SOURCE LINES 166-171 .. code-block:: default check = TrainTestPredictionDrift() result = check.run(mod_train_ds, mod_test_ds, model) result .. rst-class:: sphx-glr-script-out .. code-block:: none Validating Input: | | 0/1 [Time: 00:00] Validating Input: |#####| 1/1 [Time: 00:00] Ingesting Batches - Train Dataset: | | 0/157 [Time: 00:00] Ingesting Batches - Train Dataset: |############### | 15/157 [Time: 00:00] Ingesting Batches - Train Dataset: |############################## | 30/157 [Time: 00:00] Ingesting Batches - Train Dataset: |############################################# | 45/157 [Time: 00:00] Ingesting Batches - Train Dataset: |############################################################ | 60/157 [Time: 00:00] Ingesting Batches - Train Dataset: |########################################################################### | 75/157 [Time: 00:00] Ingesting Batches - Train Dataset: |########################################################################################## | 90/157 [Time: 00:00] Ingesting Batches - Train Dataset: |######################################################################################################### | 105/157 [Time: 00:00] Ingesting Batches - Train Dataset: |######################################################################################################################## | 120/157 [Time: 00:00] Ingesting Batches - Train Dataset: |####################################################################################################################################### | 135/157 [Time: 00:00] Ingesting Batches - Train Dataset: |###################################################################################################################################################### | 150/157 [Time: 00:01] Ingesting Batches - Train Dataset: |#############################################################################################################################################################| 157/157 [Time: 00:01] Ingesting Batches - Test Dataset: | | 0/157 [Time: 00:00] Ingesting Batches - Test Dataset: |############### | 15/157 [Time: 00:00] Ingesting Batches - Test Dataset: |############################## | 30/157 [Time: 00:00] Ingesting Batches - Test Dataset: |############################################# | 45/157 [Time: 00:00] Ingesting Batches - Test Dataset: |############################################################ | 60/157 [Time: 00:00] Ingesting Batches - Test Dataset: |########################################################################### | 75/157 [Time: 00:00] Ingesting Batches - Test Dataset: |########################################################################################## | 90/157 [Time: 00:00] Ingesting Batches - Test Dataset: |######################################################################################################### | 105/157 [Time: 00:00] Ingesting Batches - Test Dataset: |######################################################################################################################## | 120/157 [Time: 00:00] Ingesting Batches - Test Dataset: |####################################################################################################################################### | 135/157 [Time: 00:00] Ingesting Batches - Test Dataset: |###################################################################################################################################################### | 150/157 [Time: 00:01] Ingesting Batches - Test Dataset: |#############################################################################################################################################################| 157/157 [Time: 00:01] Computing Check: | | 0/1 [Time: 00:00] Computing Check: |#####| 1/1 [Time: 00:00] .. raw:: html
Train Test Prediction Drift


.. GENERATED FROM PYTHON SOURCE LINES 172-176 Add a condition --------------- We could also add a condition to the check to alert us to changes in the prediction distribution, such as the one that occurred here. .. GENERATED FROM PYTHON SOURCE LINES 176-181 .. code-block:: default check = TrainTestPredictionDrift().add_condition_drift_score_less_than() result = check.run(mod_train_ds, mod_test_ds, model) result .. rst-class:: sphx-glr-script-out .. code-block:: none Validating Input: | | 0/1 [Time: 00:00] Validating Input: |#####| 1/1 [Time: 00:00] Ingesting Batches - Train Dataset: | | 0/157 [Time: 00:00] Ingesting Batches - Train Dataset: |############### | 15/157 [Time: 00:00] Ingesting Batches - Train Dataset: |############################## | 30/157 [Time: 00:00] Ingesting Batches - Train Dataset: |############################################## | 46/157 [Time: 00:00] Ingesting Batches - Train Dataset: |############################################################# | 61/157 [Time: 00:00] Ingesting Batches - Train Dataset: |############################################################################# | 77/157 [Time: 00:00] Ingesting Batches - Train Dataset: |############################################################################################ | 92/157 [Time: 00:00] Ingesting Batches - Train Dataset: |########################################################################################################### | 107/157 [Time: 00:00] Ingesting Batches - Train Dataset: |########################################################################################################################## | 122/157 [Time: 00:00] Ingesting Batches - Train Dataset: |######################################################################################################################################### | 137/157 [Time: 00:00] Ingesting Batches - Train Dataset: |######################################################################################################################################################## | 152/157 [Time: 00:01] Ingesting Batches - Train Dataset: |#############################################################################################################################################################| 157/157 [Time: 00:01] Ingesting Batches - Test Dataset: | | 0/157 [Time: 00:00] Ingesting Batches - Test Dataset: |############### | 15/157 [Time: 00:00] Ingesting Batches - Test Dataset: |############################## | 30/157 [Time: 00:00] Ingesting Batches - Test Dataset: |############################################# | 45/157 [Time: 00:00] Ingesting Batches - Test Dataset: |############################################################ | 60/157 [Time: 00:00] Ingesting Batches - Test Dataset: |########################################################################### | 75/157 [Time: 00:00] Ingesting Batches - Test Dataset: |########################################################################################## | 90/157 [Time: 00:00] Ingesting Batches - Test Dataset: |######################################################################################################### | 105/157 [Time: 00:00] Ingesting Batches - Test Dataset: |######################################################################################################################## | 120/157 [Time: 00:00] Ingesting Batches - Test Dataset: |####################################################################################################################################### | 135/157 [Time: 00:00] Ingesting Batches - Test Dataset: |###################################################################################################################################################### | 150/157 [Time: 00:01] Ingesting Batches - Test Dataset: |#############################################################################################################################################################| 157/157 [Time: 00:01] Computing Check: | | 0/1 [Time: 00:00] Computing Check: |#####| 1/1 [Time: 00:00] .. raw:: html
Train Test Prediction Drift


.. GENERATED FROM PYTHON SOURCE LINES 182-183 As we can see, the condition alerts us to the present of drift in the prediction. .. GENERATED FROM PYTHON SOURCE LINES 185-192 Results ------- We can see the check successfully detects the (expected) drift in class 0 distribution between the train and test sets. It means the the model correctly predicted 0 for those samples and so we're seeing drift in the predictions as well as the labels. We note that this check enabled us to detect the presence of label drift (in this case) without needing actual labels for the test data. .. GENERATED FROM PYTHON SOURCE LINES 194-196 But how does this affect the performance of the model? ------------------------------------------------------ .. GENERATED FROM PYTHON SOURCE LINES 196-200 .. code-block:: default result = ClassPerformance().run(mod_train_ds, mod_test_ds, model) result .. rst-class:: sphx-glr-script-out .. code-block:: none Validating Input: | | 0/1 [Time: 00:00] Validating Input: |#####| 1/1 [Time: 00:00] Ingesting Batches - Train Dataset: | | 0/157 [Time: 00:00] Ingesting Batches - Train Dataset: |#############9 | 14/157 [Time: 00:00] Ingesting Batches - Train Dataset: |############################9 | 29/157 [Time: 00:00] Ingesting Batches - Train Dataset: |############################################ | 44/157 [Time: 00:00] Ingesting Batches - Train Dataset: |########################################################### | 59/157 [Time: 00:00] Ingesting Batches - Train Dataset: |########################################################################## | 74/157 [Time: 00:00] Ingesting Batches - Train Dataset: |######################################################################################### | 89/157 [Time: 00:00] Ingesting Batches - Train Dataset: |######################################################################################################## | 104/157 [Time: 00:00] Ingesting Batches - Train Dataset: |####################################################################################################################### | 119/157 [Time: 00:00] Ingesting Batches - Train Dataset: |###################################################################################################################################### | 134/157 [Time: 00:00] Ingesting Batches - Train Dataset: |##################################################################################################################################################### | 149/157 [Time: 00:01] Ingesting Batches - Train Dataset: |#############################################################################################################################################################| 157/157 [Time: 00:01] Ingesting Batches - Test Dataset: | | 0/157 [Time: 00:00] Ingesting Batches - Test Dataset: |############### | 15/157 [Time: 00:00] Ingesting Batches - Test Dataset: |############################## | 30/157 [Time: 00:00] Ingesting Batches - Test Dataset: |############################################# | 45/157 [Time: 00:00] Ingesting Batches - Test Dataset: |############################################################ | 60/157 [Time: 00:00] Ingesting Batches - Test Dataset: |########################################################################### | 75/157 [Time: 00:00] Ingesting Batches - Test Dataset: |########################################################################################## | 90/157 [Time: 00:00] Ingesting Batches - Test Dataset: |######################################################################################################### | 105/157 [Time: 00:00] Ingesting Batches - Test Dataset: |######################################################################################################################## | 120/157 [Time: 00:00] Ingesting Batches - Test Dataset: |####################################################################################################################################### | 135/157 [Time: 00:00] Ingesting Batches - Test Dataset: |###################################################################################################################################################### | 150/157 [Time: 00:01] Ingesting Batches - Test Dataset: |#############################################################################################################################################################| 157/157 [Time: 00:01] Computing Check: | | 0/1 [Time: 00:00] Computing Check: |#####| 1/1 [Time: 00:00] .. raw:: html
Class Performance


.. GENERATED FROM PYTHON SOURCE LINES 201-203 Inferring the results --------------------- .. GENERATED FROM PYTHON SOURCE LINES 203-207 .. code-block:: default # We can see the drop in the precision of class 0, which was caused by the class # imbalance indicated earlier by the label drift check. .. GENERATED FROM PYTHON SOURCE LINES 208-210 Run the Check on an Object Detection Task (COCO) ================================================ .. GENERATED FROM PYTHON SOURCE LINES 210-217 .. code-block:: default from deepchecks.vision.datasets.detection.coco import load_dataset, load_model train_ds = load_dataset(train=True, object_type='VisionData') test_ds = load_dataset(train=False, object_type='VisionData') model = load_model(pretrained=True) .. GENERATED FROM PYTHON SOURCE LINES 218-223 .. code-block:: default check = TrainTestPredictionDrift() result = check.run(train_ds, test_ds, model) result .. rst-class:: sphx-glr-script-out .. code-block:: none Validating Input: | | 0/1 [Time: 00:00] Validating Input: |#####| 1/1 [Time: 00:11] Validating Input: |#####| 1/1 [Time: 00:11] Ingesting Batches - Train Dataset: | | 0/2 [Time: 00:00] Ingesting Batches - Train Dataset: |##5 | 1/2 [Time: 00:05] Ingesting Batches - Train Dataset: |#####| 2/2 [Time: 00:11] Ingesting Batches - Train Dataset: |#####| 2/2 [Time: 00:11] Ingesting Batches - Test Dataset: | | 0/2 [Time: 00:00] Ingesting Batches - Test Dataset: |##5 | 1/2 [Time: 00:05] Ingesting Batches - Test Dataset: |#####| 2/2 [Time: 00:11] Ingesting Batches - Test Dataset: |#####| 2/2 [Time: 00:11] Computing Check: | | 0/1 [Time: 00:00] Computing Check: |#####| 1/1 [Time: 00:00] Computing Check: |#####| 1/1 [Time: 00:00] .. raw:: html
Train Test Prediction Drift


.. GENERATED FROM PYTHON SOURCE LINES 224-230 Prediction drift is detected! ----------------------------- We can see that the COCO128 contains a drift in the out of the box dataset. In addition to the prediction count per class, the prediction drift check for object detection tasks include drift calculation on certain measurements, like the bounding box area and the number of bboxes per image. .. rst-class:: sphx-glr-timing **Total running time of the script:** ( 0 minutes 45.976 seconds) .. _sphx_glr_download_checks_gallery_vision_model_evaluation_plot_train_test_prediction_drift.py: .. only:: html .. container:: sphx-glr-footer sphx-glr-footer-example .. container:: sphx-glr-download sphx-glr-download-python :download:`Download Python source code: plot_train_test_prediction_drift.py ` .. container:: sphx-glr-download sphx-glr-download-jupyter :download:`Download Jupyter notebook: plot_train_test_prediction_drift.ipynb ` .. only:: html .. rst-class:: sphx-glr-signature `Gallery generated by Sphinx-Gallery `_