diff --git a/README.md b/README.md
index 6a225658b73ff3dfd782f24713b895fe1daa551a..8213d6e4905b54b48335639cb8e38464df4d5444 100644
--- a/README.md
+++ b/README.md
@@ -10,6 +10,7 @@
 
 - [Tweets](https://github.com/claudioscheer/seq2seq-bert/releases/download/v0.0.2-alpha/dataset.zip)
 - [Enron emails](https://github.com/claudioscheer/seq2seq-bert/releases/tag/v0.0.3-alpha)
+  - To create the dataset, refer to this notebook: [https://www.kaggle.com/claudioscheer/extract-reply-emails](https://www.kaggle.com/claudioscheer/extract-reply-emails)
 
 
 ## Datasets suggestions