Is cnn_dailymail free to use?

Yes, it is publicly available and free via the Hugging Face datasets library.

How do I access the dataset?

Load it directly with load_dataset('cnn_dailymail') from the Hugging Face datasets library.

What is the license for cnn_dailymail?

The dataset is released under Apache 2.0; check individual article copyrights for commercial use.

cnn_dailymail

Over 300k news articles for summarization and comprehension tasks.

DatasetText & NLP↓ 247K/moFree

Open dataset

Updated 2026-06-18

What is cnn_dailymail?

The dataset consists of just over 300k unique news articles written by journalists at CNN and the Daily Mail. Current versions enable both extractive and abstractive summarization.

It is useful for training and evaluating models on summarization, machine reading comprehension, and question answering.

What you can build with cnn_dailymail

Training Abstractive Summarizers

Develop and fine-tune models like BART or T5 to generate concise summaries from full news articles using the provided highlights as targets.

Extractive Summarization Systems

Build models that select key sentences from CNN and Daily Mail articles to create summaries without generating new text.

News-Based QA Prototypes

Train reading comprehension models on the original CNN/DailyMail articles to answer questions derived from the article content.

Load cnn_dailymail

Python

from datasets import load_dataset

ds = load_dataset("abisee/cnn_dailymail")

1pip install datasets
2from datasets import load_dataset
3ds = load_dataset('cnn_dailymail', '3.0.0')
4Access splits via ds['train'], ds['validation'], ds['test']
5Use 'article' and 'highlights' fields for training

cnn_dailymail: pros & cons

Pros

+Large scale with over 300k articles
+Supports both extractive and abstractive tasks
+Widely used benchmark in summarization research
+Easy loading via Hugging Face

Cons

–Articles are from 2007-2015 period only
–Some articles contain boilerplate text
–Highlights are bullet-point style, not full paragraphs

Did you find this helpful?

Frequently asked questions

A collection of over 300,000 English news articles from CNN and Daily Mail originally created for summarization and reading comprehension tasks.

User reviews

Verified reviews from the community shape this listing's rating.

Loading reviews…

Promote cnn_dailymail

Add this badge to your website, or share the tool.

DFeatured on Dhanasvicnn_dailymail 0

cnn_dailymail

Over 300k news articles for summarization and comprehension tasks.

DatasetText & NLP↓ 247K/moFree

Open dataset

Updated 2026-06-18

What is cnn_dailymail?

The dataset consists of just over 300k unique news articles written by journalists at CNN and the Daily Mail. Current versions enable both extractive and abstractive summarization.

It is useful for training and evaluating models on summarization, machine reading comprehension, and question answering.

What you can build with cnn_dailymail

Training Abstractive Summarizers

Develop and fine-tune models like BART or T5 to generate concise summaries from full news articles using the provided highlights as targets.

Extractive Summarization Systems

Build models that select key sentences from CNN and Daily Mail articles to create summaries without generating new text.

News-Based QA Prototypes

Train reading comprehension models on the original CNN/DailyMail articles to answer questions derived from the article content.

Load cnn_dailymail

Python

from datasets import load_dataset

ds = load_dataset("abisee/cnn_dailymail")

1pip install datasets
2from datasets import load_dataset
3ds = load_dataset('cnn_dailymail', '3.0.0')
4Access splits via ds['train'], ds['validation'], ds['test']
5Use 'article' and 'highlights' fields for training

cnn_dailymail: pros & cons

Pros

+Large scale with over 300k articles
+Supports both extractive and abstractive tasks
+Widely used benchmark in summarization research
+Easy loading via Hugging Face

Cons

–Articles are from 2007-2015 period only
–Some articles contain boilerplate text
–Highlights are bullet-point style, not full paragraphs

Did you find this helpful?

Frequently asked questions

A collection of over 300,000 English news articles from CNN and Daily Mail originally created for summarization and reading comprehension tasks.

User reviews

Verified reviews from the community shape this listing's rating.

Loading reviews…

Promote cnn_dailymail

Add this badge to your website, or share the tool.

DFeatured on Dhanasvicnn_dailymail 0

cnn_dailymail

What is cnn_dailymail?

What you can build with cnn_dailymail

Training Abstractive Summarizers

Extractive Summarization Systems

News-Based QA Prototypes

Load cnn_dailymail

cnn_dailymail: pros & cons

Pros

Cons

Frequently asked questions

User reviews

KakologArchives

wikitext

gsm8k

Promote cnn_dailymail

cnn_dailymail

What is cnn_dailymail?

What you can build with cnn_dailymail

Training Abstractive Summarizers

Extractive Summarization Systems

News-Based QA Prototypes

Load cnn_dailymail

cnn_dailymail: pros & cons

Pros

Cons

Frequently asked questions

User reviews

KakologArchives

wikitext

gsm8k

Promote cnn_dailymail

cnn_dailymail

What is cnn_dailymail?

What you can build with cnn_dailymail

Training Abstractive Summarizers

Extractive Summarization Systems

News-Based QA Prototypes

Load cnn_dailymail

cnn_dailymail: pros & cons

Pros

Cons

Frequently asked questions

What is the cnn_dailymail dataset?

Is cnn_dailymail free to use?

How do I access the dataset?

What is the license for cnn_dailymail?

User reviews

Similar datasets

KakologArchives

wikitext

gsm8k

Promote cnn_dailymail

cnn_dailymail

What is cnn_dailymail?

What you can build with cnn_dailymail

Training Abstractive Summarizers

Extractive Summarization Systems

News-Based QA Prototypes

Load cnn_dailymail

cnn_dailymail: pros & cons

Pros

Cons

Frequently asked questions

What is the cnn_dailymail dataset?

Is cnn_dailymail free to use?

How do I access the dataset?

What is the license for cnn_dailymail?

User reviews

Similar datasets

KakologArchives

wikitext

gsm8k

Promote cnn_dailymail