Skip to content
jat-dataset-tokenized logo

jat-dataset-tokenized

Verified

Tokenized dataset from jat-project sized 10M to 100M entries.

DatasetAI & Machine Learning511K/moFree
Open dataset
Updated 2026-06-15

What is jat-dataset-tokenized?

jat-dataset-tokenized consists of tokenized data prepared by the jat-project team.

It supports AI/ML workflows that require tokenized inputs in the stated size range.

Data preview

A real sample from the dataset — 5 columns.

image_observationsListrewardsListdiscrete_actionsListattention_maskListloss_weightList
[[[[-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-[0,0,0,0,0,0,0,10,0,0,10,0,0,0,10,10,0,0,0,0,0,0,10,0,0,10,0,0,0,10,0,0][8,8,8,8,8,6,6,6,7,15,11,11,11,11,11,11,14,11,14,14,14,14,14,7,7,7,12,12,12,12,12,12][1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1][1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
[[[[-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-[0,10,0,10,0,0,0,0,10,0,0,10,0,10,0,0,0,0,0,0,10,0,0,0,10,0,0,0,10,0,0,0][12,12,17,17,17,17,17,4,7,7,7,7,7,7,2,2,2,2,2,2,9,9,9,5,5,5,5,5,9,4,9,9][1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1][1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
[[[[-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-[10,0,0,0,0,10,0,0,0,10,0,0,10,0,0,0,10,0,0,10,0,0,0,10,0,0,10,0,0,0,10,0][9,9,2,9,4,9,9,9,9,16,16,16,16,16,16,16,5,5,5,5,9,9,5,5,5,5,9,7,7,17,17,17][1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1][1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
[[[[-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-[0,0,10,0,0,0,10,0,0,10,0,10,0,0,0,0,10,0,0,10,0,0,10,0,0,0,0,10,0,0,0,0][17,17,17,8,8,8,14,10,3,8,8,8,5,8,8,8,8,8,8,8,8,8,8,8,16,16,16,16,11,16,5,0][1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1][1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
[[[[-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-[0,0,10,0,0,0,0,0,10,0,0,0,0,10,0,0,0,10,0,0,10,0,0,0,0,10,0,10,0,0,10,0][0,16,6,7,7,2,2,4,4,2,0,2,7,7,7,3,4,4,6,6,6,6,6,6,6,6,6,6,2,2,7,6][1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1][1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]

Dataset structure

Total rows
31,962,087
Columns
5
Size on disk
152 GB
SubsetSplitRows
atari-alientrain15,614
atari-alientest15,614
atari-amidartrain15,634
atari-amidartest15,634
atari-assaulttrain15,636
atari-assaulttest15,636
atari-asterixtrain15,861
atari-asterixtest15,861
atari-asteroidstrain15,334
atari-asteroidstest15,334
atari-atlantistrain15,412
atari-atlantistest15,412

What you can build with jat-dataset-tokenized

Pre-train transformer models

Use the tokenized records to continue pre-training language models on a large corpus without additional preprocessing.

Benchmark tokenization pipelines

Load the dataset to measure throughput and memory usage of custom tokenizers or data loaders at scale.

Build data-mixture experiments

Combine subsets of the 10-100M records with other datasets to study the effect of data composition on model performance.

Load jat-dataset-tokenized

Python
from datasets import load_dataset

ds = load_dataset("jat-project/jat-dataset-tokenized")
  1. 1pip install datasets
  2. 2from datasets import load_dataset
  3. 3dataset = load_dataset('jat-project/jat-dataset-tokenized')
  4. 4print(dataset['train'][0])
  5. 5Use dataset['train'].select(range(10000)) for quick experiments

jat-dataset-tokenized: pros & cons

Pros

  • +Ready-to-use tokenized format
  • +Hugging Face datasets integration
  • +Large scale (10M-100M records)
  • +No extra tokenization step required

Cons

  • No task tags or documentation provided
  • Unknown source text or domain
  • License and exact contents unspecified
Did you find this helpful?

Frequently asked questions

A tokenized collection of 10-100 million records released by jat-project and hosted on Hugging Face.

User reviews

Verified reviews from the community shape this listing's rating.

Loading reviews…

Sign in to review

Promote jat-dataset-tokenized

Add this badge to your website, or share the tool.

DFeatured on Dhanasvijat-dataset-tokenized 0