The Pile: An 800GB dataset of diverse text for language modeling (2020)

Heykuki News

184 points

3 years ago

70 comments

The Pile: An 800GB dataset of diverse text for language modeling (2020) | Heykuki News