CLDataset (Extracted on 20-09-2020)

Russian dataset for natural language processing problems Each file contains a single JSON array containing articles information Object structure is as follow cyberleninka.txt: Full information crawled from CyberLeninka (2098 papers)

[
	{
		'keywords': [...],
		'fulltext': [...],
		'title': '...',
		'abstract': '...',
		'views': '...',
		'downloads': '...'
	},
	...
]

cyberleninka_ds.txt: Reduced information, for most keyphrase extraction tasks (2098 papers)

[
	{
		'keywords': [...],
		'fulltext': [...]
	},
	...
]

cyberleninka_long.txt: Reduced information, for most keyphrase extraction tasks. Only longer papers (longer than 10000 characters). (900 papers)

[
	{
		'keywords': [...],
		'fulltext': [...]
	},
	...
]

cyberleninka_short.txt: Reduced information, for most keyphrase extraction tasks. Only shorter papers (shorter than 10000 characters). (900 papers)

[
	{
		'keywords': [...],
		'fulltext': [...]
	},
	...
]

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
scripts		scripts
README.md		README.md
cyberleninka.txt		cyberleninka.txt
cyberleninka_ds.txt		cyberleninka_ds.txt
cyberleninka_long.txt		cyberleninka_long.txt
cyberleninka_short.txt		cyberleninka_short.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

CLDataset (Extracted on 20-09-2020)

About

Releases

Packages

Languages

levi218/CLDataset

Folders and files

Latest commit

History

Repository files navigation

CLDataset (Extracted on 20-09-2020)

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages