YANS-official/senryu-marusen · Datasets at Hugging Face (original) (raw)
読み込み方
from datasets import load_dataset
dataset = load_dataset("YANS-official/senryu-marusen", split="train")
概要
月に1万句以上の投稿がある国内最大級の川柳投稿サイト『川柳投稿まるせん』のクロールデータです。
以下のページからクロールし、原本のHTMLファイルと構造化処理を行った結果を格納しました。
https://marusenryu.com/
YANSのハッカソン内での利用目的で公開しており、その他の用途への使用はお控えください。
データセットの件数は以下の通りです。
タスク | お題数 | のべ回答数 |
---|---|---|
text_to_text | 376 | 5346 |
データセットの各カラム説明
カラム名 | 型 | 例 | 概要 |
---|---|---|---|
odai_id | str | senryu-marusen-27 | お題のID |
type | str | text_to_text | 入出力の形式。本データでは全て"text_to_text"という文字列が格納されている |
odai | str | ギリギリ川柳 | お題の内容。本データでは全て"〇〇川柳"という形式で文字列が格納されている |
responses | list | [{}] | お題に対する回答集 |
responses.text | str | 書初めの最後の一字がSサイズ | お題に対する回答 |
responses.award | str | 優秀賞 | 回答に与えられた賞。"優秀賞"、"入選"の他、各お題特有の賞が与えられることがある |
responses.response_id | int | 1 | お題に対する回答の番号 |
{
"odai_id": 27,
"image": null,
"type": "text_to_text",
"odai": "ギリギリ川柳",
"responses":[
{
"text": "書初めの最後の一字がSサイズ",
"award": "優秀賞",
"response_id": 1
},
{
"text": "まだ入る 昔のジーパン 息吸って",
"award": "入選",
"response_id": 2
}
]
}
ライセンス等
クロール元のサイトの管理者には許可をとっていませんので、YANS内でのみの利用としてください。
Downloads last month
39