YANS-official/senryu-marusen · Datasets at Hugging Face (original) (raw)

読み込み方

from datasets import load_dataset

dataset = load_dataset("YANS-official/senryu-marusen", split="train")

概要

月に1万句以上の投稿がある国内最大級の川柳投稿サイト『川柳投稿まるせん』のクロールデータです。
以下のページからクロールし、原本のHTMLファイルと構造化処理を行った結果を格納しました。
https://marusenryu.com/

YANSのハッカソン内での利用目的で公開しており、その他の用途への使用はお控えください。

データセットの件数は以下の通りです。

タスク お題数 のべ回答数
text_to_text 376 5346

データセットの各カラム説明

カラム名 概要
odai_id str senryu-marusen-27 お題のID
type str text_to_text 入出力の形式。本データでは全て"text_to_text"という文字列が格納されている
odai str ギリギリ川柳 お題の内容。本データでは全て"〇〇川柳"という形式で文字列が格納されている
responses list [{}] お題に対する回答集
responses.text str 書初めの最後の一字がSサイズ お題に対する回答
responses.award str 優秀賞 回答に与えられた賞。"優秀賞"、"入選"の他、各お題特有の賞が与えられることがある
responses.response_id int 1 お題に対する回答の番号
{
    "odai_id": 27,
    "image": null,
    "type": "text_to_text",
    "odai": "ギリギリ川柳",
    "responses":[
        {
            "text": "書初めの最後の一字がSサイズ",
            "award": "優秀賞",
            "response_id": 1
        },
        {
            "text": "まだ入る 昔のジーパン 息吸って",
            "award": "入選",
            "response_id": 2
        }
    ]
}

ライセンス等

クロール元のサイトの管理者には許可をとっていませんので、YANS内でのみの利用としてください。

Downloads last month

39