YANS-official/senryu-test-with-references · Datasets at Hugging Face (original) (raw)

読み込み方

from datasets import load_dataset

dataset = load_dataset("YANS-official/senryu-test", split="test")

概要

川柳投稿サイトの『写真川柳』と『川柳投稿まるせん』のクロールデータです。 以下のページからクロールし、原本のHTMLファイルと構造化処理を行った結果を格納しました。

このデータは以下の2タスクが含まれます。

それぞれの量は以下の通りです。

タスク お題数(画像枚数) 回答数 うち委員が用意したお題
image_to_text 70 140 7
text_to_text 30 60 3

各お題に対し、異なる賞が与えられている2件の回答だけを残し、他の回答は削除しました。

データセットの各カラム説明

カラム名 概要
odai_id str senryu-test-76 お題のID
file_name str 185066.jpg 対応するお題の画像ファイル。text_to_textの場合は"dummy.png"という文字列が格納されている。
type str image_to_text "text_to_text", "image_to_text"のいずれかが入っている。
use_human_eval bool False 人手評価で使うデータ(=委員の画像で作ったデータ)かどうかを表す。Trueなら人手評価で使う
odai str 写真で一句。 image_to_textの場合は"写真で一句"という文字列が格納されている。text_to_textの場合は"〇〇川柳"という形式で文字列が格納されている。
reference_responses list [{}] お題に対する回答集。各お題に対して2件ずつ
reference_responses.text str ライバルと 打ち解け合った 風呂の中 お題に対する回答
reference_responses.award str 採用 回答に与えられた賞
reference_responses.response_id int 1 お題に対する回答の番号

ライセンス等

クロール元のサイトの管理者には許可をとっていませんので、YANS内でのみの利用としてください。

Downloads last month

0