qiita.com[B!]新着記事・評価 - はてなブックマーク (original) (raw)

はじめに 文書を入力すると、どんなジャンル(恋愛とかファンタジーとか)になるかを判断してくれるものを作った。そのときに使ったモデルの構築などのメモ。 どんなことしたか 小説家になろうから、ジャンル別にランキング上位の小説のテキストを取得 ーRequests, BeaufitulSoupによるスクレイピング Kerasで単語レベルの1次元畳み込みによる学習 ー単語分割にMeCab, 単語埋め込みの重みにfastTextの学習済みデータを使用 fastTextのデータは配布されているのを利用させていただきました。 ・fastTextの学習済みモデルを公開しました - Qiita 1.テキストデータの取得 ディープラーニングの学習には、データが必要。今回は簡単に取得できるものとして「小説家になろう」からテキストデータを取得した。 ランキング上位1000個の小説からそれぞれ2000文字分を小説ごと