AIに動画を解析させ、字幕を作成後、読み上げソフトで字幕を読み上げてみました。 (original) (raw)

AIで動画を解析し、字幕を作成後、読み上げソフトで読み上げてみた結果を動画にしました!
「あの」「えーと」といったフィラーを削除し、より聞き取りやすい動画にリマスターしてみました。
ぜひご覧ください!
#AIリマスター #動画編集 #Vrew #音声読み上げ #字幕作成 #AI #YouTube

youtu.be
https://youtu.be/8QjYsD_caqU
↑いつもの「あの」「えーと」が消えた解説動画を作ることができました。

↑見比べて↓笑ってください(笑)
過去のライブ動画: リメイク前の元動画は下記です、
https://youtube.com/live/omqHqNm4NWc
youtu.be
を #AIリマスター してみた動画です。上記地声の過去動画もよろしくお願いします。
1.AIに動画を読み込ませ文字起こしを行い、
2.「あの」「あの」を削除した、字幕を作り
3.整形した字幕を機械音声で読み上げてみました。
※内容は、上記過去動画と同じです。字幕と音声をAIできれいにしてみました。
比較してみてください。

字幕を埋め込み、女性の読み上げに変更する

YouTubeメンバー限定で紹介したプロンプトをブログに出す。
↑↓数少ないYouTubeメンバーこころの声:「YouTube有料メンバー登録意味ないじゃん」解除しました

使用したAI指示プロンプト:
24/10/07作成(明日になると、同じ指示でも結果が違っていたりするし・・・)

2.新しい字幕を作成する

vrewを開いて、別の名前で保存する。

2.1 VREWで無音区間をカットする(時間が正確の動画や初回地声のみの場合は、そのまま?、タイムラインに注意) 241007リメイク_XXX.MP4 2.2 字幕のテキストを出力する   241007リメイク字幕元_XXX.TXT 2.3 ↑を上記SRTをgoogleドライブにアップロードする

字幕と動画から音声置換で使用可能な短い字幕を作成する

編集者として、アップロードされた字幕ファイルの文章を添削してください。

出力文章の種類: YouTubeにアップする解説動画の字幕 SRT形式の字幕 出力文章の目的: 地声が聞き取りにくい部分があるので、機械読み上げ音声に置き換える作業で使用する簡潔な言葉の字幕を作成したい 対象読者: YouTubeで動画を見る人 重視する点: 分かりやすさ、正確性

具体的な要望:

入力:

字幕ファイル.txt - SRT形式 一次処理後(文字起こしデータからフィラー除去、誤字を修正した) 話し言葉や繰り返しの多い字幕

4
00:00:08,010 --> 00:00:10,010
「Word」で提出って感じで、

5
00:00:10,010 --> 00:00:11,710
開けないよって感じで、

6
00:00:11,710 --> 00:00:15,530
「エクスプローラー」内に編集したものがなくてわからないよって、

動画ファイル.mp4 - 字幕と対応した動画ファイル

補足説明ファイル.txt - 説明や台本、ソースコードが順不同で記述されたテキストファイル※説明内のタイムラインは現動画と一致しない可能性があるのでタイムラインを参照する場合は注意

指示:

  1. フィラーの除去: 再確認「えー」「あー」「えーと」「あの」「えっと」「まあ」「うーん」など、意味を成さない言葉を削除してください。
  2. 誤字脱字の修正: 誤字脱字を修正してください。
  3. スムーズな構成にする: 文章全体の流れを確認し、よりスムーズな構成にする
    • 「〜って感じで」といった口語表現を、より適切な表現に修正してください
    • 明確で簡潔な表現 視聴者が理解しやすいように、短く明確な文章で表現します
  4. タイムライン: 動画に合わせて字幕を表示するようにタイムラインを調整してください
  5. 句読点の調整:
    「。」- 句読点(。)は削除してください。 「、」- 句読点(、)は省略せずに、YouTube字幕で読みやすいように適切に入れて使用してください。
  6. 数字の変換: 漢数字はすべて半角のアラビア数字に変換してください。
  7. 専門用語の正確な表記: 登場する専門用語は、正確な表記で字幕に反映してください。補足説明ファイルを参考にしてください
  8. 専門用語の強調: 文中で出てくる専門用語は「」で囲んでください。ただし、すでに「」で囲まれている場合は、変更する必要はありません。
  9. コードの強調: プログラムのコードで使う単語は `` で囲んでください。
  10. 1行の文字数: 字幕を読みやすくするため、1行は日本語換算で24文字までとする
  11. 改行について: 字幕を読みやすくするため、改行は2行までとする

出力例:

1行の文字数: 字幕を読みやすくするため、1行は日本語換算で24文字までとする 改行について: 字幕を読みやすくするため、改行は2行までとする

13 00:00:42,490 --> 00:00:46,630 出力後の保存場所が不明 ツールの出力先がわかりません

64 00:03:22,030 --> 00:03:32,960 「Word」で書いて提出で 「エクスプローラー」内に編集したものが無い

'''

ポイント

ポイント:

出力: 話し言葉を削除など修正指示を実行した、修正後の字幕データ。

SRT形式のテキストを出力する 受け取った動画とテキストファイルからYouTubeにアップロードするSRT形式のテキストを出力する

12
00:00:38,430 --> 00:00:42,490
やりたいのは「WebClass」

13
00:00:42,490 --> 00:00:46,630
これが分かんなかったんで、
私が使ったこと無くて

64
00:03:22,030 --> 00:03:32,960
「Word」で書いて提出で
「エクスプローラー」内に編集したものが無い

作業の進め方

・作成範囲の指示、区切りが良いところで適宜修正結果を出力し、確認を取りながら作業を進めてください。 ・処理単位 a) 初回の確認は大事なので3分間 00:00:00 ~ 00:03:00 までを修正し初回の確認を求める b) 以降、6分間隔で区切りが良いところで適宜修正結果を出力

字幕作成、修正処理のヒントとなれば幸いです。
質問・感想などあったら、気軽にコメントを書き込んでください

明日、プロンプトの結果が変わらないことを願いつつ、失礼します。

地声から女性の読み上げに変更する