シンプルな翻訳AI「TransAI」
- Digital100 JPY


・いろいろと技術的なテストをするために作った簡単なもので、 これが一番すごい!・・・とかいうものではないんですが、 一応、使えるのではないかなと思います。 《 ボキャブラリファイル(tokenizer.json)の入手先 》 ・翻訳モデルは「ゼロから学習(スクラッチ)」させますが、 文字をIDに変換するルール(ボキャブラリ)だけは、 世界トップクラスの多言語モデルから拝借することで、 学習効率が劇的に向上します。 ・おすすめは、 現在最も日本語と英語の分割(トークナイズ)が優秀な Qwen または Llama のボキャブラリです。 ・どちらもHugging Faceから無料でダウンロードでき、 知財的にも安全(Apache 2.0 / Llamaライセンス)です。 おすすめ: ・Qwen の tokenizer.json (語彙数 約15万) ・特に日本語・中国語・英語の多言語処理に優れています。 ダウンロードURL (Hugging Face): https://huggingface.co/Qwen/Qwen2.5-7B/tree/main 手順: 上記リンクにアクセスします。 ・画面の右側にある 「↓(Download file)」 ボタンをクリックします。 ・ダウンロードした tokenizer.json を、 TransAI.exe と同じフォルダ(または任意の場所)に配置します。 (※Llamaのボキャブラリを使いたい場合は、 Hugging Faceのアカウントを作成し、 Meta社への利用申請ボタンを押す必要があります。 Qwenは申請不要で、すぐにダウンロードできます。) ■対訳コーパス(学習データ)の準備 ・もし手元に「英語と日本語の対訳テキスト」がない場合は、 テスト用として以下のデータセットを利用できます。 JParaCrawl v3.0 (商用・研究利用可能な大規模日英コーパス) ・日本のNTTなどが構築した、 Web上の翻訳文を収集した 巨大なデータセットです。 ダウンロードURL: https://www.kecl.ntt.co.jp/icl/lirg/jparacrawl/ 手順: ・上記サイトから データセット(tar.gz または zip)を ダウンロードして解凍します。 ・英語と日本語の文章が 「タブ(\t)区切り」で並んでいるテキストファイルを探します。 (例:en-ja.bicleaner05.txt) ・このファイルを corpus.tsv などの名前で保存し、読み込ませます。 (※数千万行あるため、 最初は先頭の1万行だけを切り出した 小さなファイルで学習テストを行うことを強くお勧めします。)

