Skip to content

Latest commit

 

History

History
114 lines (77 loc) · 4.07 KB

README-ja-JP.md

File metadata and controls

114 lines (77 loc) · 4.07 KB

📊 Token Count (tc) 🦀

Rustで書かれたシンプルで効率的なトークンカウントプログラム!🚀

English | 简体中文 | 繁體中文 | 日本語 | 한국어 | Deutsch

📝 説明

この Rust 実装の古典的な wc(ワードカウント)コマンドラインツールは、テキストファイルや標準入力の行数、単語数、文字数、さらにはトークン数をカウントできます。高速で信頼性が高く、Unicodeをサポートしています!🌍✨

🎯 特徴

  • 行数のカウント 📏
  • 単語数のカウント 🔤
  • 文字数のカウント(マルチバイトUnicode文字を含む)🔡
  • 様々なトークナイザーモデルを使用したトークン数のカウント 🔢
  • 複数のファイルを処理 📚
  • 標準入力からの読み取り 🖥️
  • 様々な言語をサポート(英語、韓国語、日本語など)🌐

🛠️ インストール

tcをインストールする方法は2つあります:

オプション1:ソースからのインストール

  1. システムに Rust がインストールされていることを確認してください。インストールされていない場合は、rust-lang.org から入手してください 🦀

  2. このリポジトリをクローンします:

    git clone https://github.com/guuzaa/tc.git
    cd tc
    
  3. プロジェクトをビルドします:

    cargo build --release
    
  4. 実行可能ファイルは target/release/tc にあります

オプション2:ビルド済みバイナリのインストール

  1. tcリポジトリのリリースページに移動します。

  2. お使いのオペレーティングシステムとアーキテクチャに適した最新リリースをダウンロードします。

  3. ダウンロードしたアーカイブを解凍します。

  4. tc 実行ファイルをシステムのPATHにあるディレクトリに移動します(例:Unix系システムの場合は /usr/local/bin)。

  5. これで、ターミナルのどこからでも tc を使用できるようになりました!

🚀 使用方法

オプション:

  • -l, --lines:行数を表示 📏
  • -w, --words:単語数を表示 🔤
  • -c, --chars:文字数を表示 🔡
  • -t, --tokens:トークン数を表示 🔢
  • --model <MODEL>:トークナイザーモデルを選択(デフォルト:gpt3)

利用可能なモデル:

  • gpt3: r50k_base
  • edit: p50k_edit
  • code: p50k_base
  • chatgpt: cl100k_base
  • gpt4o: o200k_base

オプションが指定されていない場合、すべてのカウント(行数、単語数、文字数、トークン数)が表示されます。

例:

  1. ファイル内の行数、単語数、文字数をカウント:

    tc example.txt
    
  2. 複数のファイルの単語数のみをカウント:

    tc -w file1.txt file2.txt file3.txt
    
  3. 標準入力から行数と文字数をカウント:

    echo "こんにちは、世界!" | tc -lc
    
  4. ChatGPTトークナイザーを使用してトークン数をカウント:

    tc -t --model chatgpt example.txt
    
  5. 異なる言語のファイルですべてをカウント:

    tc english.txt korean.txt japanese.txt
    

🤝 貢献

貢献を歓迎します!気軽に問題を報告したり、プルリクエストを送信したりしてください。🎉

📜 ライセンス

このプロジェクトは MIT ライセンスの下でライセンスされています。詳細は LICENSE ファイルを参照してください。📄

🙏 謝辞

  • 素晴らしいツールとサポートを提供してくれる Rust コミュニティ 🦀❤️
  • インスピレーションを与えてくれた元の Unix wc コマンド 🖥️
  • Cursor エディタ 🤖

楽しくカウントしましょう!🎉📊🚀