Rustで書かれたシンプルで効率的なトークンカウントプログラム!🚀
English | 简体中文 | 繁體中文 | 日本語 | 한국어 | Deutsch
この Rust 実装の古典的な wc
(ワードカウント)コマンドラインツールは、テキストファイルや標準入力の行数、単語数、文字数、さらにはトークン数をカウントできます。高速で信頼性が高く、Unicodeをサポートしています!🌍✨
- 行数のカウント 📏
- 単語数のカウント 🔤
- 文字数のカウント(マルチバイトUnicode文字を含む)🔡
- 様々なトークナイザーモデルを使用したトークン数のカウント 🔢
- 複数のファイルを処理 📚
- 標準入力からの読み取り 🖥️
- 様々な言語をサポート(英語、韓国語、日本語など)🌐
tcをインストールする方法は2つあります:
-
システムに Rust がインストールされていることを確認してください。インストールされていない場合は、rust-lang.org から入手してください 🦀
-
このリポジトリをクローンします:
git clone https://github.com/guuzaa/tc.git cd tc
-
プロジェクトをビルドします:
cargo build --release
-
実行可能ファイルは
target/release/tc
にあります
-
tcリポジトリのリリースページに移動します。
-
お使いのオペレーティングシステムとアーキテクチャに適した最新リリースをダウンロードします。
-
ダウンロードしたアーカイブを解凍します。
-
tc
実行ファイルをシステムのPATHにあるディレクトリに移動します(例:Unix系システムの場合は/usr/local/bin
)。 -
これで、ターミナルのどこからでも tc を使用できるようになりました!
-l, --lines
:行数を表示 📏-w, --words
:単語数を表示 🔤-c, --chars
:文字数を表示 🔡-t, --tokens
:トークン数を表示 🔢--model <MODEL>
:トークナイザーモデルを選択(デフォルト:gpt3)
利用可能なモデル:
gpt3
: r50k_baseedit
: p50k_editcode
: p50k_basechatgpt
: cl100k_basegpt4o
: o200k_base
オプションが指定されていない場合、すべてのカウント(行数、単語数、文字数、トークン数)が表示されます。
-
ファイル内の行数、単語数、文字数をカウント:
tc example.txt
-
複数のファイルの単語数のみをカウント:
tc -w file1.txt file2.txt file3.txt
-
標準入力から行数と文字数をカウント:
echo "こんにちは、世界!" | tc -lc
-
ChatGPTトークナイザーを使用してトークン数をカウント:
tc -t --model chatgpt example.txt
-
異なる言語のファイルですべてをカウント:
tc english.txt korean.txt japanese.txt
貢献を歓迎します!気軽に問題を報告したり、プルリクエストを送信したりしてください。🎉
このプロジェクトは MIT ライセンスの下でライセンスされています。詳細は LICENSE ファイルを参照してください。📄
- 素晴らしいツールとサポートを提供してくれる Rust コミュニティ 🦀❤️
- インスピレーションを与えてくれた元の Unix
wc
コマンド 🖥️ - Cursor エディタ 🤖
楽しくカウントしましょう!🎉📊🚀