Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

機能紹介 内部コード #74

Open
t-tk opened this issue Jan 29, 2023 · 3 comments
Open

機能紹介 内部コード #74

t-tk opened this issue Jan 29, 2023 · 3 comments

Comments

@t-tk
Copy link

t-tk commented Jan 29, 2023

お世話になっております。
https://sakura-editor.github.io/intro.html
の中で、

JIS / EUC / Unicode / UnicodeBE (BigEndian) / UTF-8 / UTF-7 の読み書き (ただし,エディタ内部は Shift-JIS)

という記述がありますが、現在の状況も間違いないでしょうか?

私は、内部がUnicode化されたSakura Editorがリリースされて久しいものと思っています。

@berryzplus
Copy link
Contributor

サクラエディタ v2の内部コードはUTF16拡張です。
また、Unicode(UTF8(UTF-8 BOMあり)、UTF8N(UTF-8 BOMなし)、UTF16(≒UTF-16BE BOMなし、UTF-16BE BOMあり、UTF-16LE BOMあり)、UTF-16LE BOMなし、CESU8(≒Oracle版UTF-8))以外でも、Windowsが対応する文字コードであれば読み書きできることになっています。

通常のUTF16との差分は以下です。

  • 内部コードにはBOMがありません。
  • 単独で現れる下位サロゲート 0xDCXXXX を使い、「ラウンドトリップできない文字(≒SJIS→UNICODE→SJISで元に戻せない文字。)」と「UNICODEに存在しない文字(≒SJISのコードページに存在しない文字)」を表現します。

サクラエディタ v2は「NEC選定IBM拡張文字」を含むSJISのテキストを正しく表示できません。

@t-tk
Copy link
Author

t-tk commented Feb 2, 2023

ご回答ありがとうございます。
CP932 だけでも結構ややこしいことを初めて知りました。
https://ja.wikipedia.org/wiki/Microsoft%E3%82%B3%E3%83%BC%E3%83%89%E3%83%9A%E3%83%BC%E3%82%B8932

  1. 13区 「NEC特殊文字」
  2. 89 - 92区 「NEC選定IBM拡張文字」
  3. 115 - 119区 「IBM拡張文字」

Shift_JISで表現した場合、「Windows-31J」の機種依存文字のうち、「NEC特殊文字」と 「IBM拡張文字」に対応していて「NEC選定IBM拡張文字」に非対応、ということでしょうか?

@berryzplus
Copy link
Contributor

「非対応」というのが微妙ですが、

Windows-31J → Wide文字列(UTF16LE) → Windows-31J
の変換を行った際に、元に戻せない文字が約400文字あり、
それらの文字は「化けて見える」ということです。

対応できますが「パフォーマンスの懸念がある+要望がない」で作業してない状態です。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants