ユニコードが全然ユニじゃない件
仕事の話です。
開発が一段落して保守フェーズに入ったので、ずーと以前から頼まれていたものの、嫌な感じがするんで先延ばしにしていた開発フレームワークの Unicode 対応に、とりかかってみたわけですが...
「なんじゃこりゃ~」いやマジで、という感じです。(^^;;;;;;;;
特に、「WAVE DASH 問題」
機種依存文字でもなく、利用頻度も高い「~」を JIS から変換したときに、Windows と、標準 (とされている仕様) で、変換されるコードが違うってのは...
はっきりいって、私は M$ 嫌いです。
M$ のわがままに自分のコードを合わせるのは、可能であれば絶対却下なのですが...これは...これはやむを得ない。仕事でプログラムを書いている以上、この場合は M$ の実装の方を採用するしかありません。無念です...
次に「BOM」
これも扱いに困ります。
入力のときは、まぁ読み捨てればいいのでしょうが、出力するときは付けるの?付けないの?アプリによって、要求バラバラだったり、挙動が変わったりするらしいので最悪です。てか、文字数の数え方とかどうするんだ?
サロゲートペア
まだライブラリの仕様検討段階だけど、どう扱えばいいんだ? MBCS みたいに、文字単位 vs バイト単位みたいに 2 通りのメソッドを用意するしかないのか?
wchar_t
gcc の wchar_t が、4バイトがデフォって...
かと思えば Apache の Xerces の API は、文字は wchar_t ではなく、2バイト固定みたいだし。
いったい何を信じれば良いんだろう...orz
UTF-7
ってなんすか?使われているの?サポートした方がいいの?
だいたい UTF-xx て大杉
絵文字
携帯の絵文字。機種依存文字扱いなんですね。DoCoMo は、CP932 の外字のマッピングに準拠しているから扱えるけど、au はなんじゃありゃ。あんなにたくさん絵文字って要るのか?使いこなせるのか?
付き合いきれない...まぁうちの会社に携帯の絵文字をサポートする必要がある案件なんかこない気がするから、とりあえずは深く考えないことにしよう。(^^;;;;;;
JISX0213
こいつのシフトJIS は、誰も見向きもしない哀れな仕様なんだけど、94区以降を合法的にEUC にマッピングする唯一の方法ではあるので、今まで自作の漢字変換処理では微妙にサポートしていたりしたんだけど、Unicode のマッピングまで持つのはやりすぎだろうなぁ。やっぱり。
さて、収集つける自信がなくなってきたよ。どうするかなぁ...
「SYSTEM開発・運用」の新着
- ユニコードが全然ユニじゃない件 [ 2006年12月 5日]
- スパムメールと闘う・職場編 [ 2006年4月24日]
- DNSサーバが DDoSの発射台にされる問題について [ 2006年3月30日]
- Sendmailに深刻な脆弱性 [ 2006年3月23日]
- tarファイルを直接 Perlで処理 [ 2006年3月14日]
- 続・Sun Studio11を試してみる [ 2006年2月15日]
- Sun Studio11を試してみる [ 2006年2月14日]
- gcc3.4.2と Oracle InstantClient [ 2006年2月10日]
最近のコメント
森小路による
このブログのアクセス状況は...へのコメント
RxOrcaによる
このブログのアクセス状況は...へのコメント
森小路による
XUL Window初表示へのコメント
最近のコメントを表示...