ユニコードが全然ユニじゃない件

カテゴリ: SYSTEM開発・運用
2006年12月 5日 02:05 森小路 | 個別ページ

仕事の話です。
開発が一段落して保守フェーズに入ったので、ずーと以前から頼まれていたものの、嫌な感じがするんで先延ばしにしていた開発フレームワークの Unicode 対応に、とりかかってみたわけですが...

「なんじゃこりゃ～」いやマジで、という感じです。(^^;;;;;;;;

特に、「WAVE DASH 問題」
機種依存文字でもなく、利用頻度も高い「～」を JIS から変換したときに、Windows と、標準 (とされている仕様) で、変換されるコードが違うってのは...

はっきりいって、私は M$ 嫌いです。
M$ のわがままに自分のコードを合わせるのは、可能であれば絶対却下なのですが...これは...これはやむを得ない。仕事でプログラムを書いている以上、この場合は M$ の実装の方を採用するしかありません。無念です...

次に「BOM」
これも扱いに困ります。
入力のときは、まぁ読み捨てればいいのでしょうが、出力するときは付けるの？付けないの？アプリによって、要求バラバラだったり、挙動が変わったりするらしいので最悪です。てか、文字数の数え方とかどうするんだ？

サロゲートペア
まだライブラリの仕様検討段階だけど、どう扱えばいいんだ？ MBCS みたいに、文字単位 vs バイト単位みたいに 2 通りのメソッドを用意するしかないのか？

wchar_t
gcc の wchar_t が、4バイトがデフォって...
かと思えば Apache の Xerces の API は、文字は wchar_t ではなく、2バイト固定みたいだし。
いったい何を信じれば良いんだろう...orz

UTF-7
ってなんすか？使われているの？サポートした方がいいの？
だいたい UTF-xx て大杉

絵文字
携帯の絵文字。機種依存文字扱いなんですね。DoCoMo は、CP932 の外字のマッピングに準拠しているから扱えるけど、au はなんじゃありゃ。あんなにたくさん絵文字って要るのか？使いこなせるのか？
付き合いきれない...まぁうちの会社に携帯の絵文字をサポートする必要がある案件なんかこない気がするから、とりあえずは深く考えないことにしよう。(^^;;;;;;

JISX0213
こいつのシフトJIS は、誰も見向きもしない哀れな仕様なんだけど、94区以降を合法的にEUC にマッピングする唯一の方法ではあるので、今まで自作の漢字変換処理では微妙にサポートしていたりしたんだけど、Unicode のマッピングまで持つのはやりすぎだろうなぁ。やっぱり。

さて、収集つける自信がなくなってきたよ。どうするかなぁ...

「SYSTEM開発・運用」の新着

ユニコードが全然ユニじゃない件 [ 2006年12月 5日]
スパムメールと闘う・職場編 [ 2006年4月24日]
DNSサーバが DDoSの発射台にされる問題について [ 2006年3月30日]
Sendmailに深刻な脆弱性 [ 2006年3月23日]
tarファイルを直接 Perlで処理 [ 2006年3月14日]
続・Sun Studio11を試してみる [ 2006年2月15日]
Sun Studio11を試してみる [ 2006年2月14日]
gcc3.4.2と Oracle InstantClient [ 2006年2月10日]

2006年5月22日
森小路による
このブログのアクセス状況は...へのコメント
2006年5月21日
RxOrcaによる
このブログのアクセス状況は...へのコメント
2006年3月31日
森小路による
XUL Window初表示へのコメント

最近のコメントを表示...

ユニコードが全然ユニじゃない件

カテゴリ:

ひとつ前のブログ記事:

次のブログ記事:

アーカイブ:

「SYSTEM開発・運用」の新着

検索

カテゴリ

最近のブログ記事

最近のコメント

月別アーカイブ

リンク集

モバイル

ユニコードが全然ユニじゃない件

カテゴリ:

ひとつ前のブログ記事:

次のブログ記事:

アーカイブ:

「SYSTEM開発・運用」の新着

検索

カテゴリ

最近のブログ記事

最近のコメント

月別 アーカイブ

リンク集

モバイル

月別アーカイブ