BTRON仕様OSとUNICODEの多言語を語るスレ (560レス)
BTRON仕様OSとUNICODEの多言語を語るスレ http://medaka.5ch.net/test/read.cgi/os/1028526865/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
399: Be名無しさん [] 02/09/24 20:25 UnicodeとGB18030が収録する文字が結果的に 同じであったとしても、2バイト固定とか言いながら 代理ペアとかで妙な形で建て増ししてる前者よりは 最初から可変長の後者の方が潔くって好き。 使えねえけど。 http://medaka.5ch.net/test/read.cgi/os/1028526865/399
400: Be名無しさん [sage] 02/09/24 20:54 GB 18030こそ究極の建て増しだろ。 それにサロゲートペアのほうが 先行キャラクタと後続キャラクタの区別がはっきりしている分、 GB 18030の方式よりスマートだと思うが。 http://medaka.5ch.net/test/read.cgi/os/1028526865/400
401: Be名無しさん [sage] 02/09/25 01:10 ところで数値実体参照でユニコード以外扱う方法ってないの? http://medaka.5ch.net/test/read.cgi/os/1028526865/401
402: Be名無しさん [sage] 02/09/25 11:16 >>401 標準化機関にネジ込めばいいんじゃねぇの ? http://medaka.5ch.net/test/read.cgi/os/1028526865/402
403: Be名無しさん [sage] 02/09/25 12:48 W3CのHTMLでISO 10646以外の実体参照を定義しろってのは無理な話。 でも、勝手に使っちゃってもSGML・XML的にはOKなんじゃないの。 文字鏡の実体参照あたり、けっこういろんな人が使ってると思うけど。 http://medaka.5ch.net/test/read.cgi/os/1028526865/403
404: Be名無しさん [] 02/09/26 01:33 逆に、どんなエンコードでもHTMLならISO10646 BMPの 文字は数値実態参照で書けるのだから、エンコード自体に ISO10646 BMPに含まれない文字を含むものを使えば、 ISO10646 BMP+αの文書を作成できるね。 http://medaka.5ch.net/test/read.cgi/os/1028526865/404
405: Be名無しさん [] 02/09/26 19:37 >>404 HTMLの数値文字参照がBMP限定だという話のソースきぼんぬ。 http://medaka.5ch.net/test/read.cgi/os/1028526865/405
406: Be名無しさん [] 02/09/28 15:17 限定とは誰も言っていない罠 http://medaka.5ch.net/test/read.cgi/os/1028526865/406
407: Be名無しさん [sage] 02/09/29 05:17 >>403 エンコードは登録されてるの以外を使うはダメさ。 基本はISO 2022だからエンコードした文字以外をISO 10646から探すか、構造を借りて無関係に実態参照を張るほうがよいかと(UTF2000や文字境) >>404 UCS-4を前提にしてるっぽいからBMP限定じゃないよ〜ん http://medaka.5ch.net/test/read.cgi/os/1028526865/407
408: Be名無しさん [sage] 02/09/29 11:40 >構造を借りて無関係に実態参照を張るほうがよいかと(UTF2000や文字境) そこら辺の規格ってあったら知りたい。 というかISO 2022登録(ISOREG?)コードって実体参照で使えるの? http://medaka.5ch.net/test/read.cgi/os/1028526865/408
409: Be名無しさん [sage] 02/09/30 10:23 > というかISO 2022登録(ISOREG?)コードって実体参照で使えるの? 一部を除き使えない。 Unicode は、0から255までは ISO 8859 と同じ。HTML 3.xまでは、 実体参照は ISO 8859 を指してた。 http://medaka.5ch.net/test/read.cgi/os/1028526865/409
410: Be名無しさん [] 02/09/30 12:57 そういや、TRONのアレもアレだな。&Txxyyyy;とかってやつ。 http://medaka.5ch.net/test/read.cgi/os/1028526865/410
411: Be名無しさん [] 02/10/02 00:30 ふと思って、 ISO 10646 を調べたんだけど、群オクテットの最上位ビット は、0ですね。 てことは GB18030 の4バイト集合の部分とは重ならないで、共存可能で合っ てまつか? http://medaka.5ch.net/test/read.cgi/os/1028526865/411
412: Be名無しさん [] 02/10/02 08:38 ISO10646とGB18030を同時に使えるエンコード方式を 策定するってか http://medaka.5ch.net/test/read.cgi/os/1028526865/412
413: Be名無しさん [sage] 02/10/02 09:00 バイトストリームだけ見て UTF-* と GB18030 系って区別可能? http://medaka.5ch.net/test/read.cgi/os/1028526865/413
414: Be名無しさん [sage] 02/10/02 12:37 >>411 32ビット1バイトのUCS-4(UTF-32)と 8ビット1バイトのGB 18030「4バイト集合」が 32ビット単位で見れば重ならないということに 何か意味があるか? http://medaka.5ch.net/test/read.cgi/os/1028526865/414
415: Be名無しさん [] 02/10/06 09:44 そのまま一緒にしてISO10646とGB18030の文字集合を 併せたエンコードを捏造できるってことでは? 現状、文字は全て重複してるけど。 http://medaka.5ch.net/test/read.cgi/os/1028526865/415
416: Be名無しさん [] 02/10/07 11:34 実際に使われる文字のほとんどは2バイト集合と1バイト集合のほうなので、 4バイト集合だけUCS-4と共存させても無意味でしょ。 つか、すべての文字を共存させることができたとしても やっぱり無意味だけどさ。 http://medaka.5ch.net/test/read.cgi/os/1028526865/416
417: Be名無しさん [] 02/10/09 18:51 >>405 W3Cの文書ではこうある http://www.w3.org/TR/REC-html40/charset.htmlの5.1 HTML uses … the Universal Character Set (UCS), defined in [ISO10646]. … The character set defined in [ISO10646] is character-by-character equivalent to Unicode ([UNICODE]) http://www.w3.org/TR/REC-html40/references.html#ref-UNICODE [UNICODE] The Unicode Consortium. "The Unicode Standard, Version 3.0"… つまり、超BMPを含んでいる。 ただしこの部分、昔はこうだった http://www.w3.org/TR/1
998/REC-html40-19980424/references.html#ref-UNICODE [UNICODE] "The Unicode Standard: Version 2.0"… 405のソースは、古い文書を見ていたと思われ http://medaka.5ch.net/test/read.cgi/os/1028526865/417
418: ?? [] 02/10/20 22:15 文字鏡の文字がISOに登録されたってどういうこと? http://medaka.5ch.net/test/read.cgi/os/1028526865/418
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
あと 142 レスあります
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.008s