[過去ログ]
テキスト入力専用ツール 「ポメラ」 Vol.10 (1001レス)
テキスト入力専用ツール 「ポメラ」 Vol.10 http://toki.5ch.net/test/read.cgi/dgoods/1288013922/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
このスレッドは過去ログ倉庫に格納されています。
次スレ検索
歴削→次スレ
栞削→次スレ
過去ログメニュー
72: 27 [sage] 2010/10/30(土) 09:26:12 ID:BcU8n8xY atok.dic 解析の途中メモ ・この辞書は独自フォーマット(古いatokのユーザ辞書とも互換性なし) ・4桁の16進数値はファイルオフセット ・格納形式はリトルエンディアン 0x2410,1 登録データ長 0x2412,3 登録単語数 [不明なデータ] 不規則に変化する。 0x2576,7 ffff 登録単語数 : 0,1,7 のとき 0000 登録単語数 : 2 のとき 0x2578,9 ffff 登録単語数 : 0,1 のとき 0500 登録単語数 : 2 のとき 0000 登録単語数 : 7 のとき 0x258e,f ffff 登録単語数 : 0 のとき 0000 登録単語数 : 1 のとき ffff 登録単語数 : 2 のとき [辞書本体] 0x2614〜ユーザ辞書本体 [文書トークン] [半角カタカナのバイト長] 半角カタカナ 漢字、の繰り返し。 DM20の辞書登録数は1000個なので(読み7文字、語句7文字の場合)、 1+1+7+14 として 23,000バイト程度まで?(ファイル末端までは23988バイトあるので文書トークンが1バイトだと丁度になる) ■登録単語数とユーザ辞書本体の間の用途が不明。乱数表にでもなっているのか? ■最初、文書トークンが品詞を表すと思っていたが、訳の判らない法則に従っている。 http://toki.5ch.net/test/read.cgi/dgoods/1288013922/72
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
あと 929 レスあります
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.006s