[過去ログ] テキスト入力専用ツール 「ポメラ」 Vol.10 (1001レス)
1-

このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
91: 80 2010/10/31(日)12:32 ID:cOvgtv8E(2/3) AAS
>>86
>00002614:CODE[84],LEN[01] [ア][あ]
[84] [01] B0 82 A0
先頭の0x84−自分自身を含んだバイト数5=7F

>00002619:CODE[87],LEN[02] [イイ][いい]
[87] [02] B2 B2 82 A2 82 A2
先頭の0x87−自分自身を含んだバイト数8=7F

以下、多分全部同じパターン。
ただし「トークンが2バイトになった」場合は当てはまらないけど
どうも「2バイトトークンの先頭」ではなく、直前の単語の品詞情報な気がする。
オフセット格納テーブルには、2バイトトークンの場合
2バイト目の位置を格納してるようだし。

で、トークンが特定の数値(7Fかどうかわからないけど)未満なら
トークンに登録単語末尾までのレングスそのものが入ってて
かつ末尾に品詞情報が付く。それ以外はトークンに品詞情報も含まれる。

上のレスにあった「穢れ」を登録したところ、
上記を前提として書くとこうなってた。

[0A] [04] B9 B6 DE DA E2 71 82 EA [1b]
0x0A=0x0A〜0xEAまでのバイト数
末尾1Bが品詞情報?(一般動詞で登録)

その他、末尾が品詞情報だとするとこんな感じ。
固有名詞:0x02、固有地名:0x03、固有組織:0x04、固有一般:0x05
(一般名詞の場合は、トークンに含まれた0x7Fかも)

>>88
すまんね。これで退散するよ。
1-
あと 910 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.182s*