Releases: forFudan/yuhao
v2.0.0-rc.1
修正和删除一批用字錯誤的繁體詞語。
v2.0.0-rc
宋天定製版 終極預覽版 v2.0.0-rc 發佈。最後的最後,它來了。
根據大量反饋(主要是宋大佬、麥大佬、笑大佬,還有群裏的小夥伴),作出以下調整。
删除字根:
- 歹 = 一夕 〔使用頻率較低〕
- 凡 = 几丶 〔使用頻率較低〕
- 攴 = 卜又 〔使用頻率較低〕
- 矛 = 予丿 〔使用頻率較低〕
- 爾 = 一八巾乂乂乂乂 〔使用頻率太低〕
- 羽 = 习习 〔對立較少,没有必要分離〕
增加字根:
- 里 Kk 〔避免因筆順造成的歧義,呼聲很高。同時,改善了高頻「重」、「動」等字的手感。且「重」字不再需要使用繁體字根「車」。〕
- 高(亠口、亠口冖)Ol 連續編碼 〔這個是初版的字根,現恢復它,目的是離散「京」「亮」等字。注意,存在歪脖拆的可能:襄 = {亠口}口𠀎𧘇。還要注意穿插:衷:{亠口}丨𧘇〕
- {⺍一} Is 爲「氵」的附屬根 〔這是爲了和丷䒑一致。所以:兴 = {⺍一}八,应 = 广{⺍一}〕
- 彑 Bm 同{互中}。〔「彐」和「彑」其實是同字不同形。「彑」爲字根很,「緑」「綠」等字同構同拆。且「互」和「亞」「亚」拆法相同。〕
改變小碼:
- 氵 Ic -> Is 〔取其聲母〕
- 习 Xu -> Xi 〔取其韻母,正好等於該字全拼〕
豎不包夾:
- 豎向離散的字根,不可包夾其他字根。特别的,「二」「三」出現包夾,就拆爲分散的「一」,如:亘 = 一日一,畺 = 一田一田一。減少判斷的難度。
部分臺灣字形拆分補充和修正:
- 沉 = 氵冖儿
- 麥 = 來夊〔上方視作「來」的變形,拆爲「十人人人」没有必要。〕
簡體前150字,編碼改變五個:
- 重 = 千里
- 高 = 高
- 就 = {京頭}小尤
- 没 IQhc -> IQhs
- 应= 广{兴頭}
優化繁體簡碼的設置,縮減碼長。
以下爲重碼數據對比:
形碼方案 | GB2312 | 通規一二級 | 國字常用 | 常用繁簡 | GBK | 簡體選重率 | 繁體選重率 | 繁簡混合文本選重率 | 簡體詞語选重率 |
---|---|---|---|---|---|---|---|---|---|
宇浩v2.0.0-rc | 314 | 265 | 208 | 583 | 5171 | 5.2‱ | 15.3‱ | 17.1‱ | 116.1‱ |
宇浩v2.0.0-rc | 318 | 273 | 202 | 584 | 5178 | 4.9‱ | 15.1‱ | 16.6‱ | 109.7‱ |
以下是對於部分意見的反饋:
某位不願透露姓名的宋姓大佬:能不能二三不包夾?不然總是轉不過彎來。
反饋:可以的,不過靜態重碼會上升。
某位不願透露姓名的宋姓大佬:最好豎向的組合字根都不包夾。
反饋:可以可以,大佬肯背書就好。
某位不願透露姓名的宋姓大佬:彑和{互中}合併。
反饋:好的。
小夥伴:「重」居然要用繁體根「車」。而且「里」的筆順總是弄錯。
反饋:「里」值得一個字根。重 = 千里,手感提升。
小夥伴:舞 = 𠂉卌歹ヰ?真丑。
反饋:「歹」删了!
小夥伴:「凡」「攴」爲什麼是字根?
反饋:同意,這倆頻率太低,删了。
小夥伴:羽 = 习习?
反饋:「习」除了「𠁨」外沒有單獨使用的,所以把它作爲了「羽」的附屬。不過旣然不存在對立,把「羽」删了也好。
小夥伴:「亠口」可以分離「京」「高」等字形,否則打詞不舒服。
反饋:同意,恢復高字根,「亠口」「亠口冖」作爲它的附屬,小碼就用「口」的區碼 L。
小夥伴:碼長有些長。
反饋:同意,簡碼過於陳舊,有的一、二簡還是重複的,需要更新一下。
v2.0.0-beta.2
恢復簡體簡碼中的两個一簡字:
- C 好
- O 为
「二」「三」包夾不再分情况討論,一律允許包夾,包括:
亜唖悪戩晉𠀥𡏍𢳩𣊰𣱌𤇟𤉁𤐦𤩖𨫌𪬕𪰥𫠱𫫖𫰫𬂲𬅂𰤐
v2.0.0-beta.1
優化簡體簡碼設置,縮減碼長。
特别的,一簡有以下變化:
- C 好 0.38% -> 也 0.50%
- H 地 0.46% -> 到 0.61%
- O 为 0.39% -> 说 0.63%
- T 个 0.78% -> 人 0.97%
二簡有以下變化:
- CV 始 -> 好
- HC 车 -> 地
- OX 辛 -> 为
- TN 用 -> 个
調整結果如下:
方案 | 毛泽东选集(简) | 天龙八部(简) | 三体(简) | 战争与和平(简) | 史記(繁) | 紅樓夢(繁) | 笑傲江湖(繁) | 論語集解(繁簡混) |
---|---|---|---|---|---|---|---|---|
五笔86 | 3.12 | 3.31 | 3.21 | 3.24 | 3.59 | 3.44 | 3.45 | 3.49 |
五笔98 | 3.05 | 3.19 | 3.12 | 3.15 | 3.42 | 3.32 | 3.32 | 3.29 |
蓝宝石 | 3.04 | 3.1 | 3.03 | 3.05 | 3.48 | 3.29 | 3.29 | 3.36 |
徐码23 | 3.15 | 3.21 | 3.18 | 3.17 | 3.49 | 3.32 | 3.33 | 3.33 |
宇浩·調整前 | 3.16 | 3.16 | 3.09 | 3.11 | 3.51 | 3.29 | 3.32 | 3.41 |
宇浩·調整后 | 3.13 | 3.12 | 3.06 | 3.09 | 3.52 | 3.28 | 3.3 | 3.38 |
v2.0.0-beta
小碼改變:
- 二 Se -> Si 分散雙手
- 宀 Oo -> Ob 聲母「寶蓋」
- 立 Ii -> Id 分散雙手
- 业 Kk -> Kg 分散雙手
- 早 Jo -> Jd 連續小碼「日十」分散雙手
- 彐 Xx -> Xl 分散雙手
- 阝 Cf -> Cj 分散雙手
v2.0.0-alpha.beta
字根認定:
- 認定「业」爲字根,編碼爲 Kk
受其影響,簡體優先方案的簡碼位有如下變化:
- uk 赢 -> 普
- un 普 -> 烟
- kk 婴 -> 业
- nu 业 -> 圈
- jk 映 -> 显
- jn 显 -> 崮
- mk 帽 -> 虚
- mn 虚 -> 皿
受其影響,繁體優先方案的二簡位有如下變化:
- n 對 -> 回
- ku 剛 -> 對
- nl 回 -> 圖
- un 普 -> 廠
- mn 虚 -> 皿
v2.0.0-alpha.3
字根認定:
- 認定「𦣞」「𦣝」字根同「臣」,如 熙 = 臣巳灬,姫 = 姬 = 姬 = 女臣
- 認定「𦍌」字根同「羊」,如 美 = 羊大,義 = 羊我 = 羊丿扌戈
小碼改變:
- 身 We -> Wm 分散雙手
v2.0.0-alpha.2
小碼改變:
- 飛 Bf -> Bk 分散雙手
- 龰 Nh -> Nn -> Nd 防止 Nh 單指跨行
- 彡 Ti -> To 讓出碼位給「八」
- 八 Tb -> Td -> Ti 防止 Tb 單指大跨行,分散雙手
- 乃 Va -> Vj 分散雙手
- 九 Yj -> Yf 分散雙手,汉字密度 Yj19 Yf11
v2.0.0-alpha.1
測試版本
發佈宇浩輸入法 v1.0.0 後,我收到大量的意見的建議,以及 pull request。爲了更直觀地反映出這些建議的實際使用情况,我生成「發燒友測試版」方案。這個方案融合並展現了部分建議的實際效果,它也部分反映出宇浩輸入法未來可能的發展方向。
以下爲本測試方案功能介紹
臺灣字形
增加近四千個臺灣字形兼容拆分,調整臺灣方案簡碼。凡臺灣繁體詞語,都使用臺灣字形編碼。比如「起來=走己來」DBDl
和「起=走巳來」DCDl
兼收。
在線拆分系統現也增加臺灣拆分一欄。
四重註解
RIME 提供拆分、編碼、拼音、字符集四重註解,卽額外增加拼音註解。
四重註解中,單字、詞語編碼用大小寫來區分大小碼。
預選顯示候選
RIME 平臺可通過 Shift + Ctrl + E 快捷鍵,將候選字顯示在預選區中。
作者:王牌餅乾
功能開關一鍵配置
RIME 平臺加入「功能開關一鍵配置」文件,方便用户切換設置:
- yuhao.custom.yaml
- yuhao_tradition.custom.yaml
- yuhao_tradition_tw.custom.yaml
單字編碼
爲了減少全碼碼長,宇浩輸入法在每個大碼上設置了一個小碼爲 v 的字根,如果两根字末尾是 v,則可以省略這個 v。
這個規則遭到了很大的詬病。根据要求,发烧友测试版中,單字編碼規則簡化如下:
- 依次取一、二、三、末根大碼。
- 不足四碼時,補上末根小碼。
- 仍然不足四碼时,補上首根小碼。
字根編碼
字根字編碼,在正式版中,代表字根加f,附屬字根加 ff。這對 f 鍵不够友善。故而在测试版方案中改爲:
- 代表字根:全碼爲三碼,重複小碼,Aaa
- 附屬字根:全碼爲四碼,重複小碼,Aaaa
卽使設置了二級簡碼,常用代表字根三碼位依然保留,满足全碼黨的需求。
改動後,字根字編碼規則同單字編碼規則一致。假設字根大碼爲 A,小碼爲 a。首先,依次取一、二、三、末根大碼,故取 A。接着,不足四碼,故補上末根小碼,故取 a。最後,仍然不足四碼,故補上首根小碼 a。最終編碼爲 Aaa。
字根改變
以下字根進行歸併:
- 「礻」歸併至「示」上,因爲這兩個偏旁經常混同,尤其在大字集下分辨不易,不如合併來得痛快。
- 「灬」歸併至「火」上。因爲四點就是火。
- 單獨設立「丷」字根,兩點都歸到此字根上。
以下字根被删除:
- 删除「四豎」字根,因爲只在字集中被使用了一次。
小碼優化
根據大量反饋,我們將字根小碼去 v 化,改用拼音中的字母。小碼設置方法如下:
- 主要用聲母。
- 聲母已被其他字根使用,或爲增加互擊,則使用其韻母中的字母。如:羊 Ug,手 Tu。
- 有些拼音不是很熟悉的字根,小碼等於 v 或其大碼。如:彐 Xx,宀 Oo。
- 另外,偶爾也用 d f j k 來提高手感和互擊。如:八 Td,辶 Pd,力 Xk。
- 尽量均衡「二码常用汉字密度」。「二码常用汉字密度」,就是头两码为 AB 的常用繁简汉字的数量。我们应当使二简文字密度尽量大于一个阈值,使得二简字效率更高。其中,将字根字直接放在文字密度低的位置上,是一个非常直接、便捷、有效的方法。
小碼 v 轉其他字母(由三碼變成四碼,基本不用特别記憶):
- 扌 Av -> Ao 韻母
- 尸 Bv -> Bh 聲母
- 女 Cv -> Cn 聲母
- 石 Dv -> Dh 聲母
- 亻 Ev -> Ee 韻母,和「人」Te小碼一致
- 王 Gv -> Gn 聲母,汉字密度 Gw25 Gn7
- 土 Hv -> Ht 聲母
- 氵 Iv -> Ic 分散雙手
- 日 Jv -> Jr 聲母
- 虫 Kv -> Kc 聲母,汉字密度 Kv7 Kc3
- 宀 Ov -> Oo 韻母「寶」,拼音少見,重複大碼
- 竹 Qv -> Qk 聲母 z 轉 k
- 犭 Rv -> Rq 聲母,和「犬」Sq 小碼一致
- 𠂇 Sv -> So 拼音少見,重複大碼
- 钅 Tv -> Tj 聲母
- 火 Uv -> Uo 韻母
- 月 Wv -> Wy 聲母,汉字密度 Wy7 Wv12
- 彐 Xv -> Xx 聲母「雪」
- 冖 Yv -> Ym 聲母「冪」
偏旁部首改變小碼(因爲存在簡碼,影響很小):
- 冂 Kg -> Kf 同 「匚」Gf小碼一致
- 龰 Mh -> Nn 防止 Mh 單指跨行
- 辶 Po -> Pd 防止 Po 無名指小拇指連擊
- 艹 So -> Sj
- 卯 Ta -> Tm 聲母
- 丷 Uh -> Ue
- 巛 Vh -> Vc 聲母「川」
- 乂 Wa -> Wl 分散雙手
- 凵 Xa -> Xg 韻母「丱」,防止 Xa 無名指小拇指連擊
- 豸 Yi -> Yk 聲母 z 轉 k
其他小碼改變(主要爲了增強手感,需要特别記憶):
- 十 Dh -> Di 韻母
- 西 Dh -> Dx 聲母
- 其 Dq -> Dj 聲母,減少小拇指負擔
- 壬 Ee -> En 韻母,分散雙手,汉字密度 Er22 En14
- 士 Hh -> Hf 分散雙手,汉字密度 Hf17 Hh26
- 户 Ih -> Ie 分散雙手
- 水 Kh -> Kv 韻母 u 轉 v,汉字密度 Kv7 Kh13
- 目 Mu -> Mf 防止 Mu 單指大跨行
- 虎 Mh -> Mu 韻母,汉字密度 Mh20 Mu6
- 之 Pc -> Pe 改善手感
- 千 Wq -> Wk 防止 Wq 無名指小拇指連擊
- 心 Yn -> Yi 韻母,防止 Yn 單指大跨行
- 八 Tb -> Td 防止 Tb 單指大跨行
- 力 Xl -> Xk 降重,汉字密度 Xk7 Xl10
單字拆分
單字拆分更变:
- 「丘」字由「亻工」改爲「斤一」。
- 「夜」字由「亠亻夂丶」改爲「亠亻夕乀」。
- 設置反過來的「彐」字根。虐 = 虎彐
重碼數據
没變。
形码方案 | GB2312 | 通规一二级 | 国字常用 | 常用繁简 | GBK | 简体选重率 | 繁体选重率 | 繁简混合文本选重率 |
---|---|---|---|---|---|---|---|---|
宇浩·正式版 | 313 | 271 | 214 | 583 | 5015 | 5.5‱ | 15.6‱ | 17.7‱ |
宇浩·發燒版 | 312 | 265 | 210 | 589 | 5159 | 5.2‱ | 15.3‱ | 17.1‱ |