的一是了我不人在他有这个上们来到时大地为子中你说生国年着就那和要她出也得里后自以会家可下而过天去能对小多然于心学么之
都好看起发当没成只如事把还用第样道想作种开美总从无情己面最女但现前些所同日手又行意动方期它头经长儿回位分爱老因很给
名法间斯知世什两次使身者被高已亲其进此话常与活正感见明问力理尔点文几定本公特做外孩相西果走将月十实向声车全信重
三机工物气每并别真打太新比才便夫再书部水像眼等体却加电主界门利海受听表德少克代员许稜先口由死安写性马光白或住难
望教命花结乐色更拉东神记处让母父应直字场平报友关放至张认接告入笑内英军候民岁往何度山觉路带万男边风解叫任金快原
吃妈变通师立象数四失满战远格士音轻目条呢病始达深完今提求清王化空业思切怎非找片罗钱紶吗语元喜曾离飞科言干流欢约
各即指合反题必该论交终林请医晚制球决窢传画保读运及则房早院量苦火布品近坐产答星精视五连司巴奇管类未朋且婚台夜青
北队久乎越观落尽形影红爸百令周吧识步希亚术留市半热送兴造谈容极随演收首根讲整式取照办强石古华諣拿计您装似足双妻
尼转诉米称丽客南领节衣站黑刻统断福城故历惊脸选包紧争另建维绝树系伤示愿持千史谁准联妇纪基买志静阿诗独复痛消社算
义竟确酒需单治卡幸兰念举仅钟怕共毛句息功官待究跟穿室易游程号居考突皮哪费倒价图具刚脑永歌响商礼细专黄块脚味灵改
据般破引食仍存众注笔甚某沉血备习校默务土微娘须试怀料调广蜖苏显赛查密议底列富梦错座参八除跑亮假印设线温虽掉京初
养香停际致阳纸李纳验助激够严证帝饭忘趣支春集丈木研班普导顿睡展跳获艺六波察群皇段急庭创区奥器谢弟店否害草排背止
组州朝封睛板角况曲馆育忙质河续哥呼若推境遇雨标姐充围案伦护冷警贝著雪索剧啊船险烟依斗值帮汉慢佛肯闻唱沙局伯族低
玩资屋击速顾泪洲团圣旁堂兵七露园牛哭旅街劳型烈姑陈莫鱼异抱宝权鲁简态级票怪寻杀律胜份汽右洋范床舞秘午登楼贵吸责
例追较职属渐左录丝牙党继托赶章智冲叶胡吉卖坚喝肉遗救修松临藏担戏善卫药悲敢靠伊村戴词森耳差短祖云规窗散迷油旧适
乡架恩投弹铁博雷府压超负勒杂醒洗采毫嘴毕九冰既状乱景席珍童顶派素脱农疑练野按犯拍征坏骨余承置臓彩灯巨琴免环姆暗
换技翻束增忍餐洛塞缺忆判欧层付阵玛批岛项狗休懂武革良恶恋委拥娜妙探呀营退摇弄桌熟诺宣银势奖宫忽套康供优课鸟喊降
夏困刘罪亡鞋健模败伴守挥鲜财孤禁恐伙杰迹妹藸遍盖副坦牌江顺秋萨菜划授归浪听凡预奶雄升碃编典袋莱含盛济蒙棋端腿
招释介烧误
unicode 编码
\的\一\是\了\我\不\人\在\他\有\这\个\上\们\来
\到\时\大\地\为\子\中\你\说\生\国\年\着\就\那
\和\要\她\,"r":"color:#333333;font-family:宋体;font-size:16pxa\也\得\里\后\自\以\会\家\可\下\而
\过\天\去\能\对\小\多\然\于\心\学\么\之\都\好
\看\起\发\当\没\成\只\如\事\把\还\用\第\样\道
\想\作\种\开\美\总\从\无\情\己\面\最\女\但\现
\前\些\所\同\日\手\又\行\意\动\方\期\它\头\经
\长\儿\回\位\分\爱\老\因\很\给\名\法\间\斯\知
\世\什\两\次\使\身\者\被\高\已\亲\其\进\此\话
\常\与\活\正\感\见\明\问\力\理\尔\点\文\几\定
\本\公\特\做\外\孩\相\西\果\走\将\月\十\实\向
\声\车\全\信\重\三\机\工\物\气\每\并\别\真\打
\太\新\比\才\便\夫\再\书\部\水\像\眼\等\体\却
\加\电\主\界\门\利\海\受\听\表\德\少\克\代\员
\许\稜\先\口\由\死\安\写\性\马\光\白\或\住\难
\望\教\命\花\结\乐\色\更\拉\东\神\记\处\让\母
\父\应\直\字\场\平\报\友\关\放\至\张\认\接\告
\入\笑\内\英\军\候\民\岁\往\何\度\山\觉\路\带
\万\男\边\风\解\叫\任\金\快\原\吃\妈\变\通\师
\立\象\数\四\失\满\战\远\格\士\音\轻\目\条\呢
\病\始\达\深\完\今\提\求\清\王\化\空\业\思\切
\怎\非\找\片\罗\钱\紶\吗\语\元\喜\曾\离\飞\科
\言\干\流\欢\约\各\即\指\合\反\题\必\该\论\交
\终\林\请\医\晚\制\球\决\窢\传\画\保\读\运\及
\则\房\早\院\量\苦\火\布\品\近\坐\产\答\星\精
\视\五\连\司\巴\奇\管\类\未\朋\且\婚\台\夜\青
\北\队\久\乎\越\观\落\尽\形\影\红\爸\百\令\周
\吧\识\步\希\亚\术\留\市\半\热\送\兴\造\谈\容
\极\随\演\收\首\根\讲\整\式\取\照\办\强\石\古
\华\諣\拿\计\您\装\似\足\双\妻\尼\转\诉\米\称
\丽\客\南\领\节\衣\站\黑\刻\统\断\福\城\故\历
\惊\脸\选\包\紧\争\另\建\维\绝\树\系\伤\示\愿
\持\千\史\谁\准\联\妇\纪\基\买\志\静\阿\诗\独
\复\痛\消\社\算\义\竟\确\酒\需\单\治\卡\幸\兰
\念\举\仅\钟\怕\共\毛\句\息\功\官\待\究\跟\穿
\室\易\游\程\号\居\考\突\皮\哪\费\倒\价\图\具
\刚\脑\永\歌\响\商\礼\细\专\黄\块\脚\味\灵\改
\据\般\破\引\食\仍\存\众\注\笔\甚\某\沉\血\备
\习\校\默\务\土\微\娘\须\试\怀\料\调\广\蜖\苏
\显\赛\查\密\议\底\列\富\梦\错\座\参\八\除\跑
\亮\假\印\设\线\温\虽\掉\京\初\养\香\停\际\致
\阳\纸\李\纳\验\助\激\够\严\证\帝\饭\忘\趣\支
\春\集\丈\木\研\班\普\导\顿\睡\展\跳\获\艺\六
\波\察\群\皇\段\急\庭\创\区\奥\器\谢\弟\店\否
\害\草\排\背\止\组\州\朝\封\睛\板\角\况\曲\馆
\育\忙\质\河\续\哥\呼\若\推\境\遇\雨\标\姐\充
\围\案\伦\护\冷\警\贝\著\雪\索\剧\啊\船\险\烟
\依\斗\值\帮\汉\慢\佛\肯\闻\唱\沙\局\伯\族\低
\玩\资\屋\击\速\顾\泪\洲\团\圣\旁\堂\兵\七\露
\园\牛\哭\旅\街\劳\型\烈\姑\陈\莫\鱼\异\抱\宝
\权\鲁\简\态\级\票\怪\寻\杀\律\胜\份\汽\右\洋
\范\床\舞\秘\午\登\楼\贵\吸\责\例\追\较\职\属
\渐\左\录\丝\牙\党\继\托\赶\章\智\冲\叶\胡\吉
\卖\坚\喝\肉\遗\救\修\松\临\藏\担\戏\善\卫\药
\悲\敢\靠\伊\村\戴\词\森\耳\差\短\祖\云\规\窗
\散\迷\油\旧\适\乡\架\恩\投\弹\铁\博\雷\府\压
\超\负\勒\杂\醒\洗\采\毫\嘴\毕\九\冰\既\状\乱
\景\席\珍\童\顶\派\素\脱\农\疑\练\野\按\犯\拍
\征\坏\骨\余\承\置\臓\彩\灯\巨\琴\免\环\姆\暗
\换\技\翻\束\增\忍\餐\洛\塞\缺\忆\判\欧\层\付
\阵\玛\批\岛\项\狗\休\懂\武\革\良\恶\恋\委\拥
\娜\妙\探\呀\营\退\摇\弄\桌\熟\诺\宣\银\势\奖
\宫\忽\套\康\供\优\课\鸟\喊\降\夏\困\刘\罪\亡
\鞋\健\模\败\伴\守\挥\鲜\财\孤\\禁\恐\伙\杰
\迹\妹\藸\遍\盖\副\坦\牌\江\顺\秋\萨\菜\划\授
\归\浪\听\凡\预\奶\雄\升\碃\编\典\袋\莱\含\盛
\济\蒙\棋\端\腿\招\释\介\烧\误
Unicode CJK 的范围分布在多个区段中,u4e00~u9fff是整个 Unicode 中区块
表,带有 CJK 的区块名中都拥有汉字。但最常用的范围是 U+4E00~U+9FA5,即名
为:CJK Unified Ideographs 的区块,但 U+9FA6~U+9FFF 之间的字符还属于空码,
暂时还未定义,但不能保证以后不会被定义。
下面这个是 Unicode 中 U+4E00~U+9FFF 的码表:
http://www.unicode.org/charts/PDF/U4E00.pdf
在这里可以根据 Unicode 码查到所有的字符:
http://www.unicode.org/cgi-bin/GetUnihanData.pl
另:在正则表达式中使用 [\一-\龥] 这种方式属于写死的代码,并不能根据平台所提供的字符集范围不同而改变,不过对于要求不是很高的话的是可以了。如果对字符集的要求很高,可以采用下面的这种 Unicode 块的方式:
[java] view plaincopyprint?
1.String regex = "[\\\\p{InCJK Unified Ideographs}&&\\\\P{Cn}]]";
String regex = "[\\\\p{InCJK Unified Ideographs}&&\\\\P{Cn}]]";
在当前的 JDK 版中与 [\一-\龥] 的意义一致。但这样可以匹配 Java 平台所支持
Unicode 块名为 CJK Unified Ideogrpahs 中已定义的字符,这种方式就属于“活”代码
今后的 JDK 版本升级了,定义到了 \龦 的字符,同样能够满足匹配。