- 论坛徽章:
- 2
|
本帖最后由 OwnWaterloo 于 2011-04-08 12:46 编辑
回复 1# aaaaa5aa
一段 elisp 代码:
- ":";exec emacs --script $0 $*
- (setq-default enable-multibyte-characters nil)
- (ignore-errors
- (let (line)
- (while t
- (set 'line (string-to-multibyte (read-from-minibuffer "")))
- (dotimes (i (length line))
- (when (eq 'chinese-gbk (char-charset (aref line i)))
- (write-char (aref line i)) ) )
- (write-char ?\n) ) ) )
复制代码
- ./extract.el < input.htm > chinese.txt
- τμ·μΧ£′美女匪帮美女匪帮
- 党中央专区首长同志的女儿塔尼亚在敖德萨旅游的三天里,正赶上一个外号叫“会计师”的坏人的行动,扑朔迷离的绑架,扣人心弦的歼灭战,浪漫的爱情、坚固的友情和伟大的亲情穿插其中。最后坏…
- 导演:暂无信息
复制代码 前面几个古怪的字母也被算进去了……
完成主要功能的是那个 char-charset 函数, 可以获得一个字符所属的charset。
ascii, unicode, chinese-gbk, latin-iso8859-2 等。
(这方面的术语很混乱, 反正 Emacs 把上述这些叫做 charset)
unicode 标准除了规定每个character 的 codepoint, 可能还有规定那些区间是属于哪些文字吧。 |
|