Nodepad++小技巧：中英双语字幕转换为英文字幕

最近在看美剧《罗马》，在网上找了很久都没有找到中英双语字幕的片源，网上流传的版本大多是人人影视（YYeTs）的中文字幕，下下来看了两集发现没有英文字幕感觉非常不爽，于是直接去下载字幕文件，又发现没有纯英文的字幕，只有纯中文和中英双语的字幕文件。

双语的字幕文件下下来之后，本来打算找个小工具来转换成纯英文字幕，后来一想没必要，直接自己手工编辑也能搞定，于是拿起Notepad++折腾了半个小时。

一、Notepad++的宏功能

字幕文件是个有一定格式的文本文件，一般情况下格式都具有某种固定的模式，譬如下面的字幕文件：

格式都是这样的模式：序号，时间，中文，英文，再加上一行空行。我们发现中文的位置都是一致的，如果我们手工来做的话，我们会这样操作：删除第3行，然后光标下移5行到第8行，删除第8行，然后光标下移到13行，以此类推，一直操作到文件末尾。

这样有着固定模式的重复操作正是Notepad++宏的用武之地，使用宏删除中文的具体步骤如下：

首先光标定位到第3行；
点击菜单项“宏” -> “开始录制”;
按Ctrl+L快捷键删除第3行；
按4下向下的箭头移动光标到第7行（因为删掉了一行，所以本来第8行变成了第7行）；
点击菜单项“宏” -> “停止录制”，这样我们的宏就做好了；
保持光标所在位置不要动，最后点击菜单项“宏” -> “重复运行宏...”，然后选择“运行到文件尾”，点击“运行”，等待宏运行结束，如果一切顺利，就轻松完成任务了

二、Notepad++的正则匹配功能

其实使用上面介绍的方法就足够应付大多数的字幕文件了，只要字幕文件的格式标准统一，只需要一次运行宏就能搞定。但有时字幕文件并不一定是格式一致的，譬如下面的字幕：

遇到这种情况时，宏会不问青红皂白接着往下处理，把英文字幕都删了，甚至破坏了字幕格式。如果这种情况不多，手工处理一下还能接受，但是一旦多起来还是很头疼的。于是想找一种通用的方法来处理。

其实问题很简单：找到文件中的所有中文，并删除所在行。

我们知道Notepad++中有匹配正则表达式的功能，而且我们知道匹配中文字符的正则是[\u4e00-\u9fa5]，于是我们使用Notepad++的Mark功能把所有中文所在行标记出来。按Ctrl+F快捷键弹出查找窗口，切换到Mark选项卡，“查找模式”选择“正则表达式”，并勾选上“标记所在行”，输入正则表达式：

点击“查找全部”，按理说应该会把所有中文行标记出来的。结果却是中文一个没标记上，英文行全标记上了。Google之才知道原来是正则表达式的问题，匹配中文的正则是[\u4e00-\u9fa5]没错，但是Notepad++使用的是PCRE引擎，正则的语法应该是[\x{4e00}-\x{9fa5}]。

修改正则的语法后就可以标记出所有的中文行了。最后，我们拿出杀手锏：

选择 “搜索” -> "书签" -> "删除书签行"，所有中文行都删除掉了，这个小技巧估计很多人都不知道，但是这个小技巧在移除某些特定行时非常有用。这整个过程总结起来就两步：

使用正则表达式[\x{4e00}-\x{9fa5}]标记出所有中文行；
删除书签行；

比起上面宏的做法这种方法要更简洁，而且更不容易出错。至此，我们的英文字幕就做好了，使用视频播放器加载英文字幕，调整下字幕的位置，虽然视频自带了中文字幕，但是看起来就跟双语字幕一样了！哈哈，搞定，继续看电视去了。

后记

在使用Notepad++利用正则表达式匹配中文时，要特别注意一点的是：文件的格式一定要是UTF-8格式，而不是ANSI格式，否则匹配不到中文。
另外一点除了使用正则表达式[\x{4e00}-\x{9fa5}]匹配中文之外，还有其他的几种写法：

直接用中文字符来写正则也可以匹配：[一-龥！-～]
Notepad++内置的匹配Unicode的写法：[[:unicode:]]

一、Notepad++的宏功能

二、Notepad++的正则匹配功能

后记

参考

分类