告别巨无霸文件！Linux 的 split 命令：你的文件分割小能手

鸿辰命令集合 2025-07-15 981

朋友们，有没有遇到过这样的尴尬时刻？一个超大无比的日志文件塞满了硬盘，想分析却打不开；或者有个好几G的视频想传给朋友，邮箱和聊天软件却无情地提示“文件太大”；又或者你想把一个超长的文本按章节分开处理… 面对这些“庞然大物”，你是不是恨不得有把“文件刀”把它们切成小块？

别担心，Linux 系统早就给你准备好了一个超级实用的小工具—— split 命令！它就像厨房里切菜的刀，能把任何大的“文件食材”按照你想要的大小或份数，整整齐齐地切成小份，方便你后续的“烹饪”（处理、传输、分析）。

split 命令是干嘛的？一句话总结：它专门用来把一个大文件分割成多个小文件。

为啥需要分割文件？

方便传输： 绕过邮箱、网盘或聊天工具的单文件大小限制。
易于处理： 巨大的文件可能让文本编辑器卡死，或者某些程序无法加载。分割后的小文件更容易打开、搜索和分析。
分卷存储： 比如想存到多张小容量的 U 盘里。
并行处理： 有时把大任务拆分成小文件，可以用不同的机器或进程同时处理，提高效率。
按内容拆分： 比如把按天生成的日志合并后，又想按天重新分开（虽然 split 按行分更常用，按内容逻辑分通常需要其他工具配合）。

split 怎么用？基本“刀法”大揭秘

split 命令的核心思想很简单：告诉它“怎么切”和“切完后的小文件叫啥名”。

最基本的语法长这样：

split [选项] [大文件] [输出文件前缀]

[选项]: 决定怎么切（按大小？按行数？）
[大文件]: 你要切的“大西瓜”文件的名字。
[输出文件前缀]: 切完后的小文件叫什么名字开头。比如你指定 part_，那切出来的文件默认就叫 part_aa, part_ab, part_ac… 以此类推。如果不指定前缀，默认就用 x，所以你会看到 xaa, xab, xac…。

最常用的两把“刀”：

按大小切 (快刀斩乱麻)： -b 选项
- 想切成每个 100MB？ split -b 100M 大文件.zip 分割后_
- 想切成每个 1GB？ split -b 1G huge_video.mkv
- 想切成每个 500KB？ split -b 500k presentation.pdf
- 单位很重要： k 或 K 是 KB (1024 bytes), M 是 MB (1024 KB), G 是 GB (1024 MB)。b 就是字节 (byte)。用大写字母 K, M, G 也行，效果一样。
- 比喻： 就像把一个大蛋糕切成重量相等的若干小块。
按行数切 (文本文档好帮手)： -l 选项
- 想把一个百万行的日志切成每份 10000 行？ split -l 10000 massive_log.txt log_part_
- 想把一本电子书按每章大约 500 行分开？ split -l 500 ebook.txt chapter_
- 注意： 这个最适合纯文本文件（.txt, .log, .csv 等）。对二进制文件（图片、视频、压缩包）按行切没意义，因为二进制文件没有“行”的概念。
- 比喻： 就像把一本厚厚的书，按页码分成若干册。

举个『栗子』，一看就懂！

假设我们有一个名为 big_data.log 的日志文件，非常大。

场景 1：切成 50MB 的小文件
```
  split -b 50M big_data.log data_part_
```
结果： 生成一堆文件：data_part_aa, data_part_ab, data_part_ac, … 每个文件（除了最后一个）大小都接近 50MB。
场景 2：切成每份 2000 行的文本块
```
  split -l 2000 big_data.log log_section_
```
结果： 生成一堆文件：log_section_aa, log_section_ab, log_section_ac, … 每个文件（除了最后一个）都包含 2000 行日志。
场景 3：默认操作（按行切，默认前缀）
```
  split big_data.log # 等价于 split -l 1000 big_data.log x
```
结果： 生成 xaa, xab, xac, … 每个文件默认包含 1000 行。

进阶『刀工』：让你的分割更贴心

split 还有一些很实用的选项，让你的分割结果更符合心意：

用数字做后缀 (更直观)： -d
- 默认的后缀是 aa, ab, ac… 有时用数字 00, 01, 02… 看着更顺眼。
```
split -b 100M -d big_file.zip backup_part_
```
  结果： backup_part_00, backup_part_01, backup_part_02…
- 再加点料 --numeric-suffixes=[起始数]： 你可以指定数字从多少开始！
```
split -b 100M -d --numeric-suffixes=5 big_file.zip backup_ # 从 05 开始
```
  结果： backup_05, backup_06, backup_07…
自定义后缀长度： -a [长度]
- 默认后缀长度是 2 (aa, ab 是两位；00, 01 也是两位)。如果你的文件会被切成几千份，2位后缀 (最多 676 个文件) 可能不够用，需要增加长度。
```
split -b 10M -d -a 4 huge_collection.tar.gz collection_part_ # 后缀用4位数字
```
  结果： collection_part_0000, collection_part_0001, collection_part_0002…
边切边看进度 (解闷)： --verbose
- 切超大文件时，屏幕一片寂静？加上这个选项，每创建一个新文件，它就会告诉你一声。
```
split -b 500M --verbose giant_movie.mkv movie_chunk_
```
  输出示例：
  正在创建文件 'movie_chunk_aa' 正在创建文件 'movie_chunk_ab' ...
按行切，但别切在单词中间 (更人性化)： -C [大小]
- 这个选项也按字节大小切（类似 -b），但它会尽量保证切出来的每个小文件末尾是一行完整的行，不会把一行文字拦腰砍断。非常适合文本文件！
```
split -C 10M story.txt story_part_ # 每个文件 ~10MB，但保证行完整
```

重要提示：分割后如何『拼回去』？

切完了，用完了，怎么把文件恢复成原样呢？超级简单！用 Linux 的另一个神器 cat 命令（concatenate，连接）。

方法： 按照分割时生成的文件名的字典顺序（通常是 aa, ab, ac... 或 00, 01, 02...），用 cat 把它们按顺序合并成一个文件。

cat 前缀* > 合并后的大文件名

例子：

如果你用 split -b 100M bigfile.zip part_ 分割的：
```
  cat part_* > bigfile-back.zip
```

如果你用默认的 split big_data.log (生成 xaa, xab…):

  cat xaa xab xac ... > big_data_combined.log # 或者更简单 cat x* > ...

关键点： cat 前缀* 中的 * (通配符) 会自动按文件名顺序排列文件（aa, ab, ac… 或 00, 01, 02… 这种顺序是没问题的）。合并后的文件（比如 bigfile-back.zip）应该和原始的 bigfile.zip 内容一模一样。对于压缩包、视频等二进制文件，合并后可以直接使用。