如何从 Linux 命令行查看二进制文件

已发表: 2022-01-29
一个程式化的 Linux 终端,在笔记本电脑上带有绿色文本行。
fatmawati achmad zaenuri/Shutterstock

有神秘档案吗? Linux file命令会很快告诉你它是什么类型的文件。 但是,如果它是一个二进制文件,您可以找到更多关于它的信息。 file有一大堆稳定的伙伴,可以帮助你分析它。 我们将向您展示如何使用其中一些工具。

识别文件类型

文件通常具有允许软件包识别它是哪种类型的文件以及其中的数据代表什么的特征。 尝试在 MP3 音乐播放器中打开 PNG 文件是没有意义的,因此文件带有某种形式的 ID 既有用又实用。

这可能是文件开头的几个签名字节。 这允许文件明确其格式和内容。 有时,文件类型是从数据本身的内部组织的一个独特方面推断出来的,称为文件架构。

某些操作系统(如 Windows)完全由文件扩展名引导。 您可以称其为轻信或信任,但 Windows 假定任何具有 DOCX 扩展名的文件确实是 DOCX 文字处理文件。 Linux 不是那样的,你很快就会看到。 它需要证据并在文件中查找以找到它。

此处描述的工具已经安装在我们用于研究本文的 Manjaro 20、Fedora 21 和 Ubuntu 20.04 发行版上。 让我们使用file命令开始我们的调查。

使用文件命令

我们在当前目录中有一组不同的文件类型。 它们是文档、源代码、可执行文件和文本文件的混合体。

广告

ls命令将向我们显示目录中的内容,而-hl (人类可读大小,长列表)选项将向我们显示每个文件的大小:

 ls -hl 

让我们尝试其中一些file ,看看我们得到了什么:

 文件 build_instructions.odt
 文件 build_instructions.pdf
 文件 COBOL_Report_Apr60.djvu 

正确识别了这三种文件格式。 在可能的情况下, file为我们提供了更多信息。 该 PDF 文件被报告为 1.5 版格式。

即使我们将 ODT 文件重命名为具有任意值 XYZ 的扩展名,该文件仍然可以正确识别,无论是在Files文件浏览器中还是在使用file的命令行上。

在文件文件浏览器中正确识别 OpenDocument 文件,即使其扩展名是 XYZ。

Files文件浏览器中,它被赋予了正确的图标。 在命令行上, file忽略扩展名并在文件内部查看以确定其类型:

 文件 build_instructions.xyz 

广告

在媒体上使用file ,例如图像和音乐文件,通常会产生有关其格式、编码、分辨率等的信息:

 文件截图.png
 文件截图.jpg
 文件 Pachelbel_Canon_In_D.mp3 

有趣的是,即使是纯文本文件, file也不会通过扩展名来判断文件。 例如,如果您有一个扩展名为“.c”的文件,其中包含标准纯文本但不包含源代码,则file不会将其误认为是真正的 C 源代码文件:

 文件函数+headers.h
 文件生成文件
文件你好.c 

file正确地将头文件(“.h”)标识为 C 源代码文件集合的一部分,并且它知道 makefile 是一个脚本。

将文件与二进制文件一起使用

二进制文件比其他文件更像是一个“黑匣子”。 可以查看图像文件,可以播放声音文件,可以通过相应的软件包打开文档文件。 但是,二进制文件更具挑战性。

例如,文件“hello”和“wd”是二进制可执行文件。 它们是程序。 名为“wd.o”的文件是一个目标文件。 当编译器编译源代码时,会创建一个或多个目标文件。 这些包含计算机最终将在完成的程序运行时执行的机器代码,以及链接器的信息。 链接器检查每个目标文件是否有对库的函数调用。 它将它们链接到程序使用的任何库。 这个过程的结果是一个可执行文件。

文件“watch.exe”是一个二进制可执行文件,已被交叉编译以在 Windows 上运行:

 文件 wd
 文件 wd.o
 文件你好
文件 watch.exe 

广告

先看最后一个, file告诉我们“watch.exe”文件是一个 PE32+ 可执行的控制台程序,用于 Microsoft Windows 上的 x86 系列处理器。 PE 代表可移植的可执行格式,它有 32 位和 64 位版本。 PE32 是 32 位版本,PE32+ 是 64 位版本。

其他三个文件都被标识为可执行和可链接格式 (ELF) 文件。 这是可执行文件和共享对象文件(例如库)的标准。 我们很快就会看一下 ELF 标头格式。

可能引起您注意的是,这两个可执行文件(“wd”和“hello”)被标识为 Linux 标准库 (LSB) 共享对象,而对象文件“wd.o”被标识为 LSB 可重定位文件。 可执行这个词在没有的情况下是显而易见的。

目标文件是可重定位的,这意味着其中的代码可以在任何位置加载到内存中。 可执行文件被列为共享对象,因为它们是由链接器从对象文件以继承此功能的方式创建的。

这允许地址空间布局随机化 (ASMR) 系统将可执行文件加载到其选择的地址处的内存中。 标准可执行文件在其标头中编码了一个加载地址,该地址指示它们被加载到内存中的位置。

ASMR 是一种安全技术。 将可执行文件加载到可预测地址的内存中会使它们容易受到攻击。 这是因为攻击者始终知道它们的入口点及其功能的位置。 位于随机地址的位置无关可执行文件 (PIE) 克服了这种敏感性。

广告

如果我们使用gcc编译器编译我们的程序并提供-no-pie选项,我们将生成一个常规的可执行文件。

-o (输出文件)选项让我们为我们的可执行文件提供一个名称:

 gcc -o hello -no-pie hello.c

我们将在新的可执行文件上使用file并查看发生了什么变化:

 文件你好

可执行文件的大小与之前相同(17 KB):

 ls -hl 你好

该二进制文件现在被标识为标准可执行文件。 我们这样做只是为了演示目的。 如果您以这种方式编译应用程序,您将失去 ASMR 的所有优势。

为什么可执行文件这么大?

我们的示例hello程序为 17 KB,因此很难称其为大,但是,一切都是相对的。 源代码为 120 字节:

 猫你好.c
广告

如果它所做的只是将一个字符串打印到终端窗口,那么会增加二进制文件的大小? 我们知道有一个 ELF 标头,但对于 64 位二进制文​​件来说,它只有 64 字节长。 显然,它必须是别的东西:

 ls -hl 你好

让我们使用strings命令扫描二进制文件作为简单的第一步,以发现其中的内容。 我们将它输入到less中:

 字符串你好 | 较少的

除了“Hello, Geek world!”之外,二进制文件中还有很多字符串。 从我们的源代码。 其中大部分是二进制文件中区域的标签,以及共享对象的名称和链接信息。 这些包括库和这些库中的函数,二进制文件依赖于这些库。

ldd命令向我们展示了二进制文件的共享对象依赖关系:

 你好

输出中有三个条目,其中两个包含目录路径(第一个没有):

  • linux-vdso.so:虚拟动态共享对象(VDSO)是一种内核机制,允许用户空间二进制文件访问一组内核空间例程。 这避免了从用户内核模式进行上下文切换的开销。 VDSO 共享对象遵循可执行和可链接格式 (ELF) 格式,允许它们在运行时动态链接到二进制文件。 VDSO 是动态分配的,并利用了 ASMR。 如果内核支持 ASMR 方案,则 VDSO 功能由标准 GNU C 库提供。
  • libc.so.6: GNU C 库共享对象。
  • /lib64/ld-linux-x86-64.so.2:这是二进制文件要使用的动态链接器。 动态链接器询问二进制文件以发现它具有哪些依赖项。 它将这些共享对象启动到内存中。 它准备二进制文件以运行并能够在内存中查找和访问依赖项。 然后,它启动程序。

ELF 标头

我们可以使用readelf实用程序和-h (文件头)选项检查和解码 ELF 头:

 readelf -h 你好

标题是为我们解释的。

广告

所有 ELF 二进制文件的第一个字节设置为十六进制值 0x7F。 接下来的三个字节设置为 0x45、0x4C 和 0x46。 第一个字节是一个标志,将文件标识为 ELF 二进制文件。 为了清楚起见,接下来的三个字节用 ASCII 拼出“ELF”:

  • 类:指示二进制文件是 32 位还是 64 位可执行文件(1=32、2=64)。
  • 数据:表示使用的字节序。 Endian 编码定义了存储多字节数字的方式。 在大端编码中,数字首先存储其最高有效位。 在 little-endian 编码中,数字首先存储其最低有效位。
  • 版本: ELF 的版本(目前为 1)。
  • OS/ABI:表示正在使用的应用程序二进制接口的类型。 这定义了两个二进制模块之间的接口,例如程序和共享库。
  • ABI 版本:ABI的版本。
  • 类型: ELF 二进制文件的类型。 常见的值是ET_REL表示可重定位资源(例如目标文件), ET_EXEC表示使用-no-pie标志编译的可执行文件, ET_DYN表示支持 ASMR 的可执行文件。
  • 机器:指令集架构。 这表示为其创建二进制文件的目标平台。
  • 版本:对于此版本的 ELF,始终设置为 1。
  • 入口点地址:开始执行的二进制文件中的内存地址。

其他条目是二进制文件中区域和部分的大小和数量,因此可以计算它们的位置。

使用hexdump快速查看二进制文件的前八个字节将在文件的前四个字节中显示签名字节和“ELF”字符串。 -C (规范)选项为我们提供了字节的 ASCII 表示及其十六进制值,而-n (数字)选项让我们指定要查看的字节数:

 hexdump -C -n 8 你好

objdump 和粒度视图

如果您想查看详细信息,可以使用带有-d (反汇编)选项的objdump命令:

 objdump -d 你好 | 较少的

这会反汇编可执行的机器代码,并以十六进制字节显示它,并与等效的汇编语言一起显示。 每行中第一个 bye 的地址位置显示在最左侧。

这仅在您可以阅读汇编语言或者您对幕后发生的事情感到好奇时才有用。 有很多输出,所以我们将其输入到less中。

编译和链接

有很多方法可以编译二进制文件。 例如,开发者选择是否包含调试信息。 二进制文件的链接方式也影响其内容和大小。 如果二进制引用共享对象作为外部依赖项,它将小于依赖项静态链接的对象。

广告

大多数开发人员已经知道我们在这里介绍的命令。 不过,对于其他人来说,它们提供了一些简单的方法来翻找并查看二进制黑匣子中的内容。