PDF处理控件Aspose.PDF指南：如何使用 C# 在 PDF 中搜索-控件新闻-慧都网

PDF处理控件Aspose.PDF指南：如何使用 C# 在 PDF 中搜索

翻译|使用教程|编辑：吉炜炜|2025-04-27 09:58:08.187|阅读 28 次

概述：在文档管理系统、法律审查工具、发票处理工具和其他企业应用程序中，搜索PDF文档中的特定文本是一项常见任务。在本篇博文中，您将学习如何使用 C# 以编程方式在 PDF 文件中搜索文本。

用于在 PDF 文档中搜索的 C# 库

Aspose.PDF for .NET简化了使用 C# 在 PDF 文件中搜索文本的过程。它允许您查找精确的单词、使用正则表达式匹配模式，甚至突出显示或替换匹配的文本——所有这些只需几行代码即可完成。这个强大的库提供了用于操作 PDF 文档的强大功能。它允许开发人员轻松实现搜索功能。使用 Aspose.PDF，您可以快速在 PDF 中查找单词，使其成为软件开发人员的宝贵工具。

在深入研究 PDF 文本搜索之前，您需要设置开发环境。请按照以下步骤开始使用 Aspose.PDF for .NET：

1.安装 Aspose.PDF for .NET。

从发行版下载或通过安装。在 Visual Studio 中打开 .NET 项目，然后在 NuGet 包管理器控制台中运行以下命令：

PM> Install-Package Aspose.PDF

此命令将 Aspose.PDF 库添加到您的项目中，以便您可以访问其强大的 PDF 处理功能。

2. 导入所需的命名空间

在 C# 文件的顶部，添加以下使用指令：

using Aspose.Pdf;
using Aspose.Pdf.Text;

现在您已准备好使用 Aspose.PDF 的 API 开始在 PDF 文件中搜索文本。

使用 C# 在 PDF 中搜索文本

使用 Aspose.PDF for .NET，您可以轻松地在 PDF 中搜索特定的单词或短语，找到它们的所有实例，并采取诸如突出显示它们或提取其详细信息等操作。

请按照以下步骤执行基本文本搜索：

使用Document类加载目标 PDF 文件。
创建一个TextFragmentAbsorber来定义搜索关键字。
使用Accept()方法在所有页面运行吸收器。
检索所有匹配的文本片段。
打印找到的匹配数。
循环并显示每个匹配项及其页码。

以下代码示例实现了这些步骤。

// Load the PDF file
Document pdfDocument = new Document("sample.pdf");

// Create a text absorber with the search keyword
TextFragmentAbsorber textFragmentAbsorber = new TextFragmentAbsorber("invoice");

// Apply the absorber to all pages
pdfDocument.Pages.Accept(textFragmentAbsorber);

// Get the matched text fragments
TextFragmentCollection textFragments = textFragmentAbsorber.TextFragments;

// Print how many times the keyword was found
Console.WriteLine($"Found {textFragments.Count} instance(s) of the keyword.");

// Loop through and print each found text
foreach (TextFragment fragment in textFragments)
{
    Console.WriteLine($"Text: {fragment.Text} | Page: {fragment.Page.Number}");
}

输出示例

Found 3 instance(s) of the keyword.
Text: invoice | Page: 1
Text: invoice | Page: 2
Text: invoice | Page: 3

此示例演示了一个简单的关键字搜索，该搜索适用于 PDF 中的所有页面。您将看到匹配的文本及其页码。

了解 PDF 搜索中使用的关键类别

为了更好地理解代码中发生的情况，下面对所涉及的关键类和方法进行了快速分解：

Document：代表整个 PDF 文件。它提供对页面、内容和结构的访问。
TextFragmentAbsorber：查找 PDF 中指定字符串或模式的所有匹配项。您还可以启用不区分大小写或基于正则表达式的搜索等功能。
Accept()：将吸收器应用于每页纸张。它会扫描整个文档并收集匹配的碎片。
TextFragments：吸收器返回的所有匹配的文本片段的集合。
TextFragment：每个单独的匹配都包含内容、位置和页码等详细信息。

使用 C# 进行不区分大小写和全字搜索

搜索 PDF 内容时，您需要控制系统查找匹配项的方式，以确保结果准确。有时，您可能希望忽略字母大小写（“Invoice” 与 “invoice”），或者只想匹配完整的单词，而不是其他单词中的部分匹配。

Aspose.PDF for .NET 为您提供了实现这两项功能的工具。

不区分大小写的搜索

默认情况下，搜索区分大小写。要忽略字母大小写，请使用TextSearchOptionswith IgnoreCaseenabled：

// Load the PDF file
Document pdfDocument = new Document("sample.pdf");

// Create a text absorber with a case-insensitive regular expression
TextFragmentAbsorber textFragmentAbsorber = new TextFragmentAbsorber("(?i)INVOICE");

// Set text search options to enable regular expression usage
TextSearchOptions textSearchOptions = new TextSearchOptions(true);
textFragmentAbsorber.TextSearchOptions = textSearchOptions;

// Apply the absorber to all pages
pdfDocument.Pages.Accept(textFragmentAbsorber);

// Retrieve the matched text fragments
TextFragmentCollection textFragments = textFragmentAbsorber.TextFragments;

// Output the number of matches found
Console.WriteLine($"Found {textFragments.Count} instance(s) of the keyword.");

// Loop through and display each found text fragment
foreach (TextFragment fragment in textFragments)
{
    Console.WriteLine($"Text: {fragment.Text} | Page: {fragment.Page.Number}");
}

这将找到“发票”、“发票”、“发票”和其他变体。

仅匹配整个单词

您还可以阻止部分匹配。例如，搜索“car不应匹配”care或scar“”。

// Load the PDF file
Document pdfDocument = new Document("sample.pdf");

// Create a text absorber with a regular expression pattern for whole word match
TextFragmentAbsorber textFragmentAbsorber = new TextFragmentAbsorber(@"\bcar\b");

// Set text search options to enable regular expression usage
TextSearchOptions textSearchOptions = new TextSearchOptions(true);
textFragmentAbsorber.TextSearchOptions = textSearchOptions;

// Apply the absorber to all pages
pdfDocument.Pages.Accept(textFragmentAbsorber);

// Retrieve the matched text fragments
TextFragmentCollection textFragments = textFragmentAbsorber.TextFragments;

// Output the number of matches found
Console.WriteLine($"Found {textFragments.Count} instance(s) of the keyword.");

// Loop through and display each found text fragment
foreach (TextFragment fragment in textFragments)
{
    Console.WriteLine($"Text: {fragment.Text} | Page: {fragment.Page.Number}");
}

这确保只有单词“car”的独立实例被匹配。

使用正则表达式在 PDF 中搜索

在某些情况下，您需要查找的不仅仅是某个特定的单词，您还需要匹配诸如日期、电子邮件地址或参考编号之类的模式。这时，正则表达式 (regex)就派上用场了。

Aspose.PDF for .NET 允许您使用正则表达式在 PDF 文档的任何部分进行高级文本搜索。

示例：查找 PDF 中的所有日期

假设您要查找以下格式的所有日期dd/mm/yyyy：

// Load PDF and search for text
Document pdfDocument = new Document("sample.pdf");

// Enable regex in search options
TextSearchOptions searchOptions = new TextSearchOptions(true)
{
    IsRegularExpressionUsed = true
};

// Create absorber with date pattern
TextFragmentAbsorber absorber = new TextFragmentAbsorber(@"\d{2}/\d{2}/\d{4}", searchOptions);

// Apply absorber to pages
pdfDocument.Pages.Accept(absorber);

// Loop and print found patterns
foreach (TextFragment fragment in absorber.TextFragments)
{
    Console.WriteLine($"Found date: {fragment.Text} on Page {fragment.Page.Number}");
}

其他有用的模式：

电子邮件：\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b
电话号码：\d{3}[-.\s]??\d{3}[-.\s]??\d{4}
发票号码：INV-\d+

Regex 将您的搜索功能扩展到静态文本之外，帮助您从非结构化文档中提取结构化数据。

搜索并提取包含职位详细信息的文本

有时，仅仅找到文本是不够的——您可能需要知道它在PDF中的确切位置。Aspose.PDF允许您提取每个匹配项的页码、坐标和格式详细信息。

此功能对于建立索引、标记文档或创建可点击链接特别有用。

示例：获取每场比赛的位置**

// Load PDF and search for text
Document pdfDocument = new Document("sample.pdf");
TextFragmentAbsorber absorber = new TextFragmentAbsorber("invoice");
pdfDocument.Pages.Accept(absorber);

// Get matched fragments
TextFragmentCollection fragments = absorber.TextFragments;

// Print position and text for each match
foreach (TextFragment fragment in fragments)
{
    Console.WriteLine($"Text: {fragment.Text}");
    Console.WriteLine($"Page: {fragment.Page.Number}");
    Console.WriteLine($"Position - X: {fragment.Position.XIndent}, Y: {fragment.Position.YIndent}");
    Console.WriteLine($"Font: {fragment.TextState.Font.FontName}, Size: {fragment.TextState.FontSize}");
    Console.WriteLine("------------");
}

示例输出

Text: invoice
Page: 1
Position - X: 33.482, Y: 708.246
Font: Helvetica, Size: 12
------------
Text: invoice
Page: 2
Position - X: 33.482, Y: 708.246
Font: Helvetica, Size: 12
------------
Text: invoice
Page: 3
Position - X: 33.482, Y: 708.246
Font: Helvetica, Size: 12
------------

现在，您确切地知道了“发票”一词出现的位置以及它的样式。这种细节水平为高级处理（例如注释、工具提示或动态突出显示）打开了大门。

突出显示或替换找到的文本

在 PDF 中找到特定文本后，您可以进一步操作，例如高亮显示该文本，甚至将其替换为新内容。Aspose.PDF for .NET 允许您使用该对象轻松地设置或修改匹配文本的样式TextFragment。

在 PDF 中搜索并高亮显示文本

您可以通过更改文本的背景和字体颜色来直观地突出显示文本。

TextFragmentAbsorber absorber = new TextFragmentAbsorber("invoice");
pdfDocument.Pages.Accept(absorber);

foreach (TextFragment fragment in absorber.TextFragments)
{
    // Highlight by changing text appearance
    fragment.TextState.BackgroundColor = Color.Yellow;
    fragment.TextState.ForegroundColor = Color.Red;
    fragment.TextState.FontStyle = FontStyles.Bold;
}

这对于审查、批注或生成带注释的报告很有用。

查找和替换文本

需要编辑或更新文档中的文本？直接替换即可：

foreach (TextFragment fragment in absorber.TextFragments)
{
    fragment.Text = "REDACTED";
}

您甚至可以在替换时应用新的格式：

fragment.TextState.FontSize = 12;
fragment.TextState.Font = FontRepository.FindFont("Arial");
fragment.TextState.ForegroundColor = Color.Black;

通过编程突出显示和替换文本，您可以自动执行许多文档处理任务，例如清理模板、更新过时的内容或审查私人数据。

在所有页面或特定页面中搜索

默认情况下，Aspose.PDF 会搜索PDF 中的所有页面。但有时，您可能希望将搜索范围限制在特定页面或页面范围内——尤其是在处理大型文件或内容可预测的情况下。

Aspose.PDF 使这两项操作变得简单。

在所有页面上搜索（默认）

如果您没有指定页面，吸收器会自动搜索每一页。

TextFragmentAbsorber absorber = new TextFragmentAbsorber("invoice");
pdfDocument.Pages.Accept(absorber); // Searches all pages

在特定页面上搜索

您还可以通过直接定位来搜索单个页面：

TextFragmentAbsorber absorber = new TextFragmentAbsorber("invoice");

// Search only on page 2
pdfDocument.Pages[2].Accept(absorber);

在一定范围内的页面搜索

要搜索自定义范围（例如第 2 页至第 4 页），只需循环遍历该范围：

TextFragmentAbsorber absorber = new TextFragmentAbsorber("invoice");

// Loop through selected pages
for (int i = 2; i <= 4; i++)
{
    pdfDocument.Pages[i].Accept(absorber);
}

这种方法使您能够完全控制性能和精度，对于扫描或分段的文档尤其有用。

高级用例：搜索和编辑敏感信息

在法律、人力资源或财务文档中，通常会在共享之前隐藏敏感内容（例如姓名、ID 或账号）。Aspose.PDF for .NET 通过将搜索与编辑功能相结合，使这变得简单。

您可以搜索术语，然后使用应用黑色覆盖RedactionAnnotation。

// Load PDF and search for text
Document pdfDocument = new Document("sample.pdf");

// Search for the name "John Doe"
TextFragmentAbsorber absorber = new TextFragmentAbsorber("John Doe");
pdfDocument.Pages.Accept(absorber);

// Loop through found fragments and redact
foreach (TextFragment fragment in absorber.TextFragments)
{
    // Get position and dimensions
    Aspose.Pdf.Rectangle rect = new Aspose.Pdf.Rectangle(
        fragment.Position.XIndent,
        fragment.Position.YIndent,
        fragment.Position.XIndent + fragment.Rectangle.Width,
        fragment.Position.YIndent + fragment.Rectangle.Height
    );

    // Create a redaction annotation
    RedactionAnnotation redaction = new RedactionAnnotation(fragment.Page, rect)
    {
        FillColor = Color.Black,
        Color = Color.Black
    };

    // Add and apply redaction
    fragment.Page.Annotations.Add(redaction);
    redaction.Redact();
}
// Save the modified document
pdfDocument.Save("SearchAndRedact.pdf");

会发生什么

找到目标文本（“John Doe”）并将其用黑框覆盖。
这不仅仅是视觉上的——它会从 PDF 层中删除内容，使其无法从文件中删除。

结论

在 PDF 文件中搜索文本是许多基于文档的应用程序的一项重要功能——无论您是提取数据、审核内容还是准备文件进行编辑。使用Aspose.PDF for .NET，您可以轻松执行关键字搜索、使用正则表达式、突出显示结果，甚至精确控制地编辑敏感信息。Aspose.PDF 提供开发人员友好的 API，可简化复杂的 PDF 操作——节省您的时间，同时实现强大的自动化功能。

————————————————————————————————————————

关于慧都科技：

慧都科技是一家行业数字化解决方案公司，长期专注于软件、油气与制造行业。公司基于深入的业务理解与管理洞察，以系统化的业务建模驱动技术落地，帮助企业实现智能化运营与长期竞争优势。在软件工程领域，我们提供开发控件、研发管理、代码开发、部署运维等软件开发全链路所需的产品，提供正版授权采购、技术选型、个性化维保等服务，帮助客户实现技术合规、降本增效与风险可控。慧都科技Aspose在中国的官方授权代理商，提供Aspose系列产品免费试用，咨询，正版销售等于一体的专业化服务。Aspose是文档处理领域的优秀产品，帮助企业高效构建文档处理的应用程序。

下载|体验更多Aspose产品，请咨询，或拨打产品热线：023-68661681

加入Aspose技术交流QQ群（1041253375），与更多小伙伴一起探讨提升开发技能。

标签：

本站文章除注明转载外，均为本站原创或翻译。欢迎任何形式的转载，但请务必注明出处、不得修改原文相关链接，如果存在内容上的异议请邮件反馈至chenjj@wqylolg.cn

文章转载自：慧都网

上一篇：Word处理控件Spire.Doc系列教程：C# 通过模板创建 Word 文档下一篇：基于ActiveX 组件CADEditorX 的XML 创建、处理及编程连接

半岛权威十大直营(官方)网站

在线采购

中文文档库

试用/Demo下载

开发社群