如何通过机器学习和 OCR 来使用文档分类和排序?
在许多组织中,无论是企业还是政府,收到的文件曾经在邮件收发室进行处理。这些文件可以是纳税申报表、罚款、客户服务信函或发票。他们每个人都必须被路由到适当的部门。最后,它们被手动处理并最终形成一个大型档案。 由于大多数组织在过去十年中已将其系统数字化,因此收到的纸质文档数量逐年减少。许多组织已经转向数字邮件收发室、记录管理系统和档案室,通过电子邮件接收大多数文档。有些人使用大型扫描仪将其余过程数字化。 然而,接收文档并将其转换为数字格式只是减少错误和提高运营效率的第一步。对文档内容进行分类、排序、将其发送到正确的部门以及确保它们以可搜索的文本形式提供是重要的步骤。它们可以自动化并实施到您的文档处理系统中。 在本文中,我们将向您展示如何使用我们的文档分类解决方案来做到这一点。 内容 秘密是什么?算法! Klippa 创建了经过超过一百万个文档训练的机器学习算法。
这些算法从文档中提取许多特征,例如文件格式、文件大小和布局。 该软件使用光学字符识别(OCR) 提取文档内容,然后使用自然语言处理执行文本分析和统计,以确定主题的类别。它识别文档类型集中的模式,使其能够将未知文档与其中一个集合进行匹配。 对于 卢森堡电话号码列表 任何需要分类的未知文档,提取特征并将其传递给算法。算法本质上是一个数学公式,所以结果会是一定的分数。我们称之为相似度得分。它将与模型训练所用的数据集中的所有文档类别进行比较。文档分数和类别分数之间的最佳匹配是最有可能进行分类的候选者。 下图给出了文档分类流程的简化示例: 使用自动文档分类可以实现超过 99% 的准确率,而单次排序操作大约需要 1/10 秒。手动分类要慢得多,人们需要更长的时间来对文档进行排序。除了时间因素外,人们的准确率一般不会超过 95%,具体取决于排序任务的复杂程度。
果我们讨论的是大容量文件,例如每月排序 100,000 份文档,则手动排序将花费 20 倍的时间,并导致 5% 的错误增加。这很容易使大型组织每月花费数千美元,而算法只会花费您的一小部分。 对各类文件进行操作分类 一个人可以识别的任何元素(特征)都可以通过我们的软件进行分类,然后是一些。最重要的前提是有足够的数据来训练模型来理解某些特征之间的差异。 在这方面,机器学习算法与员工并没有太大不同。他们通过一件事了解账单和付款提醒之间的区别:经验。 这就是 Klippa 软件可以为您做的事情: 文件类型的分类 文件类型分类 文档语言分类 原产国分类 商户分类 项目行的分类 风险或紧急情况的分类 有关隐私的敏感数据的分类 文件类型的分类 如果您不知道邮件室或档案室中有哪些文件,第一步是快速识别每个存储的文件。您可以考虑 PDF、Word 文档、Excel 工作表、电子邮件、图像、扫描件或任何其他类型等文件类型。 |