文本分割器#
当您想处理长篇文本时,需要将文本拆分为块。 尽管听起来很简单,但这里存在着很多潜在的复杂性。理想情况下,您想将语义相关的文本片段保持在一起。什么是“语义相关”可能取决于文本类型。 本教程展示了几种方法来实现这一点。
在高层次上,文本分割器的工作如下:
-
将文本拆分为小的、语义上有意义的块(通常是句子)。
-
开始将这些小块组合成一个较大的块,直到达到一定的大小(由某些函数测量)。
-
一旦达到该大小,将该块作为自己的文本块,然后开始创建一个新的文本块,其中包含一些重叠(以保持文本块之间的上下文)。
这意味着您可以沿两个不同的轴自定义文本分割器:
-
文本如何拆分
-
如何测量块大小
有关默认文本分割器和通用功能的介绍请参见:
我们还为所有支持的文本分割器编写了文档。 请参见下面的列表。