A Method for Parsing and Vectorization of Semi-structured Data used in Retrieval Augmented Generation

文章读起来感觉比较混乱，感觉像是还没定稿，仓库地址。
大概意思是，将html、pdf、xml、xlsx等类型数据都转换成docx，docx中包括标题、文本元素、和表格。
使用detectorn2将docx中的内容分为：标题、文本、图像、表格、页眉和页脚等多个元素，再将这些元素细化为标题、文本元素、和表格。
表格怎么怎么存储下来；
图像用gpt4描述成文字；
然后就开始切块开始比较了。
但是怎么把HTML\PDF转换成docx的，不知道。但是在原文中提到了一个处理数据的工具，可能就是用这个工具把所有类型数据处理成docx的？