A Method for Parsing and Vectorization of Semi-structured Data used in Retrieval Augmented Generation

文章读起来感觉比较混乱,感觉像是还没定稿,仓库地址
大概意思是,将html、pdf、xml、xlsx等类型数据都转换成docx,docx中包括标题、文本元素、和表格。
使用detectorn2将docx中的内容分为:标题、文本、图像、表格、页眉和页脚等多个元素,再将这些元素细化为标题、文本元素、和表格。
表格怎么怎么存储下来;
图像用gpt4描述成文字;
然后就开始切块开始比较了。
但是怎么把HTML\PDF转换成docx的,不知道。但是在原文中提到了一个处理数据的工具,可能就是用这个工具把所有类型数据处理成docx的?