如何进行rag多模态数据库的搭建? #20337
Replies: 1 comment
-
|
Hi @youshi030501-create! I'm Dosu and I’m helping the llama_index team. 你的流程已经很接近企业级多模态RAG数据库的标准做法了,但企业级方案会在可扩展性、数据结构、检索效率和安全性等方面做更多优化。下面是企业级多模态RAG数据库的主流架构和最佳实践,结合 LlamaIndex 框架举例:
推荐架构示意graph LR
A["原始数据(文本/图片)"] --> B["清洗与预处理"]
B --> C["多模态节点构建(Node/ImageNode/Document)"]
C --> D1["文本嵌入(sentence-transformers)"]
C --> D2["图片嵌入(open_clip/CLIP)"]
D1 --> E1["文本向量数据库"]
D2 --> E2["图片向量数据库"]
E1 & E2 --> F["多模态检索器(MultiModalVectorIndexRetriever)"]
F --> G["多模态查询引擎(SimpleMultiModalQueryEngine)"]
G --> H["多模态LLM生成答案(GPT-4V/Qwen-VL)"]
参考文档与示例你的方案已经很接近企业级标准,建议关注批量/异步处理、底层数据库选型、元数据结构、检索优化和安全性等细节,结合 LlamaIndex 的多模态能力可以进一步提升系统的可扩展性和稳定性。 To reply, just mention @dosu. How did I do? Good | Irrelevant | Incorrect | Verbose | Hallucination | Report 🐛 | Other |
Beta Was this translation helpful? Give feedback.
Uh oh!
There was an error while loading. Please reload this page.
-
各位大佬,我目前是使用mineru先进行的文本清洗,对于mineru输出的images文件夹中的图片我是本地部署了一个qwen—VL模型来代替OCR工具的使用从而达到对图片进行图片描述的目的的,然后将图片描述嵌入到了对应的md文档过后再使用自定义的 _split_long_text()进行切片和建立索引(文本嵌入:用 sentence-transformers 模型(all-MiniLM-L6-v2)编码所有描述文本
图像嵌入:用 open_clip(模型 ViT-B-32, pretrained='openai')编码图片
可选增强:用 BLIP 再次生成图片描述(caption),
用 pytesseract 提取qwen—vl模型生成的图片描述文本;
)从而完成多模态数据库的搭建。我现在试了一下感觉效果其实还不错,但是我不知道真正的企业级rag多模态数据库到底是怎么进行搭建的,希望各位大佬能给我一些指导。
Beta Was this translation helpful? Give feedback.
All reactions