DeepLearningAI近日推出了一門新課程,專注於Document AI技術,旨在幫助學員有效處理PDF、JPEG等文件中的數據。該課程由LandingAI的資深AI總監David Park及應用AI工程師Andrea Kropp授課,重點在於如何克服傳統OCR技術的局限,通過智能工作流程提取文檔中的關鍵信息。
傳統的光學字符識別(OCR)技術雖然能夠提取文本,但在處理表格、圖表和多列佈局等方面存在不足。本課程將引導學員從傳統OCR入手,了解其局限性,然後學習如何構建具備額外工具的智能代理,進行文檔處理,包括布局檢測和閱讀順序等。
學員將深入了解LandingAI的Agentic Document Extraction (ADE)框架,該框架將文檔視為視覺對象,並使用自定義模型解析複雜元素,精確定位提取的字段。課程還將介紹如何將ADE集成到RAG應用中,並在AWS上部署生產就緒的管道。
具體而言,課程內容包括:探索傳統OCR方法以提取文檔中的文本,理解其在處理表格、手寫或掃描圖像時的局限性;學習OCR如何從早期的形狀分類器演變為現代深度學習系統;應用布局檢測模型將文檔劃分為感興趣的區域;使用閱讀順序模型將信息排序為邏輯序列;利用視覺語言模型捕捉文檔中的文本和圖像;以及處理複雜特徵如證明、公式或條形碼。
此外,學員還將學習如何將文檔解析為Markdown格式,並以JSON格式提取關鍵值對,而不會損失佈局中的上下文。課程最終將幫助學員構建一個RAG應用,預處理文檔,將解析的片段存儲在向量數據庫中,並根據查詢檢索文本及相應來源文檔中的裁剪圖像。課程還將介紹如何在AWS上實現事件驅動的管道,自動觸發ADE以處理上傳至S3的文檔,並將解析的文檔加載到Bedrock知識庫中,使用Strands Agents進行查詢。
Document AI技術正在改變組織如何從非結構化數據中釋放價值。無論是處理財務發票、醫療記錄還是學術論文,這門課程都將為學員提供構建智能文檔處理系統所需的工具和技術。