天堂资源成人√,久热最新,欧美黄色免费在线观看,国产精品久久久久久久久久精爆,91日韩中文字幕,av免费一区二区,7777精品久久久大香线蕉电影

面向煤炭行業(yè)科技文獻(xiàn)的知識分級提取方法與流程

文檔序號:42300945發(fā)布日期:2025-06-27 18:43閱讀:22來源:國知局

本發(fā)明涉及自然語言處理,尤其涉及一種面向煤炭行業(yè)科技文獻(xiàn)的知識分級提取方法。


背景技術(shù):

1、由于煤炭行業(yè)的專業(yè)性和復(fù)雜性,科技文獻(xiàn)中蘊(yùn)含著大量的行業(yè)知識和實(shí)踐經(jīng)驗(yàn),這些知識和經(jīng)驗(yàn)是構(gòu)建智能化煤礦的重要基礎(chǔ)。然而,傳統(tǒng)科技文獻(xiàn)的信息提取方法難以高效地處理這些海量的、非結(jié)構(gòu)化的科技文獻(xiàn)數(shù)據(jù),導(dǎo)致智能化煤礦對應(yīng)模型在生成應(yīng)答時(shí)可能出現(xiàn)偏差或異常,即生成與實(shí)際情況不符或缺乏準(zhǔn)確性的信息。故亟需一種更可靠的面向煤炭行業(yè)科技文獻(xiàn)的知識分級提取方法。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。

2、為此,本發(fā)明的第一個(gè)目的在于提出一種面向煤炭行業(yè)科技文獻(xiàn)的知識分級提取方法,通過pdf文檔處理、標(biāo)題分級模型、面向標(biāo)題的標(biāo)識符規(guī)則庫,提高面向煤炭行業(yè)科技文獻(xiàn)的知識分級提取的準(zhǔn)確率和效率。

3、本發(fā)明的第二個(gè)目的在于提出一種面向煤炭行業(yè)科技文獻(xiàn)的知識分級提取裝置。

4、本發(fā)明的第三個(gè)目的在于提出一種電子設(shè)備。

5、本發(fā)明的第四個(gè)目的在于提出一種存儲有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲介質(zhì)。

6、為達(dá)上述目的,本發(fā)明第一方面實(shí)施例提出了一種面向煤炭行業(yè)科技文獻(xiàn)的知識分級提取方法,所述方法包括:

7、將pdf格式的煤炭行業(yè)科技文獻(xiàn)轉(zhuǎn)換為純文本md格式的煤炭行業(yè)文檔,并將煤炭行業(yè)文檔中每一行的行首含有的非文本標(biāo)識符刪除,以得到目標(biāo)煤炭行業(yè)文檔;

8、定義面向標(biāo)題的標(biāo)識符規(guī)則庫,標(biāo)識符規(guī)則庫包括根據(jù)各級別標(biāo)題的語言類型定義的語言標(biāo)識符,以及各級別標(biāo)題各自對應(yīng)的級別標(biāo)識符;

9、利用大模型分別合成多個(gè)不同級別訓(xùn)練標(biāo)題及各級別訓(xùn)練標(biāo)題的訓(xùn)練正文,以組建標(biāo)題分類數(shù)據(jù)集,再結(jié)合預(yù)訓(xùn)練語言模型,提取訓(xùn)練標(biāo)題及訓(xùn)練正文的語義特征,訓(xùn)練決策樹分類算法,以得到標(biāo)題分級模型;

10、通過標(biāo)題分級模型識別出目標(biāo)煤炭行業(yè)文檔中的多個(gè)目標(biāo)級別標(biāo)題、及各目標(biāo)級別標(biāo)題的正文;

11、根據(jù)標(biāo)識符規(guī)則庫在各目標(biāo)級別標(biāo)題的行首分別添加目標(biāo)語言標(biāo)識符及各自對應(yīng)的目標(biāo)級別標(biāo)識符,結(jié)合添加目標(biāo)語言標(biāo)識符和目標(biāo)級別標(biāo)識符后的各目標(biāo)級別標(biāo)題及正文組建成標(biāo)準(zhǔn)的md文本文件;

12、根據(jù)用戶的問題請求信息,生成對應(yīng)的正則化匹配標(biāo)識符,以在所述md文本文件匹配到目標(biāo)級別標(biāo)題,并進(jìn)行目標(biāo)級別標(biāo)題下正文的定向知識分級提取,以得到問題請求信息的提取文本。

13、為達(dá)上述目的,本發(fā)明第二方面實(shí)施例提出了一種面向煤炭行業(yè)科技文獻(xiàn)的知識分級提取裝置,所述裝置包括:

14、轉(zhuǎn)換模塊,用于將pdf格式的煤炭行業(yè)科技文獻(xiàn)轉(zhuǎn)換為純文本md格式的煤炭行業(yè)文檔,并將煤炭行業(yè)文檔中每一行的行首含有的非文本標(biāo)識符刪除,以得到目標(biāo)煤炭行業(yè)文檔;

15、定義模塊,用于定義面向標(biāo)題的標(biāo)識符規(guī)則庫,標(biāo)識符規(guī)則庫包括根據(jù)各級別標(biāo)題的語言類型定義的語言標(biāo)識符,以及各級別標(biāo)題各自對應(yīng)的級別標(biāo)識符;

16、訓(xùn)練模塊,用于利用大模型分別合成多個(gè)不同級別訓(xùn)練標(biāo)題及各級別訓(xùn)練標(biāo)題的訓(xùn)練正文,以組建標(biāo)題分類數(shù)據(jù)集,再結(jié)合預(yù)訓(xùn)練語言模型,提取訓(xùn)練標(biāo)題及訓(xùn)練正文的語義特征,訓(xùn)練決策樹分類算法,以得到標(biāo)題分級模型;

17、識別模塊,用于通過標(biāo)題分級模型識別出目標(biāo)煤炭行業(yè)文檔中的多個(gè)目標(biāo)級別標(biāo)題、及各目標(biāo)級別標(biāo)題的正文;

18、組建模塊,用于根據(jù)標(biāo)識符規(guī)則庫在各目標(biāo)級別標(biāo)題的行首分別添加目標(biāo)語言標(biāo)識符及各自對應(yīng)的目標(biāo)級別標(biāo)識符,結(jié)合添加目標(biāo)語言標(biāo)識符和目標(biāo)級別標(biāo)識符后的各目標(biāo)級別標(biāo)題及正文組建成標(biāo)準(zhǔn)的md文本文件;

19、提取模塊,用于根據(jù)用戶的問題請求信息,生成對應(yīng)的正則化匹配標(biāo)識符,以在所述md文本文件匹配到目標(biāo)級別標(biāo)題,并進(jìn)行目標(biāo)級別標(biāo)題下正文的定向知識分級提取,以得到問題請求信息的提取文本。

20、為達(dá)上述目的,本發(fā)明第三方面實(shí)施例提出了一種電子設(shè)備,包括:至少一個(gè)處理器;以及與所述至少一個(gè)處理器通信連接的存儲器;其中,所述存儲器存儲有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行第一方面所述的方法。

21、為了實(shí)現(xiàn)上述目的,本發(fā)明第四方面實(shí)施例提出了一種存儲有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲介質(zhì),計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行第一方面所述的方法。

22、本發(fā)明實(shí)施例提供的面向煤炭行業(yè)科技文獻(xiàn)的知識分級提取方法、裝置、電子設(shè)備和存儲介質(zhì),將pdf格式的煤炭行業(yè)科技文獻(xiàn)進(jìn)行純文本md格式轉(zhuǎn)換后進(jìn)行行首的非文本標(biāo)識符刪除,以得到目標(biāo)煤炭行業(yè)文檔;定義各級別標(biāo)題的語言標(biāo)識符以及級別標(biāo)識符組建的標(biāo)識符規(guī)則庫;訓(xùn)練出標(biāo)題分級模型;標(biāo)題分級模型識別出目標(biāo)煤炭行業(yè)文檔中的多個(gè)目標(biāo)級別標(biāo)題及各自對應(yīng)的正文;多個(gè)目標(biāo)級別標(biāo)題通過標(biāo)識符規(guī)則庫進(jìn)行標(biāo)識符添加并結(jié)合正文,生成md文本文件;正則化匹配標(biāo)識符在md文本文件進(jìn)行定向知識分級提取,得到提取文本。由此,通過pdf文檔處理、標(biāo)題分級模型、面向標(biāo)題的標(biāo)識符規(guī)則庫,提高面向煤炭行業(yè)科技文獻(xiàn)的知識分級提取的準(zhǔn)確率和效率。

23、本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。



技術(shù)特征:

1.一種面向煤炭行業(yè)科技文獻(xiàn)的知識分級提取方法,其特征在于,所述方法包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將pdf格式的煤炭行業(yè)科技文獻(xiàn)轉(zhuǎn)換為純文本md格式的煤炭行業(yè)文檔,并將煤炭行業(yè)文檔中每一行的行首含有的非文本標(biāo)識符刪除,以得到目標(biāo)煤炭行業(yè)文檔,包括:

3.根據(jù)權(quán)利要求1所述的方法,其特征在于,其中,在各級別標(biāo)題包括四個(gè)級別標(biāo)題的情況下,一級標(biāo)題的級別標(biāo)識符為一個(gè)預(yù)設(shè)標(biāo)識符,二級標(biāo)題的級別標(biāo)識符為兩個(gè)預(yù)設(shè)標(biāo)識符、三級標(biāo)題的級別標(biāo)識符為三個(gè)預(yù)設(shè)標(biāo)識符、四級標(biāo)題的級別標(biāo)識符為四個(gè)預(yù)設(shè)標(biāo)識符。

4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用大模型分別合成多個(gè)不同級別訓(xùn)練標(biāo)題及各級別訓(xùn)練標(biāo)題的訓(xùn)練正文,以組建標(biāo)題分類數(shù)據(jù)集,再結(jié)合預(yù)訓(xùn)練語言模型,提取訓(xùn)練標(biāo)題及訓(xùn)練正文的語義特征,訓(xùn)練決策樹分類算法,以得到標(biāo)題分級模型,包括:

5.根據(jù)權(quán)利要求1所述的方法,其特征在于,在組建成標(biāo)準(zhǔn)的md文本文件之后,還包括:

6.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)用戶的問題請求信息,生成對應(yīng)的正則化匹配標(biāo)識符,以在所述md文本文件匹配到目標(biāo)級別標(biāo)題,并進(jìn)行目標(biāo)級別標(biāo)題下正文的定向知識分級提取,以得到問題請求信息的提取文本,包括:

7.一種面向煤炭行業(yè)科技文獻(xiàn)的知識分級提取裝置,其特征在于,所述裝置包括:

8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述轉(zhuǎn)換模塊,具體用于:

9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,其中,在各級別標(biāo)題包括四個(gè)級別標(biāo)題的情況下,一級標(biāo)題的級別標(biāo)識符為一個(gè)預(yù)設(shè)標(biāo)識符,二級標(biāo)題的級別標(biāo)識符為兩個(gè)預(yù)設(shè)標(biāo)識符、三級標(biāo)題的級別標(biāo)識符為三個(gè)預(yù)設(shè)標(biāo)識符、四級標(biāo)題的級別標(biāo)識符為四個(gè)預(yù)設(shè)標(biāo)識符。

10.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述訓(xùn)練模塊,具體用于:

11.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置,還包括:

12.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述提取模塊,具體用于:

13.一種電子設(shè)備,其特征在于,包括:

14.一種存儲有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲介質(zhì),其特征在于,所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行根據(jù)權(quán)利要求1-6中任一項(xiàng)所述的方法。


技術(shù)總結(jié)
本發(fā)明提出一種面向煤炭行業(yè)科技文獻(xiàn)的知識分級提取方法,涉及自然語言處理技術(shù)領(lǐng)域,將PDF格式的煤炭行業(yè)科技文獻(xiàn)進(jìn)行純文本MD格式轉(zhuǎn)換后進(jìn)行行首的非文本標(biāo)識符刪除,得到目標(biāo)煤炭行業(yè)文檔;定義各級別標(biāo)題的語言標(biāo)識符以及級別標(biāo)識符組建的標(biāo)識符規(guī)則庫;訓(xùn)練出標(biāo)題分級模型;標(biāo)題分級模型識別出目標(biāo)煤炭行業(yè)文檔中的多個(gè)目標(biāo)級別標(biāo)題及各自對應(yīng)的正文;多個(gè)目標(biāo)級別標(biāo)題通過標(biāo)識符規(guī)則庫進(jìn)行標(biāo)識符添加并結(jié)合正文,生成MD文本文件;正則化匹配標(biāo)識符在MD文本文件進(jìn)行定向知識分級提取,得到提取文本。由此,通過PDF文檔處理、標(biāo)題分級模型、面向標(biāo)題的標(biāo)識符規(guī)則庫,提高面向煤炭行業(yè)科技文獻(xiàn)的知識分級提取的準(zhǔn)確率和效率。

技術(shù)研發(fā)人員:孫闖,賈琨,楊培培,程健,駱意,宋鄭一凡,周子博,王冠杰
受保護(hù)的技術(shù)使用者:煤炭科學(xué)研究總院有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/6/26
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1