手機號
未認證執照
張寶(先生)

普通會員
張寶 (先生)
詞法分析是自然語言處理的基礎與關鍵。在中文自然語言處理中,詞是最小的能夠獨立活動的有意義的語言成分。漢語是以字為基本書寫單位,詞語之間沒有明顯的區分標記,因此進行中文自然語言處理通常是先將漢語文本中的字符串切分成合理的詞語序列,然后再在此基礎上進行其它分析處理。中文分詞是中文信息處理的一個基礎環節,已被廣泛應用于中文文本處理、信息提取、文本挖掘等應用中。
一個自然語言處理系統必須考慮許多語言自身與結構方面的知識——如什么是詞、詞如何組成句子、詞的意義是什么、詞的意義對句子意義有什么貢獻等,但這些卻還是遠遠不夠的。比如一個系統如果要回答提問或者直接參與對話,它不僅需要知道很多語言結構的知識,而且還要知道人類世界的一般性知識并具備人類的推理能力。因此許多語言學家通常把對語言的分析和理解分成如下幾個主要層次:詞法分析、句法分析、語義分析、篇章分析。
首先,詞法分析——主要包括分詞、詞性標注、詞義消歧、新詞識別等——是通過分詞、詞頻和位置統計等手段獲得相關語言信息。
其次,句法分析通過使句子成分特征化來分析句子結構特征,通過對句子和短語結構的分析找出詞、短語等的相互關系以及各自在句中的作用,并以一定結構來表達諸如從屬關系、成分關系等,目的是判定句子中各種結構性成分。
第三,為了理解一個提問,一般還需要更多的語義和語用知識來幫助理解句子的意思,通過分析找出詞義、結構意義及其結合意義,從而確定句子所表達的真正含義,而語義信息的標記需要包含概念完全集與關系圖的支持,需要對句法成分做出細致的語義分類,它一般應包括語言層面(即反映語言表面現象的知識,如同義詞關系、層次關系等)、本體論層面(描述概念之間復雜的語義關系)、常識層面等。雖然這項工作浩繁,但目前已經取得了一些初步成果。
最后,篇章分析用于對多個語句、段落之間在結構或者語義上的相互關系進行分析。
nlpir分詞系統是經過多年研究工作積累,主要功能包括中文分詞;英文分詞;詞性標注;命名實體識別;新詞識別;關鍵詞提取;支持用戶專業詞典與微博分析。nlpir系統支持多種編碼(gbk編碼、utf8編碼、big5編碼)、多種操作系統、多種開發語言與平臺。
nlpir/ictclas2018分詞系統主要功能介紹
1)中英文混合分詞功能
自動對中文英文信息進行分詞與詞性標注功能,涵蓋了中文分詞、英文分詞、詞性標注、未登錄詞識別與用戶詞典等功能。
2)關鍵詞提取功能
采用交叉信息熵的算法自動計算關鍵詞,包括新詞與已知詞,
3)新詞識別與自適應分詞功能
從較長的文本內容中,基于信息交叉熵自動發現新特征語言,并自適應測試語料的語言概率分布模型,實現自適應分詞。
4)用戶專業詞典功能
可以單條導入用戶詞典,也可以批量導入用戶詞典。如可以定“舉報信 敏感點”,其中舉報信是用戶詞,敏感點是用戶自定義的詞性標記。
ictclas分詞法利用詞典匹配進行初切分得到一個切分詞圖,然后利用詞頻信息求詞圖n條最短路徑的n-最短路徑法。還有些研究者利用詞典找出所有的交叉歧義,然后利用bigram語言模型或其變形來消除歧義。

| 聯系人 | 需求數量 | 時間 | 描述 |
|---|---|---|---|
| 暫無產品詢價記錄 | |||
| 采購商 | 成交單價(元) | 數量 | 成交時間 |
|---|---|---|---|
| 暫無購買記錄 | |||
地區:北京
主營產品:低壓聚乙烯,高壓聚乙烯,聚丙烯地區:深圳
主營產品:二極管,三極管,整流橋地區:汕頭
主營產品:物流公司,貨運站,國內陸運地區:東莞
主營產品:東莞清理污水池,東莞清理化糞池,東莞市政管道清淤