知行编程网知行编程网  2022-10-24 03:00 知行编程网 隐藏边栏  47 
文章评分 0 次,平均分 0.0
导语: 本文主要介绍了关于python如何提取文本信息?的相关知识,包括程序语言python如何抓取信息,以及python 信息提取这些编程知识,希望对大家有参考作用。

python如何提取文本信息?


1、信息提取

首先使用句子分割器将文档的原始文本分成句子,然后使用令牌评估器将每个句子进一步分为单词。其次,为每个句子制作词性标签。以nltk中的默认工具为例,连接句子分词器、分词器、词性标注器。

def ie_preprocess(document):
    # nltk 默认的句子分段器
    sentences = nltk.sent_tokenize(document)
    # nltk默认分词器
    sentences = [nltk.word_tokenize(sent) for sent in sentences]
    # nltk默认词性标记
    sentences = [nltk.pos_tag(sent) for sent in sentences]


2、词块划分

分块是实体识别的基础技术,它对多个词的顺序进行划分和标记。

如Noun Phrase Chunking(名词短语词块划分)

使用正则表达式定义名词短语分块的语法


3、开发和评估词块划分器

分区器可以用evaluate()方法评价分区器的性能好坏。

以下是使用一元标记构建分词器的学习。然而,不是为每个单词确定正确的单词标记,而是基于每个单词的标记来确定正确的单词块标记。

# 使用一元标注器建立一个词块划分器。根据每个词的词性标记,尝试确定正确的词块标记。
class UnigramChunker(nltk.ChunkParserI):
    # constructor
    def __init__(self, train_sents):
        # 将训练数据转换成适合训练标注器的形式。tree2conlltags()方法将每个词块树映射到一个三元组(word,tag,chunk)的列表
        train_data = [[(t, c) for w, t, c in nltk.chunk.tree2conlltags(sent)]
                      for sent in train_sents]
        # 训练一元分块器
        # self.tagger = nltk.UnigramTagger(train_data)
        # 训练二元分块器
        self.tagger = nltk.BigramTagger(train_data)
 
    # sentence为一个已标注的句子
    def parse(self, sentence):
        # 提取词性标记
        pos_tags = [pos for (word, pos) in sentence]
        # 使用标注器为词性标记 标注IOB词块
        tagged_pos_tags = self.tagger.tag(pos_tags)
        # 提取词块标记
        chunktags = [chunktag for (pos, chunktag) in tagged_pos_tags]
        # 将词块标记与原句组合
        conlltags = [(word, pos, chunktag) for ((word, pos), chunktag)
                     in zip(sentence, chunktags)]
        # 转换成词块树
        return nltk.chunk.conlltags2tree(conlltags)

以上就是python提取文本信息的方法,希望能对大家有所帮助,更多知识尽在python学习网。

本文为原创文章,版权归所有,欢迎分享本文,转载请保留出处!

知行编程网
知行编程网 关注:1    粉丝:1
这个人很懒,什么都没写
扫一扫二维码分享