当前位置 博文首页 > 文章内容

    自然语言处理工具之spaCy

    作者: 栏目:未分类 时间:2020-08-25 11:01:24

    本站于2023年9月4日。收到“大连君*****咨询有限公司”通知
    说我们IIS7站长博客,有一篇博文用了他们的图片。
    要求我们给他们一张图片6000元。要不然法院告我们

    为避免不必要的麻烦,IIS7站长博客,全站内容图片下架、并积极应诉
    博文内容全部不再显示,请需要相关资讯的站长朋友到必应搜索。谢谢!

    另祝:版权碰瓷诈骗团伙,早日弃暗投明。

    相关新闻:借版权之名、行诈骗之实,周某因犯诈骗罪被判处有期徒刑十一年六个月

    叹!百花齐放的时代,渐行渐远!



    spaCy 介绍 安装 功能

    spaCy 介绍

    spaCy Homepage

    spaCy Api

    spaCy 主要功能包括分词、词性标注、词干化、命名实体识别、名词短语提取等等。

    spaCy 安装

    # pip install spacy
    # python -m spacy download en_core_web_sm
    

    spaCy 基本操作

    Github : spaCy-基本操作.py

    #!/usr/bin/env python
    # coding: utf-8
    
    # get_ipython().system(u'pip install spacy')
    # pip install spaCy  -i https://pypi.tuna.tsinghua.edu.cn/simple
    # get_ipython().system(u'python -m spacy download en_core_web_sm')
    
    
    import spacy
    nlp = spacy.load('en_core_web_sm')
    doc = nlp(u'This is a sentence.')
    
    # #### 1.tokenize功能
    
    for token in doc:
        print(token)
    
    # #### 2.词干化(Lemmatize)
    for token in doc:
        print(token, token.lemma_, token.lemma)
    
    # #### 3.词性标注(POS Tagging)
    
    for token in doc:
        print(token, token.pos_, token.pos)
    
    # #### 4.命名实体识别(NER)
    
    for entity in doc.ents:
        print(entity, entity.label_, entity.label)
    
    # #### 5.名词短语提取
    
    for nounc in doc.noun_chunks:
        print(nounc)