Tags : Browse Projects

Select a tag to browse associated projects and drill deeper into the tag cloud.

ictclas4j

Compare

  Analyzed about 1 year ago

ictclas4j中文分词系统是sinboy在中科院张华平和刘群老师的研制的FreeICTCLAS的基础上完成的一个java开源分词项目,简化了原分词程序的复杂度,旨在为广大的中文分词爱好者一个更好的学习机会。 关于ICTCLAS分词系统的讨论,请访问google group关于ictclas分词系统的讨论组http://groups.google.com/group/ictclas

6.84K lines of code

0 current contributors

over 4 years since last commit

0 users on Open Hub

Activity Not Available
0.0
 
I Use This

pychseg

Compare

  Analyzed about 1 year ago

基于python的中文分词项目。 第一个版本实现了基于的MMSEG中文分词算法Python实现。MMSEG实际上是一个正向最大匹配+多个规则的分词算法。链接给出的几个网站写的很清楚了。在开发过程中我增加了一个规则来处理原来的算法中有可能出现的冲突问题。当所有的规则都无法唯一的确定一个chunk时,优先选择后面比较长的词。开发过程中参照了MMSEG的Java实现和ruby实现。并且对性能进行了初步的优化。 目前的性能数据:在Pentium D ... [More] 2.8G的CPU下处理2.9MB的文本数据,全切分的复杂算法不开启pysco的情况下104s,开启pysco的情况下90s,能达到32KB/s。简单算法可以达到64KB/s。经测试速度能达到Java版本MMSEG的1/3,未来如果要进一步优化速度的话应该是把关键的算法的实现移植到c语言中。 实现了简单的余弦相似度计算的算法。 TODO: 实现NLTK兼容的接口。(目前已经增加了tokenizer接口) C语言级别的优化 (测试中,增加了is_basic_latin的c实现,考虑字典用c语言优化) 实现其他算法,目前考虑一个ICTCLAS的python实现,要看有没有时间。 支持停用词,支持unicode的字母数字检测等。 与分词有关的其他想法 研究一下ferret/cferret,能否实现一个python binding并且结合进去。(研究发现ferret的实现非常复杂,ruby绑定的接口部分的c代码都有上万行,放弃了,还是用solr吧) 与nlp/datamining的进一步结合 [Less]

6.46K lines of code

0 current contributors

about 9 years since last commit

0 users on Open Hub

Activity Not Available
0.0
 
I Use This

pybinaryappdata

Compare

  No analysis available

Application binary data files are encountered when creating embedded software for EEPROM or Flash programming. There exist various semi-standard formats to store such files, the most popular of which are Intel HEX files and Motorola S-files. In addition, some tools store data in plain binary of ... [More] ASCII hex-pair files. This module supports reading and writing application binary data files in several formats, and converting between them. [Less]

0 lines of code

0 current contributors

0 since last commit

0 users on Open Hub

Activity Not Available
0.0
 
I Use This
Mostly written in language not available
Licenses: LGPL

hyer

Compare

  Analyzed about 5 years ago

1.由于google code 的svn host很不稳定,hyer代码现在放到github托管。在github的主页是 http://github.com/xurenlu/hyer/tree/master 理所当然地,代码采用git进行版本管理。

2.46K lines of code

0 current contributors

about 8 years since last commit

0 users on Open Hub

Activity Not Available
0.0
 
I Use This

segmentcompres

Compare

  No analysis available

Scientific system for analize image compression

0 lines of code

0 current contributors

0 since last commit

0 users on Open Hub

Activity Not Available
0.0
 
I Use This
Mostly written in language not available
Licenses: GPL-3.0+

segword

Compare

  Analyzed about 1 year ago

SegWord是一个开放项目 ,由其小组成员进行开发维护,稳定版本软件(包括程序与文档)将公开在网络上供参考与交流。下面是其简单介绍: SegWord为一个分词系统,满足: (1)分词 (2)获得义性分布 (3)词表自调整 三个目的。 其中 (1)表明该系统可对汉语文本进行分词;这是这个系统的基本属性之一。但是,设计者认为不能为分词而分词,故本系统的研究重点为目的(2)和(3)。 ... [More] (2)更广泛的看,分词的实质是“组合”,即由小结构组合为大结构并对结构的属性同时进行组合与变换。也就是说,分词不仅要给出词的分割,也应给出这种结构所对应的属性,例如语法词性,语义选项,未登录词属性等,本系统统称为义性分布。这是后续处理的重点依据。 (3)一般而言分词依赖于一定的词表。但是,词表本身若由人来提供,总是存在一定的应用局限。考虑机器学习的运用,寻找词表自调整——通过机器学习的方式来获得新词以及词语概念的新的义性——的方法与思路。这也是本项目的难点。 例如,对于输入: 这是一种烤制猪排、羊排和牛排的方法。 希望经SegWord处理后,可以获得切分方式: 这 是 [一种] [烤制] [猪排] 、 [羊排] 和 [牛排] 的 [方法]。 同时,各个词语单位的义性可以自动习得,如“烤制”是v,“牛排”是n,若词库中没有收录“羊排”,计算机可以习得这是一个和“牛排”近似的结构,经一定的策略可以对词库进行更新;最理想的情况下,可以习得“猪排”、“羊排”和“牛排”都是一种食物,且能表示和“猪”、“羊”、“牛”的关系。 综上,本分词系统将是一个挑战,也是对中文信息处理进行突破的一种新尝试。 [Less]

0 lines of code

0 current contributors

over 9 years since last commit

0 users on Open Hub

Activity Not Available
0.0
 
I Use This
Mostly written in language not available
Licenses: GPL-3.0+

wyos

Compare

  Analyzed about 1 year ago

32bits Operating System

5.35K lines of code

0 current contributors

almost 9 years since last commit

0 users on Open Hub

Activity Not Available
0.0
 
I Use This

pksasegmentsimulation

Compare

  Analyzed about 1 year ago

Symulacja restoracji segmentu w sieci ATM

510 lines of code

0 current contributors

over 8 years since last commit

0 users on Open Hub

Activity Not Available
0.0
 
I Use This

ChineseSegment

Compare

  No analysis available

ChineseSegment

0 lines of code

0 current contributors

0 since last commit

0 users on Open Hub

Activity Not Available
0.0
 
I Use This
Mostly written in language not available
Licenses: GPL-2.0+

smft

Compare

  No analysis available

SMart File Tools is a set of programs allowing you to do advanced file management, such as copying files using the RAM to accelerate the hard disk.

0 lines of code

0 current contributors

0 since last commit

0 users on Open Hub

Activity Not Available
0.0
 
I Use This
Mostly written in language not available
Licenses: GPL-2.0+