12 / 2 页

论坛徽章:: 0

11楼 [报告]

发表于 2005-11-20 12:20 |只看该作者

原帖由 weiwolves 于 2005-11-19 00:14 发表
　　前天面试遇了个题，现在还没个好方法，请高手指点。
　　给定一个文件，计算并输出文件中不同单词的个数，以及单词出现的行号码。

简单一点, 还是用结构体线性链表来实现吧(也可以考虑改成二叉树,加快查找),  碰到一个单词就从头检索一次该词是否已存在;
是否已换行; ... 然后将计数++, 如果有新行, 加到 ->lines 的数组中 (通过 realloc() 重新分配更大内存,也可以一次性多预约几个)

typedef struct word_count WC;

struct word_count
{
  char word[256];  // 单词不会变态超过 256字符吧
int num;  // 单词个数
int linenum; // 总共有几行中出现该单词
int *lines; // 用于存放各行的行号, 动态分配
WC *next; //
};

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

mingyanguo

小富即安

论坛徽章:: 0

12楼 [报告]

发表于 2005-11-20 13:54 |只看该作者

hash保存已经出现的单词，每个单词保存已经出现的行号（链表/数组/结合），每个遇到的单词先到hash中查找，没找到就加入，然后加入当前行号。
暂时就想到这些，不过感觉文件大的话可以连个数据库比较干净利落。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

leethium

白手起家

论坛徽章:: 0

13楼 [报告]

发表于 2005-11-20 23:35 |只看该作者

main()写的比较随便；假定只求每个word第一次出现的行号。（小改一下，求所有行号业可以）

请大家题提意见。

wordstat.c.gz

1.28 KB, 下载次数: 16

source

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

fangshi

白手起家

论坛徽章:: 0

14楼 [报告]

发表于 2005-11-21 09:30 |只看该作者

如果是C++的话可以使用map这个标准模板
typedef map<string,int,less< string > > mmap;
string 为单词，int为行号

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

sunlan

版主

论坛徽章:: 0

15楼 [报告]

发表于 2005-11-21 09:38 |只看该作者

原帖由 weiwolves 于 2005-11-19 00:14 发表
　　前天面试遇了个题，现在还没个好方法，请高手指点。
　　给定一个文件，计算并输出文件中不同单词的个数，以及单词出现的行号码。

以前读书的时候记得写过这样的程序。实现的思想是这样的：
1。建立一个单词链表。
2。每次从文件中读一行，记录行号
3。从行数据里依次读单词
4。在单词链表中查找该单词，如已存在，在单词计数上加1，记录出现行号；如无，在单词链表中新增一个项。

链表主要元素有：单词、出现次数、出现行号（也以链表形式设计）